关于人工智能:生成流畅文本方法

49次阅读

共计 2526 个字符,预计需要花费 7 分钟才能阅读完成。

作者 |Aaron Abrahamson
编译 |VK
起源 |Towards Data Science

在沙丘魔堡 2000 上训练文本生成模型

沙丘魔堡是一个边远的封建社会的故事。它关注的是一位公爵和他的家人,他们被迫成为沙漠星球阿拉基斯的管理者。弗兰克·赫伯特在 1965 年出版了这部经典作品。简直任何古代科幻小说都能够追溯到沙丘的某些元素。

我最近实现了《沙丘》的续集《沙丘的弥赛亚》,并且刚刚开始了《沙丘的孩子》系列的第三部。有六个故事最后是赫伯特写的,起初又有一大堆是他儿子写的。我没读过那些。

我始终在摸索文本生成模型。我感觉用沙丘试试会很乏味。很多的“经典”机器学习模型被用于预测和聚类。生成性建模容许模型创立角度从中学习的训练数据。最近一个对于生成建模能力的例子是 StyleGAN,看看这段视频 (https://www.youtube.com/watch…。

这里有一个链接到我在这个我的项目中应用的 Colab 笔记本 (https://drive.google.com/file…。

处理过程

  • 获取文本数据的语料库
  • 数据荡涤。我有一些 unicode 字符,每当有分页符的时候就会呈现“page”这个词,这个词是没有用的。每一章的结尾都有一段摘自世界上的回忆录或书籍,我决定把它们拿进去。我还删除了每章的后半局部,以帮忙解决工夫。
  • 标记化。这是删除标点符号,使内容小写,而后将长字符串拆分为每个独自的单词。模型将学习这些单词标记的程序和频率。另外请留神,对于这种 NLP 工作,咱们不删除停用词
  • 建设模型。请确保应用 LSTM 层,并且输入层是词汇表的大小。基本上,它所做的是对下一个单词可能是什么进行分类,只需输出大量的文本 https://my.openwrite.cn/logout
  • 训练模型。Keras 倡议至多 20 个 epoch,我运行了 33 个 epoch。
  • 生成文本。我将在上面展现模型的一些输入

第一章: 男爵

我想在一段时间后测试一下,看看会有什么后果。种子词是“男爵”(Baron),是书中一个卑劣的对手。

‘Baron The Baron Of The Baron Of The Baron Of The Baron Of The Baron Of The Baron Of The Baron Of The Baron Of The Baron Of The Baron Of The Baron Of The Baron Of The Baron Of The Baron Of The Baron Of The Baron Of The Baron Of The Baron Of The Baron Of The Baron Of The Baron Of The Baron Of The Baron’

始终是这样。一点也不好。

33 个 epoch 之后的模型做得十分好,但它依然陷入循环,只是不停地收回各种名词。上面是种子单词 Spice 的输入后果:

The Spice Itself Stood Out To The Left Wall The Fremen Seeker Followed The Chains The Troop Was A Likely Shadow And The Natural Place Of The Great Places That Was A Subtle City Of The Room'S Features That The Man Was A Master Of The Cavern The Growing The Bronze The Sliding Hand

以下是“Paul”(配角) 的输入:

Paul Stood Unable To The Duke And The Reverend Mother Ramallo To The Guard Captain And The Man Looked At Him And The Child Was A Relief One Of The Fremen Had Been In The Doorway And The Fedaykin Control Them To Be Like The Spice Diet Out Of The Wind And The Duke Said I Am The Fremen To Get The Banker Said When The Emperor Asked His Fingers Nefud I Know You Can Take The Duchy Of Government The Sist The Duke Said He Turned To The Hand Beside The Table The Baron Asked The Emperor Will Hold

上面是“She looked”的输入:

'She Looked At The Transparent End Of The Table Saw A Small Board In The Room And The Way Of The Old Woman He Had Been Sent By The Wind Of The Duke And The Worms They Had Seen The Waters Of The Desert And The Sandworms The Troop Had Been Subtly Prepared By The Wind Of The Worm Had Been Subtly Always In The Deep Sinks Of The Women And The Duke Had Been Given Last Of Course But The Others Had Been In The Fremen Had Been Shaped On The Light Of The Light Of The Hall Had Had Seen'

想法和下一步

我认为这相对是提高和提高的体现。我想把它训练到至多 100 个 epoch,但停顿迟缓。每个 epoch 大概 11 分钟,所以总共超过 18 个小时。我须要一台更好的电脑。

最初,我想补充一点,这样做的讥刺象征并没有让我遗记。在《沙丘宇宙》中,在远古时代的某个时刻,“会思考的电脑”镇压人类,简直将人类灭绝。在这本书的时代,计算机曾经被“mentats”所取代,反而是人类被造就和训练来模拟计算机的计算能力。

原文链接:https://towardsdatascience.co…

欢送关注磐创 AI 博客站:
http://panchuang.net/

sklearn 机器学习中文官网文档:
http://sklearn123.com/

欢送关注磐创博客资源汇总站:
http://docs.panchuang.net/

正文完
 0