关于人工智能:拯救丢失的文明AI-识别失传的古代语言

60次阅读

共计 1407 个字符,预计需要花费 4 分钟才能阅读完成。

语言,能够为人们理解一种文化,学习这种文化对待世界的形式。每种文化都“有话要说”,当一种语言隐没时,对于整个人类来说都是一个喜剧。

然而,如果有一种办法能够主动复原这些失落的语言呢?

麻省理工学院计算机科学与人工智能实验室的钻研人员曾经找到了一种办法,能够利用机器学习帮忙咱们破译那些曾经失传的语言。


这项钻研的论文合著者罗佳明说:“咱们的工作是主动破译以不残缺或不残缺的文字编写的失落的语言。显然,对于一些现代语言来说,分词器并没有被创造进去,或者没有失去统一的利用。咱们工作的意义在于,咱们的工作是首次尝试在如此具备挑战性的状况下,利用机器学习主动进行这种破译”
这意味着,咱们终于可能了解那些失落语言的书面版本背地的语法、词汇和句法。

钻研小组特地关注的是那些文字很少或没有空格的景象,这种景象称为 scriptio continua。

寻找语言的表兄弟

通常,为了破解未知语言的代码,至多晓得另一种相干的语言是有帮忙的。例如,多年前专家们就可能破译哥特语,一种曾经灭绝的西方日耳曼语族。这要归功于它与原始德语,古北欧语和古英语等已知语言的关联。受到这个概念的启发,钻研小组沿着相似的思路开发了他们的破译算法。

罗佳明解释说:“咱们的机器学习模型的工作原理是尽可能多地匹配古语言和已知语言之间的词对,同时解决分词中的不确定性。什么是真正的匹配对,取决于他们在角色层面上的声音对应,以及这些对应有多规定。”

“例如,如果你发现许多对具备统一的变动(如 p 到 b),那么这些对是真正匹配的。因为历史语言学通知咱们,语言的扭转是有法则和统一的。如果两种语言真正相干(如西班牙语和意大利语),那么你会看到这些模式一次又一次地呈现。”

除了可能交融这些语言偏向之外,该模型还通过将语言声音“嵌入”到虚构的多维空间中来解决未分段文本带来的不确定性。

通过应用这种框架,该模型可能检测相干语言进化中的模式,从而容许它宰割和隔离未破译语言中的单词,并将它们映射到已知的相干语言中的单词。

已用于未知语言破译

正如钻研小组在论文中所概述的那样,已知破译语言和未破译语言之间的这种分割能够作为一种基准,一种“根本真谛”,用来帮忙确定这种以人工智能为能源的破译模型是否真的无效。

在这项钻研中,钻研小组利用哥特语和乌加里特语之间已知的关系,来测试他们的模型在未知语言,如伊比利亚语上的体现。

通过这个过程,钻研小组应用他们的机器学习模型来证实伊比利亚语事实上很可能与巴斯克语没有关系,还有其余的可能性,如日耳曼语、土耳其语和乌拉尔语系语,这个论断失去了最近其余发现的反对。

罗佳明说:“咱们的工作可能对语言学家疾速剖析两种语言之间的关系有帮忙,尤其是当其中一种语言是未知的时候。它绝不像人类剖析那样充沛和彻底,但它要快得多,须要的人力资源也少得多。”

只管该模型在评估两种语言之间的相关性方面仿佛很好,然而该团队当初的指标是将模型扩大到其以后性能之外,从而能够解决多种可能不相干的语言。

目前,钻研团队心愿他们的模型能够帮忙实现自动化,并且可能从通常是简短乏味的过程中去除一些猜想。

论文链接:http://people.csail.mit.edu/j_luo/assets/publications/DecipherUnsegmented.pdf?utm_source=thenewstack&utm_medium=website&utm_campaign=platform

正文完
 0