关于人工智能:合合信息上海大学华南理工大学发布业内首个古彝文编码大字典-为古文字打造身份证

35次阅读

共计 2169 个字符,预计需要花费 6 分钟才能阅读完成。

“乌蒙山连着山外山,月光洒向了响水滩。”近期在各大短视频平台爆火的《奢香夫人》你听过吗?奢香夫人是一位彝族“巾帼英雄”,这首同名歌曲早在 2009 年便已公布,现在忽然“翻红”,不仅体现了公众对于少数民族文化低落的趣味,也见证着优良的传统文化不息的生命力。

文字是文化的重要载体,古彝文承载了深远的彝族历史外延,蕴含着丰盛的文化信息。近期,合合信息联结上海大学、华南理工大学公布业内首个古彝文根底编码数据库,该我的项目由合合信息与上海大学社会学院、华南理工大学文档图像剖析辨认与了解实验室独特推动,针对现有的《东北彝志》、云贵一带字符,以智能图像处理、智能文字辨认等 AI 技术发展对立编码,古彝文在数字社会中从此有了“身份证号码”。

校企合力,把七万多个字符“稀释”成精简的字典

以往,古文字次要通过人工辨认、校对和进行文献编撰,工作量繁多且效率低下。近年来,人工智能,特地是深度学习技术的倒退,为古文字辨认提供了高效的工具,极大地提高了现代文献和文字数字化过程的速度和效率,本次古彝文根底编码数据库的公布,将成为古文字数字化的重要成绩之一。

繁多古彝文可表白多个释义(图源:《滇川黔桂彝文字集》)

以后,古彝文数字化方面的成绩绝对较少,其起因之一是古彝文字符集宏大,且不足成熟的手写样本库。据《滇川黔桂彝文字集》中所有字符的共计,古彝文和当初依然应用的各地的彝文,总数多达 87046 字,对如此宏大的字符集进行分类十分艰难。另一方面,在彝文的倒退过程中,因为种种因素,导致异体字、变体字特地丰盛,字符和释义“一对多、多对一”是常态。古彝文手写体的随意性、多样性等,都给古彝文的辨认带来了极大的挑战。

基于上述情况,合合信息与华南理工大学独特成立的文档图像剖析辨认与了解联结实验室,联结上海大学社会学院组建钻研团队,独特解决数据库建设中的学术性、技术性难点。

我的项目技术负责人、华南理工大学电子与信息学院传授金连文示意,原生态彝文此前没有被系统性地进行数字化编码,古彝文没有公开数据集,标注艰难,所以从最后语料的收集开始,就须要做大量的前置工作。再者,古彝文异体字繁多,每个字的异体写法少则两三种,多则几十种,且字体间格调差别大。因而,建设一个专门的数据库,通过根底编号将不同款式演绎,能力“破解”古彝文“一对多”的关系,解决文字查问问题。

古彝文典籍编码、辨认过程(图源:东北彝志)

在对 7 万 6 千字符的样本进行训练后,团队胜利建设了蕴含上千个古彝文根底编码的数据库。通过 API 数据接口等模式,该数据库无望帮忙高校钻研人员、文化工作者、趣味爱好者等人群疾速找到古彝文在字典中的读音、汉语释义、用法,如同“大字典”个别,帮忙人们升高古彝文书籍、文献浏览的门槛。

“古彝文数据库的公布并非一个最终的钻研后果,而是一项十分重要的基础性工作。”古彝文数字化我的项目发起人、上海大学人类学民俗学研究所讲师邵文苑示意,根底编码的公布,意味着这些文字在数字社会里从此领有了“身份证号码”,可能被更多地展示在网络空间上,被更宽泛的人群看见、意识、钻研。

AI 帮人类升高古彝文浏览难度

构建古彝文“大字典”须要解决的首要问题并非文字辨认,而是低质量的图片材料解决。传统的古彝文大多被记录在岩书、布书、竹简等,在湿润的自然环境下难以残缺保留,往往会变得模糊不清或残缺不全。在材料文档数字化的过程中,采纳科技伎俩优化图像品质问题是要害的一环。

在古彝文语料收集过程中,钻研团队选取的古籍图片采集工具是合合信息旗下的智能扫描“扫描全能王”。该产品的“智能高清滤镜”性能基于 AI 技术及智能扫描引擎,可自动检测图像中存在的问题,并智能断定图像的优化形式,一键解决含糊、暗影、手指、屏幕纹等烦扰因素,加重后续图片解决工作,缩短内容辨认、编码的操作周期。

扫描全能王“智能高清滤镜”古籍扫描成果(图源:东北彝志)

2022 年 5 月,中共中央办公厅、国务院办公厅印发了《对于推动施行国家文化数字化策略的意见》,文件指出,到 2035 年,建成全面共享、重点集成的国家文化大数据体系。文化数据因素和人工智能技术的交融,将推动文化数字化策略的无效施行和文化产业的高质量倒退,是优良传统文化传承翻新的无效门路。

合合信息在智能文字辨认畛域已有十七年深耕教训。此前,在 AI 辨认甲骨文、西周钟鼎文(金文)畛域,公司已进行了当先的摸索和钻研,为古彝文辨认积攒了教训,奠定了良好的技术根底,相干我的项目曾取得央视、新华社、《人民日报》等多家支流媒体的关注。

扫描全能王小程序上线 H5,面向全社会进行古彝文典籍公益性征集及文化海报传递

增强文化遗产的爱护、传承与正当利用任重道远,须要全社会共同行动。为动员更多的社会力量参加到古彝文辨认和爱护,扫描全能王已同步启动公益性流动,上线古彝文典籍上传入口,面向全社会征集古籍材料。钻研团队在接管古籍后会将其转交给对应专家、部门进行钻研,助力中华文化珍宝传承。

近年来,国家正一直推动文化数字化策略。2022 年,国务院办公厅印发《对于推动施行国家文化数字化策略的意见》,提出了“中华文化全景出现,中华文化数字化成绩全民共享”的指标,体现了传统文化“数字化”的重要性。AI 技术与古彝文的“牵手”,将助力民族文化在深入群众的过程中与新事物交融,为文化传承提供翻新的源泉。

网友自发“创作”的古彝文对联

正文完
 0