关于开源:帮视障人士看见图片-字节跳动最新视觉语言预训练模型入选ICML-2022

69次阅读

共计 821 个字符，预计需要花费 3 分钟才能阅读完成。

SegmentFault 思否获悉，近日，字节跳动 AI Lab Research 团队推出一项视觉语言预训练模型，反对多模态的了解和生成，例如将画面转化为精确、晦涩的形容文字，帮忙视障人士“看见”图片。这项技术成绩已入选人工智能国内顶级会议 ICML 2022，并利用于今日头条 App、鼎力智能灯等业务场景。

据理解，这个名为 X -VLM 的模型在业内首次提出学习多粒度的视觉和语言对齐，能为图片生成更为精准的形容，比方更正确地辨认物体、形容物体间的关系。

信息无障碍研究会公布的报告显示，超过 90% 的视障人士会应用智能手机理解里面的世界。此前，手机零碎自带的读屏软件曾经实现把屏幕上的文字念进去，帮忙视障人士“读”新闻、“看”文章。可遇到文章中的图片，读屏软件往往无奈辨认，只能播报“图片”二字。

采纳了 X -VLM 模型，今日头条 App 能够自动识别图片，还能将它们“翻译”成通顺晦涩的语句，并通过语音播报进去，助力视障人士解决读图难题。

值得一提的是，X-VLM 可在模型规模和预训练数据无限的状况下实现高效训练。数据显示：仅 216M 参数量的 X -VLM 模型就能在图像文本检索、基于图片的问答或推理、视觉定位、图片形容生成等宽泛的多模态工作上取得非常优良的体现。目前，X-VLM 在字节跳动的实在利用场景上的体现已超过一些业界当先的最新模型。

近年来，人工智能在助推无障碍环境方面施展了重要作用。利用技术继续改良无障碍与适老化体验是字节跳动在公益方面的重要方向。除了在抖音系产品中不断完善无障碍性能，字节跳动还通过面向企业用户的云服务平台火山引擎，以技术输入的形式，服务更宽泛的社会群体。

论文：Multi-Grained Vision Language Pre-Training: Aligning Texts with Visual Concepts（https://arxiv.org/abs/2111.08276）
代码：https://github.com/zengyan-97…

正文完