关于深度学习:Nougat一种用于科学文档OCR的Transformer-模型

随着人工智能畛域的不断进步，其子畛域，包含自然语言解决，自然语言生成，计算机视觉等，因为其宽泛的用例而迅速取得了大量的遍及。光学字符识别(OCR)是计算机视觉中一个成熟且被宽泛钻研的畛域。它有许多用处，如文档数字化、手写辨认和场景文本辨认。数学表达式的辨认是OCR在学术研究中受到宽泛关注的一个畛域。

PDF是最宽泛应用的格局之一，它通常保留在书籍中或发表在学术期刊上。pdf是互联网上第二大应用的数据格式，占信息的2.4%，常常用于文档传递。只管它们被宽泛应用，但从PDF文件中提取信息可能很艰难，特地是在解决像科学研究文章这样高度专业化的资料时。因为蕴含了很多的数学公式，而现阶段的OCR可能会导致数学表达式的语义信息失落。

Meta AI的一组钻研人员推出了一种名为Nougat的解决方案，它代表“Neural Optical Understanding for Academic Documents”。为了对迷信文本进行光学字符识别(OCR)，Nougat是一种VIT模型。它的指标是将这些文件转换为标记语言，以便更容易拜访和机器可读。

为了显示该办法的有效性，该团队还制作了一个新的学术论文数据集。这种办法为进步数字时代科学知识的可及性提供了可行的答案。它填补了人们易于浏览的书面材料与计算机能够解决和剖析的文本之间的空白。Nougat基本上是一个基于Transformer的模型，用于将文档页面的图像(特地是来自pdf的图像)转换为格式化的标记文本。

该团队总结了他们的次要奉献如下-

公布预训练模型:创立能够将pdf转换为简略的标记语言的预训练模型。这个预训练的模型在GitHub上公开，任何人都能够拜访它以及相干代码。

数据集创立管道:形容了一种构建数据集的办法，将PDF文档与其相干的源代码配对。这种数据集开发方法对于测试和改良Nougat模型至关重要，也可能对将来的文档剖析钻研和利用有用。

仅依赖于页面的图像:也就是说这个模型只有pdf的截图就能够了，这使得它成为一种灵便的工具，能够从各种起源提取内容，即便原始文档没有数字文本格式，也能够应用扫描的纸张和书籍进行解决。

能够说Nougat通过利用VIT模型的性能，创始了OCR的新时代。它具备了解简单迷信文档并将其转换为结构化标记语言的能力，为无缝的信息可拜访性铺平了路线，弥合了人类了解和机器剖析之间的差距。这一翻新为学术研究及其他畛域带来了微小的心愿，体现了数字时代人工智能驱动的解决方案的改革力量。

以上截图来自官网，左图为图片文件，右图为Latex语法生成的公式

论文和官网网页在这里：

https://avoid.overfit.cn/post/061348444174421ebbe69423117c6e98

小吐槽：FB的项目管理判若两人的凌乱

Nougat 只配一个github的页面
segment-anything 有一个独自的域名，更新动静的博客是ai.meta上面的
llama只有一个ai.meta的二级目录，然而在ai.meta首页置顶，也算器重
dinov2又跑去了metademolab的另外一个域名

可见前几天的内斗和算力竞争新闻是必定了。