求网站建设和网页设计的电子书,营销号视频生成器手机版,wordpress文章发布很慢,php做二手商城网站源码摘要
科学知识主要存储在书籍和科学期刊中#xff0c;通常以PDF的形式。然而PDF格式会导致语义信息的损失#xff0c;特别是对于数学表达式。我们提出了Nougat#xff0c;这是一种视觉transformer模型#xff0c;它执行OCR任务#xff0c;用于将科学文档处理成标记语言通常以PDF的形式。然而PDF格式会导致语义信息的损失特别是对于数学表达式。我们提出了Nougat这是一种视觉transformer模型它执行OCR任务用于将科学文档处理成标记语言并证明了我们的模型在新的科学文档数据集上的有效性。
引言
存储在pdf中的知识信息提取有难度其中数学表达式的语义信息会丢失。现有的OCR方法没有办法识别公式。为此我们引入了Nougat,这是一种基于transformer的模型能将文档页面的图像转换为格式化的标记文本。这篇论文的主要贡献如下
1) 发布能够将PDF转换为轻量级标记语言的预训练模型
2) 我们引入了一个将pdf转为标记语言的pipeline
3) 我们的方法仅依赖于页面的图像支持扫描的论文和书籍
模型
以前的VDU(视觉文档理解)方法要么依赖于第三方OCR工具要么专注于文档类型例如收据、发票或类似表单的文档。最近的研究表明不需要外部OCR在VDU中也能实现有竞争力的结果。
如图1所示我们的模型基于donut构建是一个encoder-decoder模型允许端到端的训练。 编码器
视觉encoder首先接受一张文档图像裁剪边距并调整图像大小成固定的尺寸(H,W)如果图像小于矩形那么增加额外的填充以确保每个图像具有相同的维度。我们使用了Swin Transformer将图像分为不重叠的固定大小的窗口然后应用一系列的自注意力层来聚集跨窗口的信息。该模型输出一个embedding patch 其中d是隐层维度N是patch的数目。
解码器
使用带有cross-attention的mBART解码器解码然后生成一系列tokens最后tokens被投影到vocabulary的大小产生logits。我们使用作为decoder
SetUP
我们用96 DPI的分辨率渲染文档图像。由于swin transformer的限制性我们将input size设置为(896,672)文档图像先resize,然后pad到所需的大小这种输入大小允许我们使用Swin基础模型架构。我们用预训练的权重初始化了模型Transformer解码器的最大序列长度是4096。这种相对较大的规模是因为学术研究论文的文本可能是密集的尤其表格的语法是token密集的。BART解码器是一个10层的decoder-only transformer。整个架构共有350M参数在推理的时候文本使用greedy decoding生成的。
训练使用AdamW优化器训练3个epochbatch_size是192初始化学习率是;
数据增强
在图像识别任务中使用数据增强来提高泛化性是有效的。由于我们的训练集只有学术论文所以我们需要应用一系列的transformation来模拟扫描文档的缺陷和可变性。这些变换包括腐蚀膨胀高斯噪声高斯模糊位图转换图像压缩网格失真和弹性变换。每个都有一个固定的概率来应用给给定图像。每个转换的效果如图所示 在训练过程中我们会用随机替换token的方式给groud truth增加扰动。
数据
目前没有pdf页面和其对应的source code的成对数据集。因为我们根据arxiv上的开源文章建立了自己的数据集。对于layout多样性我们引入了PMC开源非商业数据集的子集。在预训练过程中也引入了一部分行业文档库数据。
ARXIV
我们从arxiv上收集了174w的pape收集其源代码并编译pdf。为了保证格式的一致性我们首先用latex2html处理源文件并将他们转为html文件。这一步很重要因为他们是标准化的并且去掉了歧义尤其是在数学表达式中。转换过程包括替换用户定义的宏添加可选括号规范化表以及用正确的数字替换引用。然后我们解析html文件并将他们转换为轻量级标记语言支持标题粗体和斜体文本、公式表等各种元素。这样我们能保证源代码格式是正确的方便后续处理。整个过程如图所示 PMC
我们还处理了来自PMC的文章其中除了PDF文件之外还可以获得具有语义信息的XML文件。我们将这些文件解析为与arxiv文章相同的标记语言格式我们选择使用PMC少得多的文章因为XML文件并不总是具有丰富的语义信息。通常方程和表格存储为图像这些情况检测起来并非易事这导致我们决定将PMC文字的使用限制在预训练阶段。
IDL
IDL是行业产生的文档集合。这个仅用在预训练阶段用于教模型基本的OCR
分页
我们根据pdf的页中断来分割markdown标记然后将每个pdf页面转为图像来获得图像-标记pair。在编译过程中Latex会自动确定pdf的页面中断。由于我们没有重新编译每篇论文的Latex源我们必须启发式地将源文件拆分为对应不同页面的部分。为了实现这一点我们使用PDF页面上的嵌入文本和源文本进行匹配。
然而PDF中的图像和表格可能不对应他们在源代码中的位置。为了解决这个问题我们在预处理阶段去掉了这些元素。然后将识别的标题和XML文件中的标题进行比较并根据他们的Levenshtein距离进行匹配。一旦源文档被分成单个页面删除的图形和表格就会在每个页面的末尾重新插入。