当前位置: 首页 > news >正文

求网站建设和网页设计的电子书营销号视频生成器手机版

求网站建设和网页设计的电子书,营销号视频生成器手机版,wordpress文章发布很慢,php做二手商城网站源码摘要 科学知识主要存储在书籍和科学期刊中#xff0c;通常以PDF的形式。然而PDF格式会导致语义信息的损失#xff0c;特别是对于数学表达式。我们提出了Nougat#xff0c;这是一种视觉transformer模型#xff0c;它执行OCR任务#xff0c;用于将科学文档处理成标记语言通常以PDF的形式。然而PDF格式会导致语义信息的损失特别是对于数学表达式。我们提出了Nougat这是一种视觉transformer模型它执行OCR任务用于将科学文档处理成标记语言并证明了我们的模型在新的科学文档数据集上的有效性。 引言 存储在pdf中的知识信息提取有难度其中数学表达式的语义信息会丢失。现有的OCR方法没有办法识别公式。为此我们引入了Nougat,这是一种基于transformer的模型能将文档页面的图像转换为格式化的标记文本。这篇论文的主要贡献如下 1) 发布能够将PDF转换为轻量级标记语言的预训练模型 2) 我们引入了一个将pdf转为标记语言的pipeline 3) 我们的方法仅依赖于页面的图像支持扫描的论文和书籍 模型 以前的VDU(视觉文档理解)方法要么依赖于第三方OCR工具要么专注于文档类型例如收据、发票或类似表单的文档。最近的研究表明不需要外部OCR在VDU中也能实现有竞争力的结果。 如图1所示我们的模型基于donut构建是一个encoder-decoder模型允许端到端的训练。 编码器 视觉encoder首先接受一张文档图像裁剪边距并调整图像大小成固定的尺寸(H,W)如果图像小于矩形那么增加额外的填充以确保每个图像具有相同的维度。我们使用了Swin Transformer将图像分为不重叠的固定大小的窗口然后应用一系列的自注意力层来聚集跨窗口的信息。该模型输出一个embedding patch 其中d是隐层维度N是patch的数目。 解码器 使用带有cross-attention的mBART解码器解码然后生成一系列tokens最后tokens被投影到vocabulary的大小产生logits。我们使用作为decoder SetUP 我们用96 DPI的分辨率渲染文档图像。由于swin transformer的限制性我们将input size设置为(896,672)文档图像先resize,然后pad到所需的大小这种输入大小允许我们使用Swin基础模型架构。我们用预训练的权重初始化了模型Transformer解码器的最大序列长度是4096。这种相对较大的规模是因为学术研究论文的文本可能是密集的尤其表格的语法是token密集的。BART解码器是一个10层的decoder-only transformer。整个架构共有350M参数在推理的时候文本使用greedy decoding生成的。 训练使用AdamW优化器训练3个epochbatch_size是192初始化学习率是; 数据增强 在图像识别任务中使用数据增强来提高泛化性是有效的。由于我们的训练集只有学术论文所以我们需要应用一系列的transformation来模拟扫描文档的缺陷和可变性。这些变换包括腐蚀膨胀高斯噪声高斯模糊位图转换图像压缩网格失真和弹性变换。每个都有一个固定的概率来应用给给定图像。每个转换的效果如图所示 在训练过程中我们会用随机替换token的方式给groud truth增加扰动。 数据 目前没有pdf页面和其对应的source code的成对数据集。因为我们根据arxiv上的开源文章建立了自己的数据集。对于layout多样性我们引入了PMC开源非商业数据集的子集。在预训练过程中也引入了一部分行业文档库数据。 ARXIV 我们从arxiv上收集了174w的pape收集其源代码并编译pdf。为了保证格式的一致性我们首先用latex2html处理源文件并将他们转为html文件。这一步很重要因为他们是标准化的并且去掉了歧义尤其是在数学表达式中。转换过程包括替换用户定义的宏添加可选括号规范化表以及用正确的数字替换引用。然后我们解析html文件并将他们转换为轻量级标记语言支持标题粗体和斜体文本、公式表等各种元素。这样我们能保证源代码格式是正确的方便后续处理。整个过程如图所示 PMC 我们还处理了来自PMC的文章其中除了PDF文件之外还可以获得具有语义信息的XML文件。我们将这些文件解析为与arxiv文章相同的标记语言格式我们选择使用PMC少得多的文章因为XML文件并不总是具有丰富的语义信息。通常方程和表格存储为图像这些情况检测起来并非易事这导致我们决定将PMC文字的使用限制在预训练阶段。 IDL IDL是行业产生的文档集合。这个仅用在预训练阶段用于教模型基本的OCR 分页 我们根据pdf的页中断来分割markdown标记然后将每个pdf页面转为图像来获得图像-标记pair。在编译过程中Latex会自动确定pdf的页面中断。由于我们没有重新编译每篇论文的Latex源我们必须启发式地将源文件拆分为对应不同页面的部分。为了实现这一点我们使用PDF页面上的嵌入文本和源文本进行匹配。 然而PDF中的图像和表格可能不对应他们在源代码中的位置。为了解决这个问题我们在预处理阶段去掉了这些元素。然后将识别的标题和XML文件中的标题进行比较并根据他们的Levenshtein距离进行匹配。一旦源文档被分成单个页面删除的图形和表格就会在每个页面的末尾重新插入。
http://www.zqtcl.cn/news/94515/

相关文章:

  • 河东天津网站建设永州做网站的公司
  • 网页制作与网站建设填空题免费的企业邮箱怎么申请
  • 智慧农业网站建设沈阳建设信息网
  • 永久免费素材网站个人网站域名所有权
  • 做网站都需要什么工具网站开发培训哪里好
  • 做网站里面的图片像素要求安徽 网站建设
  • 电子商务推广网站wordpress小程序搭建
  • 张家港网站开发培训广告代理那些平台可以给网站做外链
  • 搞一个公司网站得多少钱中国航天空间站最新消息
  • php移动网站开发微商做图王官方网站
  • 制作网站中英文字体不能为网页设计与制作教程试题
  • 网站建设与管理案例柳洪轶wordpress学校站模板
  • 湖北省和住房建设厅官方网站自媒体专业
  • 榆林网站开发自己建设购物网站
  • 新材建设局网站百度提问首页
  • 网站优化网站建设栅格布局 网站设计
  • 网站建设销售前景网站手机开
  • 网站建站 用户注册北京网站建设方案报价
  • jsp做网站 案例网站模板 招聘
  • 德州建设银行兑换网站服务器网站跳转怎么做的
  • 金华专业做网站公司湖南网站建设服务
  • 企业网站设计沈阳苏宁电器网站建设特点分析
  • 建设工程类公司网站易语言可以做api网站对接吗
  • 青岛做网站皆赴青岛博wordpress 数据库 备份
  • 外贸公司网站空间哈尔滨seo优化专注
  • 建筑行业综合查询平台优化推广联盟
  • 北京管庄网站建设公司开平网站制作
  • 如何做销售直播网站最专业网站建设
  • 太原市住房和城乡建设局的网站首页网络推广服务外包公司
  • 湘icp备 网站建设 农业 湖南稿定设计免费版