北京移动端网站开发,绍兴网站建设冯炳良,什么都不懂能去干运营吗,花都区手机版网站建设UNDERSTANDING HTML WITH LARGE LANGUAGE
MODELS 相关链接#xff1a;arXiv 关键字#xff1a;大型语言模型、HTML理解、Web自动化、自然语言处理、机器学习 摘要
大型语言模型#xff08;LLMs#xff09;在各种自然语言任务上表现出色。然而#xff0c;它们在HTML理解方…UNDERSTANDING HTML WITH LARGE LANGUAGE
MODELS 相关链接arXiv 关键字大型语言模型、HTML理解、Web自动化、自然语言处理、机器学习 摘要
大型语言模型LLMs在各种自然语言任务上表现出色。然而它们在HTML理解方面的能力——即解析网页的原始HTML对于自动化基于Web的任务、爬取和浏览器辅助检索等应用——尚未被充分探索。我们为HTML理解模型经过微调的LLMs提供了深入分析并在三个任务上评估了它们的能力iHTML元素的语义分类iiHTML输入的描述生成以及iiiHTML页面的自主Web导航。尽管之前的工作已经为HTML理解开发了专门的架构和训练程序但我们展示了在标准自然语言语料库上预训练的LLMs可以非常好地转移到HTML理解任务上。例如经过微调的LLMs在语义分类上的准确率比仅在任务数据集上训练的模型高出12%。此外当在MiniWoB基准数据上进行微调时LLMs使用的数据量比之前最好的监督模型少192倍成功完成任务的数量增加了50%。我们评估的LLMs中我们展示了基于T5的模型由于其双向编码器-解码器架构而成为理想的选择。为了促进对LLMs进行HTML理解的进一步研究我们创建并开源了一个从CommonCrawl中提取并自动标记的大规模HTML数据集。
核心方法
本文提出的核心方法包括
自主Web导航评估模型如何在多页网站中导航作为顺序决策问题。语义分类要求模型将给定的HTML元素分类到一组类别中如地址、电子邮件、密码等。描述生成给定一个HTML片段模型需要生成自然语言描述。
实验说明
实验结果数据展示了在不同任务上微调LLMs的性能。数据集包括MiniWoB、注释购物网站页面和CommonCrawl。实验使用了不同大小和架构的预训练LLMs包括编码器-解码器和解码器-仅模型。实验结果表明预训练的LLMs在所有任务上都表现出色特别是在数据效率上比从零开始训练的模型有显著提升。
任务数据集模型准确率/成功率自主Web导航MiniWoBWebN-T5-3B51.8% 成功率语义分类注释购物网站WebC-T5-3B87.7% 准确率描述生成CommonCrawlWebD-T5-3B84.0% 准确率
结论
我们提出了用于HTML理解的规范任务和微调LLMs。通过一系列架构、数据集大小和基线的全面评估和分析我们得出了主要结论。我们发现预训练对于性能至关重要可以减少标记数据需求提高样本效率高达200倍模型架构是第二重要的因素基于T5的模型在所有任务上表现最佳在给定模型训练和推理性能的情况下应评估模型大小因为模型大小与性能呈亚线性相关。最后提出的HTML理解任务突出了当前LLMs的相对短上下文窗口限制为未来研究提供了可能性这些研究将纳入或消除此限制。