南昌高端网站开发费用表,中山建设银行招聘网站,江阴网站推广,郑州市建设厅官方网站Hugging Face 宣布发布Transformer 4.42#xff0c;该版本为流行的机器学习库带来了许多新功能和增强功能。此版本引入了几个高级模型#xff0c;支持新工具和检索增强生成 #xff08;RAG#xff09;#xff0c;提供 GGUF 微调#xff0c;并整合了量化的 KV 缓存#x…Hugging Face 宣布发布Transformer 4.42该版本为流行的机器学习库带来了许多新功能和增强功能。此版本引入了几个高级模型支持新工具和检索增强生成 RAG提供 GGUF 微调并整合了量化的 KV 缓存以及其他改进。
随着Transformer 4.42的发布包括Gemma 2、RT-DETR、InstructBlip 和 LLaVa-NeXT-Video在内的新模型的发布也使其更加值得关注。下面就一起看下这些新的更新。
Gemma 2 模型系列由 Google 的 Gemma2 团队开发这些模型在 6万亿个代币上进行了训练并在语言理解、推理和安全方面的各种学术基准中表现出卓越的表现。在 18 个基于文本的任务中它们在 11 个任务中的表现优于类似大小的开放模型。
RT-DETR即实时DEtection Transformer是另一个重要的补充。该模型专为实时对象检测而设计利用 transformer 架构快速准确地识别和定位图像中的多个对象。它的发展使其成为目标检测模型的强大竞争对手。 InstructBlip使用BLIP-2架构增强了可视化指令调优。它将文本提示馈送到 Q-Former从而实现更有效的视觉语言模型交互。该模型有望提高需要视觉和文本理解的任务的性能。 LLaVa-NeXT-Video通过合并视频和图像数据集来构建 LLaVa-NeXT 型。此增强功能使该模型能够执行最先进的视频理解任务使其成为零样本视频内容分析的宝贵工具。AnyRes 技术将高分辨率图像表示为多个较小的图像对于该模型有效地从图像泛化到视频帧的能力至关重要。 使用 AnyRes 实现零镜头视频表示功能AnyRes 技术自然地将高分辨率图像表示为预训练的 VIT 能够消化的多个图像并将它们形成一个压缩序列。这种技术自然可以推广到表示视频由多个帧组成使仅经过图像训练的 LLaVA-Next 模型在视频任务上表现出色。值得注意的是这是LMM首次表现出强大的零样本模态转移能力。 长度泛化的推理在较长的视频上得到了改进。线性缩放技术支持长度泛化使 LLaVA-NeXT 能够有效地处理max_token_length长视频而超出了 LLM. 较强的视频理解能力。1 LLaVA-Next-Image 结合了上述两种技术与在视频上调谐的开源 LMM 相比产生了卓越的零样本性能。2 LLaVA-Next-Video对视频数据进行进一步的监督微调SFT与LLaVA-Next-Image相比实现了更好的视频理解能力。3 LLaVA-Next-Video-DPO使用直接偏好优化 DPO 将模型响应与 AI 反馈保持一致显示出显着的性能提升。 使用 SGLang 进行高效部署和推理。它允许将视频任务的推理速度提高 5 倍从而实现更具可扩展性的服务例如百万级视频重新字幕。请参阅我们的存储库中的说明。
Hugging Face会自动为Python函数生成JSON架构描述从而促进与工具模型的无缝集成。工具模型的标准化 API 确保了各种实现之间的兼容性。另一个值得注意的增强功能是GGUF微调支持。此功能允许用户在 Python/Hugging Face生态系统中微调模型然后将它们转换回 GGUF/GGML/llama.cpp库。这种灵活性确保了模型可以在不同的环境中进行优化和部署。
量化改进包括添加量化的 KV 缓存进一步降低了生成模型的内存需求。此次更新加上对量化文档的全面修订为用户提供了更清晰的指导帮助他们选择最适合其需求的量化方法。
除了这些主要更新之外该版本还删除已弃用的组件如 ConversationalPipeline 和 Conversation 对象。