python的网站开发,南昌网站建设费用,建网站详细步骤,企业站模板大全本文首发于公众号#xff1a;机器感知
将Llama2上下文长度扩展100倍#xff1b;效率更高的SeTformer#xff1b;LLM准确度基本不变加速1.56#xff1b;FreeTalker
Latte: Latent Diffusion Transformer for Video Generation 本文使用Latent Diffusion Transformer(Latte…本文首发于公众号机器感知
将Llama2上下文长度扩展100倍效率更高的SeTformerLLM准确度基本不变加速1.56×FreeTalker
Latte: Latent Diffusion Transformer for Video Generation 本文使用Latent Diffusion Transformer(Latte)做视频首先从输入视频中提取时空tokens然后采用一系列Transformer块来建模潜在空间中的视频分布。为了建模从视频中提取的大量tokens作者从输入视频的空间和时间的角度引入了四种高效变体。实验结果表明Latte在四个标准视频生成数据集FaceForensics、SkyTimelapse、UCF101和Taichi-HD上实现了SOTA性能。此外作者还将Latte扩展到文本到视频生成T2V任务且Latte取得了与最近的T2V模型相当的结果。
Soaring from 4K to 400K: Extending LLMs Context with Activation Beacon 本文提出了一种名为Activation Beacon的模块可以用于扩展大语言模型LLM处理长上下文的能力。该模块通过压缩LLM的原始激活来感知更长的上下文与此同时保持LLM在处理短上下文时的原始能力。此外该模块使用短滑动窗口处理长上下文提高了在训练和推理时的内存和时间效率。该模块通过自回归任务进行训练仅需10K步和少量GPU时间即可完成训练。实验结果表明Activation Beacon可以将Llama-2-7B的上下文长度扩展100倍从4K扩展到400K同时在长上下文生成和理解任务上取得了很好的结果。
Freetalker: Controllable Speech and Text-Driven Gesture Generation Based on Diffusion Models for Enhanced Speaker Naturalness 本文提出了一种名为FreeTalker的框架用于生成自发如伴随言语的手势和非自发如演讲者在讲台上的移动的演讲者动作。该框架利用了来自不同动作数据集的异构数据训练了一个基于扩散模型的演讲者动作生成器该模型使用统一的表示形式来驱动言语手势和文本动作。在推理过程中使用CFG来控制clips的风格。此外为了创建clips之间的平滑过渡作者使用了DoubleTake方法该方法利用生成先验并确保无缝的运动混合。实验结果表明该方法能够生成自然且可控的演讲者动作。
SeTformer is What You Need for Vision and Language 本文提出了一种名为SeTformer的新型Transformer该模型通过将点积自注意力DPSA完全替换为自我最优传输SeT来提高性能和计算效率。SeT基于两个重要的softmax属性并通过引入核代价函数来实现这些属性。在小型和基础模型上SeTformer在ImageNet-1K上实现了84.7%和86.2%的top-1准确率。在目标检测中SeTformer-base比FocalNet高出2.2 mAP参数和FLOPs分别减少了38%和29%在语义分割中基础模型比NAT高出3.5 mIoU参数减少了33%SeTformer还在GLUE语言建模任务中取得了最佳结果这说明SeTformer适用于视觉和语言任务中。
FlightLLM: Efficient Large Language Model Inference with a Complete Mapping Flow on FPGA Transformer-based大语言模型LLMs在多个领域产生了重大影响但计算和内存开销过大。常用的压缩技术缓解了LLM计算/内存开销与硬件限制的差距但现有的GPU和transformer加速器无法高效处理压缩的LLM因为存在计算效率低、内存带宽未充分利用和编译开销大等问题。本文提出了FlightLLM通过在FPGA上实现完整的映射流实现LLM的高效推理。在FlightLLM中作者利用FPGA特有的资源如DSP48和异构内存层次结构来解决LLM的计算和内存开销问题。还提出了一种可配置的稀疏DSP链以高计算效率支持不同的稀疏模式。其次还提出了一种always-on-chip的解码方案以支持混合精度并提高内存带宽。
FFSplit: Split Feed-Forward Network For Optimizing Accuracy-Efficiency Trade-off in Language Model Inference 预训练语言模型LLM性能强大但参数众多难以在单GPU等硬件上部署。为降低模型大小和推理延迟常采用模型压缩技术但会影响模型准确性和效率。作者发现前馈网络FFN只有少数神经元对输入有大的输出范数(heavy hitters)据此将FFN分为两部分并为heavy hitters部分分配更多资源从而平衡优化效率和准确性。此方法可使模型大小减少43.1%加速1.25∼1.56×同时几乎不降低准确性。