北京装修公司排名十强,长沙网站seo服务,做站群什么样的算是违法网站,做网站时怎样申请域名1.tvm的主线感觉更新太慢#xff0c;文档太落后#xff0c;在自动驾驶领域不支持Blackwell平台#xff0c;跨平台其实吹牛的更多。我觉得自动驾驶用不起来。2.性能最快的还是tensorrt/tensorrt_llm这条路#xff0c;纯cuda路线面临大量cuda算子开发#xff0c;比如vllm ll…1.tvm的主线感觉更新太慢文档太落后在自动驾驶领域不支持Blackwell平台跨平台其实吹牛的更多。我觉得自动驾驶用不起来。2.性能最快的还是tensorrt/tensorrt_llm这条路纯cuda路线面临大量cuda算子开发比如vllm llama.cpp3.nvidia平台简单的推理算子如果没有直接cuda写就行如果对于比较新还复杂的算子得用cutlass来写呢。如果要快速验证用triton来快速写新算子实现然后导出为cubin文件然后plugin加载这个triton导出算子也是没有问题的。目前triton最新版本不支持thor感觉明年能支持。Triton for Prototyping, CUTLASS for Production3.tvm的relay/relax的定位类似triton。但是支持力度天壤之别。Triton 是“写算子的 DSL/工具链。Relax 是“图级别 IR。如果relax只写算子那么两个功能类似。4.感觉基于mlir的路线已经打败tvm了。pytorch-torch-mlir-各种mlir-llvm ir。pytorch-triton-各种mlir-llvm ir感觉已经完成占领了生态位。5.triton不是和和tensorrt对标的对标的是cublas cunlaslt。所以triton导出的ptx和cubin能被tensorrt plugin加载。6.最新的cutlass也支持了基于mlir的python dsl。7.tvm 目前看最有价值的是计算图自动调优的能力等于把部分复杂和通用算子可以用tvm来作。但是tvm很难支持最新的硬件需要使用者来适配这个不容易。 TVM MetaSchedule 有一个问题是对新硬件支持慢还得自己的公司投入人来开发适配还不能合入主线因为主线不受控制主线api疯狂变更。所以有价值的点在于这个公司需要在非常多的平台上部署模型然后拉出一个分支来进行自己产品的迭代定期从主线捞想法看看是否能借鉴。8.tvm 主线的量化支持INT8不支持INT4.9.在动态形状支持上TVM和MLIR正在殊途同归。双方都认识到将形状计算从数据计算中解耦并将其作为图中的显式操作是正确的技术路线。MLIR 在这条路上起步更早基础更扎实其设计从一开始就体现了这种清晰性。TVM 则是通过痛苦的实践Relay认识到了这一点并通过Relax IR进行了彻底的革新试图追赶并超越。