曲麻菜公司网站建设,长春网站建设电话,网站外链如何建设,红铃铛网站建设用眼睛看。 就是字面上的意思用眼睛看。 我属于第一波玩到的,先给大家一个直观的印象,Groq到底有多快。 目前Groq只能选Llama的70b,和Mixtral的MoE,那我选7*8的这个MoE模型来实验。 这么好些字大概花了不到1秒,流式响应,其实是不是流式已经没那么重要了 ,然后看每秒Toke…用眼睛看。 就是字面上的意思用眼睛看。 我属于第一波玩到的,先给大家一个直观的印象,Groq到底有多快。 目前Groq只能选Llama的70b,和Mixtral的MoE,那我选7*8的这个MoE模型来实验。 这么好些字大概花了不到1秒,流式响应,其实是不是流式已经没那么重要了 ,然后看每秒Token数525!!! 如果大家没什么概念可以做一下对比,GPT-3.5大概20几个,我用本地的卡做KV cache,然后Vllm拿Alpaca做推理,大概极限能冲到30几个Token... 是的,它就是这么快。 刚出的时候,Ross顶着TPU发明者的身份,被很多无良媒体解读说Groq是LPU,是Google TPU的同架构,然而两者根本一点关系也没有,TPU就别蹭了,TPU可以理解为更接近于GPU的架构,(TPU也根本做不到这么快,慢10倍都不止)LPU更像是Dojo,是空间计