网站开发 wecenter,网站制作案例哪家强,做一个免费网站,设计上海展会2021时间点击关注 文丨郝 鑫#xff0c;编丨刘雨琦 “OpenAI不足为惧#xff0c;开源会慢慢赶上来。”
彼时Hugging Face创始人Clem Delangue的一句预言#xff0c;正在迅速成为现实。
ChatGPT横空出世7个多月后#xff0c;7月19日#xff0c;Llama 2宣布开源#xff0c;并且可…点击关注 文丨郝 鑫编丨刘雨琦 “OpenAI不足为惧开源会慢慢赶上来。”
彼时Hugging Face创始人Clem Delangue的一句预言正在迅速成为现实。
ChatGPT横空出世7个多月后7月19日Llama 2宣布开源并且可直接商用。
如今回看这一天也成为了大模型发展的分水岭。在此之前全世界开源的大模型不计其数可只是停留在开发研究层面。“可商业”短短三个字犹如一颗重磅炸弹引爆了大模型创业圈引得傅盛连连感叹“有的人哭晕在厕所而有的人在梦中也能笑醒”。
AI大模型圈一夜之间变了天同时也宣告着大模型加速商业化时代的到来。
自Llama 2后开源逐渐成为主流趋势。以Llama架构为首先掀起了一波以其为核心的开源如Llama 2低成本训练版、Llama 2最强版、微调版等等。截至发稿前以“LLama 2”为关键词在国外最大的AI开源社区Hugging Face检索模型有5341条结果在全世界最大的开源项目托管平台Github上也有1500个词条。 图源Hugging Face官网 图源Github官网
之后创业者们的目光从解构、增强Llama 2转向了构建行业专有大模型于是又掀起了一波Llama 2司法、Llama 2医疗等一系列的行业开源大模型。据不完全统计Llama 2开源后国内就涌现出了十几个开源行业大模型。
国内头部厂商和创业公司纷纷加入开源浪潮中阿里QWEN-7B开源一个多月下载量破100万9月25日升级了QWEN-14B百川智能开源的Baichuan-7B、13B两款开源大模型下载量目前已经突破500万200多家企业申请部署开源大模型。
与此形成强烈对比的是短时间内Llama 2对一些闭源的大模型厂商造成了致命性的打击。闭源大模型多采用调取API的方式使用数据需要先上传至模型厂商按照调用次数收取费用而开源则可以在本地部署且完全免费可商用后产生的利润也可以收归己有。
行业内人士告诉光锥智能“在这种情况下基于成本的考虑已经开始有许多企业选择放弃支付上千万元的费用转而部署和微调Llama 2”。
以上种种共同揭开了大模型开源闭源之争发展重心的转移也让人疑惑开源大模型是否正在“杀死”闭源
01 大模型开源开的是什么
光锥智能梳理后发现目前大模型厂商和创业公司在开源和闭源的选择上一共有三条路径
一是完全闭源这类代表公司国外有OpenAI的GPT-3.5、GPT-4国内有百度的文心大模型
二是先闭源再开源这类代表公司有阿里云的通义千问智谱AI开源GLM系列模型
三是先开源再闭源这类代表公司有百川智能的Baichuan-7B、Baichuan-13B。
现在中国市场上能够主动开源大模型且提供商业许可的企业数量还比较有限主要公司包括了以开源为切入的百川智能、大模型厂商代表阿里、大模型初创公司代表智谱AI以及走精调Llama 2路线的虎博科技。 这从侧面也说明了一个问题大模型开源并不是没有门槛相反开源对一家企业的基础技术能力要求十分高比如智谱AI的GLM-130大模型是去年亚洲唯一入选斯坦福大学评测榜的大模型阿里通义千问大模型在IDC的“AI大模型技术能力评估测试”中获得了6项满分。
如果再进一步将以上的公司分类可以归为两类一类是走自研大模型开源路线一类是走Llama 2路线。
这两条路线在国际上也十分典型譬如走自研模型开源路线的Stability AI已经陆续开源了Stable DiffusionV1、StableLM、Stable Diffusion XLSDXL1.0等模型凭一己之力撑起了文生图开源领域另一类如中东土豪研究院就死盯住Llama 2在其基础上继续做大参数、做强性能 Llama 2开源50天后地表最强开源模型Falcon 180B横空出世 霸榜Hugging Face。
不过这两条路线也不是完全泾渭分明Llama 2的开源也进一步促进了许多自研开源大模型的更新升级。8月Stability AI迅速推出类ChatGPT产品——Stable Chat背后的大语言模型Stable Beluga就是其在两代Llama的基础上精调出来。更开放更快迭代发展这或许也是开源的意义。
除了逆天的Falcon目前开源模型的参数基本都控制在7B-13B左右。大模型厂商告诉光锥智能“目前7B-13B亿参数量是一个较为合理的开源规模”。这是基于多重因素所得出的参数量规模如计算资源限制、内存限制、开源成本考量等。
阿里云CTO周靖人基于云厂商的角度考虑道“我们希望企业和开发者在不同的场景可以根据自己的需求选择不一样规模的模型来真正地应用在自己的开发环境。我们提供更多可能性。”
谈起为何开源大模型周靖人强调了安全性“我们不单单只是开源大模型更重要的是要能够呈现出各项指标的表现效果基于此才能够让大家去评估其中的使用风险更加有效地进行模型应用。”
“重要的是随着参数量的增加模型效果提升会逐渐收敛。当模型达到一定规模后继续增加参数对效果提升的边际效益只会下降70-130亿参数量一般已经接近收敛状态了。”上述大模型厂商道。
光锥智能发现除了阿里云在视觉语言模型的细分领域发布了开源大模型外其余公司皆提供的是通用能力的大模型。这或许与大模型开源仍处于非常早期阶段有关系但考虑到开源大模型也要落地到场景中太过于同质化的通用大模型对企业来说也容易沦为“鸡肋”。
如何避免开源大模型重蹈覆辙体现出开源的价值回顾Meta接连祭出的“大招”一条开源的路径似乎逐渐显现——构建开源大模型生态。
2月份Meta凭借开源的Llama大模型回到生成式AI核心阵列5月9日开源了新的AI 模型ImageBind连接文本、图像 / 视频、音频、3D 测量深度、温度数据热和运动数据六种模态5个月后Llama 2开源可商业含70亿、130亿和700亿三种参数规模其中700亿参数模型能力已接近GPT-3.58月25日Meta推出一款帮助开发人员自动生成代码的开源模型——Code Llama该代码生成模型基于其开源大语言模型Llama 28月25日发布全新AI模型SeamlessM4T与一般AI翻译只能从文本到文本不同这款翻译器还能够“从语音到文本”或者反过来“从文本到语音”地直接完成翻译9月1日允许开源视觉模型DINOv2商业化同时推出视觉评估模型FACET。
可以看到Meta开源的思路是在各个AI领域遍地开花通过发布该领域最先进的AI开源模型吸引更多开发者的关注和使用壮大整个AI开源生态后来反哺业务、巩固行业地位这就如同当年的英伟达推动GPU计算的开源策略。
当年英伟达推动GPU计算的开源化不仅吸引了大量研究人员在Caffe、TensorFlow等框架上进行创新也为自身GPU产品积累了大量优化经验这些经验后来也帮助英伟达设计出了更适合深度学习的新型GPU架构。
另一方面GPU计算的开源生态越来越繁荣后也为其带来了巨大的市场空间Nvidia DGX企业级的深度学习训练平台概念应运而生为英伟达的显卡和平台销售创造了千亿级市场。
国内阿里云也在通过建设完善生态的方式试图帮助开发者更好的用好大模型据周靖人介绍目前阿里云不仅有自研开源大模型也接入了超过100个开源模型同时打造了开源社区魔搭更好地服务开发者和企业用户用好、调好大模型。
02 开源闭源不矛盾是手段而非目的
据外媒爆料Meta正在加紧研发全新的开源大模型支持免费商用能力对标GPT-4参数量比Llama 2还要大上数倍计划在2024年初开始训练。
国外大模型格局看似是OpenAI“一超多强”实则是众多公司环伺可以预见开源大模型对闭源的围剿越来越步步紧逼。 国外一份研究报告称大模型前期的发展创新由OpenAI、微软、谷歌等大公司闭源模型主导但越到后期开源模型和社区的贡献值就越大。
光锥智能也了解到在国内开源大模型也成为了企业的“新卖点”有企业甚至通过对外宣称已使用了“史上最强大模型Falcon 180B”来展现其底层模型技术能力的强大顶着“史上最强”的称号又收割了“一波韭菜”。
现阶段开源大模型已经证明了几点重要的事实。
首先在非常大的数据集上进行训练拥有几十亿个参数的大模型在性能上就可以与超大规模大模型相媲美其次只需要极少的预算、适量的数据以及低阶适应Low-rank adaptationLoRA等技术就可以把小参数的大模型调到一个满意的效果且将训练成本降低了上千倍。开源大模型为现在的企业提供了闭源的替代方案低成本成为最吸引他们的地方最后我们也看到开源大模型的发展速度也远快于封闭生态系统。
开源固然“迷人”但更为关键的是既不能为了开源而开源也不能为了闭源而闭源。开源与闭源只是形式上的区别并不矛盾开源本身不是目的而是手段。
以开源切入大模型赛道的百川智能在发布完Baichuan-7B、Baichuan-13B开源大模型后王小川拿出了Baichuan-53B闭源大模型。在问到为什么没有继续开源时王小川回答称“模型变大之后没有走开源的这样一种方式因为大家部署起来成本也会非常的高就使用闭源模式让大家在网上调用API”。
由此可见是否开源或闭源并非完全没有参考能够闭源一定是其能够提供价值。在当前这个价值的集中体现可能是替用户完成高性能的大模型训练、推理和部署通过调用API的方式来帮助降低门槛这也是OpenAI闭源的思路但因为其自身技术的绝对领先优势使得其价值也非常得大。
如果回顾红帽子公司的开源也能探寻到同样的逻辑。过去十多年间红帽从销售企业Linux操作系统扩展到现在的存储、中间件、虚拟化、云计算领域靠的就是“筛选价值”的逻辑。在最上游的开源社区参与开源技术贡献做大做强生态提取开源社区中的上游技术产品沉淀到自己小开源社区再将其认为最有价值的技术检验、测试、打包形成新的产品组合完成闭源出售给客户。
腾讯云数据库负责人王义成也曾对光锥智能表示“开源的本质也是商业化要从宏观层面看是否能满足一家公司的长期商业利益。开源的本质还是扩大生态扩大你的影响力。开源还是要找清楚自己的定位目标客户群。开源能否帮助产品突破帮助公司完成阻击还需要具体问题具体分析。”
03 结尾
事实上开源还是闭源二者并不是完全对立的关系只是在技术发展的早期路径选择的不同。
这也并不是科技领域第一次面对这样的分叉路参考数据库发展的路径早期需要培育土壤培植生态以MySQL为主的开源数据库获得了爆发式的用户增长但走过第一阶段后更多企业用户发现开源数据库在面对业务时的短板毕竟术业有专攻谁也没办法一招打天下。
为此数据库厂商开始根据不同的企业需求针对性的研发闭源数据库如在分布式数据库、流数据库等细分类别进行长足的创新。
周靖人也认为“未来一定不是one size fits all”不同的场景适配不同的参数不同的形式届时大模型将走过野蛮生长阶段来到精耕细作。
这也足以说明开源还是闭源或许只是阶段和位置的不同但可以肯定的是大模型时代已经加速进入下一赛段。 欢迎关注光锥智能获取更多科技前沿知识