网站建设公司 深圳信科,少儿编程培训机构,网站建设对企业发展的意义,二级域名 电子商务网站推广方案ModelScope上开源了达摩院众多业界最强多模态模型#xff0c;其中就有首超人类的多模态预训练视觉问答模型mPLUG#xff0c;小编激动的搓搓小手#xff0c;迫不及待的体验了一下。
一探#xff1a;浅草才能没马蹄
市面上有好多号称“用户上手简单”#xff0c;“一步到位…ModelScope上开源了达摩院众多业界最强多模态模型其中就有首超人类的多模态预训练视觉问答模型mPLUG小编激动的搓搓小手迫不及待的体验了一下。
一探浅草才能没马蹄
市面上有好多号称“用户上手简单”“一步到位”“傻瓜式”但是真的如果不懂两三行代码没有一些机器学习基础不趟几次浑水是真的没办法上手的。浅草才能没马蹄ModelScope真的做到了一步即可体验所见即所得没有任何的冗余如丝般顺滑的的在线体验。 一步点击「执行测试」有手就行 那么这个号称超人类的模型怎么样呢小编马上开始测试模型就拿小编最近去西双版纳的图片来测试西双版纳是中国热带生态系统保存最完整的地区素有“植物王国”、“动物王国”、“生物基因库”、“植物王国桂冠上的一颗绿宝石”等美称。同时西双版纳还有好多好吃的舂鸡脚、泰国菜、孔雀宴、老挝冰咖啡、小菠萝、傣式烧烤等等。 测完之后真服了真的是全知全能的问答模型无论问物种、问数量、问位置模型都能回答出来。图中小编刚认识的睡莲(lily pads)--泰国的国花都是精准无比还有图4也能把背景中大象也能识别出来实在太厉害了 小编又想了个办法我要测试孔雀孔雀舞这下终于难倒了模型 二探觉知此事要躬行
遇到这么强的模型小编当然想深刻了解一下觉知此事要躬行嘛其实是想自己拥有一个将来出去玩的时候可以把导游费给省了。ModelScope也为我考虑到了右上角「在Notebook中打开」点它这里有CPU环境和GPU环境看到GPU小编眼睛都直了这不就是和3090Ti齐名的V100如此高性能的GPU羊毛党果断薅一下。 测试过程非常流程只需要会import就能实现整体流程小编也整理了相关代码放出来可以使用 为了方便大家小编也把运行中间步骤展示出来这样无论是小白还是新手都可以玩起来了。 离部署只差最后一步了用gradio就可以满足你按照文档提示即可完成。 三探无招胜有招
多模态预训练模型mPLUG是建立在千万图文数据预训练的基础上小编就想探究下模型是不是真的都学会了吗最近文本生成图像模型DALLE和扩散模型开始如火如荼根据文本生成各种想象的图片小编就想对于这些生成出来的图片视觉问答模型mPLUG还可以正确回答吗会不会因为没见过类似的样本就没有办法回答呀 小编先尝试了对大名鼎鼎的DALLE生成的图像进行问答DALLE是OpenAI放出的文本生成图像模型取名DALL-E是为了向艺术家萨尔瓦多-达利Salvador Dali 和皮克斯的机器人WALL-E致敬。测试之后看看下面的结果连艺术家dali都能识别出来不愧是见多识广知识也太渊博了 同时小编也拿了ModelScope上的文生图模型进行测试测试结果如下 可以看到视觉问答模型mPLUG具有非常强的泛化能力针对各种生成的图片各个不同领域的来源都能回答正确。这就是训练了千万次理解了视觉特征之后达到了“无招胜有招”实际测试中就可以融会贯通!
结语
到这里就结束了赶紧上ModelScope一键体验超人类的视觉问答模型一键直达https://www.modelscope.cn/models/damo/mplug_visual-question-answering_coco_large_en/summary。
原文链接
本文为阿里云原创内容未经允许不得转载。