生活服务网站开发与设计,一流的盘锦网站建设,泗阳网站设计,68设计网蹭个热点#xff0c;聊两句昨夜的大事件——OpenAI发布GPT-4o#xff0c;我看到和想到的一点东西。
首先是端到端方法#xff0c;前面关于深度学习的文章#xff0c;对端到端的重要性做了一些学习#xff0c;对端到端这个概念有了一些理解。正如Richard Sutton在《苦涩的…蹭个热点聊两句昨夜的大事件——OpenAI发布GPT-4o我看到和想到的一点东西。
首先是端到端方法前面关于深度学习的文章对端到端的重要性做了一些学习对端到端这个概念有了一些理解。正如Richard Sutton在《苦涩的教训》中的经典判断再次重温一遍“The biggest lesson that can be read from 70 years of AI research is that general methods that leverage computation are ultimately the most effective, and by a large margin.从70年的人工智能研究中可以学到的最大教训是利用计算的通用方法最终是最有效的而且在很大程度上是有效的。”
引用一段话来看这次OpenAI的端到端改进:
”根据OpenAI发布在官网的最新博客文章显示在GPT-4o之前我们使用语音模式与ChatGPT对话平均延迟为2.8秒GPT-3.5和5.4秒GPT-4。为了实现这一点语音模式是由三个独立的模型组成的流水线一个简单的模型将音频转录为文本GPT-3.5或GPT-4接收文本并输出文本第三个简单的模型将该文本再转换回音频。这个过程意味着主要的智能来源GPT-4丢失了很多信息它不能直接观察语调、多个说话者或背景噪音也不能输出笑声、歌唱或表达情感。
GPT-4o是单独训练的新模型可以端到端地处理文本、视觉和音频这意味着所有输入和输出都由同一个神经网络处理。”
这里必然有一些新的token化的技术来完成多模态的统一但是OpenAI之前就有Whisper的技术积累应该不是困难事。
我在想这种端到端的技术肯定会带来一些新的好处比如模型性能和处理速度的提升。最近在读一些有关大脑的书籍人类做决策不是单纯的逻辑推理同时也依靠情绪假如大脑中有关情绪感知的部位受损那人就将变得犹豫不决而丧失决策能力。过去语音转化为文字丢失了很多情感信息GPT-4o的端到端训练是否就可能在模型中产生了类似人脑的情绪网络从而大大提升决策处理速度的提升。情感能力不仅是技术应用的需要也是技术本身的需要。
当然最困难的不是技术而是产品能力能够把这些显而易见的技术打造为亮眼的产品。 其次解决了图片中生成文字的问题这个真的好难。 先说个笑话之前有知名公众号的文章使用这样一个文生图的提示: “这幅插画描绘了一颗由半透明玻璃制成的心矗立在惊涛骇浪中的基座上一缕阳光穿透云层照亮了心脏揭示了其中的小宇宙。地平线上镌刻着一行醒目的大字‘Find the universe with you ’”。然后我也用这个提示尝试了一下生成的图片与这个公众号的图片基本一致就是图片中缺了那行醒目的文字。后来我才知道在图片中生成文字技术上非常困难。试想一下如果能够严格遵循文字的指令生成图片一定需要模型能够对文字和图片进行深层次的语义理解然后在语义层面彻底打通文字的语义和图片的语义这是更高层次的统一。所以说OpenAI解决了图片的文字生成问题语义通信这件事就更加触手可及了
另外利用几张图像进行3D重建这个功能好强大感觉在很多简单应用已经可以替代SLAM、NeRF等接下来多模态技术的进一步发展原来的热门技术需要重新思考对待了。
最亮眼的还是应用OpenAI马上就要占领超级接口了吧。
昨晚的主持人Mira真的好美女神