网站优化关键词排名公司,pc网站制作,云主机可以用来做什么,设计师网站大全来源#xff1a;AI前线作者#xff1a;Mateusz Kwaśniak译者#xff1a;王强策划#xff1a;刘燕在一些 MLOps 项目的背景介绍中#xff0c;都会提及“87% 的数据科学项目以失败告终”的论点。这个数据具体出自何处#xff0c;是否准确测定#xff1f;本文作者通过相关… 来源AI前线作者Mateusz Kwaśniak译者王强策划刘燕在一些 MLOps 项目的背景介绍中都会提及“87% 的数据科学项目以失败告终”的论点。这个数据具体出自何处是否准确测定本文作者通过相关文献资料调研指出该论点并无实据可依。尽管 MLOps 非常必要但社区、学术界和业界不应以基于此论点开展讨论。大家是否听说过这样一个论点即 87% 的数据科学项目以失败告终“机器学习运维”MLOps对数据科学家、机器学习工程师等数据科学领域相关从业人士来说都应该耳熟能详了。这个概念相对较新但越来越多的人们开始想要了解什么是 MLOps以及如何在自身项目中应用 MLOps 实践和工具。我相信大家也注意到了这种趋势。MLOps 社区 正在持续不断成长我也有幸参与其中。MLOps 的相关议题和文章涵盖了几乎全部机器学习领域会议。最近吴恩达和 DeepLearning.ai 也跟进在 Coursera 发布了他们的 MLOps 课程“用于生产环境的机器学习工程”可访问“Machine Learning Engineering for Production”。作为一名 MLOps 工程师我阅读并关注了大量的相关内容。我发现同一批图表和统计结果多次作为核心内容出现在各种演示报告中演示内容越来越千篇一律了。此外我发现有一个特别有趣的素材在这些演讲和帖子里被复制来粘贴去于是我要研究一下。是否真的“有 87% 的数据科学项目无法投入生产环节”本帖将对此一探究竟。87% 这一数字出自何处如果读者正参与面向社区和潜在客户的 MLOps 新产品展示宣讲那么很有可能会看到这么一句87% 的数据科学项目无法投入生产环节。不仅如此这一论点还出现在 福布斯报道、StackOverflow 博客 等处以及遍布互联网的各博客帖子和会议视频中。这句话或类似的解释已成为在阐释 MLOps 商业特性中不可或缺的描述。那么该论点出自哪里看上去是引用自 VentureBeat 的一篇文章原文“Why do 87% of data science projects never make it into production?”。下面我们转向该文章。VentureBeat 文章是这么说的图 1 VentureBeat 的文章标题 。来源VentureBeat.com该文撰写于 2019 年 7 月。在此我必须指出的是这是一篇介绍 VentureBeat Transform 2019 大会 小组讨论情况的软文。文章无非是一个短评其中引用了大会小组议题“如何理解人工智能实施”“What the heck does it even mean to “Do AI”?”中的内容人工智能基于经验提供竞争优势。即然大家有此通识那么为什么只有 13% 的数据科学项目或者说每十个项目中只会有一个实际投入生产Chapo 指出为避免落入这 87% 的失败项目中项目开始时可以采取三种方式。第一从小处着手不要试图去面对一片汪洋而是从中选择一个痛点去解决进而可看到进展。第二为解决问题确保具备一支适合的跨职能团队。第三借助于第三方甚至是一些大企业从项目一开始就得到加速助力。回顾这一惊人观点即 87% 的数据科学项目是失败的或者说无法投产其中的数字的出自何处我并没有在文章中找到所以我决定上 YouTube 看一下演讲视频肯定是在视频里的。Transform 2019 大会小组讨论中是这么说的图 2 Transform 2019 大会小组讨论的视频截图。来源YouTube由此我回看了 Transform 2019 大会小组讨论的录像。我认定这就是所有一切的源头所在并最终了解这一奇幻数字是如何在各 MLOps 演讲中口口相传。顺便说一句我注意到该视频上传 YouTube 的两年以来只被观看 353 次得到 0 条评论。因此我认为并没有多少人有兴趣去厘清为什么近十个机器学习项目中会有九个失败。正好我就是来搞清楚的。我竖耳倾听了这段 26 分钟长度的视频试图捕捉到是否有演讲者提及 87% 的数据科学项目失败或是只有 13% 的项目成功等类似说法。为确保不漏一处我看了三遍最终有所发现。在视频大约第 10 分钟处可听到我认为《CIO Dive》杂志指出只有 13% 的项目最终实际投产。我非常惊讶于 13% 这一数据。这句话正是 IBM 数据科学和人工智能行业 CTO、全球领袖人物 Deborah Leff 说的。不幸的是这只是我查证过程中遵循的一个线索breadcrumb。显然Transform 2019 大会小组讨论并非我能确证的信息来源。那么下面我们去追溯《CIO Dive》杂志文章吧。《CIO Dive》杂志是这么说的图 3 James Roberts 撰写的文章。图片来源CIODive.com在 Transform 2019 大会两年前的 2017 年现任 Quisitive 首席数据科学家的 James Roberts 应邀为《CIO Dive》杂志撰写了一篇文章指出了导致大多数数据科学项目失败的四个原因。我希望该文最终揭示了 87% 这个神奇数字的由来以及该数字是如何测定的。文章篇幅相对较短很有条理。因此我全文通读了多遍在其中发现如下表述2017 年被专家称为数据素养data literacy和数字化转型之年。虽然数据是推动真正数字化转型的关键元素但公司常以错误的方式推行数据和分析项目。事实上只有 13% 的数据和分析项目得以完成。并且在已完成的项目中只有 8% 的公司领导对结果表示完全满意。我对 13% 这一数字非常敏感。正如 Deborah Leff 所说她是从《CIO Dive》杂志获取该信息的。但这个数字来自何处哪里有解释是否依然只是一条线索为什么只有 13% 的“数据和分析项目”能够完成不幸的是我们对这一论点的来源一无所知。也许只是《CIO Dive》杂志文章出于某种目的而捏出来的一个数字或许是作者忘记指出对其它最终详细评定 87% 数据科学项目失败的文章的引用。尽管十个机器学习项目中完全有可能失败九个但对此做出一个可靠的衡量是几乎不可能得甚至“失败”或“投产”也是无法准确定义的。首当其冲我们应如何准确定义机器学习模型的投产如果使用 FastAPI 等提供了单一的 API 端点服务就能说项目投产了吗是否还需要建立完整的 CI/CD/CT 流水线和监控更重要的是有些项目并不需要也没有计划去部署到生产环节中这是否也会被视为失败查无实据我也毫无头绪略为失望。应该如何阐释小结有位首席数据科学家于 2017 年受邀在《CIO Dive》杂志发表了一个“观点”指出“只有 13% 的数据和分析项目完工”。这一神奇数字没有来源也没有指出研究论文出处具体出处的相关信息为零。此后该文由 IBM 数据科学和人工智能 CTO 和全球领导人物 Deborah Leff 在 Transform 2019 大会小组讨论中提及。她说“我认为《CIO Dive》杂志指出只有 13% 的项目最终实际投产。”然后VentureBeat 在介绍 VentureBeat Transform 2019 大会小组讨论情况的软文中引用了这一数字尽管文章中甚至没有提供视频录像的链接。那么随后发生了什么数以百计的机器学习和 MLOps 资源引用了同一文章同一信息即“87% 的数据科学项目从未投产”以此作为推销自己工具和产品的依据。这种未经证实的信息这么容易传播尤其是在严重依赖研究并非常接近研发和学术环境的社区中这非常令人失望。类似论点对于 MLOps 有何意义可能毫无意义但我们仍然需要这样的数字。但依据一篇主观论断的文章中提出的神奇数字并以此为论点去构建社区、各种工具和多家初创公司这无疑令人震惊。原文链接https://mtszkw.medium.com/is-mlops-built-upon-a-lie-8282948b41ae未来智能实验室的主要工作包括建立AI智能系统智商评测体系开展世界人工智能智商评测开展互联网城市大脑研究计划构建互联网城市大脑技术和企业图谱为提升企业行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。 如果您对实验室的研究感兴趣欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”