登录河北建设厅网站进入不了,从零开始网页制作教程,做微商必会的软件网站,比邻店网站开发Spark是目前相当火热的开源计算框架#xff0c;相对于Hadoop#xff0c;Spark优势是高性能和易用性。Spark的高性能源于其采用内存储存数据#xff0c;应用可以以内存的速度进行运算#xff1b;Spark的易用性在于通用的API#xff0c;用户可以编写复杂的并行计算程序…Spark是目前相当火热的开源计算框架相对于HadoopSpark优势是高性能和易用性。Spark的高性能源于其采用内存储存数据应用可以以内存的速度进行运算Spark的易用性在于通用的API用户可以编写复杂的并行计算程序使之看上去就像串行程序。这也使得Spark程序更容易开发和读懂。由于其高性能Spark已成为机器学习的重要工具。日前IBM宣布加入Spark社区并与Spark的核心贡献公司Databricks合作。那么IBM将如何与社区进行合作其自身又在Spark、大数据及机器学习领域有哪些计划InfoQ受邀与IBM进行交流并对以上问题进行了解读。\\IBM对社区的贡献和对未来的规划\\IBM大中华区大数据与分析事业部总经理钟泽敏表示在美国的旧金山研究室有一个Spark的技术中心有超过200位的技术人员在Spark技术中心里工作。技术中心主要的功能是把Spark的技术应用在一些企业级应用场景中这解决了开源的另一个问题。Databricks CEO Ion Stoica表示考虑到IBM在Spark研发方面的投入非常期待IBM成为Spark的核心贡献者。\\IBM大中华区大数据与分析事业部数据平台方案总经理刘胜利认为IBM在全球的研发分为两大类第一类叫Reserch第二类是Develop这两类的工作性质还是非常不同的。Reserch就是研究他们专注研究先进的、超前的技术的前期的研发。而SystemML是IBM研发了超过十年的机器学习技术。沃森Watson在几年前的大型活动里整合了很多SystemML机器学习的功能。\\他表示IBM与Databricks合作是希望把SystemML的功能输送给Spark让Spark具有更强大的机器学习能力让数据科学家专注于算法而不是一些简单的、细节的技术本身。\\Databricks计划开发一个机器学习框架MLbase这与IBM的SystemML是什么关系双方的合作如何互补呢IBM大中华区软件架构师总监、IBM技术科学院委员林旭光认为SystemML其实并不是提供算法它其实是提供一个定义的机制可以让Data Center定义自己的算法。刘胜利表示SPSS提供了很多和ML Lab相似的算法并且比后者算法更多。“我们看到ML Lab的算法有局限性。”举个例子一个专卖店会收集一些他的客户办的卡这个卡会记录客户到他那买过什么样的东西。那么下一步专卖店对客户进行促销首先要对客户进行分群但是算法本身并不能解决分群的问题。还有很多行业的知识比如对用户画像和智能推荐等。IBM可能在这方面有更强的东西算法本身是标准化的。比如说你要分群客户是用二叉树算法、神经元网络算法还是哪个算法这在实际操作中是有一些经验可循的。\\那么IBM会以什么样的方式与节奏节奏拿出多少”干货”与社区共享自己在机器学习等方面的技术呢IBM大中华区大数据分析平台销售总监洪建勋表示“我们做了一件很关键的事情如何把从企业级市场得到的客户需求跟最新的技术有效的衔接起来这点是IBM一直致力于在做的很重要的事情。同时新技术很多可能出现孤岛我们能够让新的技术为企业真正融合把这些所谓的单点和孤岛全部连接起来打通把原来可能存在的问题尽可能地减少。”\\毫无疑问IBM对企业应用的理解是众多互联网公司无法比拟的这种经验和理解是否能成为指导社区发展的力量呢洪建勋认为以Hadoop发展那么多年的经验看Hadoop社区尽管规模很大但是新的组件一直在涌现。重点技术一直有变化而IBM这种企业级IT厂商有很多新的经验。“这也是成立ODP的价值你可以在ODP中看到很多老的IT公司为开放平台贡献自己的思想为企业级客户服务。”\\IBM培养Spark技术人才\\钟泽敏透露IBM已经开办免费的课程预计在第三季度就会更新第二批免费的课程。与Databricks、AMPlab合作培养数据科学家。\\此外IBM去年宣布投资1亿美金在中国推动”U100”计划后来又推出了”A100“百企大数据计划跟国内商学院一起培养学生。该项目由香港中文大学、对外经贸大学、西南交大联合发起集合约50所商学院IBM到学校里实地去帮老师和学生做数据挖掘、数据清洗。其中用到的工具、解决方案都由IBM提供。这个价值对于商学院从老师到教育体系的改革再到人才培养都非常重要。事实上已有很多项目已经出了成果这些研究项目都是非常有实际意义的。目前IBM在大数据的投入已经超过250亿美元。\\为什么是Open Data Platform\\Open Data Platform是众多IT巨头企业联合成立的开放数据平台。刘胜利表示对于大部分企业用户开源了并不是意味着大家可以直接用。“我们希望大家在使用Hadoop的时候不再局限于有限的厂商”所以在开源之上又推出了开放数据平台。希望在选择开放数据平台里这些核心部件的时候大家选用公共的、统一的这些代码。那么使用这样一个开放的数据平台就不再受限于某一家的开源代码既利用了开源的好处同时又让企业用户不再被厂家束缚。\\钟泽敏表示IBM还是注重在企业级应用。包括SQL、R语言以及数据分析都是IBM的优势。刘胜利认为IBM做分析挖掘的语言以及SQL关系型数据库已有30多年的历史有大量的优化技术。另外SPSS的许多预测分析产品的算法也可以和Spark结合因为SPSS使Spark上可以处理的数据量、处理的速度、处理的能力都得到了极大的提升。特别是SPSS最大的研发实验室在中国有一大堆数学科学家在研究算法。\\林旭光补充道有些客户反馈说用了一些厂家的开源组件之后没办法迁移到别的平台上去虽然产品也是开源的。这是因为这些开源产品只有几家公司或很小的群体在支持。基于此做Open Data Platform一个很重要的目标就是IBM用的只是开源的组件并且都是可迁移的。\\未来IBM会陆续推出Spark系列产品包括Watson Analytics、DataWorks、PuerData一体机以及一些方案和正在孵化的项目。\\感谢魏星对本文的审校。\\给InfoQ中文站投稿或者参与内容翻译工作请邮件至editorscn.infoq.com。也欢迎大家通过新浪微博InfoQ丁晓昀微信微信号InfoQChina关注我们并与我们的编辑和其他读者朋友交流欢迎加入InfoQ读者交流群。