合肥网页模板建站,网页游戏代理平台,网站制作中企动力公司,优惠活动推广文案摘要#xff1a; 为什么要用Kubernetes去难为数据科学家呢#xff1f;
2018年7月#xff0c;阿里云将深度学习工具Arena贡献给了开源社区#xff0c;数据科学家无需学习底层IT资源使用#xff0c;即可在云端运行深度学习#xff0c;一分钟内启动深度学习任务#xff0c…摘要 为什么要用Kubernetes去难为数据科学家呢
2018年7月阿里云将深度学习工具Arena贡献给了开源社区数据科学家无需学习底层IT资源使用即可在云端运行深度学习一分钟内启动深度学习任务十五分钟内创建异构计算集群。
为什么要有Arena这样的工具
现在Kubernetres社区最流行的深度学习解决方案是KubeFlowArena是不是又重新造了个轮子KubeFlow是基于Kubernetes构建的可组合便携式, 可扩展的机器学习技术栈支持实现从JupyterHub模型开发TFJob模型训练到TF-servingSeldon预测端到端的解决方案。但是KubeFlow需要用户精通Kubernetes比如写一个TFJob的部署yaml文件这对于机器学习平台最主要的使用者---数据科学家来说是非常有挑战的事情。
这与数据科学家的期望还有比较大的差距数据科学家关心的是三件事
数据从哪里来如何运行机器学习的代码训练结果模型和日志如何查看
数据科学家编写一些简单的脚本在桌面机上运行机器学习代码这是他们熟悉和喜欢的工作方式。但是利用桌面机进行模型训练又会遇到由于硬盘空间有限导致处理数据量不足无法使用分布式训练导致计算力受限等问题。
为此我们开发了Arena用一个命令行工具屏蔽所有底层资源、环境管理、任务调度和GPU调度分配的复杂性它帮助数据科学家以一种简单熟悉的方式提交训练任务并且检查训练进展。数据科学家在调用Arena的时候可以指定数据来源代码下载和是否使用TensorBoard查看训练效果。
Arena有怎样的作用
Arena目前支持单机训练和PS-Worker模式的分布式训练其后端实现依赖于KubeFlow提供的TFJob很快也会扩展到MPIJobPytorchJob。 同时也支持实时训练的运维包括 • 利用top命令监控GPU资源的分配和调度 • 支持CPUGPU的资源监控 • 训练日志的实时查询
未来我们希望能够通过Arena实现深度学习生产流水线 - 集成训练数据管理实验任务管理模型开发持续训练、评估上线预测全流程。
Arena的目标就是让数据科学家简单的释放KubeFlow的洪荒之力像桌面机上训练一样简单同时又拥有了集群级别调度和管理的掌控性。为了能够更好的在社区内共享和合作我们已经在github上开源了自己的代码https://github.com/AliyunContainerService/arena欢迎大家了解和使用如果您觉得不错请给我们点赞。如果您希望贡献代码我们非常欢迎。
Arena背后的故事阿里云容器深度学习解决方案
开源工具Arena脱胎于阿里云深度学习解决方案 该方案已经支持多种深度学习框架如Tensorflow、Caffe、Hovorod、Pytorch等从始至终地支撑深度学习的整条生产流水线集成训练数据管理、实验任务管理、模型开发、持续训练及评估、上线预测等环节。
该方案深度整合阿里云资源与服务高效使用CPU、GPU等异构资源统一容器化编排管控并提供多维度监控告警和运维平台。
写在最后
“深度学习为人工智能带来变革式的蓬勃发展然而对计算和数据资源的依赖也急剧增加。” 阿里云相关技术负责人张凯表示“基于容器和异构计算技术阿里云为大规模训练提供端到端的支持不断打磨使用更简单、功能更强大的深度学习解决方案。”
更多阿里云上深度学习分享可以移步https://yq.aliyun.com/teams/11/type_blog-cid_211-page_1 如《Kubeflow实战系列-五篇》、《打造深度学习的云端实验室-三篇》、《TensorFlow的实验-六篇》
产品详情请移步https://cn.aliyun.com/solution/devops/deeplearning
近期直播回放页面https://yq.aliyun.com/webinar/play/487 相关产品详情页面https://promotion.aliyun.com/ntms/act/blockchainshow.html
原文链接
本文为云栖社区原创内容未经允许不得转载。