编程入门自学网站,吉林市网站推广,百度24小时人工电话,WordPress自带的博客写在前面#xff1a;最近在参与microsoft/ML-For-Beginners的翻译活动#xff0c;欢迎有兴趣的朋友加入#xff08;https://github.com/microsoft/ML-For-Beginners/issues/71#xff09;机器学习技术构建、使用和维护机器学习模型及其使用的数据的过程与许多其他开发工作流… 写在前面最近在参与microsoft/ML-For-Beginners的翻译活动欢迎有兴趣的朋友加入https://github.com/microsoft/ML-For-Beginners/issues/71机器学习技术构建、使用和维护机器学习模型及其使用的数据的过程与许多其他开发工作流程截然不同。在本课中我们将揭开该过程的神秘面纱并概述您需要了解的主要技术。您会在高层次上理解支持机器学习的过程。探索基本概念例如“模型”、“预测”和“训练数据”。课前测验[1]介绍在较高的层次上创建机器学习ML过程的工艺包括许多步骤决定问题。大多数机器学习过程都是从提出一个简单的条件程序或基于规则的引擎无法回答的问题开始的。这些问题通常围绕基于数据集合的预测展开。收集和准备数据。为了能够回答您的问题您需要数据。数据的质量有时是数量将决定您回答最初问题的能力。可视化数据是这个阶段的一个重要方面。此阶段还包括将数据拆分为训练和测试组以构建模型。选择一种训练方法。根据您的问题和数据的性质您需要选择如何训练模型以最好地反映您的数据并对其进行准确预测。这是您的ML过程的一部分需要特定的专业知识并且通常需要大量的实验。训练模型。使用您的训练数据您将使用各种算法来训练模型以识别数据中的模式。该模型可能会利用可以调整的内部权重来使数据的某些部分优于其他部分从而构建更好的模型。评估模型。您使用收集到的集合中从未见过的数据您的测试数据来查看模型的性能。参数调整。根据模型的性能您可以使用不同的参数或变量重做该过程这些参数或变量控制用于训练模型的算法的行为。预测。使用新输入来测试模型的准确性。要问什么问题计算机特别擅长发现数据中的隐藏模式。此实用程序对于对给定领域有疑问的研究人员非常有帮助这些问题无法通过创建基于条件的规则引擎来轻松回答。例如给定一项精算任务数据科学家可能能够围绕吸烟者与非吸烟者的死亡率构建手工规则。然而当将许多其他变量纳入等式时ML模型可能会更有效地根据过去的健康史预测未来的死亡率。一个更令人愉快的例子可能是根据包括纬度、经度、气候变化、与海洋的接近程度、急流模式等在内的数据对给定位置的4月份进行天气预报。✅ 这个关于天气模型的幻灯片[2]为在天气分析中使用机器学习提供了一个历史视角。预构建任务在开始构建模型之前您需要完成多项任务。要测试您的问题并根据模型的预测形成假设您需要识别和配置多个元素。Data为了能够确定地回答您的问题您需要大量正确类型的数据。此时您需要做两件事收集数据。记住之前关于数据分析公平性的课程小心收集数据。请注意此数据的来源、它可能具有的任何固有偏见并记录其来源。准备数据。数据准备过程有几个步骤。如果数据来自不同的来源您可能需要整理数据并对其进行标准化。您可以通过各种方法提高数据的质量和数量例如将字符串转换为数字就像我们在聚类[3]中所做的那样。您还可以根据原始数据生成新数据正如我们在分类[4]中所做的那样。您可以清理和编辑数据就像我们在 Web App[5]课程之前所做的那样。最后您可能还需要对其进行随机化和打乱具体取决于您的训练技术。✅ 在收集和处理您的数据后花点时间看看它的形状是否能让您解决您的预期问题。正如我们在聚类[6]课程中发现的那样数据可能在您的给定任务中表现不佳选择特征变量特征[7]是数据的可衡量属性。在许多数据集中它表示为列标题如“日期”、“大小”或“颜色”。您的特征变量通常在代码中表示为y代表您试图对数据提出的问题的答案在12月哪种颜色的南瓜最便宜在旧金山哪些街区的房地产价格最好???? 特征选择和特征提取 构建模型时如何知道选择哪个变量您可能会经历一个特征选择或特征提取的过程以便为性能最好的模型选择正确的变量。然而它们不是一回事“特征提取是从基于原始特征的函数中创建新特征而特征选择返回特征的一个子集。”来源[8]可视化数据数据科学家工具包的一个重要方面是能够使用多个优秀的库例如 Seaborn 或 MatPlotLib将数据可视化。直观地表示您的数据可能会让您发现可以利用的隐藏关联。您的可视化还可以帮助您发现偏见或不平衡的数据正如我们在 分类[9]中发现的那样。拆分数据集在训练之前您需要将数据集拆分为两个或多个大小不等但仍能很好地代表数据的部分。训练。这部分数据集适合您的模型进行训练。这个集合构成了原始数据集的大部分。测试。测试数据集是一组独立的数据通常从原始数据中收集用于确认构建模型的性能。验证。验证集是一个较小的独立示例组用于调整模型的超参数或架构以改进模型。根据您的数据大小和您提出的问题您可能不需要构建第三组正如我们在时间序列预测[10]中所述。建立模型使用您的训练数据您的目标是构建模型或数据的统计表示并使用各种算法对其进行训练。训练模型将其暴露给数据并允许它对其发现、验证和接受或拒绝的感知模式做出假设。决定一种训练方法根据您的问题和数据的性质您将选择一种方法来训练它。逐步完成 Scikit-learn的文档[11] - 我们在本课程中使用 - 您可以探索多种训练模型的方法。根据您的经验您可能需要尝试多种不同的方法来构建最佳模型。您可能会经历一个过程在该过程中数据科学家通过提供未见过的数据来评估模型的性能检查准确性、偏差和其他降低质量的问题并为手头的任务选择最合适的训练方法。训练模型有了您的训练数据您就可以“拟合”它以创建模型。您会注意到在许多ML库中您会找到代码model.fit——此时您将数据作为值数组通常为X和特征变量通常为y发送。评估模型训练过程完成后训练大型模型可能需要多次迭代或“时期”您将能够通过使用测试数据来衡量模型的性能来评估模型的质量。此数据是模型先前未分析的原始数据的子集。您可以打印出有关模型质量的指标表。???? **模型拟合 **在机器学习的背景下模型拟合是指模型在尝试分析不熟悉的数据时其底层功能的准确性。???? 欠拟合和过拟合是降低模型质量的常见问题因为模型拟合得不够好或太好。这会导致模型做出与其训练数据过于紧密对齐或过于松散对齐的预测。过拟合模型对训练数据的预测太好因为它已经很好地了解了数据的细节和噪声。欠拟合模型并不准确因为它既不能准确分析其训练数据也不能准确分析尚未“看到”的数据。作者Jen Looper[12]参数调优初始训练完成后观察模型的质量并考虑通过调整其“超参数”来改进它。在此文档中[13]阅读有关该过程的更多信息。预测这是您可以使用全新数据来测试模型准确性的时刻。在“应用”ML设置中您正在构建Web资源以在生产中使用模型此过程可能涉及收集用户输入例如按下按钮以设置变量并将其发送到模型进行推理或者评估。在这些课程中您将了解如何使用这些步骤来准备、构建、测试、评估和预测—所有这些都是数据科学家的姿态而且随着您在成为一名“全栈”ML工程师的旅程中取得进展您将了解更多。????挑战画一个流程图反映ML的步骤。在这个过程中您认为自己现在在哪里您预测您在哪里会遇到困难什么对您来说很容易阅读后测验[14]复习与自学在线搜索对讨论日常工作的数据科学家的采访。这是其中之一[15]。任务采访一名数据科学家[16]欢迎关注我的个人公众号”My IO“参考[1]课前测验: https://jolly-sea-0a877260f.azurestaticapps.net/quiz/7/[2]幻灯片: https://www2.cisl.ucar.edu/sites/default/files/0900%20June%2024%20Haupt_0.pdf[3]聚类: ../../5-Clustering/1-Visualize/README.md[4]分类: ../../4-Classification/1-Introduction/README.md[5]Web App: ../3-Web-App/README.md[6]聚类: ../../5-Clustering/1-Visualize/README.md[7]特征: https://www.datasciencecentral.com/profiles/blogs/an-introduction-to-variable-and-feature-selection[8]来源: https://wikipedia.org/wiki/Feature_selection[9]分类: ../../4-Classification/2-Classifiers-1/README.md[10]时间序列预测: ../7-TimeSeries/1-Introduction/README.md[11]Scikit-learn的文档: https://scikit-learn.org/stable/user_guide.html[12]Jen Looper: https://twitter.com/jenlooper[13]在此文档中: https://docs.microsoft.com/en-us/azure/machine-learning/how-to-tune-hyperparameters?WT.mc_idacademic-15963-cxa[14]阅读后测验: https://jolly-sea-0a877260f.azurestaticapps.net/quiz/8/[15]其中之一: https://www.youtube.com/watch?vZ3IjgbbCEfs[16]采访一名数据科学家: assignment.md