当前位置: 首页 > news >正文

制作网站参考案例php企业网站

制作网站参考案例,php企业网站,做阿里云网站的公司,南阳在线网站制作这是机器学习入门系列#xff08;2#xff09;–如何构建一个完整的机器学习项目的第二篇 上一篇机器学习入门系列(2)–如何构建一个完整的机器学习项目(一)介绍了开始一个机器学习项目需要明确的问题#xff0c;比如当前任务属于有监督还是无监督学习问题#xff0c;然后…这是机器学习入门系列2–如何构建一个完整的机器学习项目的第二篇 上一篇机器学习入门系列(2)–如何构建一个完整的机器学习项目(一)介绍了开始一个机器学习项目需要明确的问题比如当前任务属于有监督还是无监督学习问题然后性能指标需要选择什么常用的分类和回归损失函数有哪些以及实际开发中需要明确系统的输入输出接口问题。 第二篇会介绍下如何获取数据集和构建测试集的方法。前者对于机器学习来说数据集的好坏对模型性能有很大的影响。而后者主要是避免两个偏差–数据透视偏差和采样偏差。 2. 获取数据 2.1 常用数据集 在我们学习机器学习的时候最好使用真实数据即符合真实场景的数据集而不是人工数据集采用这种人工数据集在实际应用中会让系统表现很糟糕因为人工数据集一般都和真实场景下的数据有较大的差异。幸运的是现在有非常多的开源数据集并且涵盖了多个领域这里介绍几个常用的可以查找数据集的网站以及一些在计算机视觉常用的图像数据集 Kaggle 数据集:每个数据集都是一个小型社区用户可以在其中讨论数据、查找公共代码或在内核中创建自己的项目。包含各式各样的真实数据集。Amazon 数据集该数据源包含多个不同领域的数据集如公共交通、生态资源、卫星图像等。网页中也有一个搜索框来帮助用户寻找想要的数据集还有所有数据集的描述和使用示例这些数据集信息丰富且易于使用UCI机器学习资源库来自加州大学信息与计算机科学学院的大型资源库包含100多个数据集。用户可以找到单变量和多变量时间序列数据集分类、回归或推荐系统的数据集。谷歌数据集搜索引擎这是一个可以按名称搜索数据集的工具箱。微软数据集2018年7月微软与外部研究社区共同宣布推出“Microsoft Research Open Data”。它在云中包含一个数据存储库用于促进全球研究社区之间的协作。它提供了一系列用于已发表研究的、经过处理的数据集。Awesome Public Datasets CollectionGithub 上的一个按“主题”组织的数据集比如生物学、经济学、教育学等。大多数数据集都是免费的但是在使用任何数据集之前用户需要检查一下许可要求。计算机视觉数据集Visual Data包含一些可以用来构建计算机视觉(CV)模型的大型数据集。用户可以通过特定的CV主题查找特定的数据集如语义分割、图像标题、图像生成甚至可以通过解决方案(自动驾驶汽车数据集)查找特定的数据集。 常用的部分图像数据集 Mnist: 手写数字数据集包含 60000 张训练集和 10000 张测试集。但该数据集通常只是作为简单 demo 使用如果要验证算法模型的性能最好在更大数据集上进行测试实验结果才有足够的可信度Cifar分为 Cifar10 和 Cifar100。前者包含 60000 张图片总共10个类别每类 6000 张图片。后者是 100 个类别每个类别 600 张图片。类别包括猫狗鸟等动物、飞机汽车船等交通工具。Imagenet应该是目前最大的开源图像数据集包含 1500 万张图片2.2 万个类别。LFW人脸数据集包含13000张图片和1680个不同的人。CelebA人脸数据集包含大约 20w 张图片总共 10177个不同的人以及每张图片都有 5 个位置标注点40 个属性信息 2.2 准备开发环境 在找到数据集并下载后我们就需要开始准备开发环境也就是需要采用的编程语言和相应的框架。 现在机器学习一般都是采用 Python 语言因为它简单易学对程序员非常友好而且也有相应很多应用于机器学习和深度学习方面的框架比如 scikit-learnopencv深度学习方面的TensorFlow, Pytorch, Keras等。 而为了方便可视化数据查看代码运行效果通常会选择采用 Jupyter 这个模块。其他必要的 Python 模块有 Numpy一个运行速度非常快的数学库主要用于数组计算支持大量的维度数据和矩阵运算Pandas快速处理数据和分析数据Matplotlib: 绘图可视化数据 此外python 比较不友好的问题就是 2.7 版本和 3. 版本的不兼容问题所以我们需要有一个包管理工具可以单独配置不同的开发环境这里推荐使用的是 Anaconda。 这些模块的安装网上都有非常多详细的教程这里就不花时间介绍了。 2.3 创建测试集 在下载数据后首先要做的是创建测试集这是在分析数据前先排除测试集的数据不会引入测试数据的规律从而影响算法的选择保证采用测试集进行测试的结果是客观可信的而不会出现数据透视偏差的问题。 数据透视偏差即由于选择模型时候参考了测试集的规律导致在测试集上准确率很好但实际应用的时候系统表现很糟糕的情况。 一般我们会按照 8:2 的比例划分训练集和测试集可以采用如下代码随机划分出测试集 import numpy as npdef split_train_test(data, test_ratio):shuffled_indices np.random.permutation(len(data))test_set_size int(len(data) * test_ratio)test_indices shuffled_indices[:test_set_size]train_indices shuffled_indices[test_set_size:]return data.iloc[train_indices], data.iloc[test_indices]train_set, test_set split_train_test(housing, 0.2)当然这个方法存在一个缺陷每次运行会得到不同的测试集 解决的办法有以下几种 第一次运行该函数后就保存测试集随后载入测试集调用函数np.random.permutation()前设置随机数生成器的种子比如np.random.seed(42)以产生相同的洗牌指数(shuffled indices).上述两个方法对于数据集不变的情况是有效的但更新数据集后都会失效。第三个解决方法就是根据每个实例的 ID来判断其是否应该放入测试集比如对于图片数据集就可以根据图片的名字保证更新训练集不会更新图片名字来确定其属于训练集还是测试集。 划分数据集也可以采用Scikit-Learn库的一些函数最简单也是最常用的就是 train_test_split函数它和上述split_train_test函数作用相似但增加了更多的功能 random_state参数可以实现设置随机生成器种子的作用可以将种子传递给多个行数相同的数据集可以在相同的索引上分割数据集。 简单使用例子如下 from sklearn.model_selection import train_test_splittrain_set, test_set train_test_split(housing, test_size0.2, random_state42)这里需要注意的是我们采用的都是随机采样方法对于大数据集这方法通常可行。 但对于不大的数据集这会出现采样偏差的风险。简单说就是样本代表性不够可能随机选择的都是同种类型的数据。 比如当一个调查公司想要对 1000 个人进行调查需要保证这 1000 个人对人群整体有代表性例如美国人口有 51.3% 是女性48.7% 是男性。那么在美国做这个调查就需要保证样本也是这个比例即选择 513 名女性487 名男性。 这种采样称为分层采样将人群分层均匀的子分组称为分层从每个分层去取合适数量的实例以保证测试集对总人数有代表性。 所以上述调查公司的例子就是先将人群按照性别划分两个子分组然后分别再按照如年龄、职业等标准继续划分子分组。 分层采样的操作可以使用Scikit-Learn的StratifiedShuffleSplit函数指定数据中指定的类别代码例子如下 from sklearn.model_selection import StratifiedShuffleSplitsplit StratifiedShuffleSplit(n_splits1, test_size0.2, random_state42) for train_index, test_index in split.split(housing, housing[income_cat]):strat_train_set housing.loc[train_index]strat_test_set housing.loc[test_index]这里是给定一个房子信息数据housing然后指定收入分类housing[income_cat]保证采样的数据集中包含根据收入分类的比例。 小结 第二篇先介绍了几个寻找数据集的网站和计算机视觉常用的图像数据集然后介绍如何划分测试集避免数据透视偏差和采样偏差的问题。 参考 《hands-on-ml-with-sklearn-and-tf》第二节https://towardsdatascience.com/top-sources-for-machine-learning-datasets-bb6d0dc3378b 欢迎关注我的微信公众号–机器学习与计算机视觉或者扫描下方的二维码大家一起交流学习和进步 往期精彩推荐 学习笔记 机器学习入门系列1–机器学习概览[GAN学习系列] 初识GAN[GAN学习系列2] GAN的起源[GAN学习系列3]采用深度学习和 TensorFlow 实现图片修复(上 数学学习笔记 程序员的数学笔记1–进制转换程序员的数学笔记2–余数程序员的数学笔记3–迭代法 Github项目 资源教程推荐 [Github 项目推荐] 一个更好阅读和查找论文的网站[资源分享] TensorFlow 官方中文版教程来了必读的AI和深度学习博客[教程]一份简单易懂的 TensorFlow 教程[资源]推荐一些Python书籍和教程入门和进阶的都有
http://www.zqtcl.cn/news/897638/

相关文章:

  • 商务网站建设网站开发一个软件开发的流程
  • 网站建设电脑和手机有区别吗公众号登录微信入口
  • 天津市建设监理协会网站三亚网络网站建设
  • 义乌进货网平台北京网优化seo优化公司
  • 在网站上放广告网站建设流程效果
  • 腾讯云学生机做网站济南网站改版
  • 开封市做网站的公司wordpress无法映射
  • 网站构建工具wordpress 主题授权
  • 大型网站开发 赚钱宁夏网站建设优化
  • 通过ip访问网站需要怎么做博客的网站页面设计
  • 高明做网站软件开发工程师是前端还是后端
  • 利用html5 监控网站性能如何能快速搜到新做网站链接
  • 做网站需要看那几点seo是什么职业岗位
  • 做游戏网站需要哪些许可100个免费推广网站下载
  • 网站管理系统是什么马鞍山网站建设制作公司
  • 设计学网站网络工程专业毕业生设计
  • 成都网站建设有名的国外优质设计网站
  • seo基础培训教程seo百度关键词优化软件
  • 西安响应式网站青岛网站制作哪里有
  • 政务服务网站建设合肥seo排名扣费
  • 郑州做网站的大公司无锡网站程序
  • 打开网站是空白页面营销型网站建设应该考虑哪些因素
  • 做网站开麻烦吗个人网站备案网站名称
  • 瑞诺国际做外贸网站好吗网站端和移动端分开建设域名一样么
  • 如何网站点击率网站程序开发技术
  • 深圳网站建设售后服务怎样.net网站开发简介
  • 光谷软件园 网站建设中国国家数据统计网
  • wordpress 主页位置seo是什么意思教程
  • 网站开发甘特图网站是别人做的域名自己怎么续费
  • 如何查询网站是否备案江苏省句容建设局网站