专业网站制作公司名称,winscp怎么做网站,WordPress ftp 媒体库子目录,仿各个网站的问题全文共1144字#xff0c;预计学习时长2分钟机器学习的研究与实现离不开大数据。知晓通用的开源数据集#xff0c;一方面可以验证自己算法#xff0c;另一方面也可以与其他算法进行比较。本文介绍了计算机视觉、自然语言处理和语音识别三大领域的十个开源数据集以供你参考预计学习时长2分钟机器学习的研究与实现离不开大数据。知晓通用的开源数据集一方面可以验证自己算法另一方面也可以与其他算法进行比较。本文介绍了计算机视觉、自然语言处理和语音识别三大领域的十个开源数据集以供你参考绝对值得收藏计算机视觉MNISTMNIST 数据集来自美国国家标准与技术研究所National Institute of Standards and Technology (NIST)。训练集 (training set) 由来自250个不同人手写的数字构成其中 50% 是高中学生50% 来自人口普查局 (the Census Bureau) 的工作人员。测试集(test set) 也是同样比例的手写数字数据。链接http://pjreddie.com/projects/mnist-in-csv/CIFAR 10CIFAR-10数据集由10个类的60000个32x32彩色图像组成每个类有6000个图像。有50000个训练图像和10000个测试图像。数据集分为五个训练批次和一个测试批次每个批次有10000个图像。测试批次包含来自每个类别的恰好1000个随机选择的图像。训练批次以随机顺序包含剩余图像但一些训练批次可能包含来自一个类别的图像比另一个更多。总体来说五个训练集之和包含来自每个类的5000张图像。链接https://www.cs.toronto.edu/~kriz/cifar.htmlImageNet图像处理界最有名的图像数据集之一一般情况下只用子数据集就可以。ImageNet数据集是为了促进计算机图像识别技术的发展而设立的一个大型图像数据集。其图片数量最多分辨率最高含有的类别更多有上千个图像类别。每年ImageNet的项目组织都会举办一场ImageNet大规模视觉识别竞赛从而会诞生许多图像识别模型。链接http://image-net.org/Visual Genome非常详细的视觉知识库并带有100K图像的深字幕。相较于ImageNet数据集这个数据集每张图片所包含的信息更加丰富将对象、属性之间的关系做注解是这套数据集的核心。Visual Genome数据集采用了微软COCO的图片库用极丰富的细节对这十万张图片做了注解。链接http://visualgenome.org/NLPWikiTextWikiText 英语词库数据The WikiText Long Term Dependency Language Modeling Dataset是一个包含1亿个词汇的英文词库数据这些词汇是从Wikipedia的优质文章和标杆文章中提取得到包括WikiText-2和WikiText-103两个版本相比于著名的 Penn Treebank (PTB) 词库中的词汇数量前者是其2倍后者是其110倍。每个词汇还同时保留产生该词汇的原始文章这尤其适合当需要长时依赖(longterm dependency)自然语言建模的场景。链接http://metamind.io/research/the-wikitext-long-term-dependency-language-modeling-dataset/SQuADSQuAD 是斯坦福大学于2016年推出的数据集一个阅读理解数据集给定一篇文章准备相应问题需要算法给出问题的答案。此数据集所有文章选自维基百科数据集的量为当今其他数据集(例如WikiQA)的几十倍之多。一共有107,785问题以及配套的 536 篇文章。链接https://rajpurkar.github.io/SQuAD-explorer/UCI’s Spambase来自UCI的经典垃圾电子邮件数据集。这是一个大型垃圾邮件数据集用于垃圾邮件过滤。链接https://archive.ics.uci.edu/ml/datasets/Spambase语音LibriSpeech该数据集是包含大约1000小时的英语语音的大型语料库。这些数据来自LibriVox项目的有声读物。它已被分割并正确对齐如果你正在寻找一个起点请查看已准备好的声学模型这些模型在http://kaldi-asr.org和语言模型上进行了训练适合评估。链接http://www.openslr.org/12/2000 HUB5 English只包含英语的语音数据。最近一次被使用是百度的深度语音论文。链接https://catalog.ldc.upenn.edu/LDC2002T43VoxForge带口音英语的清晰语音数据集。如果你需要有强大的不同口音、语调识别能力会比较有用可以提高系统的鲁棒性。链接http://www.voxforge.org/