深圳网站建设效果,心理咨询网站php后台一般需要哪些模块,兰州网架公司,高毅资产网站谁做的数据集与语料
语料是NLP的生命之源#xff0c;所有NLP问题都是从语料中学到数据分布的规律语料的分类#xff1a;单语料#xff0c;平行语料#xff0c;复杂结构 语料的例子#xff1a;Penn Treebank, Daily Dialog, WMT-1x翻译数据集#xff0c;中文闲聊数据集#xf…数据集与语料
语料是NLP的生命之源所有NLP问题都是从语料中学到数据分布的规律语料的分类单语料平行语料复杂结构 语料的例子Penn Treebank, Daily Dialog, WMT-1x翻译数据集中文闲聊数据集中国古诗数据集语料来源公开数据集爬虫社交工具埋点数据库上述数据集如何获取这里 (吐槽一下B站的这个视频讲得很一般浪费好几个小时时间收获甚微作为科普快速拉一下可以)
句子理解
用计算机处理一个句子主要包含以下几个方面分词、词性识别、命名实体识别、依存句法分析
分词
分词与NLP的关系 分词是中文语言特有的需求是中文NLP的基础没有中文分词我们对于语言很难量化进而很难运用数学的知识去解决问题。而对于拉丁语系是不需要分词的因为它们有空格天然的隔开 中分分词Chinese Word Segmentation指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。分词操作的输入是句子输出是词序列如 关于分词可参阅B站上一个视频动手学中文分词这个视频还不错理论部分讲得不是很细但代码部分很细通过debug帮助理解算法该系列课程讲解了三种分词算法及其实现、中文分词工具Jieba分词的用法最后实现了一个简单的在线分词工具内嵌了自研的三种算法以及调用Jieba分词工具原视频给的百度链接无效我跟做的Flask项目online_fenci资源链接百度网盘 提取码ci07 。由于缺少原视频中css, js等样式文件所有页面画风有点。。。丑只能将就看。
词性识别
词性识别的输入是一个句子输出是识别出的词性例如对于特朗普昨天在推特上攻击拜登这句话在对其进行分词后紧接着做词性识别得出与词序列一一对应的词性序列如特朗普-名词人名nh, 昨天-名词时间(nt)在-介词p
命名实体识别
依存句法分析 预处理
tokenize把词向量化例如把一个词“apple”向量化成一个长度512的向量以便用计算机能够处理的方式进行计算处理命名实体识别把词中的实体找出来 一些预处理工具 预处理的工具包括NLTK官网地址基本的英文操作都支持SnowNLPhttps://github.com/isnowfy/snowlp中文NLP处理工具可以进行一些基本操作如情感分析积极or消极简繁转换分词标注计算指标等Pyrouge测评文本摘要好坏LTP: https://ltp.ai/, https://github.com/HIT-SCIR.ltp, 哈工大做的开源工具Gensim: 实现Tf-ldf, LSA, LDA, Word2vec等技能TF-IDF统计词频词的文档频率制作词云
词向量模型——word2vec
词向量的通俗理解如果用CBOW和Skip-gram模型训练词向量参阅这里 两种构建词向量的模式CBOW模型与Skip-gram模型
Skip-gram模型
Skip-gram模型构建训练数据的方法如图对于Thou shalt not make a machine in the likeness of a human mind这句话用一个长度为5一般为奇数的滑窗在句中扫过将input_word前2个词与后2个词作为output_word或者叫target_word构建出的数据集如下所示。