缔烨建设公司网站,深圳集团网站建设公司,sem投放是什么意思,盐城网站建设制作词袋模型#xff08;Bag of Words, BoW#xff09;和N-gram模型主要用于早期的自然语言处理任务#xff0c;上文中我介绍了机器是如何读懂文本的四个阶段#xff0c;这篇文章带大家来看看在不同阶段中会用到的两个模型——词袋模型和N-gram模型。如果没有读过我之前的文章Bag of Words, BoW和N-gram模型主要用于早期的自然语言处理任务上文中我介绍了机器是如何读懂文本的四个阶段这篇文章带大家来看看在不同阶段中会用到的两个模型——词袋模型和N-gram模型。如果没有读过我之前的文章可以先去看看哦
【机器学习300问】57、机器是如何读得懂文本数据的呢http://t.csdnimg.cn/QJPqB
一、词袋模型 最基本的文本表示模型就是词袋模型这个模型把一段文本看作一个装满了单词的袋子袋子中不考虑单词出现的顺序和语法结构只关注每个单词出现的频率或是否出现。 1具体步骤 具体来说就是将整段文本以单词为最小单位切分开一整篇文章可以表示成一个长向量向量中的每个维度代表一个单词而该维度的值则反映了这个词在原文中的重要程度也就是词频。步骤如下
分词Tokenization将文本分割成单个的单词或术语。词频统计Term Frequency计算每个词在文本中出现的次数形成词频直方图。特征选择与加权可以选择仅保留最常见的词汇停用词过滤并对某些重要性较高的词给予更高的权重常见的加权方法有TF-IDFTerm Frequency-Inverse Document Frequency。向量化Vectorization将文本转化为向量形式每个维度对应一个词汇值代表该词汇在文档中的统计值例如词频、TF-IDF值等。
【注】术语Terminology是在某一特定学科领域或专业背景下使用的、具有特殊意义的词汇或短语。比如在医学领域“白细胞”是对一类特定血细胞的术语在法律领域“合同法”是一个法律术语在数学领域“正弦”和“余弦”是数学术语。
2TF-IDF值 TF-IDF值是用来计算这个词在原文中的重要程度的权重。TF-IDF公式由两部分组成公式如下
① 词频TF TF(t,d) 特定词条t在文档d中出现的次数 / 文档d中词条总数
② 逆文档频率IDF 其中df(t)是包含单词t的文章总数n是文章总数。加1是为了避免分母为0即避免在所有文档中都没有出现过的词带来的问题。
③ TF-IDF权重 直观的解释是如果一个单词在非常多的文章中都出现过那么它可能是一个比较通用的词汇对于区分某篇文章特殊语义的贡献较小因此对权重做一定惩罚。在计算时每个词条的TF-IDF值都会被计算出来然后可以用于表示文档d在词条t上的重要性。越高的TF-IDF值表示词条在文档中越重要。
二、N-gram模型
1词袋模型的局限性 将文章仅仅划分成单词级别有时存在局限性比如“look up”代表查阅的意思但如果拆成2个独立的单词就会丧失原有的含义。词袋模型的局限性忽视单词之间的语法关系和语义搭配、忽视上下文信息、丢失情感色彩和语气等等问题。 于是聪明的人们想到了可以将连续的n个单词nN组成词组N-gram也当做一个独立的特征放到向量中去构成N-gram模型。另外同一个词可能会有词性变化却拥有相似的含义。在实际应用中一般会对单词进行词干抽取处理将不同词性的单词统一成同一个词干的形式。
2N-gram模型的定义 在一个文本序列中一个N-gram是由连续N个项组成的序列。如果N1那么就是Unigram一元模型包含单独的词或字符如果N2就是Bigram二元模型包含相邻的两个词或字符对N3时是Trigram三元模型以此类推。 N-gram模型通过计算词语或字符序列在给定上下文中的联合概率来捕捉文本数据中的语言规律。N-gram模型的核心概念是依据马尔可夫假设即一个词出现的概率仅依赖于它前面有限个数N的词。