当前位置：首页 > news >正文

龙华网络推广公司宁波seo外包方案

news 2025/11/14 16:58:25

龙华网络推广公司,宁波seo外包方案,百度seo快速排名优化,做网站需要专业在概率模型中#xff0c;我们定义排序函数是基于文档与查询之间的相关度、可能性来做的。f(d,q) p(R1|d,q), R ∈{0,1}。概率模型有几个小分类#xff1a; 　　经典概率模型——BM25 　　语言模型Language Model —–Query Likelihood 　　Divergence from rando…　在概率模型中我们定义排序函数是基于文档与查询之间的相关度、可能性来做的。f(d,q) p(R1|d,q), R ∈\in {0,1}。概率模型有几个小分类　　经典概率模型——BM25 　　语言模型Language Model —–Query Likelihood 　　Divergence from randomness—–PL2 　　 1 查询似然算法语言模型的假设是p(R1|q,d)≈p(q|d,R1)p(R=1|q,d)\approx p(q|d,R=1)文档与查询相关的概率约等于在文档相关的前提下用户输入q的概率。 1.1 概率模型的基本概念给定下面这个表格收集了不同用户基于不同query认为文档是否相似。　f(q,d)p(R1|q,d)count(q,d,R1)count(q,d)f(q,d) = p(R=1|q,d)=\dfrac{count(q,d,R=1)}{count(q,d)} 　例如p(R1|q1,d1) 1/2;p(R1|q1,d2)2/2…. 这里的问题是对于不在表格中的查询不在表格中的文档怎么处理 1.2 查询似然算法解决上述问题我们换个角度计算一下上面那个表格中在文档d1相关的前提下用户输入q1的概率是多少。如果概率越高则q1与d1的相关度就越高。　需要提出一个假设用户输入的查询词是基于想象的相关文档。 2 统计语言模型LM 2.1 LM的概念语言模型LM是一个基于单词序列的概率分布。　　p(“Today is Wednesday”) ≈\approx 0.001 　　p(“Today Wednesday is”) ≈\approx 0.0000000000001 　同样的3个词概率相差很大。这说明语言模型是基于上下文的。这个模型也可以理解为生成一个文本的概率。所以又被称为生成模型generating model。这是一种可以生成单词的随机系统。 2.2 LM为什么有效 1 LM量化了自然语言的不确定性。　2 能够解决以下问题　　speech recognition已经看到单词“John” , “feels”,那继续看到的单词更可能是“happy”而不是”habit”。　　text categorization, information retrieval一篇新闻文章中提到三次”baseball”一次”game”这篇文章是新闻的概率。　　information retrieval已知一个用户喜欢体育那他输入”baseball”的概率是多大。 2.3 最简单的语言模型一元模型一元模型在生成文本的时候词与词之间是独立的p(w1,w2...,wn)p(w1)p(w2)...p(wn)p(w_1,w_2...,w_n)=p(w_1)p(w_2)...p(w_n)。这里有n个参数p(w1)p(w_1)、p(w2)p(w_2)…。生成的文本就是简单的从词的概率分布中抽取词汇。例如p(TodayisWend)p(Today)p(is)p(Wend)p("Today is Wend")=p("Today")p("is")p("Wend")。　　我们可以使用Topic1的词分布产生一篇关于Text mining的文章。我们可以使用Topic2的词分布产生一篇关于 Food nurtrition的文章。当然我们也可以用Topic1的词分布产生一篇关于 Food nurtrition的文章但这样的事情概率很低。这是依据词分布生成文章。　接着我们换个角度。如果现在有一篇文档已知文章的词的总量每个词的词频现在推测哪种词模型可能产生这样一篇文档假设文章是由分布中的词汇组装而成的。　p(text)? p(mining)?….. 　一种很直接的想法是用词频/词的总数p(text)10100\dfrac{10}{100}p(mining)5100p(mining)=\dfrac{5}{100}….. 　这种方法被称为极大似然估计(Maximum Likelyhood Estimator ):p(w|θ)p(w|d)c(w,d)|d|p(w|\theta)=p(w|d)=\dfrac{c(w,d)}{|d|} 　对于没有出现在文档中的词p(w|d)0。　　　一元模型的用途。用途表示不同的主题。这里涉及到通用模型集合模型文档模型。用途2做词的关联分析。从语义上来讲哪些词和”computer”最接近第一步我们从包含”computer”的文档中得到每次的极大似然估计概率将概率从大到小排序第二步我们找到这些词中有很多是通用词库的词与”computer”无关我们可以使用通用词库得到通用词库每个词的极大似然估计概率。第三步使用者两个模型得到的词就是与”computer”相关的词。例如我们可以使用通用模型词的概率将第一步得到的概率normalize规则化p(w|computer)p(w|B)\dfrac{p(w|"computer")}{p(w|B)} 3 极大似然函数与一元模型 3.1 基本模型在统计语言模型中我们提出如果用户想要查找的是文档d那用户有多大可能性提出这个特殊的查询　例如文档d”… news of presidential campaign … presidential candidate …” 　p(q“presidentialcampaign”|d)?p(q= “presidential campaign”|d)=? 　　现在我们假设用户以此文档为基准来提出一个查询并且查询该文档。使用一元模型的极大似然思想p(q“presidentialcampaign”|d)p(presidential|d)∗p(campaign|d)c(presidential,d)|d|∗c(campaign,d)|d|p(q= “presidential campaign”|d)=p("presidential "|d)*p("campaign"|d)=\dfrac{c("presidential",d)}{|d|}*\dfrac{c("campaign",d)}{|d|} (一元模型就假设了查询中每个单词的产生是相互独立的) 3.2 升级版模型如果q “presidential campaign update”每个文档中都没有”update”这个词概率p0这个时候就出现问题了。　问题出在如果假设用户查询的词都出在某一个文档(a document)但实际上用户是看过很多文档他查询的词更可能出在于一个文档模型(a document model)。　　从图中可以看出从文档模型产生文档从文档模型产生查询。　这样的模型该怎么计算呢分两个步骤1、计算文档模型(Document Language Model)2、计算每个词在文档模型中概率的乘积。　qw1w2...wnq=w_1w_2...w_n 　p(q|d)p(w1|d)∗p(w2|d)....∗p(wn|d)p(q|d)=p(w_1|d)*p(w_2|d)....*p(w_n|d) 　f(q,d)logp(q|d)∑ni1logp(wi|d)∑W∈Vlogp(w|d)\sum_{i=1}^{n}logp(w_i|d)=\sum_{W\in V}logp(w|d) 　我的问题增强版与简单版本的思想从字面上的区别看从“文档” 变成了“文档语言模型”。我最开始的想法是“文档语言模型”是由很多文档组成的一个文档集但是看老师的ppt又认为不是这么回事。我需要再找资料查明什么是文档语言模型。 3.3 p(w|d)? 对于p(w|d)不同的估计方法会形成不同的不同的排序函数。　第一种估计方法是极大似然估计。pML(w|d)c(w,d)|d|p_{ML}(w|d)=\dfrac{c(w,d)}{|d|} 　对于没有出现在文旦中的词我们需要平滑技术为那些没有出现在文档中的词给一个概率。　一种解决方法是从一个引用语言模型查询出一个概率。这个引用语言模型可以是Collection Language Model. 　最后得到的排序函数是 f(q,d)log(p|d)∑wi∈q,wi∈d[c(wi,q)∗logpseen(wi|d)αdp(wi,C)]nlogαd∑ni1logp(wi|C)f(q,d)=log(p|d)=\sum_{w_i \in q ,w_i \in d}[c(w_i,q)*log\dfrac{p_{seen}(w_i|d)}{\alpha_dp(w_i,C)}]+nlog\alpha_d+\sum_{i=1}^{n}logp(w_i|C) 这是公式是经过变形的为了方便计算得到的。同时这个公式也更像TF-IDF得到的计算公式。 pseen(wi|d)p_{seen}(w_i|d)扮演了类似TF的角色。　p(wi,C)p(w_i,C)在分母上更像是IDF。　αd\alpha_d类似于文档长度因子。它表示究竟想给未见过的单词多大的概率。如果文档本身很长可能给的概率就会小一些如果文档本身很短给的概率就会大一些。　 3.4 平滑方法 pseen(wi|d)?p_{seen}(w_i|d)=? 　αd?\alpha_d=? 　上面的公式留下了两个问题。 3.4.1 线性插入法 Linear Interpolation (Jelinek-Mercer) Smoothing固定系数　结合极大似然算法　p(w|d)(1−λ)c(w,d)|d|\lambdap(w|C)λ∈[0,1]p(w|d)=(1-\lambda)\dfrac{c(w,d)}{|d|}+\lambdap(w|C)，\lambda \in [0,1] 　αdλ\alpha_d=\lambda 　fJM(q,d)∑W∈q,W∈dc(w,q)log[11−λλc(w,d)|d|p(w|C)]f_{JM}(q,d)=\sum_{W \in q,W \in d}c(w,q)log[1+\dfrac{1-\lambda}{\lambda}\dfrac{c(w,d)}{|d| p(w|C)}] 3.4.2 狄利克雷 Dirichlet Prior (Bayesian) Smoothing 动态系数修改添加伪计数　　αdμ|d|μ\alpha_d=\dfrac{\mu}{|d|+\mu} 　fDIR(q,d)[∑W∈q,W∈dc(w,q)log[1c(w,d)μp(w|C)]]nlogμμ|d|f_{DIR}(q,d)=[\sum_{W \in q,W \in d}c(w,q)log[1+\dfrac{c(w,d)}{\mu p(w|C)}]]+nlog\dfrac{\mu}{\mu +|d|} 按照查询似然的方式得到了和VSM类似的结果。不同的解决思路过程中需要增加填补的方式也不同。　查询似然-一元语言模型-文档语言模型-平滑　位向量-词频-TF-IDF-TF变形-惩罚长文档

查看全文

http://www.zqtcl.cn/news/585727/