当前位置: 首页 > news >正文

龙华网络推广公司宁波seo外包方案

龙华网络推广公司,宁波seo外包方案,百度seo快速排名优化,做网站需要专业在概率模型中#xff0c;我们定义排序函数是基于文档与查询之间的相关度、可能性来做的。f(d,q) p(R1|d,q), R ∈{0,1}。概率模型有几个小分类#xff1a;   经典概率模型——BM25   语言模型Language Model —–Query Likelihood   Divergence from rando… 在概率模型中我们定义排序函数是基于文档与查询之间的相关度、可能性来做的。f(d,q) p(R1|d,q), R ∈\in {0,1}。概率模型有几个小分类   经典概率模型——BM25   语言模型Language Model —–Query Likelihood   Divergence from randomness—–PL2    1 查询似然算法 语言模型的假设是p(R1|q,d)≈p(q|d,R1)p(R=1|q,d)\approx p(q|d,R=1)文档与查询相关的概率约等于 在文档相关的前提下用户输入q的概率。 1.1 概率模型的基本概念 给定下面这个表格收集了不同用户基于不同query认为文档是否相似。  f(q,d)p(R1|q,d)count(q,d,R1)count(q,d)f(q,d) = p(R=1|q,d)=\dfrac{count(q,d,R=1)}{count(q,d)}  例如p(R1|q1,d1) 1/2;p(R1|q1,d2)2/2…. 这里的问题是对于不在表格中的查询不在表格中的文档怎么处理 1.2 查询似然算法 解决上述问题我们换个角度计算一下上面那个表格中在文档d1相关的前提下用户输入q1的概率是多少。如果概率越高则q1与d1的相关度就越高。  需要提出一个假设用户输入的查询词是基于想象的相关文档。 2 统计语言模型LM 2.1 LM的概念 语言模型LM是一个基于单词序列的概率分布。   p(“Today is Wednesday”) ≈\approx 0.001   p(“Today Wednesday is”) ≈\approx 0.0000000000001  同样的3个词概率相差很大。这说明语言模型是基于上下文的。这个模型也可以理解为生成一个文本的概率。所以又被称为生成模型generating model。这是一种可以生成单词的随机系统。 2.2 LM为什么有效 1 LM量化了自然语言的不确定性。  2 能够解决以下问题   speech recognition已经看到单词“John” , “feels”,那继续看到的单词更可能是“happy”而不是”habit”。   text categorization, information retrieval一篇新闻文章中提到三次”baseball”一次”game”这篇文章是新闻的概率。   information retrieval已知一个用户喜欢体育那他输入”baseball”的概率是多大。 2.3 最简单的语言模型一元模型 一元模型在生成文本的时候词与词之间是独立的p(w1,w2...,wn)p(w1)p(w2)...p(wn)p(w_1,w_2...,w_n)=p(w_1)p(w_2)...p(w_n)。这里有n个参数p(w1)p(w_1)、p(w2)p(w_2)…。生成的文本就是简单的从词的概率分布中抽取词汇。例如p(TodayisWend)p(Today)p(is)p(Wend)p("Today is Wend")=p("Today")p("is")p("Wend")。     我们可以使用Topic1的词分布产生一篇 关于Text mining的文章。我们可以使用Topic2的词分布产生一篇关于 Food nurtrition的文章。当然我们也可以用Topic1的词分布产生一篇关于 Food nurtrition的文章但这样的事情概率很低。这是依据词分布生成文章。  接着我们换个角度。如果现在有一篇文档已知文章的词的总量每个词的词频现在推测哪种词模型可能产生这样一篇文档假设文章是由分布中的词汇组装而成的。  p(text)? p(mining)?…..  一种很直接的想法是用词频/词的总数p(text)10100\dfrac{10}{100}p(mining)5100p(mining)=\dfrac{5}{100}…..  这种方法被称为极大似然估计(Maximum Likelyhood Estimator ):p(w|θ)p(w|d)c(w,d)|d|p(w|\theta)=p(w|d)=\dfrac{c(w,d)}{|d|}  对于没有出现在文档中的词p(w|d)0。      一元模型的用途。 用途表示不同的主题。这里涉及到通用模型集合模型文档模型。 用途2做词的关联分析。从语义上来讲哪些词和”computer”最接近第一步我们从包含”computer”的文档中得到每次的极大似然估计概率将概率从大到小排序第二步我们找到这些词中有很多是通用词库的词与”computer”无关我们可以使用通用词库得到通用词库每个词的极大似然估计概率。第三步使用者两个模型得到的词就是与”computer”相关的词。例如我们可以使用通用模型词的概率将第一步得到的概率normalize规则化p(w|computer)p(w|B)\dfrac{p(w|"computer")}{p(w|B)} 3 极大似然函数与一元模型 3.1 基本模型 在统计语言模型中我们提出如果用户想要查找的是文档d那用户有多大可能性提出这个特殊的查询  例如文档d”… news of presidential campaign … presidential candidate …”  p(q“presidentialcampaign”|d)?p(q= “presidential campaign”|d)=?    现在我们假设用户以此文档为基准来提出一个查询并且查询该文档。使用一元模型的极大似然思想p(q“presidentialcampaign”|d)p(presidential|d)∗p(campaign|d)c(presidential,d)|d|∗c(campaign,d)|d|p(q= “presidential campaign”|d)=p("presidential "|d)*p("campaign"|d)=\dfrac{c("presidential",d)}{|d|}*\dfrac{c("campaign",d)}{|d|} (一元模型就假设了查询中每个单词的产生是相互独立的) 3.2 升级版模型 如果q “presidential campaign update”每个文档中都没有”update”这个词概率p0这个时候就出现问题了。   问题出在如果假设用户查询的词都出在某一个文档(a document)但实际上用户是看过很多文档他查询的词更可能出在于一个文档模型(a document model)。     从图中可以看出从文档模型产生文档从文档模型产生查询。  这样的模型该怎么计算呢分两个步骤1、计算文档模型(Document Language Model)2、计算每个词在文档模型中概率的乘积。  qw1w2...wnq=w_1w_2...w_n  p(q|d)p(w1|d)∗p(w2|d)....∗p(wn|d)p(q|d)=p(w_1|d)*p(w_2|d)....*p(w_n|d)  f(q,d)logp(q|d)∑ni1logp(wi|d)∑W∈Vlogp(w|d)\sum_{i=1}^{n}logp(w_i|d)=\sum_{W\in V}logp(w|d)  我的问题增强版与简单版本的思想从字面上的区别看从“文档” 变成了“文档语言模型”。我最开始的想法是“文档语言模型”是由很多文档组成的一个文档集但是看老师的ppt又认为不是这么回事。我需要再找资料查明什么是文档语言模型。 3.3 p(w|d)? 对于p(w|d)不同的估计方法会形成不同的不同的排序函数。  第一种估计方法是极大似然估计。pML(w|d)c(w,d)|d|p_{ML}(w|d)=\dfrac{c(w,d)}{|d|}  对于没有出现在文旦中的词我们需要平滑技术为那些没有出现在文档中的词给一个概率。  一种解决方法是从一个引用语言模型查询出一个概率。这个引用语言模型可以是Collection Language Model.   最后得到的排序函数是 f(q,d)log(p|d)∑wi∈q,wi∈d[c(wi,q)∗logpseen(wi|d)αdp(wi,C)]nlogαd∑ni1logp(wi|C)f(q,d)=log(p|d)=\sum_{w_i \in q ,w_i \in d}[c(w_i,q)*log\dfrac{p_{seen}(w_i|d)}{\alpha_dp(w_i,C)}]+nlog\alpha_d+\sum_{i=1}^{n}logp(w_i|C) 这是公式是经过变形的为了方便计算得到的。同时这个公式也更像TF-IDF得到的计算公式。 pseen(wi|d)p_{seen}(w_i|d)扮演了类似TF的角色。  p(wi,C)p(w_i,C)在分母上更像是IDF。  αd\alpha_d类似于文档长度因子。它表示究竟想给未见过的单词多大的概率。如果文档本身很长可能给的概率就会小一些如果文档本身很短给的概率就会大一些。   3.4 平滑方法 pseen(wi|d)?p_{seen}(w_i|d)=?  αd?\alpha_d=?  上面的公式留下了两个问题。 3.4.1 线性插入法 Linear Interpolation (Jelinek-Mercer) Smoothing固定系数  结合极大似然算法  p(w|d)(1−λ)c(w,d)|d|\lambdap(w|C)λ∈[0,1]p(w|d)=(1-\lambda)\dfrac{c(w,d)}{|d|}+\lambdap(w|C),\lambda \in [0,1]  αdλ\alpha_d=\lambda  fJM(q,d)∑W∈q,W∈dc(w,q)log[11−λλc(w,d)|d|p(w|C)]f_{JM}(q,d)=\sum_{W \in q,W \in d}c(w,q)log[1+\dfrac{1-\lambda}{\lambda}\dfrac{c(w,d)}{|d| p(w|C)}] 3.4.2 狄利克雷 Dirichlet Prior (Bayesian) Smoothing 动态系数修改添加伪计数    αdμ|d|μ\alpha_d=\dfrac{\mu}{|d|+\mu}  fDIR(q,d)[∑W∈q,W∈dc(w,q)log[1c(w,d)μp(w|C)]]nlogμμ|d|f_{DIR}(q,d)=[\sum_{W \in q,W \in d}c(w,q)log[1+\dfrac{c(w,d)}{\mu p(w|C)}]]+nlog\dfrac{\mu}{\mu +|d|} 按照查询似然的方式得到了和VSM类似的结果。不同的解决思路过程中需要增加填补的方式也不同。  查询似然-一元语言模型-文档语言模型-平滑  位向量-词频-TF-IDF-TF变形-惩罚长文档
http://www.zqtcl.cn/news/585727/

相关文章:

  • 在国外做黄皮网站违法么网站建设北京个人
  • 深圳南头高端网站建设安卓优化大师老版本
  • 宁海做网站wordpress邀请码注册功能
  • 重庆建设网站哪家好长沙待遇好的十大国企
  • 甘肃省建设厅查询网站黄骅港信息贴吧
  • 如何做网站的逻辑结构图如何快速做一个网站
  • 郑州虚拟货币网站开发千万不能 网站
  • 石家庄做网站汉狮网络企业标准网上备案网站
  • php网站开发权限管理广州白云区网站开发
  • 北京网站开发建设 58同城wordpress 无标题
  • 黑龙seo网站优化建设网站要学编程吗
  • 花都区水务建设管理中心官方网站怎么样才能搜索到自己做的网站
  • dedecms景区网站模板wordpress显示手动摘要
  • 备案网站免网上海网站建设机构
  • 模板建网站哪个品牌好网站制作排名
  • 网站开发咨询企业排名查询
  • 东莞做网站注意事项坪山网站建设方案
  • 网站文章页图片不显示图片手机设计
  • 公司网站版面怎么设计湖南做网站 就问磐石网络专业
  • 描述网站开发的广告词黄页网络的推广
  • 打开官方网站广告平面设计好学吗
  • 建设银行观澜支行网站做网站公司汉狮网络
  • 荆州学校网站建设seo专业培训机构
  • 网站制作上网建站程序的价钱
  • 阿里巴巴网站建设规划24小时学会网站建设pdf
  • wordpress建站以后网络公司注册资金多少
  • wordpress下载站模板优秀网站开发公司
  • ppt模板免费下载完整版免费网站微网站开发商
  • 网站建设前的分析第一小节内容wordpress自带主题下载失败
  • 深圳微信网站设计网站建设设计制作外包