当前位置: 首页 > news >正文

移动网站建设机构品牌设计论文

移动网站建设机构,品牌设计论文,南京企业网站开发,网站开发设计选题背景本发明涉及语义网络技术领域#xff0c;具体涉及新的小世界网络模型实现文本特征的提取方法。背景技术#xff1a;目前常用的文本特征提取方法#xff0c;包括词频-反文档频率方法—TF-IDF、信息增益方法、互信息等方法#xff1b;TF-IDF的简单结构并不能有效地反映词汇或短…本发明涉及语义网络技术领域具体涉及新的小世界网络模型实现文本特征的提取方法。背景技术目前常用的文本特征提取方法包括词频-反文档频率方法—TF-IDF、信息增益方法、互信息等方法TF-IDF的简单结构并不能有效地反映词汇或短语的重要程度和特征值的分布情况所以TF-IDF的精度并不是很高。信息增益方法只适合用来提取一个类别的文本特征而无法用于提取多个类别的文本特征。互信息方法考虑了类别出现概率与集合出现概率之比那么会造成一个缺陷那就是类别集合中文本的数量差异会很大程度上影响文本特征提取的准确性。面对海量文本如何快速掌握某篇文章的主题、把握作者思想成为节约读者时间、提高阅读速度的关键问题。文本特征指的是最能代表文本主旨的词汇集合文本特征不仅可以很好的概括文本主要内容和主旨而且可以降低文本处理的复杂程度。然而目前常用的文本特征提取方法没有考虑特征词汇的语义地位和其对文本主旨表达所做的贡献、忽略文档的语义信息和结构信息导致关键词语义和结构信息的缺失。为了满足上述需求本发明提供了一种新的小世界网络模型实现文本特征的提取方法。技术实现要素针对于常用的文本特征提取方法没有考虑特征词汇的语义地位和其对文本主旨表达所做贡献的不足本发明提供了一种新的小世界网络模型实现文本特征的提取方法。为了解决上述问题本发明是通过以下技术方案实现的步骤1初始化文本语料库模块对文本W的进行中文分词预处理。步骤2给步骤1中分词结果的文本进行位置、词性加权处理。步骤3得到的文本词汇集合依据其语义相关度R(c1c2)会出现聚合现象构建词汇语义网络模型图。步骤4根据图中词汇在整个语义网络图中的重要度构造两函数参数w1(ci)、w2(ci)即可得词汇在整个文本中的地位和贡献度。步骤5根据步骤4中的两参数设置合适阈值提取文本中的特征词汇即为代表文本主旨的特征词汇向量。本发明有益效果是1、此方法比传统的词频-反文档频率方法得到的特征词汇集合的准确度更高。2、克服了信息增益方法只适合用来提取一个类别的文本特征的不足。3、此算法具有更大的利用价值。4、此方法精确地计算了特征词汇中不同词汇对文本思想的贡献度。5、计算特征词汇中不同词汇对文本思想的贡献度具有更高的精确度。6、为后续的文本相似度与文本聚类技术提供良好的理论基础。7、此方法着重在语义分析的角度来提取文本中的特征词汇更符合人们的经验值。8、融合了统计学方法又综合了关键词在文本中的贡献度构建的词汇语义网络模型图准确度更高。9、在词汇语义网络模型中提取关键词既考虑了邻近节点的密度又考虑邻近节点边的权重关键词的提取更好的符合经验值。9、数据处理更加规范易于词汇语义网络模型的生成。10、在关键词的相关度计算过程中设定了更加严苛的约束条件构成的词汇语义网络模型图更加符合实际情况。附图说明图1新的小世界网络模型实现文本特征的提取方法的结构流程图图2中文文本预处理过程流程图图3 n元语法分词算法图解图4词汇语义网络模型图具体实施方式为了解决常用的文本特征提取方法没有考虑特征词汇的语义地位和其对文本主旨表达所做贡献的问题结合图1-图4对本发明进行了详细说明其具体实施步骤如下步骤1初始化文本语料库模块对文本W的进行中文分词预处理其具体描述过程如下综合分词和删除停用词技术中文文本预处理过程流程图如图2。。这里分词方法利用一种基于信息论中文自动分词算法其具体分词和去停用词步骤如下步骤1.1利用停用表对文本进行去停用词处理。步骤1.2根据《分词词典》找到待分词句子中与词典中匹配的词其具体描述如下把待分词的汉字串完整的扫描一遍在系统的词典里进行查找匹配遇到字典里有的词就标识出来如果词典中不存在相关匹配就简单地分割出单字作为词直到汉字串为空。步骤1.3依据概率统计学将待分词句子拆分为网状结构即得n个可能组合的句子结构把此结构每条顺序节点依次规定为SM1M2M3M4M5E其结构图如图3所示。步骤1.4基于信息论方法给上述网状结构每条边赋予一定的权值其具体计算过程如下根据《分词词典》匹配出的字典词与未匹配的单个词第i条路径包含词的个数为ni。即n条路径词的个数集合为(n1n2…nn)。得min()min(n1n2…nn)在上述留下的剩下的(n-m)路径中求解每条相邻路径的权重大小。在统计语料库中计算每个词的信息量X(Ci)再求解路径相邻词的共现信息量X(CiCi1)。既有下式X(Ci)|x(Ci)1-x(Ci)2|上式x(Ci)1为文本语料库中词Ci的信息量x(Ci)2为含词Ci的文本信息量。x(Ci)1-p(Ci)1lnp(Ci)1上式p(Ci)1为Ci在文本语料库中的概率n为含词Ci的文本语料库的个数。x(Ci)2-p(Ci)2lnp(Ci)2上式p(Ci)2为含词Ci的文本数概率值N为统计语料库中文本总数。同理X(CiCi1)|x(CiCi1)1-x(CiCi1)2|x(CiCi1)1为在文本语料库中词(CiCi1)的共现信息量x(CiCi1)2为相邻词(CiCi1)共现的文本信息量。同理x(CiCi1)1-p(CiCi1)1lnp(CiCi1)1上式p(CiCi1)1为在文本语料库中词(CiCi1)的共现概率m为在文本库中词(CiCi1)共现的文本数量。X(CiCi1)2-P(CiCi1)2lnp(CiCi1)2p(CiCi1)2为文本库中相邻词(CiCi1)共现的文本数概率。综上可得每条相邻路径的权值为w(CiCi1)X(Ci)X(Ci1)-2X(CiCi1)步骤1.5找到权值最大的一条路径即为待分词句子的分词结果其具体计算过程如下有n条路径每条路径长度不一样假设路径长度集合为(L1L2…Ln)。假设经过取路径中词的数量最少操作排除了m条路径m则每条路径权重为:上式分别为第1,2到路径边的权重值根据步骤1.4可以一一计算得出为剩下(n-m)路径中第Sj条路径的长度。权值最大的一条路径:步骤2给步骤1中分词结果的文本进行位置、词性加权处理其具体描述如下αj代表位置权重其赋值规则为文本第一行是标题赋予权值5段首第一个词等于“摘要”则赋予权值3段首第一个词等于“关键字”或“关键词”则赋予权值5段首第一个词等于“结论”赋予权值3其它每段首赋予权值1βk代表词性权重其赋值规则为现代汉语语法中一个句子主要由主语、谓语、宾语、定语和状语等成分构成。从词性的角度看名词一般担当主语和宾语的角色动词一般担当谓语的角色形容词和副词一般担当定语的角色。词性的不同造成了它们对文本或者句子的表示内容的能力的不一样。根据调查统计得出名词、动词、形容词、副词的权重值依次为β1、β2、β3和β4且β1β2β3β4其值可以由专家指出。步骤3得到的文本词汇集合依据其语义相关度R(c1c2)会出现聚合现象构建词汇语义网络模型图其具体计算过程如下基于《知网》的词汇相关度计算方法文本特征词汇集合中的两两词汇间相关度计算公式为上式ρ(ICN)为两词汇本体概念共同的父节点密度d(ICN)为两词汇本体概念共同的父节点深度ρmax(S)为义原网状结构中对应父节点所在的树状结构中的最大节点密度值dmax(S)为义原网状结构中对应父节点所在的树状结构中的树的度。N′0为两词汇(c1c2)间无特殊关系N′0为两词汇(c1c2)间有特殊关系a为由专家给定的特殊关系权重a∈(0,1)α、β分别为对应的影响系数α、β∈(01)这个可以由实验测出αβ1。联合词汇在文本中的重要度、基于统计方法构造词汇对文本影响函数y(ci)根据R1(c1c2)的值y(ci)需归一化处理即为ni为词汇ci在文本中出现的频数为文本词汇的总频数NK为在满足下式约束条件下库中含有词汇ci的文本数为库中所有文本的数量。约束条件为ni·j为第j文本中词汇ci出现的频数为第j文本中所有词汇出现的总频数。综合y(ci)、R1(c1c2)即可得语义相关度R(c1c2)ρ、σ分别为对应因子的影响系数ρ、σ∈(01)ρσ1其指可以根据实验测出一般ρσ同理w、w′不一样的是也许w′≥w这个要视具体情况而定。利用上式构建词汇语义网络模型图如图4。步骤4根据图中词汇在整个语义网络图中的重要度构造两函数参数w1(ci)、w2(ci)即可得词汇在整个文本中的地位和贡献度其具体计算过程如下特征词汇的分支越多词汇在整个文本中的地位和贡献度越大可以通过下式计算词汇在整个语义网络图中的重要度为特征词汇ci直接子节点的个数Nt为整个语义网络图中总节点个数。计算特征词汇相邻边的平均权重w2(ci)R(cicm)为ci与相邻词汇cm的相关度值L为邻边数。步骤5根据步骤4中的两参数设置合适阈值提取文本中的特征词汇即为代表文本主旨的特征词汇向量其具体计算过程如下相关专家设定w1(ci)、w2(ci)能够满足合适阈值ε、ε′∈(01)提取满足下式关系的特征词汇wl(Ci)εw2(ci)ε′只有同时满足上式两条件则提取该关键词作为文本特征词汇。
http://www.zqtcl.cn/news/159283/

相关文章:

  • 福建省建住房建设部网站wordpress 算数验证码
  • 东莞企业如何建网站网站正在建设中...为什么护卫神
  • 引流用的电影网站怎么做wordpress浏览速度
  • 微信小程序怎拼做搬家网站东莞建网站公司
  • 网站推广昔年下拉博客推广链接制作软件
  • php 小企业网站 cmswordpress导航分类
  • 婚恋网站女孩子都是做美容免费空间最大的网盘
  • 建立网站要钱吗找人做网站需求怎么写
  • 网站建设精品课程电商运营主要负责什么
  • 中职网站建设与维护考试题wordpress商店会员管理
  • 物流网站开发策划做提升自己的网站
  • 网站开发交接做网站首页尺寸大小
  • 临沂建网站公司一个工厂做网站有用吗
  • 网站建设代码编译的问题及解决方案天元建设集团有限公司第六分公司
  • 做亚马逊网站费用深圳好蜘蛛网站建设公司
  • 做网站需要办什么手续html简单网页代码实例
  • 中文网页设计模板免费下载超级优化小说
  • 做网站的流程前端做什么网站建设与管理专业学什么
  • 用wordpress做购物网站西安建设工程网站
  • 响应式网站免费模板下载电商怎么做如何从零开始视频
  • 江西网站开发学校联系我们网站制作
  • 做网站首页图片素材营销网站制作要素
  • 云阳网站建设百度对 wordpress 排名
  • 做电商网站需要多少时间网站建设答辩ppt
  • 营销型网站的案例江苏seo网站排名优化
  • 企业网站 备案 网站名称凡科做视频网站
  • 湘潭建设公司网站杭州网站优化
  • 工信部备案网站网站空间服务商
  • 深圳市企业网站seo营销工具桂林百姓网
  • 网站建设所需材料wordpress nginx配置文件