当前位置: 首页 > news >正文

成武城乡住房建设局网站在服务器上搭建网站

成武城乡住房建设局网站,在服务器上搭建网站,网站开头flash怎么做,少儿编程加盟品牌有哪些6月10日#xff0c;“网信中国”微信公众号发布消息称#xff1a;微博热搜榜、热门话题榜暂停更新一周#xff0c;这使得很多热榜平台都受到波及#xff0c;而在吃瓜之余#xff0c;我们更进一步地思考热点榜单以及热点名称生成背后的技术#xff0c;并发出两连问#x… 6月10日“网信中国”微信公众号发布消息称微博热搜榜、热门话题榜暂停更新一周这使得很多热榜平台都受到波及而在吃瓜之余我们更进一步地思考热点榜单以及热点名称生成背后的技术并发出两连问 热点名称是否仅仅来源于用户搜索还是源于对用户搜索内容的进一步提炼和精简对于现在每天发布的大量资讯如何将资讯中的热点提取出来并为热点生成一个形式简短、表达通顺、语义完整的名称 实际上“热点名称”这一最终的输出结果对于整个事件提取来说是个实实在在的“门面技术”热点名称是否一目了然是否具有明显的代表性是最为容易被感觉到的。此外我们在进行事件挖掘的工作中也愈来愈发现寻找一种语义丰富、形式剪短、表达连续、语句通顺且用户友好的事件名称表示方法需求很大这个在事件类图谱(事理图谱)中的节点表示上需求尤为强烈。 本期围绕“事件名称生成”这一主题从事件名称生成的必要性以及现有事件名称生成的方法进行介绍。 一、 事件名称生成概述 我们将从非结构化文本中生成出一段语义丰富、形式剪短、表达连续、语句通顺且用户友好的事件名称的过程称为“事件名称生成”。这类似于微博热搜或百度热榜中的热点。 我们打开百度搜索引擎时可以看到其提供的热榜服务其中的热榜名称高度语义化阅读起来十分通顺。但我们可以发现与热榜中的某个热点相关的资讯中其关联的标题并不严格匹配如下图中的“北京累计采样229.7万人”下对应的资讯大多都是包含该热点名词的资讯。 图1-百度热榜中的事件与关联资讯 从实现上看大概存在两种方式 一种是人工整理的形式即在资讯出现后人为预先地将热点编辑好随后利用文本聚类的方法将相关的资讯关联到这个热点名称上以做热度的计量这个属于人工的方法 另一种是从已完成聚类的资讯文本中利用机器提取的方式将众多资讯标题进行聚合和提取并生成有效的热点名称。例如针对聚类好的文本集合可以从中抽离出各个资讯对应的标题并从标题集合中通过公共子串、高频连续子串(n-gram)或非连续子串评分的方式获取相应的事件名称。 以下展示了以“我国开采出五色透明原油”和“钟南山院士空降北京”为例通过使用高频非连续公共子串评分方法抽取得到的结果 图2-基于最大非连续公共子串的事件名称生成效果 然而针对单个文本而言缺少统计、计量信息和对比信息就需要返回到篇章本身来进行抽取这种场景在如事件类图谱事理图谱中的事件节点名称在内的事件抽取领域需求尤为强烈。在很多现有系统中大致有三种方式来处理 一类是基于主题词、关键词或论元序列的名称表示其核心思想为利用关键信息提取技术提取出某篇文档或事件的核心词汇并按照某种排序规则进行表示。例如利用典型的LDA主题建模得到相关主题词利用TFIDF算法提取关键词并选择其中的名词性实体、名词性短语、动词或动词性短语进行排序组合。这种方式较为简单、粗暴、语义不连贯十分不利于阅读。 另一种是将文本中所涉及的论元按照形如[人物]在[时间词]做了[动作词]的组织规则进行组合这与框架式(framenet、ACE)的事件表示思想类似如图3中列举的金融领域事件事件名称可从对应的事件要素和论元进行组合而来。不过这种方法无法满足大量异构的事件类型模板和规则常无法涵盖所有情况。 图3-金融领域典型框架类事件样例图 第二类是按照原文自身不做任何改变挑选标题或核心句作为本文的事件表示EventRegistry等大多数现有系统都采用了这一方法。标题的优势在于篇幅要比正文要短概括了整篇文章的内容但标题对于目前营销号等传媒手段的泛滥许多文不对题等标题党大量出现带来了不小影响为了将标题纠偏常使用基于标题和核心句并举的方式。这种方法比基于词序列的方法看来更为友好但往往篇幅过长在显示和传播上带来一定的限制 第三类是指介于主题词序列和原文标题之间的一种表示方法即对已经提取好的标题或文章核心句进行形式上的加工使得在不损失原文意义的情况下尽可能缩短原句并保证阅读通顺和语序合法这也是本文探讨的问题。目前此类方法大多以标题为输入使用基于句法分析的主谓宾事件短语提取和基于语句压缩的事件描述提取作为提取过程来加以实现。 二、 基于句法分析的主谓宾事件名称生成 针对输入的标题或摘要进一步形成更为剪短的事件描述结构化三元组的主谓宾抽取是其中的一个重要形式。句法分析是目前基于规则方法的主谓宾提取必备环节通过句法分析手段对句子进行成分分析可完成短语的提取。 对于如何描述语句的语法结构目前有两种主流观点 一是短语结构语法用某种规则分解句子为短语和单词作用是识别出句子中的短语结构以及短语之间的层次句法关系如下图中的(a)所示。 二是依存句法依存句法认为“谓语”中的动词是一个句子的中心其他成分与动词直接或间接地产生联系通过分析语言单位内成分之间的依存关系揭示其句法结构如下图中(b)所示。 图4-句子成分分析(a)和依存句法分析(b)图 常见的句法分析工具包括加州大学伯克利分校自然语言处理实验室开发的基于概率上下文法(PCFG)的Berkeley Parser句法分析器斯坦福大学研制的StandfordParser同时支持句子成分分析和依存句法分析国内的依存句法分析器包括LTP、HanNLP等都提供了这一句法分析的服务。例如给定句子 “以色列国防军20日对加沙地带实施轰炸造成3名巴勒斯坦武装人员死亡。” 图5-依存句法分析示意图 通过依存句法分析我们可以得到该句子各个成分词语及其词性以及成分之间的依存关系类型如图5所示。其中约定谓语为动词性的词语这样即可完成步骤 遍历整颗依存句法树执行 1 选择词性为谓词性的词语如动词v作为候选如我们得到了[“实施”、“轰炸”、“造成”、“死亡”]4个候选谓语 2 根据每个候选词查找该候选词是否存在“主谓”或“并列”关系和“动宾”或“并列”关系有则保留得到最终的候选谓语集合即[“实施”] 3 针对候选谓语集合中的每个谓语词分别查找其动宾关系的连接成分作为宾语查找其对应的主谓关系的连接成分作为主语。如可得到“实施”的主语为“以色列国防军”“宾语”为“轰炸” 4 针对谓语进行扩展若谓语对应的宾语成分存在并列连接并满足连接成分存在动宾关系那么该连接成分则继承原宾语成分的主语扩展出一个新的谓语针对该谓语重复步骤3可进一步得到“造成”的主语为“以色列国防军”宾语为“死亡”这一结果 5 针对形成的主谓宾三元组分别将其对应的主语和宾语进行扩展扩展方式可按照前置修饰成分规则执行 按照此类方法我们可针对多个输入句子进行主谓宾提取得到以下结果 图6-基于依存句法分析的主谓宾提取效果图 同样的针对句子成分分析的方法可根据生成语法的相关规则(如IP短语统辖NP和VP短语)进行提取。 不过基于句法的主谓宾提取一方面对句法分析的性能要求较高在实际的使用过程中常会因为句法分析错误而导致提取错误并存在召回率差等特点。此外该方法对提取规则依赖也较高需要有专业的人士进行大量的规则模板的总结较为费时费力。该方法针对规范的短句效果较好但在长句或超长句主系表结构、主谓双宾结构的句子效果还有待提升。 2基于深度学习的主谓宾提取 基于深度学习的主谓宾提取与开放信息三元组抽任务十分类似针对给定的文本识别出其中的主语成分、谓词成分和宾语成分最终组合输出正确的主谓宾即S,P,O三元组。 实际上开放信息三元组抽取存在如一个S对应多个(P, O)多个S对应多个(P, O)多个S对应一个(P, O)同一对(S, O)可能对应多个P等在内的多个难题目前在事实上还存在诸多挑战从实现上看学习型模型中主要包括两种方式即串行方法和联合抽取的方法。 其中串行方法是目前用的较多且较为基准的一种方法思路大致为先进行成分识别然后对识别出的成分进行关系分类但这种思路无法很好地处理同一组(S, O)对应多个P的情况同时会存在采样效率的问题在处理一个句子中存在多个主语成分、宾语成分或谓语成分时会带来分类的爆炸问题。 图7-基于串行方式的主谓宾提取示意图 此外将该任务当成一个整体的序列标注问题即联合式抽取模型是另一种思路但这种设计不能很好地处理同时有多个S、多个O的情况在进行组合时常常不可避免的使用简单粗暴的“就近原则”即如果一个句子中包含两个或者更多相同关系类型的三元组我们基于最近原则将两个实体组合为三元组这在实际的长句处理中的性能常常会大打折扣。 图8-基于联合方式的实体关系抽取示意图 有趣的是近期有使用“半指针-半标注”的方式来处理这一问题的思路。所谓“半指针、半网络”指的是去掉CRF改为“0/1标注”来分开识别某一成分的开始和终止位置这可以看成一种“半指针半标注”的结构。例如针对给定的主语、谓语和宾语三个成分使用BE标签来记录成分的起止位置共可得到3*2共6个标签,针对输入的句子通过计算sigmoid可以预测出每个字符在6个标签中的状态“0”或“1”这样即可得到每个成分在句中的位置信息解决SPO位置重复的问题。 图9-基于半指针半网络的实体关系抽取示意图 三、 基于语句压缩方法的事件名称生成 从定义上看语句压缩又名Sentence Compression指给定一个句子生成对应的一个句子生成的句子满足比源语句短、保留源语句的重要信息符合语法规范三个条件。例如给定 “据法新社报道有目击者称以军23日空袭加沙地带中部目前尚无伤亡报告。” 得到缩写结果为“目击者称以军空袭加沙地带中部” 语句压缩通过对句子进行冗余信息修剪压缩为一个更剪短、符合文法且能表达原句核心内容的句子常应用于自动文摘技术、信息抽取、问答系统、机器翻译和文本分类等领域。 例如VandeghinstePan在删除冗余和非重要信息的同时保留话题主要论点从而生成对话标题。又如Grefenstette为了使盲人能够像正常人一样快速阅读文章在阅读器里加入一个语句压缩模块使得盲人通过手指控制压缩率从而调节阅读速度从而取得与正常人一样的快速阅读。 语句压缩技术从实现的方法来看可分为基于模版规则的方法基于统计的方法和基于深度学习的方法。 1 基于句法模板规则的句子压缩方法 基于规则的句子压缩主要思想是首先识别一个句子中的不同成分然后保留正在句子中最重要的成分并删除在句子中处理非核心成分的内容该方法的关键问题在于如何选取合适的压缩规则即通过最小化语法错误比例或修剪句法树等得到压缩句子。 图10-句子压缩效果示意图 规则式语句压缩方法包括删除单词、插入单词、改变词序或替换单词等方法进行压缩如KnightMarcu(2002)Riezler等(2003)的工作。其中词法分析和句法分析是其中两个重要环节通过对句子进行词法分析和句法分析生成句法树然后根据规则删除句子中次要的单词或短语成分如不必要的虚词成分、形容词性修饰成分非否定性状态成分等。例如 否定词不、没有、没等不能丢能愿动词要、应该、能够等要保留主谓宾语的并列成分不能丢主谓短语作主谓语时只取其主干主谓短语作宾语时全部保留连动句要留下每个动词及其宾语双宾语要留下每个宾语中心词等等具体的取舍规则还需与具体的业务做相应更改。 2 基于统计的句子压缩方法 基于统计学习的方法包括基于语料驱动的有监督学习和基于知识驱动的无监督学习。如Knight和Marcu提出了一种基于决策树的压缩方法McDonald采用了最大边缘学习算法、Cohn和Lapata提出了基于STSG的语句压缩技术。 图11-基于SVM统计方法的句子压缩示意图 3 基于深度学习的句子压缩方法 在各类深度学习范式中句子压缩可以转化为典型的序列预测任务即输入原句序列预测输出压缩句序列。该类任务通常基于编码器—解码器框架解决编码器将输入句子序列编码为稠密向量此向量包含原句语义信息解码器解码此向量生成原句中各词的保留或删除决策。 图12-序列标注方法下的句子压缩标签预测 Filippova等人首次将深度学习模型适用于句子压缩任务其使用三层单向LSTM堆栈作为编码器—解码器组件在大规模数据集上获得了优于传统压缩系统 的结果。Tran等人对Filippova等人的模型结构进行改进提出一种基于注意力机制的双向LSTM 模型用于句子压缩。 图13-基于LSTM模型的句子压缩标签预测 不过目前国内对语句压缩的研究还处于刚刚起步的阶段一方面缺乏匹配该任务的发规模平行语料常用的英文语料库包括Ziff-Davis Corpus该语料库从4000多篇新闻报道中自动抽取了1067组“原语句-压缩句”句对。针对抽取带来的错误以及测试集过小的问题Clarke和Lapata采用人工标注的方式构建了Clwritten和Clsopken两份英文语句压缩语料数量也不过几千条。加上标注难度很大其次缺乏行之有效的自动评价方法目前大多的评价方法都是人工为主。 四、 总结 事件名称生成是事件抽取和情报挖掘中的重要技术在热点挖掘、情报分析、舆情监控领域有很大的应用空间。本期围绕“事件名称生成”这一主题从事件名称生成的必要性以及现有事件名称生成的方法进行了介绍。 针对聚类好的文本集合可以从中抽离出各个资讯对应的标题并从标题集合中通过公共子串、高频连续子串(n-gram)或非连续子串评分的方式从中获取相应的事件名称。本文经过尝试验证了该方法的可靠性。 基于句法分析的主谓宾事件短语提取和基于语句压缩的事件描述提取和语句压缩方法的事件名称生成的两个重要方法。其中 句法分析包括句子成分分析和依存句法分析两种基于句法的主谓宾提取一方面对句法分析的性能要求较高在实际的使用过程中常会因为句法分析错误而导致提取错误并存在召回率差等特点。该方法针对规范的短句效果较好但在长句或超长句中如主系表结构、主谓双宾结构的句子效果还有待提升。 语句压缩的方法通过对句子进行冗余信息修剪压缩为一个更剪短、符合文法且能表达原句核心内容的句子从实现的技术来看可分为基于模版规则的方法基于统计的方法和基于深度学习的方法。不过在模板规则上存在着与句法分析一样的不足在深度学习方法上需要大量的标注语料整体技术仍处于初步阶段。 事件名称生成技术是事件抽取中的一项重要“门面技术”现有的一些方案较多但依旧存在着很大局限性因此在实际的语句缩写中还是以基于规则模板的句子压缩方法为主。而如何充分利用好文章、标题以及语句的语义有针对性地给出一个高效的方案也是我们在事件抽取方面着力解决的问题欢迎各位关注我们的工作。 参考文献 [1]数据地平线.数地工场,https://nlp.datahorizon.cn [2]数据地平线.学迹,https://xueji.datahorizon.cn [3]周亮俊.基于语句压缩的中文语义依存分析[J].计算机应用,2017,37(S1) [4]姜雪.中文语句压缩关键技术研究[D].东北大学,2014 [5]张永磊.语句压缩及其应用研究[D].苏州大学,2013 [6]张永磊.基于结构化学习的语句压缩研究[J].中文信息学报,2013,27(02) [7]https://spaces.ac.cn/archives/6671 [8]https://hanlp.hankcs.com/ 原文地址https://blog.csdn.net/lhy2014/article/details/106923595 扩展阅读 揭秘微信「看一看」如何精准挖掘你感兴趣的内容https://cloud.tencent.com/developer/article/1607907
http://www.zqtcl.cn/news/770714/

相关文章:

  • 吉林省建设安全信息网站网站服务器和空间有什么区别
  • 百度制作网站怎么去掉2345网址导航
  • 深圳网站建设有限公司 2019哪些建材网站可以做宣传
  • 西安阿里云网站建设一建报名资格条件
  • 聊城网站优化wordpress循环该分类子分类
  • 帮网站做关键词排名优化创造网站需要多少钱
  • 广西网站建设推荐wordpress 宣布停止
  • 专注网站制作青岛景观设计公司排名
  • 安庆做网站网站代理建设网站观澜
  • 网站开发需求收集 模板cms做门户网站
  • dw网站首页的导航怎么做有大佬给个网址吗
  • 一个网站怎么做聚合洛可可设计公司贾伟
  • 什么是优化型网站网页设计作业在线网站首页
  • 关于网站建设广告词英文案例网站
  • 有哪些可以做策划方案的网站国家域名
  • vk网站做婚介做seo排名好的网站
  • 广州企业网站建设公司苏州建网站提
  • html如何做购物网站天元建设集团有限公司法人代表
  • 教育培训机构排名seo是搜索引擎营销
  • 做奢侈品网站有哪些沧州手机建站哪家好
  • 德州网站网站建设广西房管局官网
  • 白石桥做网站公司seo顾问服务四川
  • 网站建设注册哪类商标十大网页设计公司
  • 网站建设的源代码有什么作用金华网站建设优化技术
  • 个人网站申请做瞹瞹嗳视频网站在线观看
  • 做网站 融资玉石网站建设的定位
  • 自己做的网站字体变成方框seo同行网站
  • 宁波网站建设培训微信小程序开发平台官网
  • 西部数码做的网站打不开哈尔滨模板建站推荐
  • 外贸网站建设流程杭州软件定制开发