当前位置: 首页 > news >正文

嘉兴制作网站机构du制作网站

嘉兴制作网站机构,du制作网站,微信公众号管理平台app,网站建设教程开源代码下载简介#xff1a; 开源最大的特征就是开放性#xff0c;云生态则让开源技术更具开放性与创造性#xff0c;Elastic 与阿里云的合作正是开源与云生态共生共荣的典范。值此合作三周年之际#xff0c;我们邀请业界资深人士相聚云端#xff0c;共话云上Elasticsearch生态与技术…简介 开源最大的特征就是开放性云生态则让开源技术更具开放性与创造性Elastic 与阿里云的合作正是开源与云生态共生共荣的典范。值此合作三周年之际我们邀请业界资深人士相聚云端共话云上Elasticsearch生态与技术的未来。 开源最大的特征就是开放性云生态则让开源技术更具开放性与创造性Elastic 与阿里云的合作正是开源与云生态共生共荣的典范。值此合作三周年之际我们邀请业界资深人士相聚云端共话云上Elasticsearch生态与技术的未来。本篇内容是清博大数据技术副总裁王欢带来的基于Elasticsearch技术的应用与实践分享。分享人清博大数据技术副总裁王欢 关于Elasticsearch在清博的应用和实践本文将通过四个部分展开介绍 关于清博典型业务场景痛点与诉求阿里云Elasticsearch实践与收益 一、关于清博大数据 清博数据成立于2014年是一家专注于内容数据领域是基于网络公开数据依托自然语言处理、知识图谱、事理图谱等AI技术挖掘有价值的数据以及关系为政务部门、企业、媒体和高校的网络空间数据治理提供一站式解决方案的公司。 清博大数据的主要业务布局有 清博指数已经成为业内知名的新媒体账号评估服务体系清博舆情是业内主流舆情SaaS服务平台为数十万B端网络品牌跟踪管理提供一站式服务清博融媒助力政企、校园的融媒体建设产业数据基于数据和技术的积累在汽车大数据和环保大数据等产业数据领域也有布局。 二、典型业务场景 上文所提到的业务方向中都有Elasticsearch的参与和支持。下面介绍几个典型的应用场景。 清博舆情 下图展示的是清博舆情中常见的分析模块。 清博舆情利用NLP技术给常见的每条新闻及评论打上7个情绪标签然后基于标签分析每天的情绪走势和情绪分布情况。这个应用可以理解为针对某个事件大众在不同情感表达下的声量大小。 另外我们也对事件的发布和媒体敏感信息报道进行渠道统计统计后就可以直观的看到一个事件的重要或敏感的传播节点这就为业务的决策者提供了非常直观的决策参考。除此之外系统还为用户提供发文类型、提及地区、热词分析等十多个常用的统计分析模块。 以上所描述的统计分析都是基于Elasticsearch强大的聚合统计能力包括嵌套的统计能力实现的。由于清博大数据提供的是线上的SaaS服务在同个页面会迸发请求查询或聚合多个接口等需求这就对Elasticsearch的聚合统计性能和内存使用率都提出了更高的要求。 多维度的检索 多维度检索在清博大数据也是比较常见的业务场景。在舆情高级检索模块清博检索提供了基于时间、发布平台、情感、媒体类别、发布地区等十多个维度的复合检索。同时还提供了基于term和match price的精确或模糊检索的复杂查询方式。 不同于日志检索场景清博的多维度检索业务需要权衡召回率和准确率需要对标题跟正文设置不同的打分策略。比如给标题设置更高的权重给正文设置相对较低的权重。另外产品还能对包括阿拉伯语、日语、韩语、德语、法语等多国语言进行文本检索这就涉及到了多语种的分词与检索召回。 账号画像 下图是清博指数平台一个微信公众号的画像页面展示了公众号系列数据包括阅读统计、阅读点赞、在看、发文趋势、发布习惯等数据指标的统计模块。通过这些模块用户可以直观的了解一个公众号的发布情况、文章传播情况等不仅给运营者提供了全方位、可参考的数据也给广告投放的用户提供客观投放参考。 三、痛点与诉求 上文列举的不同业务场景都离不开Elasticsearch强大的查询和聚合能力那么实现这样的功能有哪些痛点与诉求呢 从上面业务场景列举可以看出清博大数据的业务基本上都是基于文本检索那么它具有的特点包括 需要支持多种语言检索由于是在线的SaaS系统需要实现亚秒级响应需要支持上百个索引字段需要满足聚合查询多和迭代频繁 基于以上的业务特点就要求Elasticsearch具备高性能、平衡检索的召回率和准确率并具有动态伸缩的能力。 基于以上的业务特点和服务要求对清博大数据来讲业务痛点可以分为三个方面1、成本 单篇文档不同于日志数据占用索引空间大所需的SSD存储昂贵 2、运维 当业务数据不断增加需要频繁扩节点同时由于是在线SaaS业务所以需要实现亚秒级响应速度并且在节点升级、增加内存等在线升级时不停止服务。 3、兼容性 实现Elasticsearch集群迁移、本地化部署业务代码无感知适配云端备份索引可以兼容开源的Elasticsearch。 针对以上的业务痛点清博大数据对云端Elasticsearch也提出了三点诉求 1、成本 平滑扩缩容索引支持冷热分离热数据才放到SSD存储从而降低存储成本 2、运维 需要有简单的运维工具支持一键扩缩容和节点升级等能力需要支持丰富的运维指标在达到一定阈值时可以有不同类型的报警通知需要支持平滑升级不对业务产生影响 3、兼容性 阿里云Elasticsearch 100%兼容开源生态并支持自定义的分词器实现热更新分词词典方便备份与恢复。云上备份与索引可以快速在开源Elasticsearch上恢复或拉起服务。 四、云上实践与收益 清博大数据在迁移之前是基于Apache Solr自建的搜索集群为了提升搜索性能和巩固集群稳定性创建了很多小的Solr集群。在上游数据分析之后通过一套路由机制写入到不同的Solr集群在查询时通过同一套机制自动选择对应的集群。在不同的集群中查询不同的数据可以分散单个集群压力如果有小集群异常只会影响部分业务。 但是太多分散且小的集群也会出现很多问题比如增加故障的概率、缺少统一运维管理平台、运维管理成本过高、无法自动扩充Shard、需要手动增加节点扩容等等。 相比之下阿里云Elasticsearch提供智能的、统一的运维平台不仅可以多维度地监控告警也能及时发现集群问题而且阿里云ES专家的支持也减少了大量的运维成本。 阿里云ES自动Shard提升系统性能提高了系统的检索性能阿里云ES节点的伸缩能力可以灵活应对业务逐步增加节省大量一次性投入的成本。 在迁移过程中清博大数据同步升级了数据架构整个平台是分层的数据模式。最底层是数据接入层包括上述提到的各平台社交文本数据。所有的数据源首先会推送到Kafka集群通过消息队列对各个业务模块进行检索。 再往上一层是数据处理和存储层。在存储层像新闻标题、发布时间、原始URL等信息存储到HBASE。一些不需要检索内容的镜像数据会存到OSS上进行长期存储并把OSS的路径存到HBASE方便后面的检查。 在数据处理这一层使用 Flink 实时流处理引擎通过RPC的方式实时调用NLP相关的算法服务为每一条文本内容打上情感属性、情绪分类、新闻类型和地域等标签方便下游业务使用。 再上一层是整个ES的基础设施包括ES集群和智能网关两层服务。在ES集群层根据业务特点把近两年的数据放到冷数据集群使用价格相对较低的高效云盘把近三个月的数据放到热数据集群使用SSD盘进行冷热集群分离同时根据不同平台大小对索引进行拆分分为微信、微博、短视频等等索引。 为了提高ES的安全性和访问的可控性清博大数据开发了智能网关服务屏蔽了直连ES的方式。在智能网关层有很多业务都要调用ES数据为了防止单个业务占用过多资源影响到其他业务使用网关可以为每个业务分配各自的QPS并设置优先级。一旦集群出现问题可以对低优先级的业务进行熔断限流以保证高优先级的业务。 由于在ES的数据层把索引按照来源进行拆分数据被分散到多个集群中这会给查询带来一定的麻烦。为了方便前端业务的调用网关路由所有模块可以根据业务端查询的数据类型自动路由到对应的索引同时网关层也会对业务端查询进行优化比如根据时间段选择对应索引而不是扫描全部索引。 最上面一层是业务接入层包括上文提到的舆情业务、指数业务、融媒业务等等。 基于阿里云ES打造的统一数据平台也可以看作是一个分层架构如下图。 最底层文档写入ES索引前会先进入路由层。路由服务会根据文档的来源、发布时间、机型状态等选择对应的集群以及索引比如自动选择对应平台或者是对应索引所在的机器。 对日增数据量比较少的平台会按照周或月进行索引拆分。对日增数据量很大的平台路由会按天创建索引这样就避免单个索引过大、数据过于倾斜而影响整个集群性能的问题使每个索引的大小保持基本相同。 再向上一层是多个ES集群包括不同平台的数据集群和冷热数据集群。前面一层经过路由策略之后最终数据会分散到对应集群的对应索引中。为了方便查询通过开发的Proxy对用户特定的索引查询、多索引查询和聚合查询甚至跨集群查询等可以对数据进行查询集合做到对业务端底层的索引细节屏蔽、业务端无感知、降低业务端调用成本同时也方便底层的迭代升级。 基于以上的架构在阿里云的ES数据平台提供近三个月超过100亿的热数据在近三个月的索引占用空间超过60TB日增网络公开内容数据超过1.2亿单篇文档搜索字段超过200。 在这么大数据量的情况下频繁变动升级会带来一些问题。值得一提的是利用阿里云ES诊断功能可以很方便地发现ES集群潜在的问题也为集群的运维方向提供诊断经营。 在阿里云ES各种功能的加持下清博大数据平台的稳定性较之以前提升了60%整个运维时间减少了80%。正是由于阿里云Elasticsearch平台的各种能力让团队可以把更多的精力放到产品开发和迭代上比如基于平台能力快速开发了轻薄融媒平台为清博融媒平台提供内容检索服务。 在开发的政府补贴类应用中提供政策搜索服务为后面的推荐算法提供出色的结果也为年终公众号运营画像类应用提供相关统计服务。除此之外基于平台的能力还能提供更多的产品形态。 原文链接 本文为阿里云原创内容未经允许不得转载。
http://www.zqtcl.cn/news/335046/

相关文章:

  • 做视频网站被判刑自己怎么做企业网站建设
  • 安庆网站建设兼职哪个公司的卡网络最好
  • tp框架做响应式网站青岛网站建设首选
  • 外国自适应企业网站做网站模板用什么框架
  • win7做网站服务器隐私浏览器
  • 优秀的设计网站广州排名推广
  • 做电商设计有什么好的网站推荐软件产品开发流程图
  • 建设网站请示宣传企业网站建设的
  • 汉中定制网站建设公司网站建设建站知识
  • 做壁纸网站建站优化办事效率高
  • linux 做网站数据库怎么开发ios软件
  • 沛县网站设计html制作网页的代码
  • 南昌网站建设公司如何万维网络(临沂网站建设)
  • 张家界做网站洛阳网站建设哪家专业
  • 快餐网站模板电子版邀请函制作软件免费
  • 有什么做视频的素材网站网站名称注册保护
  • 北京 顺义 网站制作h5网站网站建设
  • 网站在百度上搜不到了wordpress导航菜单加图片
  • wordpress网站访问慢网站建设35类
  • 绍兴做网站价格字体
  • asp.net网站开发实训可以不花钱做网站吗
  • 北京网站的制作设计服务器和电脑主机的区别
  • 北京网站建设的服务公司凡科网站 怎么开支付
  • 包头公司做网站知名做网站费用
  • 安徽网站建设服务平台重庆网站建公司大全
  • 有什么网站可以做中间人的相城区建设局网站
  • 房屋装修在线设计网站百度联盟广告怎么屏蔽
  • 网站,商城,app+建设域名网址注册
  • 肥西做网站设计网页页面
  • 怎样做百度推广网站iis服务器的默认网站