wordpress花园网站,cps推广联盟,陕西省医院信息化建设规范与测评标准—网站建设评分标准与方法,公司企业网站建设方案打开新闻客户端#xff0c;往往会收到热点新闻推送相关的内容。新闻客户端作为一个承载新闻的平台#xff0c;实时会产生大量的
新闻#xff0c;如何快速挖掘出哪些新产生的新闻会成为成为热点新闻#xff0c;决定着整个平台的新闻推荐质量。 如何从平台中海量的新闻素材中…打开新闻客户端往往会收到热点新闻推送相关的内容。新闻客户端作为一个承载新闻的平台实时会产生大量的
新闻如何快速挖掘出哪些新产生的新闻会成为成为热点新闻决定着整个平台的新闻推荐质量。 如何从平台中海量的新闻素材中找到最有潜力成为热点的新闻需要使用机器学习相关的算法传统做法是将每天获取的历史咨询下载并且离线训练模型再将生成的热点发现模型推上线供第二日使用。但是这种离线训练所生成的模型往往缺乏时效性的属性因为每天热点新闻都是实时产生的用过去的模型预测实时产生的数据显然是缺乏对数据时效性的理解。
针对这种场景PAI平台开创性的提出来Online-Learning的解决方案通过流式算法和离线算法的结合既能够发挥离线训练对大规模数据的强大处理能力又能够发挥流式机器学习算法对实时模型的更新能力做到流批同跑完美解决模型时效性的问题。今天就以实时热点新闻挖掘案例为例为大家介绍PAI OnlineLearning的解决方案。
实验流程
1.切换新版
进入PAI后点击“体验新版”按钮即可开启试用目前OnlineLearning只支持新版且与旧版不兼容可在模板中一键创建类似于本文介绍的案例数据和流程都已经内置开箱即用 模板打开点击运行后效果(模板目前为简化版本) 2.实验流程介绍 注PAI中离线计算组件用蓝色标识流式计算组件由绿色标识流式组件相连将形成计算组因为流式组件需要多个组件的运行停止状态一致
步骤1离线模型训练
本文使用的数据是3万条来自UCI开放数据集提供的新闻文本数据。
地址https://archive.ics.uci.edu/ml/datasets/OnlineNewsPopularity
数据组成包含新闻的URL以及产生时间另外还包含了58个特征以及1个目标值目标值“share”是新闻的分享次数建模过程中将share字段利用sql组件处理成一个二分类问题新闻share次数超过10000次为热点新闻小于10000次为非热门新闻
特征的组成如下图所示 利用逻辑回归模型训练生成一个二分类模型这个模型用来评估新闻是否会成为热点新闻。
注目前PAI OnlineLearning只支持逻辑回归算法
步骤2离线模型转换成流式模型
通过“模型转换”组件可以将离线生成的逻辑回归模型转换成流式算法可读取的流式模型。
步骤3流式模型训练
从步骤3开始就进入了流式算法组件的步骤PAI平台提供多种流式数据源本案例以Datahub为例。
Datahub地址https://datahub.console.aliyun.com/datahub
Datahub是一种流式数据对列支持JAVA、PYTHON等多种语言采集方式在具体使用过程中可以通过Datahub链接用户实时产生的数据以及PAI的训练服务。注意Datahub输入的数据流格式需要与离线训练的数据流的字段完全一致这样才可以对离线的模型进行实时更新。
Ftrl训练组件左侧输入的是转化为流式的离线模型右侧输入是流式数据表
FTRL算法基本等同于流式的逻辑回归算法在使用过程中需要按照LR算法配置参数需要注意”模型保存时间间隔参数“的配置这个参数决定了实时计算产生模型的时间周期。 新版PAI已经内置了大量流式算法组件 ####
PMML模型生成组件将输出的模型转化成PMML格式OSS文件导出将模型导出到用户自己的OSS中可以自己设置名称的前缀和后缀生成模型可在OSS中查看如下图步骤4流式模型评估
流式模型评估指的是利用评估数据对Ftrl训练生成的模型进行评估输出的评估指标也可以写入OSS评估指标与模型一一对应。每个模型和评估指标都有一个ID如果ID一致说明模型和评估指标是对应关系如下图 评估指标是一个json格式文件包含精确率、准确率、混淆矩阵等指标 步骤5流式预测结果实时导出
可以利用实时生成的模型做实时数据预测实时的预测结果可以写出到datahub中如下图 同时如果输入的预测数据集包含label还可以添加分类评估组件可以打开组关系中的最右边按钮 打开实时的流式预测结果评估页面 3.模型使用介绍
通过以上步骤已经产生了新闻热点预测模型生成的模型已经存入OSS可以直接在PAI-EAS在线预测服务引擎进行部署也可以下载下来在本地预测引擎使用。新闻数据进来后先要做特征工程同”步骤1离线模型训练“中的特征处理方式然后将特征工程处理结果输入”热点新闻挖掘服务“将会返回新闻是否是热点新闻。 总结
通过本文的案例实现了将离线历史数据生成LR模型推送到实时训练环境再利用实时生成的数据对模型进行更新, 这种实时训练的架构可以完美解决实时热点新闻对于新闻推荐模型的影响问题。欢迎大家试用并给出建议。 原文链接 本文为云栖社区原创内容未经允许不得转载。