当前位置: 首页 > news >正文

在线学习网站模板外贸网站模板下载

在线学习网站模板,外贸网站模板下载,高端手机,个人博客网页模板基于PaddleRec的用户点击率预测 一、前言推荐系统的痛点 二、推荐系统的数据获取获取数据的三种方法1.使用现成的数据集2.网络爬虫3.调查问卷 三、数据处理PaddleRec推荐数据集格式1.slot:value的格式说明2.只有value的输入数据格式 四、完成点击率预测的具体实现1.首先安装P… 基于PaddleRec的用户点击率预测 一、前言推荐系统的痛点 二、推荐系统的数据获取获取数据的三种方法1.使用现成的数据集2.网络爬虫3.调查问卷 三、数据处理PaddleRec推荐数据集格式1.slot:value的格式说明2.只有value的输入数据格式 四、完成点击率预测的具体实现1.首先安装PaddleRec及相关依赖2.参数配置data——存放数据集config.yaml——配置训练参数sparse_slots——稀疏参数dense_slots——稠密参数 model.py——网络结构 3.模型训练4.测试模型效果 五、总结与展望六、个人介绍 不会吧不会吧都0202年了不会有AI连用户喜欢什么都不知道吧AI比你更懂自己 一、前言 推荐系统在我们的日常生活中可谓是无处不在比如我们平常逛的淘宝、刷的抖音这些应用的背后都离不开推荐系统。 说起推荐大家应该都不陌生 “哪家的月饼好吃推荐一下”“今年国庆放8天假去哪玩比较好呢”… … 今年是特殊的一年因为疫情也许会有一部分人会选择留在家中过中秋中秋节自然少不了月饼月饼这么多哪一家的月饼符合你的心意这就需要推荐系统了总不能每一家月饼都尝一边吧庆国庆去哪玩也许是一个令你头疼的问题每个人的喜好不同选择的地方也会不同这也需要推荐系统的帮助。总之我们的生活离不开推荐。 CTR(Click Through Rate)即点击率是“推荐系统/计算广告”等领域的重要指标对其进行预估是商品推送/广告投放等决策的基础。简单来说CTR预估对每次广告的点击情况做出预测预测用户是点击还是不点击。CTR预估模型综合考虑各种因素、特征在大量历史数据上训练最终对商业决策提供帮助。 推荐系统的痛点 但是话说回来搭建一个推荐系统真的有这么简单吗 我们都知道在深度学习里数据对模型的效果在一定程度上起到了不可小觑的作用。推荐系统更是如此它主要解决的是信息过载的问题目标是从海量物品筛选出不同用户各自喜欢的物品从而为每个用户提供个性化的推荐。因此如果数据量很少或数据质量不高那么做出来的效果可能就不会很理想。 尽管如此现在也有很多推荐系统的数据集 MovieLens——数据地址https://grouplens.org/datasets/movielens/ MovieLens数据集中用户对自己看过的电影进行评分分值为15。Book-Crossings——数据地址http://www2.informatik.uni-freiburg.de/~cziegler/BX/ 该包含90000个用户的270000本书的110万个评分。评分范围从1到10包括显式和隐式的评分。Last.fm——数据地址https://grouplens.org/datasets/hetrec-2011/ Last.fm提供音乐推荐的数据集。 对于数据集中的每个用户包含他们最受欢迎的艺术家的列表以及播放次数。它还包括可用于构建内容向量的用户应用标签。 我们可以先使用这些现成的数据集学习如何处理数据并搭建一个推荐系统。 二、推荐系统的数据获取 当今时代是大数据时代谁拥有数据谁就有筹码。在搭建推荐系统的全流程中获取数据是第一步也是最关键的一步。 在做这个项目之前我想做中秋节赏月地点个性化推荐的但是苦于没有数据所以我暂时放弃了这个想法。 获取数据的三种方法 我目前能想到的比较可行的数据获取方案有三种 最简单的当然是找现成的数据集这类数据集往往是一些研究机构公开的一般也比较好退而求其次就是自己去一些公开网站上用自动化的方法采集数据但这些数据往往缺少一些特征更何况爬虫有风险最后一种是最实在的方法但这种方法收集到的数据量往往很少对个人来说真的很困难。 1.使用现成的数据集 前面已经给大家提供了一些现成数据集除了电影、图书、音乐数据集之外还有一些可用于推荐系统的数据集 MovieLens——数据地址https://grouplens.org/datasets/movielens/ MovieLens数据集中用户对自己看过的电影进行评分分值为15。Book-Crossings——数据地址http://www2.informatik.uni-freiburg.de/~cziegler/BX/ 该包含90000个用户的270000本书的110万个评分。评分范围从1到10包括显式和隐式的评分。Last.fm——数据地址https://grouplens.org/datasets/hetrec-2011/ Last.fm提供音乐推荐的数据集。 对于数据集中的每个用户包含他们最受欢迎的艺术家的列表以及播放次数。它还包括可用于构建内容向量的用户应用标签。Wikipedia——数据地址https://en.wikipedia.org/wiki/Wikipedia:Database_download#English-language_Wikipedia 该数据集已广泛用于社交网络分析图形和数据库实现测试以及维基百科用户行为研究OpenStreetMap——数据地址http://planet.openstreetmap.org/planet/full-history/ OpenStreetMap是一个协作的地图项目类似于维基百科。它的数据由用户提供数据集中的对象包括道路建筑物兴趣点以及您可能在地图上找到的任何其他内容。 2.网络爬虫 使用网络爬虫的话首先需要一定的Python基础并且对前后端的知识有一定的了解。 AI Studio上也有一些关于爬虫的教程可以去学习学习 Python入门-豆瓣电影TOP250爬取——https://aistudio.baidu.com/aistudio/projectdetail/70149《青春有你2》数据爬取与分析——https://aistudio.baidu.com/aistudio/projectdetail/396959 我以前也做过一些爬虫程序可以参考参考 抓取王者荣耀英雄列表以及对应图片——https://blog.csdn.net/zbp_12138/article/details/101595246抓取中国天气网当前时段所有城市的天气数据——https://blog.csdn.net/zbp_12138/article/details/101617083 3.调查问卷 调查问卷就简单多了不需要代码基础像问卷星就能帮你制作采集表单。 当然如果想要自己做采集表单的话也可以自己尝试搭一个服务器用于存放数据这也需要一定的前后端基础有兴趣的同学可以学一下Django。 三、数据处理 一般来说直接采集到的数据是不能直接拿来训练的因此我们还需要一定的数据处理功底。对于数据处理我首先推荐Excel如果有能力的同学可以尝试Python代码。 PaddleRec推荐数据集格式 GitHub文档https://github.com/PaddlePaddle/PaddleRec/blob/master/doc/slot_reader.md PaddleRec对于数据输入有两种方式。一种是数据已经处理成slotvalue的格式可以直接输入模型我们就用这种方式输入另一种方式是配置一个reader在reader中对数据进行处理再用yield的方式输入。 1.slot:value的格式说明 当你的数据集格式为slot:feasign这种格式或者可以预处理为这种格式时可以直接使用PaddleRec内置的Reader。 Slot直译是槽位在推荐工程中是指某一个宽泛的特征类别比如用户ID、性别、年龄就是Slot.Feasign则是具体值比如12345男20岁。 在实践过程中很多特征槽位不是单一属性或无法量化并且离散稀疏的比如某用户兴趣爱好有三个游戏/足球/数码且每个具体兴趣又有多个特征维度则在兴趣爱好这个Slot兴趣槽位中就会有多个Feasign值。 PaddleRec在读取数据时每个Slot ID对应的特征支持稀疏且支持变长可以非常灵活的支持各种场景的推荐模型训练。 在一条数据中每个特征用slot:feasign表示相邻两个特征用\t分隔如下所示 logid:100009 age:49 bookid:60392452 label:8 logid:100009 age:49 bookid:60502258 label:6 logid:100009 age:49 bookid:60977337 label:9 logid:100009 age:49 bookid:312289871 label:0 logid:100009 age:49 bookid:312981589 label:6 logid:100009 age:49 bookid:312982518 label:8 logid:100009 age:49 bookid:312983654 label:9 … … 电影推荐数据集部分训练数据 logid:100000548 time:976672993 userid:53793338 gender:54713968 age:23292885 occupation:32989794 movieid:26774464 title:57847355 title:44022005 title:36622433 title:3467516 genres:58455809 label:5 logid:100001212 time:974716889 userid:52427656 gender:40715500 age:38930457 occupation:113722 movieid:51981119 title:48706141 title:41846042 title:33234546 genres:28043405 genres:51532872 label:2 logid:100002309 time:971972222 userid:28238127 gender:54713968 age:50367871 occupation:113722 movieid:31124213 title:41573393 title:37130060 title:33234546 genres:17697846 genres:16423920 label:2 logid:100005308 time:975112166 userid:4949303 gender:54713968 age:50367871 occupation:113722 movieid:26896829 title:48110462 title:57345835 title:24278372 title:2549750 genres:7891961 genres:51532872 label:2 2.只有value的输入数据格式 slot:value这种格式的数据是PaddleRec推荐的数据集格式当然这种格式不是唯一的。 假设数据A、B、C在文本数据中每行以这样的形式存储 0.1,0.2,0.3…3.0,3.1,3.2 \t 99999,99998,99997 \t 1 \n 则示例代码如下 from paddlerec.core.utils import envs class Reader(ReaderBase):def init(self):self.avg envs.get_global_env(avg, None, hyper_parameters.reader) def generator_sample(self, line):def reader(self, line):# 先分割 \n 再以 \t为标志分割为listvariables (line.strip(\n)).split(\t)# A是第一个元素并且每个数据之间使用,分割var_a variables[0].split(,) # listvar_a [float(i) / self.avg for i in var_a] # 将str数据转换为float# B是第二个元素同样以 , 分割var_b variables[1].split(,) # listvar_b [int(i) for i in var_b] # 将str数据转换为int# C是第三个元素, 只有一个元素没有分割符var_c variables[2]var_c int(var_c) # 将str数据转换为intvar_c [var_c] # 将单独的数据元素置入list中# 将数据与数据名结合组织为dict的形式# 如下output形式为{ A: var_a, B: var_b, C: var_c}variable_name [A, B, C]output zip(variable_name, [var_a] [var_b] [var_c])# 将数据输出使用yield方法将该函数变为了一个可迭代的对象yield output
http://www.zqtcl.cn/news/162936/

相关文章:

  • 旅行网站开发意义怎样优化网络速度
  • 手机微网站建设多少钱拟定网络设计方案
  • 厦门制作公司网站安卓原生app开发工具
  • worldpress英文网站建设wordpress输出外部文章
  • u9u8网站建设商业公司的域名
  • 有学给宝宝做衣服的网站吗防网站黑客
  • 十大搜索引擎网站微信小程序有什么用处?
  • 团购网站 seo烟台网站建设方案优化
  • 公司网站建设招标文件范本公益永久免费主机
  • 建设银行网站查询企业年金五合一免费建站
  • 做网站开发挣钱吗做网站手机版
  • 网站建设案例精粹 电子书广州白云学校网站建设
  • 良品铺子网站制作用什么软件来做网站
  • ip直接访问网站 备案哪有深圳设计公司
  • 平面构成作品网站第一设计
  • 济南小程序开发多少钱网站移动端优化工具
  • 大连开发区网站淘宝网站优化实例
  • 张家港建网站的公司做网站犯法了 程序员有责任吗
  • 小型企业网站建设项目浦东新区网站推广公司
  • 上海做网站优化公司ps最好用的素材网站
  • 网站建设品牌推广seo制作公司网站
  • 个人网站服务器一年多少钱科技让生活更美好作文450字
  • 开学第一课汉字做网站网盘资源搜索神器
  • 备案网站应用服务树莓派用来做网站
  • 找装修公司上什么网站湘潭交通网站
  • php网站服务建设网站增加关键字
  • 免费视频网站制作泰州东方医院
  • 单位的网站怎样设计才美观手机开发者选项
  • 网站可以做软件检测吗重庆潼南网站建设价格
  • 忘记网站后台地址建设网站协议范本