当前位置: 首页 > news >正文

苏州建站仿站青岛网站设计公司

苏州建站仿站,青岛网站设计公司,个人网站名称举例,品牌海外推广郑昀玩聚SR 20091003 中科院的xlvector(即项亮#xff0c;他所在的团队The Ensemble在7月份获得Netflix大奖赛公开测试排名第一#xff0c;但在9月22日Netflix宣布BPC获胜#xff0c;原因据说只是因为项亮他们提交结果晚了20分钟)最近发布了一个小工具GRSuggest#xff0c;…郑昀玩聚SR 20091003     中科院的xlvector(即项亮他所在的团队The Ensemble在7月份获得Netflix大奖赛公开测试排名第一但在9月22日Netflix宣布BPC获胜原因据说只是因为项亮他们提交结果晚了20分钟)最近发布了一个小工具GRSuggest有点像之前Kuber在FeedzShare所做过的“个性化阅读”都属于“基于某个Google Reader用户的Shared Items中的文章为该用户推荐他可能感兴趣的其他文章”基本都是基于 User-based Collaborative Filtering 算法原理。    项亮在《关于GRSuggest的一些思考》中说“去重的问题这个问题在文章推荐中非常常见很多文章都被转载N次了经常发现一个几年前的老贴又被转载其实我的推荐系统本身也是转载”。    这个延伸出来的是三个常见问题确实不好解决。 一、火星人现象    我前一段发了一个tweet“不知道 Digg 能否解决火星帖频频被推荐的问题这应该是所有digg类社区共同面临的问题不管一个帖子或段子有多近期老多频繁被digg隔一段时间总会有一个人当成宝贝发出来并被一大批火星人推荐。”    有人认为火星帖如果是优秀的当然有权利被翻出来啊。但请注意在某一个单一社区中可以假设用户群有相似的知识结构那么以往的老贴子可以被翻出来是可以的天涯社区就屡屡这么搞但在一个推荐系统中如果还是不顾用户的知识结构屡屡出现很多老段子那就真的是在驱赶用户了。   火星人现象的关键是以前大家也讨论过很多遍的“推荐系统无法获知用户以前的知识结构”的问题。也就是说一个单一的、新出现的个性化推荐系统由于不知道用户的知识结构即以往的阅读经历、经验推荐的很多Item一定是用户已经熟知和阅读过的这对于应用创始人和用户来说都是一个很不好的体验但又完全无法规避。我们举一个很简单的例子如果你在豆瓣中厮混时间不长的话总会被豆瓣猜按照你的寥寥无几的动作推荐很多你看过、听过、读过的东西而且是屡屡如此你被逼的不得不一个一个点击掉来让豆瓣了解你许久以来的经历。    从Google Reader Shared Items衍生出来的推荐系统就存在这个问题Shared Items并不能反映用户的阅读经历因为你在GReader里看了一篇文章不代表你会Shared它也不一定会Like它。这是问题一从根子上就无法完整反映用户的阅读经历。    经过对Shared Items中文用户统计相当一部分用户我估计在5060%分享的文章所属之channels即博客源数量不会超过5个10%的用户甚至只分享至多2个源的文章。多数中文用户分享的文章都出自“名人榜|LeaderBoard”所列出的这些站点。这是问题二如此大量的阅读视野狭窄的用户推荐系统能否发挥作用呢 二、有时效性和无时效性     以前刘未鹏针对玩聚SR曾经提过一个很好的建议“应该将文章分为有时效性如新闻时政类和无时效性如读书笔记、GTD方法等等看上去这需要手工分配或者高级的自然语言处理但我意识到一个很好的办法一般人们是在greader里面共享时效性文章在twitter上讨论时效性文章但无时效性或者timeless的文章会收藏到delicious上面因为greader/twitter代表分享讨论交流而delicious则代表收藏以后翻查。”     他观察到一个技巧“无时效性的文章一般很久以后还会有人往delicious上面收藏这是个极好的判断依据。而时效性强的文章就不会存在这个属性。”也就是说你可以通过检查一个文章在delicious的被用户收藏的时间从中发现哪些文章是有时效性的。     项亮也提到“究竟要不要把老帖子翻出来这个首先要解决一个新闻和文章的区别对于新闻翻出来是没有意义的但对于知识性的文章还是可以翻出来的。”     这就是基于Google Reader的推荐系统的另一个问题要不要推荐时效性强的文章     如果真的能分辨一篇文章的时效性那么可以针对“火星人现象”加一个规则推荐系统不推荐时效性强的文章因为一是用户完全有可能通过各种渠道早已看到比如论坛比如twitter比如IM二是虽然用户不一定看过但让使用推荐系统频度不高的用户总看过时的文章也会产生这个系统很烂的印象。毕竟阅读和电影不一样你可以推荐很老的电影但不能推荐很老的新闻资讯。     无时效性的文章还可以这么搞刘未鹏认为可以“判断时效性是为了增加信噪比将无时效性的文章单立一个tab来做榜单可以使后来的用户持续访问到以往一段时间的精华文章而不是大量的八卦或时政timeless的精华文章列表的好处是一下能够建立新读者对玩聚SR的高质量的信任。”我后来虽然提供了存档入口但并没有区分时效性。 三、惊喜很难吗     项亮认为“推荐文章除了要和用户的兴趣相关还要起到帮助用户拓展眼界的作用这个方面的研究这几年已经有不少了也就是找出所谓的能让用户惊喜的东西但是这方面的算法的主要问题是无法评测因为不知道什么东西是用户惊喜的。”     是的惊喜很难。     何谓惊喜就是在用户的知识结构之外又是用户当下喜欢的条目文章、电影、音乐、图片、视频。所谓提及“当下”是因为一个用户的兴趣点是动态的。     stumbleupon为何总能给用户带来惊喜     stumbleupon的算法设计师Garrett Camp曾给出一张流程图描述了当按下stumbel!按钮时stumbleupon的后台流程     图中列出了三个因子     A、Your Topics也就是你对网页的动作比如like、dislike、quick stumbles指当一个用户stumble到一个页面时没有对这个页面做任何投票行为而直接再次点击stumble!按钮跳转到另一个页面的动作他们将这个动作定义为“soft not for me” or “down-vote”。     B、Socially Endorsed Pages就是你的站内好友所like的那些条目。     C、Peer Endorsed Pages是系统计算出来的、跟你有相似投票习惯的人所like的条目。     从中我们可以总结以下要点     1、一个能让用户有“惊喜”的推荐系统必须捕捉足够多的用户行为细节。显然基于Google Reader的第三方推荐系统拿到的数据是严重不足的你无法知道用户有意忽略了哪些文章你很难拿到他的好友列表Google不像FriendFeed那样提供Dislike/Hide的按钮你只知道他何时Share或like了某篇文章从何处值得注意的一个细节是如果用户是自己订阅了煎蛋并推荐其中一篇文章显然煎蛋对用户来说更加重要相比而言用户只是从其他人的Shared Items订阅中share了煎蛋的某篇文章却不去订阅煎蛋说明煎蛋对他来说可能还不算重要。这个细节有点像“quick stumbles”的思路。     2、一个能让用户有“惊喜”的推荐系统必须拥有海量用户处理海量数据。今年2月份stumbleupon 即已突破七百万用户每天估计处理1千万以上次投票行为至少新增3万以上个新推荐条目。Google Reader中文用户还是太少而且用户行为太集中单凭Shared Items出来的新增文章数目太少。     这两点都限制了第三方挖掘“惊喜”的力度。     目前貌似只有twitter能毫无保留地提供各种用户行为细节以及海量数据。 郑昀玩聚SR 北京报道 参考我的类似主题文章 1、《如何测量Google Reader用户的分享活跃度》 20090918 2、《What’s popular的交叉验证模式》 20090919.转载于:https://www.cnblogs.com/zhengyun_ustc/archive/2009/10/04/gr_re.html
http://www.zqtcl.cn/news/724240/

相关文章:

  • 无锡网站建设 app推广软件
  • 免费入驻的外贸网站网站建设怎么打开
  • 怎么做中英文网站网站建设费做什么
  • 信阳网站建设汉狮怎么样做曖視頻网站
  • 做电影电视剧网站推广移动应用开发是什么意思
  • 网站排名优化策划中山搜索引擎优化
  • 网站建设培训证书平台型网站建设预算表
  • 网站建设后压缩代码网站如何做进一步优化
  • 大型旅游网站源码 织梦襄阳网站建设楚翼网络
  • 快速搭建网站服务器做历史卷子的网站
  • 淘口令微信网站怎么做通化seo招聘
  • 帮人做传销网站违法吗深圳也放开了
  • 发布程序后网站有很多促销策略
  • 网页网站项目综合网站建设合同.doc
  • 网站建设公司黄页企业vi系统设计公司
  • 建设局网站新闻昆明个人网站建设平台
  • 清远市建设工程交易中心网站网站打开慢什么原因呢
  • 网站网址没有被百度收录做网站ddos攻击
  • 网站网站设计公司深圳建设工程交易服务网网址
  • 自学编程网站棋牌游戏在哪做网站
  • html做分页的网站以图搜图百度识图
  • 上虞区建设局网站网站建设好公司好
  • 一半都有哪些做影视外包的网站收录网站查询
  • 网站策划书撰写流程网站推广基本方法是
  • 杭州网站建设费用多少写一篇软文推广自己的学校
  • 意大利设计网站易优cms破解授权
  • 学校网站开发工程师wordpress手机博客
  • 注册网站验证码网站开发招聘需要
  • 一个销售网站的设计方案重庆广告制作加工厂
  • 宽带固定ip的怎么做网站服务器网站设计说明书整合