电商网站开发的目的和意义,温江网站建设,郑州网站建设推荐美软科技,潍坊网站建设为什么80%的码农都做不了架构师#xff1f; 一、数据抓取 分析页面数据#xff0c;设计数据表结构数据只要包含投票、回答数、问题状态、最后谁回答过、浏览数、问题标题、标签#xff0c;数据样例如下#xff1a;由于一开只打算爬问题标题#xff0c;问题… 为什么80%的码农都做不了架构师 一、数据抓取 分析页面数据设计数据表结构数据只要包含投票、回答数、问题状态、最后谁回答过、浏览数、问题标题、标签数据样例如下由于一开只打算爬问题标题问题ID、问题详情也没有记录下来最后谁回答过也不算很重要。最后使用python的urllib2抓取数据BeautifulSoup对数据进行数据解析mysql存取数据写好代码就开始跑由于页面没有限制几分钟就全部抓完或许是问题比较少2011至今总有3.8W问题这个还是有点失望的。 二、数据分析 数据只有那么几项到底能分析出什么呢 Excel作图下表为数据说明 变量answersviewsquestion_countsolvedvotes含义回答数浏览量问题数量解决投票量 1.问题投票分布 不出意外的正太分布似乎程序猿并不喜欢对问题进行投票除非遇到自己特别认可或者特别厌恶的。比起stackoverflow上的情况似乎是要差点。 2.问题回答数量分布 从上图看以看出回答数量集中在0-3个而0-3个占总量的70%。 3.问题浏览分布 比较神奇的是0-1000浏览量的问题数非常少问题的排列使用的是提问时间最后有人回答过贴吧式这样做只要有人回答问题沉下去就会继续顶起来。那么部分经典问题就会不断被浏览到而有少数问题质量比较差马上就会沉下去如图中X轴200左右处。比较好奇的是从整体上看0-1000内浏览量的问题数相当少1000左右处出现一个陡坡。 4.回答数量与浏览数量关系 首先需要说明的是上图X轴每个点样例数不一样不同回答数的问题数量不一样Y轴为平均views数从图中看出回答数量和浏览量整体是成正比X5的样例比较少 5.问题解决情况 6.大家都在关注什么 最后使用jieba分词对问题进行简单的分析上面标签云为部分英文单词并不区分大小。发现一个结论是英文中PHP词频排第一。 额好吧我叶良辰也是服了。 三、最后 根据已有的数据还可以挖掘一些数据诸如 什么样的问题容易有更多人回答 你编程入门时候学的语言是什么
求助大神帮忙推荐一款适合前端小白的编辑器?
【官方比赛】社区 1111 秀代码让你来秀让你飞
大家第一个阅读的开源代码是什么
你最喜欢的开发工具是什么
求推荐PHP框架本人有一定PHP基础。
理解能力差、数学很差的人可以做程序员吗
百度面试题-汽水选择问题
说说你觉得最狂霸酷炫屌炸天的命令
程序员高强度编程后如何放松 什么的问题容易被人厌恶 如何根据一段 md5 得到原始的内容 已关闭
使用贵公司的CDN服务源网站需要改造吗 已关闭
html5为什么不兼容低版本的浏览器
对正则一直不想去背请问php的某人该怎么写 已关闭
基于0和1的时代什么时候能成为过去 已关闭
一家互联网公司的面试题期待高手给出较据参考价值的分析
JavaScript 入门哪本书最好
jQuery 怎么发送异步请求
谁能在50字以内解释下什么是大数据谢谢
钩子的实现
html经常使用那些标签
有没有山东烟台可以做网站的小伙伴求一起做个东西。 已关闭
PHP表单提交到数据库并查询 插入出错
各位大牛新手遇到个问题怎么解决啊 等等不过还是想再吐槽一次问题总数量实在太少了。 最后的最后提一下我发现的一个BUG就有几个问题的回答数量为0但问题已经解决我试点开某个BUG问题看看情况结果如下 逗我玩呢 转载于:https://my.oschina.net/toil/blog/521507