营销网站建设选择,网站登录验证码不正确,京东网上商城官网下载,营销推广方案一、前提刚开始接触C/Qt是需要一个项目练练手#xff0c;当时听说过OJ并且网络不好#xff0c;就想着把数据获取下来随时使用。后来代码写多了之后听说Python写爬虫更方便#xff0c;可惜坑已经跳下去了#xff0c;就一条路走到黑了。这是我代码之路的第一个完整实现完整功…一、前提刚开始接触C/Qt是需要一个项目练练手当时听说过OJ并且网络不好就想着把数据获取下来随时使用。后来代码写多了之后听说Python写爬虫更方便可惜坑已经跳下去了就一条路走到黑了。这是我代码之路的第一个完整实现完整功能的项目以示纪念。github地址如下https://github.com/JackeyLea/BlackWidow.gitgithub.com二、开发流程1. 读取配置文件数据库位置、皮肤名称2. 读取数据文件网站名称列表3. 显示界面4. 开启题库5. 从第1题开始显示题目数据题目ID、题目名称、提交人数、通过人数、题目6. 点击“显示提示”7. 在提示文本框显示提示8. 点击“显示答案”9. 在答案文本框显示答案10. 点击“下一题”11. 如果大于max ID就显示显示第1题否则显示下一题12. 点击“上一题”13. 如果小于1就显示最大ID的题目否则显示上一题14. 点击“爬虫”15. 显示爬虫界面16. 点击“网站名”下拉文本框选择一个网站名17. 清空爬虫界面数据18. 点击“start”按扭19. 加载json文件中其他数据网址、开始ID、题目数据正则表达式、提交人数正则等、结束标志等20. 开始爬虫21. 是否正常是否结束等等如果结束则跳转到35否则继续22. 拼接网址和ID生成完整的当前网址23. 获取网址的网页数据24. 判断网页数据是否正常如果包含结束保证则清空如果是200之外的返回码则清空25. 获取网页数据中的编码值并重新编码网页文本26. 如果网页数据为空则27. 根据19中的数据进行文本解析28. 获取题目数据中最长的一句话并计算MD5值29. 查询数据库此MD5值是否存在如果存在则跳转到32否则继续30. 将此MD5值插入MD5表31. 将其他的数据插入data表32. 在爬虫界面更新题目名、位置名、ID同时更新已获取的数量值33. ID1正常数量1等等34. 跳转到2135. 提示结束36. 跳转到15三、界面四、问题1、使用题目最长一句话计算MD5进行相似度判断发现效果并不好。2、使用json格式进行配置文件读写发现知识水平不够只能进行第一层数据读写3、主线程和爬虫线程交互有点问题4、poj题目太多加上反爬虫的耗时考虑使用多线程等等5、练手项目最近在学Java、Python熟练之后在用Java、Python重写。