营销型网站搭建公司,3d云打印网站开发,网上做室内设计好的网站,页面1、模型选择#xff1a;GPT4
2、需求#xff1a;在win10操作系统环境下#xff0c;基于python3.10解释器#xff0c;爬取豆瓣电影Top250的相关信息#xff0c;包括电影详情链接#xff0c;图片链接#xff0c;影片中文名#xff0c;影片外国名#xff0c;评分#x…1、模型选择GPT4
2、需求在win10操作系统环境下基于python3.10解释器爬取豆瓣电影Top250的相关信息包括电影详情链接图片链接影片中文名影片外国名评分评价数概况导演主演年份地区类别这12项内容并将爬取的信息写入Excel表中。
1设计阶段 2编码阶段 3测试阶段 4文档阶段 3、结果 运行main.py报错 4、原因分析
找下一页链接时解析出现错误 通过检查网页元素发现这个解析应该没有问题所以应该是更深层次的问题发现网页请求并没有收到响应应该是生成的代码没有添加请求头信息。对此我在request中增加了请求头参数
response requests.get(url, headersheaders)
接着报错 查看了一下代码
url next_link[href] if next_link else None
这句代码返回的url是?start25amp;filter显然不是合理的下一页的url需要一个基础url和解析得到的url进行拼接我对此进行优化
base_url https://movie.douban.com/top250
url base_url next_link[href] if url else None
程序可以运行除了反爬的原因得到如下结果 显然最后几个字段信息全部在Director中对这个信息的提取出现问题。我重新编写解析的代码最终程序运行 5、总结
(1)ChatDev偏向GUI设计它将我的需求用GUI形式展示了运行主程序首先会弹出一个GUI。然后点击按钮运行整个程序。
(2)ChatDev有一个测试过程更能够确保程序运行不报错但是无法保证最终的是否返回结果或者结果是否是用户所需要的。
(3)程序中的一些参数设置需要人工配置比如发出网页请求需要加入请求头部信息否则无法返回网页信息也就无法解析内容返回结果而请求头信息是需要用户提供的。
(4)用户提出需求之后无法参与到软件开发的过程中无法参与反馈。 本人读研期间发表5篇SCI数据挖掘相关论文现在某研究院从事数据算法相关科研工作对Python有一定认知和理解会结合自身科研实践经历不定期分享关于python、机器学习、深度学习等基础知识与应用案例。 致力于只做原创以最简单的方式理解和学习关注我一起交流成长。 1、邀请三个朋友关注“数据杂坛”公众号或2、分享/在看任意订阅号的三篇文章即可在后台联系我获取相关数据集和源码。 2、关注“数据杂坛”公众号点击“领资料”即可免费领取资料书籍。 3、如果对本文有疑问或者有论文指导的相关需求点击“联系我”添加作者微信直接交流。