当前位置: 首页 > news >正文

成都 建设网站鹤壁网络推广培训

成都 建设网站,鹤壁网络推广培训,房地产销售技巧和话术,网络上市场推广最近#xff0c;有网友反映#xff0c;我的批量查字典工具换到其它的网站就不好用了。对此#xff0c;我想说的是#xff0c;互联网包罗万象#xff0c;网站的各种设置也有所不同#xff0c;并不是所有的在线字典都可以用Python爬取的。事实上#xff0c;很多网站为了防…最近有网友反映我的批量查字典工具换到其它的网站就不好用了。对此我想说的是互联网包罗万象网站的各种设置也有所不同并不是所有的在线字典都可以用Python爬取的。事实上很多网站为了防止被爬取内容早就提高了网站的安全级别不会让用户轻意爬取内容的。 由于这名网友想要的是韩语翻译所以我就不能拿原来的网站来操作了只好去网上查询网速快、又不对爬虫有限制的网站来操作。终于探索出了爬取某字典网站上内容的方法。 一、用BeautifulSoup获取翻译 这是一个字典网站也是一个双语句库网站对于汉语的韩语翻译我们可以通过requests来获取网页源文再用BeautifulSoup进行解析然后用soup.find()查找想要的标签信息和Class提取文本信息然后再写入到xls文件就可以了代码如下 import xlwt import requests from bs4 import BeautifulSoupheaders {User-Agent:Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Mobile Safari/537.36 Edg/114.0.1823.37}def get_word(word):urlfhttps://zh.glosbe.com/zh/ko/{word}resp requests.get(url,headersheaders)soup BeautifulSoup(resp.text, html.parser)# 查找查询结果result soup.find(div, class_inline leading-10)if result:return result.text.split()[0]else:return 未找到翻译def process_txt_file(filename):# 创建工作簿wb xlwt.Workbook()# 创建表单sh wb.add_sheet(sheet 1)with open(filename, r, encodingutf-8) as file:words [i.strip() for i in file.readlines()]for index,word in enumerate(words):sh.write(index,0,word)sh.write(index,1,get_word(word))wb.save(translation_results.xls) #调用函数并传入txt文件路径 process_txt_file(words.txt) 二、用openpyxl来写入xlsx文件 上面的代码中采用的是xlwt来写入到xls文件我们也可以改用openpyxl同时我们还可以通过soup.h3.string来更快地定位所需要的位置信息。这次我们把查询的内容由韩语改为英文代码优化如下 import requests from bs4 import BeautifulSoup import openpyxl headers {User-Agent:Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Mobile Safari/537.36 Edg/114.0.1823.37} def get_word(word):urlfhttps://zh.glosbe.com/zh/en/{word}resp requests.get(url,headersheaders)soup BeautifulSoup(resp.text, html.parser)# 查找查询结果#results soup.find_all(div, class_py-2 flex)results soup.h3.stringif results:return results.strip()else:return 未找到翻译 # if results: # for result in results: # print(result.replace(\n\n\n,\n).strip()) # else: # return 未找到翻译 def process_txt_file(filename):workbook openpyxl.Workbook()sheet workbook.activewith open(filename, r, encodingutf-8) as file:words [i.strip() for i in file.readlines()]for index, word in enumerate(words):translation get_word(word)sheet.cell(rowindex 1, column1).value wordsheet.cell(rowindex 1, column2).value translationworkbook.save(translation_results.xlsx)#调用函数并传入txt文件路径 process_txt_file(words.txt) 三、提取双语例句到xlsx文件 先上效果以下是多个关键词及其相关例句的图示 相关代码如下 import requests from bs4 import BeautifulSoup import openpyxl headers {User-Agent:Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Mobile Safari/537.36 Edg/114.0.1823.37} def get_word(word):urlfhttps://zh.glosbe.com/zh/en/{word}resp requests.get(url,headersheaders)soup BeautifulSoup(resp.text, html.parser)# 查找查询结果results soup.find_all(div, class_py-2 flex)lst[]if results:for result in results:text result.text.replace(\n\n\n,\n).strip()lst.append(text.split(\n))return lstelse:return 未找到翻译def process_txt_file(filename):workbook openpyxl.Workbook()sheet workbook.activewith open(filename, r, encodingutf-8) as file:words [i.strip() for i in file.readlines()]for word in words:sheet.append([word])paras get_word(word)for para in paras:sheet.append(para)workbook.save(translation.xlsx)#调用函数并传入txt文件路径 process_txt_file(words.txt) 四、学后的反思 1. 爬虫不是万能的不能完全依靠爬虫去获取一切网上的信息毕竟有很多网站的案例防御机制是针对爬虫的 2. 利用BeautifulSoup是很不错的解析、提取网页标签的方法如果无法完全获取网页信息就要考虑带上headers,cookies等信息。 3. 写入excel文件有多种 方法列表写入Excel可以考虑sheet.append()方法简单实用。
http://www.zqtcl.cn/news/165558/

相关文章:

  • 网站建设费用标准做网站怎么盈利
  • 仕德伟做的网站图片怎么修initial wordpress
  • 网站制作公司多少费用正规的机械外包加工订单网
  • 网站的维护和推广2345网址大全设主页访问
  • 天津商城网站建设公司如何申请注册企业邮箱
  • 做家旅游的视频网站好给我一个可以在线观看的免费
  • 香奈儿网站建设做网站应该问客户什么需求
  • 永久免费ppt下载网站互联网上市公司一览表
  • 甘肃省建设工程168网站东营智能网站设计
  • 网站跨机房建设方案山西运城市建设局网站
  • 网站被k文章修改设计师图片素材
  • 建设银行益阳市分行桃江支行网站9377烈焰传奇手游官网
  • 网站收费怎么做沈阳建设工程信息网 等级中项网
  • 做网站后台教程视频杭州网站开发建设
  • 维度 网站建设优秀vi设计网站
  • 快速搭建网站工具海洋网络做网站不负责
  • 做电影资源网站服务器怎么选wordpress唱片公司模板
  • 医院网站建设投标要求wordpress文章的表是什么
  • 怎么做网站后门海外营销推广
  • 网站建设中英版网站要做手机版怎么做的
  • 安徽网站开发与维护专业阜阳建设部网站
  • 山东省住房和建设厅网站网站优化大计
  • 大良建网站织梦建设两个网站 视频
  • 用html5制作个人网站航空港建设局网站
  • 祥云平台建站网站备案通过什么可以备案
  • 免费建造网站系统php和wordpress
  • 九脉堂是做网站的网站权重不稳定
  • 网站怎么做来流量门户网站的发布特点
  • 网站设计相似侵权吗免费游戏网站建设
  • 湖北长安建设网站制作一个网站的步骤是什么