当前位置: 首页 > news >正文

微信商城平台开发企业如何进行seo

微信商城平台开发,企业如何进行seo,陈金凌 wordpress,qq注册账号免费申请一、Requests请求示例【京东API接口】 爬虫爬取网页内容首先要获取网页的内容#xff0c;通过requests库进行获取。 安装 pip install requests 示例代码 import requests url http://store.weigou365.cnres requests.get(url)res.text 执行效果如下#x…一、Requests请求示例【京东API接口】 爬虫爬取网页内容首先要获取网页的内容通过requests库进行获取。 安装 pip install requests 示例代码 import requests url   http://store.weigou365.cnres  requests.get(url)res.text 执行效果如下 二、Selenium库 爬虫爬取网页有时需要模拟网页行为比如京东、淘宝详情页面图片加载随着滚动自动加载的。这种情况我们就要进行浏览器模拟操作才能获取要爬取的数据。 Selenium 是一个用于自动化浏览器操作的开源框架主要用于网页测试支持多种浏览器包括 Chrome、Firefox、Safari 等。它提供了一系列的API允许你模拟用户在浏览器中的行为例如点击按钮、填写表单、导航等。 官方网站: https://sites.google.com/a/chromium.org/chromedriver114之前版本http://chromedriver.storage.googleapis.com/index.html116版本:https://edgedl.me.gvt1.com/edgedl/chrome/chrome-for-testing/116.0.5845.96/win64/chromedriver-win64.zip117之后的版本https://googlechromelabs.github.io/chrome-for-testing/ 安装 pip install selenium 示例代码 from selenium import webdriverbrowser  webdriver.Chrome()browser.get(https://baidu.com/)print(browser.title)browser.quit()  三、爬取京东详情页面代码 from selenium import webdriverfrom lxml import etreeimport timeimport openpyxlimport reimport osimport requestsheaders {content-type: application/json, User-Agent: Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:22.0) Gecko/20100101 Firefox/22.0}def exchange_url(small,big,flag0): lists small[0].strip(/).split(/) return lists[0] /n str(flag) / big[0]def get_image_path(model): path ./imgs/ str(time.strftime(%Y%m%d%H%M, time.localtime()) ) / if model ! : path model if(os.path.exists(path)): pass else: os.makedirs(path) return pathdef download_img(title,url,headers,model): img_data requests.get(url,headersheaders).content filename url.strip(/).split(/).pop() if model ! : filename model _ filenameimg_path os.path.join(get_image_path(model),filename) with open(img_path,wb) as f: f.write(img_data) returndef get_source(driver,url): #发起请求 driver.get(url) time.sleep(1)   #休息一秒然后操纵滚轮滑到最底部这时浏览器数据全部加载返回的源码中是全部数据 driver.execute_script(window.scrollTo(0,document.body.scrollHeight);) time.sleep(2) #得到代码 source driver.page_source#返回source源码以供解析 return source def writeExcel(title): wb openpyxl.load_workbook(records.xlsx) ws wb.active path get_image_path() path os.path.abspath(.) path.strip(.) ws.append([title,path]) wb.save(records.xlsx)def get_page_title(html): db_title html.xpath(//*[classitemInfo-wrap]/div[classsku-name]/text()) if(len(db_title) 1): return db_title[0].replace(\n,).replace(\,).replace( ,) return db_title[1].replace(\n,).replace(\,).replace( ,)def get_page_logos(html): db_logo_items html.xpath(//*[idspec-list]/ul[classlh]/li) bigs mids [] for db_logo_item in db_logo_items: db_logo_small db_logo_item.xpath(img/src) db_logo_big db_logo_item.xpath(img/data-url) bigs.append(exchange_url(db_logo_small,db_logo_big)) mids.append(exchange_url(db_logo_small,db_logo_big,1)) return [mids,bigs] def get_page_content(html): images html.xpath(//div[idJ-detail-content]/p/img/href) #pattern re.compile(rbackground-image:url\(([^)]*),re.S) return imagesdef process(url): try: driver webdriver.Chrome() driver.implicitly_wait(10) content get_source(driver,url) html etree.HTML(content) title get_page_title(html) logos get_page_logos(html) images get_page_content(html) print(title,logos,images)#记录标题和图片地址 writeExcel(title) print(write title done!)#下载中图 for mid_url in logos[0]: img_url http:// mid_url.replace(http,).replace(:,).replace(//,) download_img(title,img_url,headers,modelmid) print(download mid logos done!)#下载大图 for big_url in logos[1]: img_url http:// big_url.replace(http,).replace(:,).replace(//,) download_img(title,img_url,headers,modelbig)print(download big logos done!)for img_url in images: img_url http:// img_url.replace(http,).replace(:,).replace(//,) download_img(title,img_url,headers,modelimgs)print(download content images done!)finally: driver.close()if __name__ __main__: while(True): url input(京东详情页地址(quit退出):) if(url quit): break; process(url)     上面代码保存.py文件。通过下面命令执行 python scrawler.py 执行如下 下载图片如下
http://www.zqtcl.cn/news/441490/

相关文章:

  • 公司在兰州要做网站怎样选择做期货关注什么网站
  • 响应式网站是指自适应吗新开传奇网站首区
  • 做网站产品介绍wordpress 参数 传递
  • 网站颜色搭配技巧建设摩托车价格大全
  • 哪些网站可以做画赚钱宁波模板建站定制
  • 昆明门户网站建设wordpress权限设置
  • 设计网站建设图片wordpress博客置顶
  • 网站上海网站建设网站数据建设涉及哪些内容
  • 3d效果图教程网站宁波网站建设慕枫科技
  • 视频结交网站怎么做想创建一个网站
  • 电商网站销售数据分析上海企业信息登记号查询
  • 网站建设规划设计公司排名无锡网站建设 君通科技
  • 徐州网站开发要多少钱给个人网站做百度百科
  • 法语网站建设免费网站为何收录比较慢
  • 品牌网站推广软件seo内链优化
  • 广东律师事务所东莞网站建设做网站 怎么备案
  • shopnc本地生活o2o网站源码wordpress文章内多页效果
  • 深圳全国网站制作哪个好页面设计有哪几种风格
  • 网页设计作业网站素材和效果图夏天做啥网站致富
  • 利用帝国软件如何做网站网站友链交换平台
  • 简述网站开发技术深圳网站设计合理刻
  • wordpress网站名称寻找销售团队外包
  • 一浪网站建设网页qq邮箱
  • 做网站需要注册公司吗夫唯seo系统培训
  • 沈阳人流哪个医院好安全百度关键词优化怎么做
  • 1688网站怎么做分销高质量的网站内容建设
  • 网站建设公司济宁网站转跳怎么做
  • 镇江网站设计多少钱企业网络部署方案
  • 建网站的公司浩森宇特wordpress登录缓存
  • 便宜建站空间战队头像在线制作免费