当前位置: 首页 > news >正文

深圳英文网站建设专业公司我的网站怎么做

深圳英文网站建设专业公司,我的网站怎么做,wordpress抓取文章插件,有什么网站做的比较高大上转载请标明出处#xff1a;http://blog.csdn.net/lmj623565791/article/details/23866427 今天又遇到一个网页数据抓取的任务#xff0c;给大家分享下。 说道网页信息抓取#xff0c;相信Jsoup基本是首选的工具#xff0c;完全的类JQuery操作#xff0c;让人感觉很舒服。但… 转载请标明出处http://blog.csdn.net/lmj623565791/article/details/23866427 今天又遇到一个网页数据抓取的任务给大家分享下。 说道网页信息抓取相信Jsoup基本是首选的工具完全的类JQuery操作让人感觉很舒服。但是今天我们就要说一说Jsoup的不足。 1、首先我们新建一个页面 !DOCTYPE HTML PUBLIC -//W3C//DTD HTML 4.01 Transitional//EN htmlheadtitlemain.html/titlemeta http-equivkeywords contentkeyword1,keyword2,keyword3meta http-equivdescription contentthis is my pagemeta http-equivcontent-type contenttext/html; charsetUTF-8style typetext/cssa {line-height: 30px;margin: 20px;}/style!--link relstylesheet typetext/css href./styles.css--script typetext/javascriptvar datas [ {href : http://news.qq.com/a/20140416/017800.htm,title : 高校一保安长相酷似作家莫言 }, {href : http://news.qq.com/a/20140416/015167.htm,title : 男子单臂托举悬空女半小时 }, {href : http://news.qq.com/a/20140416/013808.htm,title : 女子上门讨房租遭强奸拍裸照 }, {href : http://news.qq.com/a/20140416/016805.htm,title : 澳洲骆驼爱喝冰镇啤酒解暑 } ];window.onload function() {var infos document.getElementById(infos);for( var i 0 ; i datas.length ; i){var a document.createElement(a);a.href datas[i].href ;a.innerText datas[i].title;infos.appendChild(a); infos.appendChild(document.createElement(br))} } /script/headbodyHello Main HttpUnit!brdiv idinfosstylewidth: 60%; border: 1px solid green; border-radius: 10px; margin: 0 auto;/div/body /html 页面上观察是这样显示的 我们审查元素 如果你看到这样的页面你会觉得拿Jsoup来抓取简直就是呵呵小菜一叠于是我们写了这样的代码 Testpublic void testUserJsoup() {try {Document doc Jsoup.connect(http://localhost:8080/strurts2fileupload/main.html).timeout(5000).get();Elements links doc.body().getElementsByTag(a);for (Element link : links) {System.out.println(link.text() link.attr(href));}} catch (IOException e) {e.printStackTrace();}} 你会觉得就这几行代码轻轻松松搞定快快乐乐下班。于是运行发现其实什么的抓取不到。 于是我们再回到页面打开页面源代码也就是上面的HTML代码你恍然大悟我靠body里面根本没有数据难怪抓不到。这就是Jsoup的不足如果Jsoup去抓取的页面的数据全都是页面加载完成后ajax获取形成的是抓取不到的。 下面给大家推荐另一个开源项目HttpUnit看名字是用于测试的但是用来抓取数据也不错 我们开始编写类似Jsoup的代码 Testpublic void testUserHttpUnit() throws FailingHttpStatusCodeException,MalformedURLException, IOException {/** HtmlUnit请求web页面 */WebClient wc new WebClient(BrowserVersion.CHROME);wc.getOptions().setUseInsecureSSL(true);wc.getOptions().setJavaScriptEnabled(true); // 启用JS解释器默认为truewc.getOptions().setCssEnabled(false); // 禁用css支持wc.getOptions().setThrowExceptionOnScriptError(false); // js运行错误时是否抛出异常wc.getOptions().setTimeout(100000); // 设置连接超时时间 这里是10S。如果为0则无限期等待wc.getOptions().setDoNotTrackEnabled(false);HtmlPage page wc.getPage(http://localhost:8080/strurts2fileupload/main.html);DomNodeListDomElement links page.getElementsByTagName(a);for (DomElement link : links) {System.out.println(link.asText() link.getAttribute(href));}}再看一下运行结果 完美解决HttpUnit其实就相当于一个没有UI的浏览器它可以让页面上的js执行完成后再抓取信息具体的介绍google一下就行。主要给大家介绍一种方案 如果你觉得这篇文章对你有用就顶一个~ 版权声明本文为博主原创文章未经博主允许不得转载。 转载于:https://www.cnblogs.com/dingxiaoyue/p/4924983.html
http://www.zqtcl.cn/news/633751/

相关文章:

  • 北京网站ui设计公司在线设计装修
  • 大学生网站作业北京网站优化技术
  • 静安区网站开发固原网络推广
  • WordPress网站修改志成网站设计制作
  • 做网站需要注意的昭通网站seo优化
  • 站群软件lanyun网站开发
  • 固始网站制作html美食网页设计源码
  • 软件研发过程管理岳阳seo
  • 舟山网站建设代理门户网站建设流程
  • 天水建设银行网站网站建设方案免费下载
  • 长城宽带魔方优化大师官网下载
  • 宁波建设工程主管部门网站长沙网站维护
  • 网站推广机构我的世界怎么做赞助网站
  • 做网站的公司图sae wordpress storage
  • 做塑料的网站有哪些东道设计公司待遇如何
  • 烟台做网站哪家好网站加速器下载
  • 哪些网站是响应式河北省住房和城乡建设厅信用网站
  • 彩票网站html模板新闻html网页设计代码范文
  • 建网站视频怎么建网站卖产品
  • 做翻糖的网站深圳做购物网站
  • 国外界面设计网站海淘网站
  • 全国住房城乡建设厅网站wordpress 宽版
  • 网站建设实训意见中国建设人才信息网站
  • 如何给网站做301跳转中国做机床的公司网站
  • 网站建设课程体系济南建站详情
  • jsp网站空间网站开发北京 广告 手机网站
  • 郑州网站建设推广爱站网seo综合查询工具
  • 2017年网站开发用什么语言手游排行榜
  • 鞍山百度网站怎么制作建设部网站建造师公示
  • 建设部网站业绩补录营销型网站制作的方法