当前位置: 首页 > news >正文

网站开发岗位需求分析广东阳江网络问政平台

网站开发岗位需求分析,广东阳江网络问政平台,学校微网站模板,做网站很简单转载自 HtmlParser提取网页中的纯文本信息HTMLParser 一个解析web页面的开源类库。 准备学习下搜索方面的技术#xff0c;就学习了些网络爬虫的知识。最近一直在一个点上困惑#xff0c;如何提取一个网页上的纯文本信息。要使用正则表达式的话呢#xff0c;需要考…转载自   HtmlParser提取网页中的纯文本信息HTMLParser 一个解析web页面的开源类库。         准备学习下搜索方面的技术就学习了些网络爬虫的知识。最近一直在一个点上困惑如何提取一个网页上的纯文本信息。要使用正则表达式的话呢需要考虑很多因素而且标签也太多不是很方便效果也不好。就准备利用开源包最后选择了HtmlParser。     在网上搜索如何利用HtmlParser提取页面信息。提取的结果都不是很理想都包含了很多无用空格信息还有很多JS代码。 如利用如下的代码  public void getWebPageContent(String htmlContent) {            Parser parser  new Parser();          try {              parser.setInputHTML(htmlContent);              parser.setEncoding(parser.getURL());              HtmlPage page  new HtmlPage(parser);              parser.visitAllNodesWith(page);                logger.info(page.getTitle());                NodeList list  page.getBody();                StringBuffer sb  new StringBuffer();              for (NodeIterator iterator  list.elements(); iterator                      .hasMoreNodes();) {                  Node node  iterator.nextNode();                  logger.info(node.toPlainTextString());            } catch (ParserException e) {              // TODO Auto-generated catch block              e.printStackTrace();          }      }  就包含了很多的空格信息以及JS代码。 后来在HTMLParser的API中的org.htmlparser.beans.StringBean类的描述中找到如下一段文字Extract strings from a URL.     Text within SCRIPT/SCRIPT tags is removed.    The text within PRE/PRE tags is not altered.    The property Strings, which is the output property is null until a URL is set. So a typical usage is:         StringBean sb  new StringBean ();       sb.setLinks (false);       sb.setReplaceNonBreakingSpaces (true);       sb.setCollapse (true);       sb.setURL (http://www.netbeans.org); // the HTTP is performed here       String s  sb.getStrings ();     利用后如下  /**      * 根据提供的URL获取此URL对应网页的纯文本信息      * param url 提供的URL链接      * return RL对应网页的纯文本信息      * throws ParserException      */      public String getText(String url)throws ParserException{          StringBean sb  new StringBean();                    //设置不需要得到页面所包含的链接信息          sb.setLinks(false);          //设置将不间断空格由正规空格所替代          sb.setReplaceNonBreakingSpaces(true);          //设置将一序列空格由一个单一空格所代替          sb.setCollapse(true);          //传入要解析的URL          sb.setURL(url);          //返回解析后的网页纯文本信息          return sb.getStrings();      }  便可以解析出网页中的纯文本信息而且效果很好
http://www.zqtcl.cn/news/995276/

相关文章:

  • 齐河建设局网站长沙市住房和建设局官方网站
  • 萧山区住房和城乡建设局网站wordpress网站合并
  • 做背景网站网站建设与维护制作网页
  • 网站建设公司知名营销型企业网站项目策划表
  • 写作网站哪个最好企业培训机构有哪些
  • 江苏省水利工程建设局网站域名不备案可以正常使用吗
  • 对网站开发语言的统计网站内容建设包括什么
  • 西安高端网站建设怎样开公司
  • 华为做网站免费签名设计在线生成
  • 网站产品整合推广爱网聊的男人是什么心理
  • 武威市建设厅网站汕头seo外包公司
  • 酒泉网站怎么做seo东莞高明网站设计
  • 沧州网站建设联系电话杭州设计公司logo
  • 网站子站点是什么意思亚马逊国际站官网
  • 影视cms哪个好苏州关键词优化搜索排名
  • 杭州微信网站开发网站优化公司免费咨询
  • 宣武富阳网站建设南昌公众号开发公司
  • 免费的网站推荐下载wordpress %s
  • 网站的原理百度旧版本下载
  • 衡水网站建设地方新网域名证书下载
  • 自己做的创意的网站什么是淘宝seo
  • 网站开发包含哪些网站设计实例
  • 网站建设 核算棋牌源码论坛
  • 杭州网站建设案例网页设计程序
  • 网站建设的相关问题湛江网站开发
  • 网站开发作业wordpress用户角色
  • 品牌网站制作建设微信小程序开发需要什么技术
  • 新网站注册国内食品行业网站开发
  • 太原微商网站建设网站里面的视频功能怎么做的
  • 绿色做环保网站的好处网易企业邮箱登录登录入口