网站后台维护教程视频,有没有做线播放网站,宣传平台的软件有哪些,租房一、快速入门 1、Tika是一个用于文本解释的框架#xff0c;其本身并不提供任何的库用于解释文本#xff0c;而是调用各种各样的库#xff0c;如POI#xff0c;PDFBox等。 使用Tika#xff0c;可以提取文件中的作者、标题、创建时间、正文等内容#xff0c;相比于java.io自… 一、快速入门 1、Tika是一个用于文本解释的框架其本身并不提供任何的库用于解释文本而是调用各种各样的库如POIPDFBox等。 使用Tika可以提取文件中的作者、标题、创建时间、正文等内容相比于java.io自带的一些功能如FileInputStream,FIleReader,Scanner等 1若文档为纯文本如txthtmljava文件等则二者对于文件内容的提取基本无差别都可将内容呈现出来。 2若文档为富文本如officepdf等使用java.io直接读取内容会得到一串乱码而需要通过种种工具去提取正文内容如PDFBox提取PDF文件POI提取office文件等。 TIka已将各种工具作了统一封装形成统一的API用于提取文本正文。 但注意解释文本 上述步骤只是将正文内容提取了出来如将word文档、Html文档等的正文提取出来但未对文档正文的内容进行解释此时需要用到其它的工具如 1DOM4J用于提取XML正文中的内容如某个元素或者属性的值。 2HtmlPaser用于提取HTML正文中的内容也是提取无素或者属性的值比如提取文中的超链接等。 Tika是否已经完成此功能的封装还不确认以后再研究。 2、使用GUI界面解释文本 1进入Tika所有的目录运行以下命令 java -jar tika-app-1.5 (1).jar -g 2Tika的图形界面被打开然后找开File-openURL 3点击确认后即返回解释结果 默认情况下显示的是文本的元信息 4可以通过view菜单中的选项分别查看 metadata, formatted text, plain text, main content, stuctured text等信息。 3、调用API解释文件 package com.ljh.test;import java.io.File;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.IOException;
import java.io.InputStream;import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.Parser;
import org.apache.tika.sax.BodyContentHandler;
import org.xml.sax.ContentHandler;
import org.xml.sax.SAXException;public class TikaBasicUtil {public String fileToTxt(File f) {//1、创建一个parserParser parser new AutoDetectParser();InputStream is null;try {Metadata metadata new Metadata();metadata.set(Metadata.RESOURCE_NAME_KEY, f.getName());is new FileInputStream(f);ContentHandler handler new BodyContentHandler();ParseContext context new ParseContext();context.set(Parser.class,parser);//2、执行parser的parse()方法。parser.parse(is,handler, metadata,context);for(String name:metadata.names()) {System.out.println(name:metadata.get(name));}return handler.toString();} catch (FileNotFoundException e) {e.printStackTrace();} catch (IOException e) {e.printStackTrace();} catch (SAXException e) {e.printStackTrace();} catch (TikaException e) {e.printStackTrace();} finally {try {if(is!null) is.close();} catch (IOException e) {e.printStackTrace();}}return null;}}测试程序如下 package com.ljh.test;import java.io.File;import org.junit.Test;public class TikaBasicUtilTest {Testpublic void test() {TikaBasicUtil tbu new TikaBasicUtil();System.out.println(tbu.fileToTxt(new File(D:/G组-C罗压哨助攻扳平 葡萄牙2-2美国保晋级希望.docx)));}}
输出结果如下 cp:revision:3 meta:last-author:lujinhong Last-Author:lujinhong meta:save-date:2014-06-23T04:24:00Z Application-Name:Microsoft Office Word dcterms:created:2014-06-23T04:23:00Z Author:lujinhong Application-Version:15.0000 Character-Count-With-Spaces:1188 date:2014-06-23T04:24:00Z Total-Time:1 extended-properties:Template:Normal.dotm meta:line-count:8 creator:lujinhong publisher: Word-Count:177 meta:paragraph-count:2 Creation-Date:2014-06-23T04:23:00Z extended-properties:AppVersion:15.0000 meta:author:lujinhong Line-Count:8 extended-properties:Application:Microsoft Office Word resourceName:G组-C罗压哨助攻扳平 葡萄牙2-2美国保晋级希望.docx Paragraph-Count:2 Last-Save-Date:2014-06-23T04:24:00Z Revision-Number:3 meta:creation-date:2014-06-23T04:23:00Z dcterms:modified:2014-06-23T04:24:00Z Template:Normal.dotm Page-Count:1 meta:character-count:1013 dc:creator:lujinhong meta:word-count:177 Last-Modified:2014-06-23T04:24:00Z extended-properties:Company: modified:2014-06-23T04:24:00Z xmpTPg:NPages:1 extended-properties:TotalTime:1 dc:publisher: Character Count:1013 meta:page-count:1 meta:character-count-with-spaces:1188 Content-Type:application/vnd.openxmlformats-officedocument.wordprocessingml.document 上半时美国队开球。第5分钟葡萄牙队率先进球维罗索左路45度把球吊入禁区美国后卫卡梅伦解围失误纳尼在远门柱附近右脚抽射球门上角建功葡萄牙1-0美国。 第9分钟邓普西突破被断无队友接应。第11分钟美国长传反击科斯塔头球解围。第12分钟阿尔维斯铲倒约翰逊美国队获得禁区前任意球邓普西主罚大力攻门球擦着横梁高出。第16分钟葡萄牙中锋波斯蒂加受伤被埃德换下。第18分钟美国右路传中邓普西禁区左肋抽射打高。 第24分钟美国队后场断球反击布拉德利禁区前抽射球擦着横梁高出。第27分钟祖西传球邓普西禁区右肋抽射科斯塔堵枪眼。1分钟后布拉德利远射稍偏。第32分钟美国反击约翰逊远射打偏。第34分钟维罗索远射打在后卫身上C罗拿球被吹越位。 第35分钟C罗远射被霍华德扑住。第40分钟琼斯受伤主裁判吹停比赛进入喝水时间。第42分钟葡萄牙反击C罗分球纳尼右路远射被扑出。第43分钟葡萄牙获得禁区前任意球C罗主罚打高。第45分钟纳尼远射打中立柱埃德补射被霍华德用指尖挡出。上半时结束葡萄牙1-0美国。 下半时易边葡萄牙队用卡瓦略换下阿尔梅达。第48分钟卡梅伦解围打在队友被贝斯勒身上埃德抢射打高。第55分钟美国队错失良机约翰逊右路下底传中布拉德利5码处推射科斯塔门线堵枪眼。第62分钟葡萄牙反击C罗禁区右肋射门打偏。 第64分钟美国队扳平比分角球罚出被后卫解围出禁区琼斯外围拿球横向闪过纳尼右脚大力抽射球飞进球门死角葡萄牙1-1美国。 第66分钟葡萄牙反击纳尼右路传中远端梅雷莱斯抽射被门将扑出。第68分钟葡萄牙用完第三个换人名额瓦雷拉换下梅雷莱斯。第74分钟纳尼突入禁区摔倒裁判没有吹罚点球。1分钟后琼斯滑铲放倒穆蒂尼奥吃到黄牌。第80分钟纳尼右路禁区前横切远射打高。 第81分钟美国队反超比分琼斯中路分球叶德林右路下底传中布拉德利12码处推射打在后卫身上祖西左路拿球传中邓普西用胸口把球撞进空门美国2-1葡萄牙。 第86分钟维罗索直塞C罗在越位位置完成射门。葡萄牙右路起球C罗头球攻门顶偏。第93分钟葡萄牙左路起球C罗头球顶偏。第95分钟C罗右路传中瓦雷拉头冲顶破门2-2全场结束美国2-2葡萄牙。 葡萄牙43322-贝托/21-佩雷拉、2-阿尔维斯、13-科斯塔、19-A-阿尔梅达46卡瓦略/8-穆蒂尼奥、4-维罗索、16-梅雷莱斯68瓦雷拉/17-纳尼、23-波斯蒂加16埃德、7-C罗 美国42311-霍华德/7-比斯利、5-贝斯勒、20-卡梅伦、23-F-约翰逊/15-贝克曼、13-琼斯/19-祖西91冈萨雷斯、11-贝多亚72叶德林、4-布拉德利/8-邓普西87沃多洛斯基 转载于:https://www.cnblogs.com/jediael/p/4304119.html