# coffice-parser(基于tika开源项目的解析器工具) **Repository Path**: OCTD/coffice-parser ## Basic Information - **Project Name**: coffice-parser(基于tika开源项目的解析器工具) - **Description**: 基于Tika开源项目-进行进一步封装的开发解析器工具-目前可以获取多项文件信息的内容以及元数据-之后会对性能以及并发、以及多文件进行功能提升:目前支持文件有:xml,html,pdf,word,excel,jpg等文件。后续会更加深入开发 - **Primary Language**: Java - **License**: Apache-2.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 6 - **Forks**: 5 - **Created**: 2018-04-11 - **Last Updated**: 2023-06-15 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # coffice-parser(基于tika开源项目的解析器工具) 基于Tika开源项目-进行进一步封装的开发解析器工具-目前可以获取多项文件信息的内容以及元数据-之后会对性能以及并发、以及多文件进行功能提升:目前支持文件有:xml,html,pdf,word,excel,jpg等文件。后续会更加深入开发 ## 测试代码 ``` public static void main(String[] args){ //检测文件信息内容 String content = DefaultDocParser.getInstance().parserContent("C:\\Users\\Administrator\\Desktop\\Mockito.docx"); System.out.println(content); //解析文件元数据 System.out.println(DefaultDocParser.getInstance().parserMetadata("C:\\Users\\Administrator\\Desktop\\Mockito.docx")); //语言检测器-检测语言 DocDetector.detectLanguage(content); } ```