# 文档处理 **Repository Path**: fire_lab/document-processing ## Basic Information - **Project Name**: 文档处理 - **Description**: 记录开发过程中写的一些文档处理代码 - **Primary Language**: Python - **License**: Apache-2.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 2 - **Forks**: 0 - **Created**: 2025-01-16 - **Last Updated**: 2025-03-04 ## Categories & Tags **Categories**: Uncategorized **Tags**: 文档处理, RAG, 大模型 ## README # Document Processing ## 本项目介绍 记录在实习过程中写的一些文档处理代码 目前包括了一下功能的相关文件: ``` document-processing/ ├── ...... ├── README.md ├── document_formater/ -> 文档格式化处理方案 └── explain_img/ -> PDF图像解释脚本 ``` ## 功能项目介绍 ### PDF图像解释脚本 #### 运用场景 由于向量数据库对于图像,图表以及流程表(在此合称为“图像”)无法直接做向量化。因此本功能项目在于对PDF文档进行预处理,通过各种方法逐页检测PDF中是否存在图像,若存在图像,则使用多模态大模型进行语义解释,并将解释插入在此页之后,以支持对于图像的向量化。 ### 文档格式化处理方案 #### 按照一定的格式要求,对未格式化的文档进行格式化处理。 提供端到端的文档格式化处理方案,目前仅支持docx文档。详细请阅读[document_formater/README.md](./document_formater/README.md)。