# Multi-Modal_AI_Agents **Repository Path**: tomwoo/Multi-Modal_AI_Agents ## Basic Information - **Project Name**: Multi-Modal_AI_Agents - **Description**: 多模态AI智能体(LM_APP_002) - **Primary Language**: Unknown - **License**: MIT - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2025-07-18 - **Last Updated**: 2025-08-02 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # Multi-Modal_AI_Agents 这是一个多模态AI智能体项目,旨在通过结合多种AI技术来处理和理解多种类型的数据,如文本、图像和视频。 ## 项目内容 - “光学字符识别工作流”标签页,使用光学字符识别工具处理PDF文档,从PDF文档中提取文本、表格和图像。 - “视频摘要与问答智能体”标签页,使用视频搜索与摘要智能体上传视频、生成摘要和进行视频问答。 ## 项目结构 - `main.py`: 项目的主程序。 - `ocr_pipelines.py`: “光学字符识别工作流”标签页,提供了从PDF文档中提取文本、表格和图像的功能。 - `vss_agent.py`: “视频摘要与问答智能体”标签页,定义了一个VssAgent类,用于处理视频上传、摘要生成和问答任务。 - `requirements.txt`: 项目依赖列表。 - `LICENSE`: 项目许可证。 - `.gitignore`: Git忽略文件配置。 - `images/`: 存放项目相关的图片文件。 - `pdf_docs/`: 存放PDF文档示例。 - `prompt_examples/`: 存放提示示例文件。 - `question_examples/`: 存放问题示例文件。 - `videos/`: 存放视频文件示例。 ## 安装 确保你已经安装了Python 3.10+环境。然后,你可以通过以下命令安装项目依赖: ```bash sudo apt install tesseract-ocr # 安装Tesseract-OCR pip install -r requirements.txt # 安装第三方Python库(包括Python Tesseract) ``` ## 使用说明 1. 从百度网盘下载共享文件夹"Multi-Modal_AI_Agents/videos/",保存至项目目录下。 链接: https://pan.baidu.com/s/10ok-FRWBgxevlw1fqiH4-A?pwd=wwhn 提取码: wwhn 2. 运行以下命令启动多模态AI智能体: ```bash python main.py ``` 3. 通过以下URL访问Web页面:http://localhost:7860/。 ## 贡献 欢迎贡献代码和报告问题。请在Gitee上提交Pull Request和Issue。 ## 许可证 本项目使用MIT许可证。详情请查看 `LICENSE` 文件。 ## 注意事项 在项目目录下创建".env"文件,内容如下: ```txt HF_ENDPOINT="HuggingFace的(代理)服务器端URL" VSS_HOST = "VSS Agent的名称或地址" # 若未设置,则不能上传视频文件、生成视频摘要、进行视频问答 VSS_PORT = "VSS Agent的端口号" # 若未设置,则不能上传视频文件、生成视频摘要、进行视频问答 ```