# Multi-Modal_AI_Agents

**Repository Path**: tomwoo/Multi-Modal_AI_Agents

## Basic Information

- **Project Name**: Multi-Modal_AI_Agents
- **Description**: 多模态AI智能体(LM_APP_002)
- **Primary Language**: Unknown
- **License**: MIT
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2025-07-18
- **Last Updated**: 2025-08-02

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# Multi-Modal_AI_Agents

这是一个多模态AI智能体项目，旨在通过结合多种AI技术来处理和理解多种类型的数据，如文本、图像和视频。

## 项目内容

- “光学字符识别工作流”标签页，使用光学字符识别工具处理PDF文档，从PDF文档中提取文本、表格和图像。
- “视频摘要与问答智能体”标签页，使用视频搜索与摘要智能体上传视频、生成摘要和进行视频问答。

## 项目结构

- `main.py`: 项目的主程序。
- `ocr_pipelines.py`: “光学字符识别工作流”标签页，提供了从PDF文档中提取文本、表格和图像的功能。
- `vss_agent.py`: “视频摘要与问答智能体”标签页，定义了一个VssAgent类，用于处理视频上传、摘要生成和问答任务。
- `requirements.txt`: 项目依赖列表。
- `LICENSE`: 项目许可证。
- `.gitignore`: Git忽略文件配置。
- `images/`: 存放项目相关的图片文件。
- `pdf_docs/`: 存放PDF文档示例。
- `prompt_examples/`: 存放提示示例文件。
- `question_examples/`: 存放问题示例文件。
- `videos/`: 存放视频文件示例。

## 安装

确保你已经安装了Python 3.10+环境。然后，你可以通过以下命令安装项目依赖：

```bash
sudo apt install tesseract-ocr # 安装Tesseract-OCR
pip install -r requirements.txt # 安装第三方Python库（包括Python Tesseract）
```

## 使用说明

1. 从百度网盘下载共享文件夹"Multi-Modal_AI_Agents/videos/"，保存至项目目录下。  
   链接: https://pan.baidu.com/s/10ok-FRWBgxevlw1fqiH4-A?pwd=wwhn 提取码: wwhn
2. 运行以下命令启动多模态AI智能体：

```bash
python main.py
```

3. 通过以下URL访问Web页面：http://localhost:7860/。

## 贡献

欢迎贡献代码和报告问题。请在Gitee上提交Pull Request和Issue。

## 许可证

本项目使用MIT许可证。详情请查看 `LICENSE` 文件。

## 注意事项

在项目目录下创建".env"文件，内容如下：

```txt
HF_ENDPOINT="HuggingFace的（代理）服务器端URL"

VSS_HOST = "VSS Agent的名称或地址" # 若未设置，则不能上传视频文件、生成视频摘要、进行视频问答
VSS_PORT = "VSS Agent的端口号" # 若未设置，则不能上传视频文件、生成视频摘要、进行视频问答
```