# AI-OCR 工具箱

**Repository Path**: weigo6/ai-ocr

## Basic Information

- **Project Name**: AI-OCR 工具箱
- **Description**: 一个基于PySide6和OpenAI API（同样支持其他AI服务商提供的API）的多功能桌面应用，提供图像转Markdown和智能文本翻译功能。
- **Primary Language**: Unknown
- **License**: MIT
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 1
- **Forks**: 0
- **Created**: 2025-06-05
- **Last Updated**: 2025-06-06

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# AI-OCR 工具箱

一个基于PySide6和OpenAI API（同样支持其他AI服务商提供的API）的多功能桌面应用，提供图像转Markdown和智能文本翻译功能。

![image-20250605203442621](image.assets/image-20250605203442621.png)

![image-20250605203558153](image.assets/image-20250605203558153.png)

## 功能特性

- **图像转Markdown**
  - 支持拖拽/上传/粘贴图片（支持直接从剪贴板获取图像）
  - 调用GPT-4 Vision API（或者其他AI服务提供商提供的API）解析图像内容
  - 自动生成格式规范的Markdown文本
  - 支持数学公式LaTeX格式输出
  - 支持自定义提示词，提高转换精度

- **智能文本翻译**
  - 多语言自动检测（中/英/日）
  - 支持自定义翻译提示词
  - 预设常用翻译方向：
    - 中英互译
    - 英日互译
    - 日中对译

- **其他特性**
  - 配置界面管理API密钥和模型参数
  - 暗色主题界面
  - 异步网络请求处理
  - 配置自动保存（config.json）

## 项目架构

```python
项目根目录/
├── AI-OCR.py            # 主程序入口
├── config.json          # 配置文件（如果不存在会由GUI程序生成）
├── requirements.txt     # 依赖库列表
├── app_icon.png         # 应用图标
├── setting.svg          # 设置图标
├── LICENSE              # 许可证文件
└── README.md            # 说明文档
```

**主要模块结构：**
```python
- MainWindow             # 主窗口
  ├── create_image_tab() # 图像处理界面
  └── create_translation_tab() # 翻译界面
- ConfigDialog           # 配置对话框
- NetworkWorker          # 网络请求线程
- TranslationWorker      # 翻译工作线程
- load_config()          # 配置加载函数
```

## 环境要求

- Python 3.8+
- PySide6
- OpenAI API Key（或者其他AI服务提供商的API接入点和密钥）

## 依赖库

- PySide6
- requests

## 快速开始

普通使用可以从发行版中下载编译好的可执行文件，无需安装Python环境。

1. 克隆仓库
```bash
git clone https://gitee.com/weigo6/ai-ocr.git
```
2. 安装依赖
```bash
pip install -r requirements.txt
```
3. 运行主程序
```bash
python AI-OCR.py
```
4. 配置API密钥和模型
   - 运行程序后点击右上角【配置】按钮
   - 输入API密钥和模型参数
   - 点击“OK”按钮，自动存储配置信息在同路径下的config.json文件中

![image-20250605203728565](image.assets/image-20250605203728565.png)

## 注意事项

- 首次使用前需要配置有效的AI API密钥
- 图片转换功能需要使用AI Vision模型
- 大文件处理时请保持网络连接稳定
- 程序开发建议使用Python虚拟环境运行