# AI-OCR 工具箱 **Repository Path**: weigo6/ai-ocr ## Basic Information - **Project Name**: AI-OCR 工具箱 - **Description**: 一个基于PySide6和OpenAI API(同样支持其他AI服务商提供的API)的多功能桌面应用,提供图像转Markdown和智能文本翻译功能。 - **Primary Language**: Unknown - **License**: MIT - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 1 - **Forks**: 0 - **Created**: 2025-06-05 - **Last Updated**: 2025-06-06 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # AI-OCR 工具箱 一个基于PySide6和OpenAI API(同样支持其他AI服务商提供的API)的多功能桌面应用,提供图像转Markdown和智能文本翻译功能。 ![image-20250605203442621](image.assets/image-20250605203442621.png) ![image-20250605203558153](image.assets/image-20250605203558153.png) ## 功能特性 - **图像转Markdown** - 支持拖拽/上传/粘贴图片(支持直接从剪贴板获取图像) - 调用GPT-4 Vision API(或者其他AI服务提供商提供的API)解析图像内容 - 自动生成格式规范的Markdown文本 - 支持数学公式LaTeX格式输出 - 支持自定义提示词,提高转换精度 - **智能文本翻译** - 多语言自动检测(中/英/日) - 支持自定义翻译提示词 - 预设常用翻译方向: - 中英互译 - 英日互译 - 日中对译 - **其他特性** - 配置界面管理API密钥和模型参数 - 暗色主题界面 - 异步网络请求处理 - 配置自动保存(config.json) ## 项目架构 ```python 项目根目录/ ├── AI-OCR.py # 主程序入口 ├── config.json # 配置文件(如果不存在会由GUI程序生成) ├── requirements.txt # 依赖库列表 ├── app_icon.png # 应用图标 ├── setting.svg # 设置图标 ├── LICENSE # 许可证文件 └── README.md # 说明文档 ``` **主要模块结构:** ```python - MainWindow # 主窗口 ├── create_image_tab() # 图像处理界面 └── create_translation_tab() # 翻译界面 - ConfigDialog # 配置对话框 - NetworkWorker # 网络请求线程 - TranslationWorker # 翻译工作线程 - load_config() # 配置加载函数 ``` ## 环境要求 - Python 3.8+ - PySide6 - OpenAI API Key(或者其他AI服务提供商的API接入点和密钥) ## 依赖库 - PySide6 - requests ## 快速开始 普通使用可以从发行版中下载编译好的可执行文件,无需安装Python环境。 1. 克隆仓库 ```bash git clone https://gitee.com/weigo6/ai-ocr.git ``` 2. 安装依赖 ```bash pip install -r requirements.txt ``` 3. 运行主程序 ```bash python AI-OCR.py ``` 4. 配置API密钥和模型 - 运行程序后点击右上角【配置】按钮 - 输入API密钥和模型参数 - 点击“OK”按钮,自动存储配置信息在同路径下的config.json文件中 ![image-20250605203728565](image.assets/image-20250605203728565.png) ## 注意事项 - 首次使用前需要配置有效的AI API密钥 - 图片转换功能需要使用AI Vision模型 - 大文件处理时请保持网络连接稳定 - 程序开发建议使用Python虚拟环境运行