# KIMI_OCR

**Repository Path**: Wang-AoTian/kimi_-ocr

## Basic Information

- **Project Name**: KIMI_OCR
- **Description**: 基于KIMI API的OCR工具
- **Primary Language**: Python
- **License**: MulanPSL-2.0
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2025-01-10
- **Last Updated**: 2025-01-10

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# KIMI_OCR

#### 介绍
基于KIMI API的OCR工具

#### 软件架构
软件架构说明


#### 安装教程
下载MainApp.exe文件，保存到本地一个可访问的空白文件夹中即可

#### 使用说明

1. 用户首次启动这个程序时会要求输入KIMI API Key，填入后会在程序所在目录下新建一个json文件用于存储其填入的api。后续启动程序时正常使用即可。（若用户需要修改api，编辑这个json文件即可）

2. 这个工具通过调用KIMI大模型进行OCR识别。支持用户上传.png, .jpeg, .bmp, .gif, .svg图片。用户可选择模型并设置温度（对于OCR任务，不要求随机性 反而要求确定性，因此温度最好接近0）。
3. 用户可根据需求选择类别。若用户只想从扫描文档中提取文字，可选择类别“提取文字”；若用户需要翻译，则选择类别“翻译”；若用户需要识别表格，则选择类别“表格”；若用户需要识别公式，则选择类别“公式”；若用户需要从论文插图中提取数据，则可选择类别“提取数据”。
按钮“提示词”用于基于用户设定类别生成相应的提示词，用户可在左侧的文本面板中编辑提示词以满足更复杂的需求。
4. 运行结束后生成的结果将展示在右侧的面板内，用户可将结果copy到Word、TexStudio、Excel等应用程序里。