# 实验9字帖提取

**Repository Path**: happycjl/experiment-9-font-extraction

## Basic Information

- **Project Name**: 实验9字帖提取
- **Description**: No description available
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2025-06-08
- **Last Updated**: 2025-06-08

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# 汉字书法字体提取与识别系统

这个项目实现了对生字表中汉字的提取和识别功能。

## 功能特点

1. **图像预处理**：增强对比度、二值化
2. **方格定位**：检测和提取包含汉字的方格
3. **汉字提取**：从每个方格中提取出单个汉字
4. **OCR识别**：使用Tesseract OCR引擎识别汉字
5. **结果展示与导出**：可视化识别结果并保存到文件
6. **拼音辅助识别**：使用拼音信息提高识别准确率
7. **聚类分析**：对相似汉字进行聚类和分析

## 文件说明

- `app.ipynb`：主要代码文件，包含所有功能实现
- `hanzi1.jpg`：示例输入图像（生字表）
- `chars/`：存放提取出的单个汉字图像
- `recognized_chars.txt`：识别结果输出文件

## 使用方法

1. 安装必要的依赖：
   ```
   pip install pytesseract pillow matplotlib opencv-python scikit-learn
   ```

2. 安装Tesseract OCR引擎并配置中文语言包

3. 运行笔记本中的代码单元，按照提示选择相应功能

## 运行环境

- Python 3.8+
- OpenCV
- Tesseract OCR
- NumPy, Matplotlib
- scikit-learn