# 实验9字帖提取 **Repository Path**: happycjl/experiment-9-font-extraction ## Basic Information - **Project Name**: 实验9字帖提取 - **Description**: No description available - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2025-06-08 - **Last Updated**: 2025-06-08 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 汉字书法字体提取与识别系统 这个项目实现了对生字表中汉字的提取和识别功能。 ## 功能特点 1. **图像预处理**:增强对比度、二值化 2. **方格定位**:检测和提取包含汉字的方格 3. **汉字提取**:从每个方格中提取出单个汉字 4. **OCR识别**:使用Tesseract OCR引擎识别汉字 5. **结果展示与导出**:可视化识别结果并保存到文件 6. **拼音辅助识别**:使用拼音信息提高识别准确率 7. **聚类分析**:对相似汉字进行聚类和分析 ## 文件说明 - `app.ipynb`:主要代码文件,包含所有功能实现 - `hanzi1.jpg`:示例输入图像(生字表) - `chars/`:存放提取出的单个汉字图像 - `recognized_chars.txt`:识别结果输出文件 ## 使用方法 1. 安装必要的依赖: ``` pip install pytesseract pillow matplotlib opencv-python scikit-learn ``` 2. 安装Tesseract OCR引擎并配置中文语言包 3. 运行笔记本中的代码单元,按照提示选择相应功能 ## 运行环境 - Python 3.8+ - OpenCV - Tesseract OCR - NumPy, Matplotlib - scikit-learn