# TB_tesseract.js **Repository Path**: Pemawangchuk/tb_tesseract.js ## Basic Information - **Project Name**: TB_tesseract.js - **Description**: 一个专门用于藏文文字识别的 JavaScript 库,基于 Tesseract.js 开发。该库可以在浏览器和 Node.js 环境中运行,无需安装任何原生依赖,即可实现藏文图像到文本的转换。适用于藏文文字识别,支持100多种语言的javascript OCR。 - **Primary Language**: JavaScript - **License**: Apache-2.0 - **Default Branch**: main - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2025-08-29 - **Last Updated**: 2025-08-30 ## Categories & Tags **Categories**: Uncategorized **Tags**: JavaScript, 藏文OCR, tesseract-ocr, LSTM ## README
## 项目介绍Tesseract OCR 是由 Google 维护的开源光学字符识别引擎。本项目包含 Tesseract 4 中 LSTM OCR 引擎的专用训练模型,所有数据均遵循 Apache-2.0 许可协议。tb_tesseract.js 是基于 Tesseract.js 开发的 JavaScript 项目,专注于藏文文字识别。该库支持浏览器和 Node.js 环境,无需安装原生依赖即可实现藏文图像到文本的高效转换。
[系统操作流程视频](https://live.csdn.net/v/491444?spm=1001.2014.3001.5501/) ### 主要功能 - 兼容多种图像格式(PNG/JPG/GIF/BMP/TIFF等) - 支持PDF文档识别与转换 - 提供浏览器端与Node.js服务器端双端支持 - 支持单张/批量图片识别 - 具备多线程处理能力(基于Worker和Scheduler) - 支持离线识别 - 可复制识别结果至剪贴板或保存为TXT文件 ## 安装依赖环境 ### 系统要求 - Node.js v14 或更高版本 - npm 或 yarn 包管理器 ### 安装步骤 1. 克隆项目仓库: ```bash git clone https://gitee.com/Pemawangchuk/tb_tesseract.js.git cd tb_tesseract.js ``` 2. 安装项目依赖: ```bash npm install ``` 3. 构建项目(可选,用于浏览器环境): ```bash npm run build ``` ## 使用方法 ### Node.js 环境使用 1. 创建识别脚本: ```javascript const { createWorker } = require('tesseract.js'); // 创建识别器实例,指定藏文语言 const worker = await createWorker('bod', 1, { logger: m => console.log(m) // 添加日志输出 }); // 识别单张图像中的藏文 const { data: { text } } = await worker.recognize('path/to/your/tibetan-image.png'); console.log(text); // 释放资源 await worker.terminate(); ``` 2. 运行脚本: ```bash node examples/node/recognize.js ``` 3. 识别结果