# SmartJavaAI **Repository Path**: super_xuxiao/SmartJavaAI ## Basic Information - **Project Name**: SmartJavaAI - **Description**: 🔥🔥🔥Java免费离线AI算法工具箱，支持人脸识别，人脸属性检测，活体检测，人脸表情识别、目标检测(支持 YOLO，SSD、自训练模型)、OCR文字识别、车牌识别、表格识别、语音识别、机器翻译等功能，Maven 引用即可使用。已集成 InsightFace、SeetaFace6、YOLOv8、PaddleOCR (PPOCRv5)、Whisper、Vosk等主流模型 - **Primary Language**: Unknown - **License**: MulanPSL-2.0 - **Default Branch**: master - **Homepage**: http://smartjavaai.cn - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 174 - **Created**: 2025-08-21 - **Last Updated**: 2025-09-12 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README

🍬Java轻量级、免费、离线AI工具箱，致力于帮助Java开发者零门槛使用AI算法模型
像Hutool一样简单易用的Java AI工具箱

👉 http://smartjavaai.cn/ 👈

------------------------------------------------------------------------------- [**开发文档**](http://doc.smartjavaai.cn) ------------------------------------------------------------------------------- ## 📚简介 SmartJavaAI是专为JAVA 开发者打造的一个功能丰富、开箱即用的 JAVA AI算法工具包，致力于帮助JAVA开发者零门槛使用各种AI算法模型，开发者无需深入了解底层实现，即可轻松在 Java 代码中调用人脸识别、目标检测、OCR 等功能。底层支持包括基于 DJL (Deep Java Library) 封装的深度学习模型，以及通过 JNI 接入的 C++/Python 算法，兼容多种主流深度学习框架如 PyTorch、TensorFlow、ONNX、Paddle 等，屏蔽复杂的模型部署与调用细节，开发者无需了解 AI 底层实现即可直接在 Java 项目中集成使用，后续将持续扩展更多算法，目标是构建一个“像 Hutool 一样简单易用”的 JAVA AI 通用工具箱 ## 🚀 能力展示

人脸检测(Face Detection) - 5点人脸关键点定位
人脸比对1：1 (Face Recognition) - 人脸对齐
人证核验 (Face ID Verification)
人脸比对1：N (Face Recognition) - 人脸对齐 - 人脸注册 - 人脸库查询 - 人脸库删除
人脸属性检测 - 性别检测(GenderDetection) - 年龄检测(AgeDetection) - 口罩检测(Face Mask Detection) - 眼睛状态检测(EyeClosenessDetection) - 脸部姿态检测(FacePoseEstimation)
活体检测 (FaceLivenessDetection) - 图片和视频活体检测
人脸表情识别 (FacialExpressionRecognition) - 7种表情检测
目标检测(Object Detection) - 视频流目标检测：rtsp、摄像头、视频文件等
语义分割 (Semantic Segmentation)
实例分割 (Instance Segmentation)
自定义目标训练+检测 (Object Detection)
行人检测(Person Detection)
人类动作识别 (Action Recognition)
OBB旋转框检测 (Oriented Bounding Boxes Object Detection)
姿态估计 (Pose Estimation)
OCR文字识别 (Text Recognition) - 支持任意角度文字识别 - 支持印刷体识别 - 支持手写字识别
OCR文字识别 - 表格识别 (Table Structure Recognition)
车牌识别 (License Plate Recognition) - 单层/双层检测 - 车牌颜色识别
机器翻译 (Machine Translation) - 200多种语言互相翻译
语音识别 (Speech Recognition) - 支持100种语言 - 支持实时语音识别

## 🚀 SmartJavaAI 解决了什么问题？针对 Java 开发者在集成智能算法时常见的两大痛点： - 🐍 主流AI深度学习框架（PyTorch/TensorFlow）的Python生态与Java工程体系割裂 - ⚙️ 现有AI集成方案分散杂乱，封装不统一，使用门槛高，不易直接服务于 Java 业务开发我们实现了： ✅ **开箱即用** - 两行代码即可调用算法 ✅ **支持多种深度学习引擎** - Pytorch、Tensorflow、MXNet、ONNX Runtime ✅ **功能丰富** - 当前支持人脸识别、目标检测、OCR、NLP 等多个 AI 领域任务，构建全面的智能算法体系。 ✅ **跨平台兼容** - 支持Windows/Linux/macOS系统（x86 & ARM架构） ## 📌 支持功能 - **人脸识别** - 人脸检测：人脸区域检测、5点人脸关键点定位 - 人脸识别：人脸512维特征提取、人脸对齐、1:1 人脸比对、1:N 人脸识别 - 人脸库：人脸注册、更新、查询、删除(支持向量数据库milvus/sqlite) - 人脸属性检测：性别、年龄、口罩、眼睛状态、脸部姿态 - 静默活体检测：图片、视频活体检测 - 人脸表情识别：7种表情识别 - 人脸质量评估：亮度评估、清晰度评估、完整度评估、姿态评估、遮挡评估 - **目标检测** - 支持多种主流模型：集成 YOLOv5、YOLOv8、YOLOv11、YOLOv12、Tensorflow Object Detection 等目标检测算法 - 支持自定义模型加载：可无缝加载并部署用户自行训练的目标检测模型 - 集成行人检测模型 - **语义分割** - 集成DeepLabV3模型 - **实例分割** - 集成YOLOv8-seg、YOLOv11-seg、Mask R-CNN等模型 - **OBB旋转框目标检测** - 集成YOLOv11-obb模型 - **动作识别** - 支持KINETICS400数据集中400个人类动作识别 - **姿态估计** - 集成YOLOv8-pose、YOLOv11-pose等模型 - **OCR文字识别** - 支持PaddleOCR 3.0模型：集成最新PP-OCRv5、PP-OCRv4、表格结构识别模型(SLANet_plus)、文本行方向分类模型 - 支持任意角度识别，方向校准 - 支持通用文字识别，通用手写字识别 - 支持表格识别 - 支持中文车牌识别：单层/双层检测，颜色识别，支持12种中文车牌 - **机器翻译** - 集成NLLB-200模型：支持200+语言互相翻译 - **语音识别** - 集成openai的whisper模型：支持100种语言 - 集成vosk语音识别 ## 🌟 AI集成方式对比 | 方案 | 技术特点 | 优点 | 缺点 | |---------------------|--------------------------------------------------------------------------|-------------------------------------------------------------------|-----------------------------------------------| | **OpenCV** | 传统图像处理方案 | ✅ 提供java接口
✅ 轻量级部署
✅ 社区资源丰富 | ❌ 基于传统算法精度低(60%-75%)
❌ 需本地安装环境 | | ‌**商业闭源SDK（如虹软等）**‌ | 商业级闭源解决方案 | ✅ 开箱即用
✅ 提供完整文档和SDK
✅ 支持离线活体检测 | ❌ 免费版需年度授权更新
❌ 商业授权费用高
❌ 代码不可控 | | ‌**云API(阿里云)**‌ | SaaS化云端服务 | ✅ 零部署成本
✅ 支持高并发
✅ 自带模型迭代 | ❌ 网络延迟风险(200-800ms)
❌ 按调用量计费
❌ 有数据安全风险 | | ‌**Python混合调用**‌ | 跨语言调用方案 | ✅ 可集成PyTorch/TF等框架
✅ 支持自定义算法
✅ 识别精度高 | ❌ 需维护双语言环境
❌ 进程通信性能损耗(30%+)
❌ 异常处理复杂度翻倍 | | ‌**JNI/JNA**‌ | 跨语言底层调用方案 | ✅ 直接调用 C/C++ 高性能算法库
✅ 支持调用各种原生成熟库
✅ 可封装成通用工具Jar | ❌ 开发成本高，JNI更复杂
❌ 跨平台兼容性差 | | ‌**DJL框架**‌ | 深度学习框架 | ✅ 纯Java实现
✅ 支持主流深度学习框架
✅ 可加载预训练模型(99%+) | ❌ 需掌握DL知识
❌ 需处理模型加载、预处理、后处理等复杂技术细节 | | ‌**SmartJavaAI**‌ | java深度学习工具包 | ✅ 支持主流深度学习框架
✅ 提供丰富、开箱即用API
✅ 上手简单，单一Jar包集成 | 无 | ## 🛠️包含组件 | 模块 | 介绍 | |-----------------------|---------------------------| | common | 基础通用模块，封装了公共功能，供各算法模块共享使用 | | bom | 依赖管理模块 | | face | 人脸功能模块 | | vision | 通用视觉模块(目标检测等功能) | | ocr | OCR文字识别模块 | | translate | 机器翻译模块 | | speech | 语音功能模块，包含 ASR 和 TTS | 可以根据需求对每个模块单独引入，也可以通过引入`smartjavaai-all`方式引入所有模块。 ------------------------------------------------------------------------------- ## SmartJavaAI 架构图

------------------------------------------------------------------------------- ## 📦 安装 ### 1、环境要求 - Java 版本：**JDK 8或更高版本** - 操作系统：不同模型支持的系统不一样，具体请查看[文档](http://doc.smartjavaai.cn) ### 2、Maven 在项目的 `pom.xml` 的 `dependencies` 中可以一次性引入全部功能（如下所示）。 ⚠️ **注意：不推荐直接引入全部依赖**，更推荐根据实际需求，按功能模块单独引入，避免引入不必要的包。详细引入方式请查看 [文档](http://doc.smartjavaai.cn/install.html)、或查看[示例代码](https://gitee.com/dengwenjie/SmartJavaAI/tree/master/examples) ```xml cn.smartjavaai smartjavaai-all 1.0.24 ``` ### 3、完整示例代码 [示例代码](https://gitee.com/dengwenjie/SmartJavaAI/tree/master/examples) ### 4、文档地址 [开发文档](http://doc.smartjavaai.cn) ### 5、模型简介及下载 [模型下载](https://pan.baidu.com/s/1dlZxWEMULnaietMDUJh38g?pwd=1234) #### 人脸模块 **人脸检测模型(FaceDetection、FaceLandmarkExtraction)** | 模型名称 | 引擎 | 模型简介 | 模型开源网站 | |------------------------------|-------------|------------------------------|---------------------------------------------------------------------------------| | MTCNN(均衡) | PyTorch | 使用最广泛的模型之一，经典多阶段人脸检测，速度与精度均衡 | [Github](https://github.com/timesler/facenet-pytorch) | | SeetaFace6(均衡模型) | C++ | 中科视拓最新开放的开源免费的全栈人脸识别工具包 | [Github](https://github.com/seetafaceengine/SeetaFace6) | | RetinaFace(高精度) | PyTorch | 基于单阶段检测的多尺度人脸检测 | [Github](https://github.com/biubug6/Pytorch_Retinaface) | | RetinaFace_1080x720(高精度) | OnnxRuntime | 针对高分辨率图像优化的 RetinaFace 模型 | [Github](https://github.com/biubug6/Pytorch_Retinaface) | | RetinaFace_640x640(高精度) | OnnxRuntime | 针对低分辨率图像优化的 RetinaFace 模型 | [Github](https://github.com/biubug6/Pytorch_Retinaface) | | yolov5face_n_0.5_320x320(极速) | OnnxRuntime | YOLOv5 小型人脸检测模型，设计轻量，适合快速推理 | 无 | | yolov5face_m_640x640(极速) | OnnxRuntime | YOLOv5 中型人脸检测模型 | 无 | | UltraLightFastGenericFace(极速) | PyTorch | 针对边缘计算设备设计的轻量人脸检测模型 | [Github](https://github.com/Linzaer/Ultra-Light-Fast-Generic-Face-Detector-1MB) | --- **人脸识别模型(FaceRecognition)** | 模型名称 | 引擎 | 模型简介 | 模型开源网站 | |-------------------------------|---------|--------------------------------------------------------------------------------------|----------------------------------------------------------------------------------------| | InsightFace_IR-SE50(高精度) | PyTorch | 这是对 ArcFace（论文）和 InsightFace（GitHub）的 PyTorch 重新实现 | [Github](https://github.com/TreB1eN/InsightFace_Pytorch) | | InsightFace_Mobilefacenet(极速) | PyTorch | （轻量级）这是对 ArcFace（论文）和 InsightFace（GitHub）的 PyTorch 重新实现 | [Github](https://github.com/TreB1eN/InsightFace_Pytorch) | | FaceNet(均衡) | PyTorch | 基于 PyTorch 的 Inception ResNet（V1）模型仓库 | [Github](https://github.com/timesler/facenet-pytorch) | | ElasticFace(高精度) | PyTorch | 基于 CVPRW2022 论文《ElasticFace: Elastic Margin Loss for Deep Face Recognition》实现的人脸识别模型 | [Github](https://github.com/fdbtrs/ElasticFace) | | SeetaFace6(均衡) | C++ | 中科视拓最新开放的开源免费的全栈人脸识别工具包 | [Github](https://github.com/seetafaceengine/SeetaFace6) | **静态活体检测(RGB)模型（Silent face-anti-spoofing、FaceLivenessDetection）** | 模型名称 | 引擎 | 模型简介 | 模型开源网站 | |-----------|----------------|-------------------------|----------------------------------------------------------------------| | MiniVision| OnnxRuntime | 小视科技的静默活体检测 | [Github](https://github.com/minivision-ai/Silent-Face-Anti-Spoofing) | | IIC_FL(cv_manual_face-liveness_flrgb) | OnnxRuntime | 阿里通义工作室人脸活体检测模型-RGB | [魔塔](https://www.modelscope.cn/models/iic/cv_manual_face-liveness_flrgb/feedback) | | SeetaFace6 | C++ | 中科视拓最新开放的开源免费的全栈人脸识别工具包 | [Github](https://github.com/seetafaceengine/SeetaFace6) | **人脸表情识别模型(FacialExpressionRecognition、fer)** 支持功能： - 支持识别7种表情：neutral（中性）、happy（高兴）、sad（悲伤）、surprise（惊讶）、fear（恐惧）、disgust（厌恶）、anger（愤怒） | 模型名称 | 引擎 | 模型简介 | 模型开源网站 | |---------|-----------|--------------------------|----------------------------------------------------------------------| | DensNet121 | PyTorch| FaceLib的densnet121表情识别模型 | [Github](https://github.com/sajjjadayobi/FaceLib/) | | FrEmotion| OnnxRuntime | FaceRecognition-LivenessDetection-Javascript | [Github](https://github.com/Faceplugin-ltd/FaceRecognition-LivenessDetection-Javascript) | **人脸属性识别模型(GenderDetection、AgeDetection、EyeClosenessDetection、FacePoseEstimation)** 支持功能： - 性别检测 - 年龄检测 - 闭眼检测 - 人脸姿态检测 - 戴口罩检测 | 模型名称 | 模型简介 | 模型开源网站 | |------------|--------------------------|----------------------------------------------------------------------| | SeetaFace6 | 中科视拓最新开放的开源免费的全栈人脸识别工具包 | [Github](https://github.com/seetafaceengine/SeetaFace6) | **人脸质量评估模型(FaceQualityAssessment)** 支持功能： - 亮度评估 - 清晰度评估 - 完整度评估 - 姿态评估 - 遮挡评估 | 模型名称 | 模型简介 | 模型开源网站 | |------------|--------------------------|----------------------------------------------------------------------| | SeetaFace6 | 中科视拓最新开放的开源免费的全栈人脸识别工具包 | [Github](https://github.com/seetafaceengine/SeetaFace6) | --- #### 目标检测模型 **YOLO 系列** | 模型名称 | 引擎 | 模型简介 | 模型开源网站 | |---------|----------------|-------------------------|----------------------------------------------------------------------| | YOLOV12 | OnnxRuntime | 最流行的目标检测模型 | [Github](https://docs.ultralytics.com/zh/models/) | | YOLOV11 | OnnxRuntime | 最流行的目标检测模型 | [Github](https://docs.ultralytics.com/zh/models/) | | YOLOV8 | OnnxRuntime | 最流行的目标检测模型 | [Github](https://docs.ultralytics.com/zh/models/) | **Tensorflow系列** 仅测试了以下Tensorflow目标检测模型 | 模型名称 | 引擎 | 模型简介 | 模型开源网站 | |---------|-------------|----------------|----------------------------------------------------------------------| | EfficientDet | Tensorflow | Tensorflow目标检测 | [Github](https://github.com/tensorflow/models/blob/master/research/object_detection/g3doc/tf2_detection_zoo.md) | | SSD MobileNet V2 | Tensorflow | Tensorflow目标检测 | [Github](https://github.com/tensorflow/models/blob/master/research/object_detection/g3doc/tf2_detection_zoo.md) | | Faster RCNN Inception Resnet V2 | Tensorflow | Tensorflow目标检测 | [Github](https://github.com/tensorflow/models/blob/master/research/object_detection/g3doc/tf2_detection_zoo.md) | **SSD 系列** | 模型名称 | 引擎 | 骨干网络 | 输入尺寸 |

训练数据集

| 精度（mAP） |

推理速度

适用场景

| | :-------- |------------------| ------------- | ----------- |--------------------------------------| -------------|-------------------------------------| -------------| |SSD_300_RESNET5| PyTorch | ResNet‑50 | 300×300 | COCO | 中等 | 快 | 精度需求一般| |SSD_512_RESNET50_V1_VOC| PyTorch | ResNet‑50 | 512×512 | Pascal VOC | 稍高 | 中等 | 精度优先、可接受略低速度的场景| |SSD_512_VGG16_ATROUS_COCO| MXNet | VGG‑16 | 512×512 | COCO | 较高 | 中等 | 通用场景；对小目标有一定提升| |SSD_300_VGG16_ATROUS_VOC| MXNet | VGG‑16 | 300×300 | Pascal VOC | 中等偏上 | 快 | VOC 数据集同类任务；资源受限时使用| |SSD_512_MOBILENET1_VOC| MXNet | MobileNet‑1.0 | 512×512 | Pascal VOC | 中等 | 快 | 嵌入式/移动端设备；算力和内存都很有限| --- #### 语义分割模型 | 模型名称 | 引擎 | 模型简介 | 模型开源网站 | |---------|---------|-------------------------|--------| | DeepLabv3 | PyTorch | DeepLabv3 是一种图像分割模型，可以把图片里的每个像素分类出来 | 无 | --- #### 实例分割模型 | 模型名称 | 引擎 | 模型简介 | 模型开源网站 | |-------------|---------|------------------------------------|------------| | YOLOV8-SEG | OnnxRuntime | Ultralytics在COCO 数据集上训练的模型 | [Github](https://docs.ultralytics.com/zh/tasks/segment/) | | YOLOV11-SEG | OnnxRuntime | Ultralytics在COCO 数据集上训练的模型 | [Github](https://docs.ultralytics.com/zh/tasks/segment/) | | Mask R-CNN | MXNet | Mask R-CNN 是一种在目标检测基础上，同时为每个物体生成像素级分割区域的深度学习模型 | 无 | --- #### OBB旋转框目标检测模型 | 模型名称 | 引擎 | 模型简介 | 模型开源网站 | |-------------|---------|--------------------------------|------------| | YOLOV11-OBB | OnnxRuntime | Ultralytics在DOTAv1 数据集上训练的模型、通过引入一个额外的角度来更准确地定位图像中的对象 | [Github](https://docs.ultralytics.com/zh/tasks/segment/) | --- #### 行人检测模型 | 模型名称 | 引擎 | 模型开源网站 | |-------------|---------|-----| | YOLOV8_PERSON | OnnxRuntime | [Github](https://github.com/YapaLab/yolo-face) | --- #### 人类动作识别模型 | 模型名称 | 引擎 | |-------------|---------| | VIT_BASE_PATCH16 | PyTorch | | INCEPTIONV3_KINETICS400 | OnnxRuntime | | INCEPTIONV1_KINETICS400 | OnnxRuntime | | RESNET_V1B_KINETICS400 | OnnxRuntime | --- #### 姿态估计模型 | 模型名称 | 引擎 | 模型开源网站 | |--------------|-------------|----------------------------------------------------------| | YOLO11N-POSE | OnnxRuntime | [Github](https://docs.ultralytics.com/zh/tasks/pose/) | | YOLO8N-POSE | OnnxRuntime | [Github](https://docs.ultralytics.com/zh/tasks/pose/) | | SIMPLE_POSE | MXNet | 无 | --- #### OCR 模型支持功能： - 支持简体中文、繁体中文、英文、日文四种主要语言 - 手写、竖版、拼音、生僻字 - 方向矫正 **文本检测模型** | 模型名称 | 模型简介 | 模型开源网站 | | ------------| ------------------- |--------------------------------------------------------------------------------------------------------------| | PP-OCRv5_server_det | 服务端文本检测模型，精度更高，适合在性能较好的服务器上部署 | [Github](https://github.com/PaddlePaddle/PaddleOCR/blob/main/docs/version3.x/algorithm/PP-OCRv5/PP-OCRv5.md) | | PP-OCRv5_mobile_det | 轻量文本检测模型，效率更高，适合在端侧设备部署 | [Github](https://github.com/PaddlePaddle/PaddleOCR/blob/main/docs/version3.x/algorithm/PP-OCRv5/PP-OCRv5.md) | | PP-OCRv4_server_det | 服务端文本检测模型，精度更高，适合在性能较好的服务器上部署 | [Github](https://github.com/PaddlePaddle/PaddleOCR/blob/main/docs/version3.x/algorithm/PP-OCRv5/PP-OCRv5.md) | | PP-OCRv4_mobile_det | 轻量文本检测模型，效率更高，适合在端侧设备部署 | [Github](https://github.com/PaddlePaddle/PaddleOCR/blob/main/docs/version3.x/algorithm/PP-OCRv5/PP-OCRv5.md) | **文本识别模型** | 模型名称 | 模型简介 | 模型开源网站 | | ------------|----------------------------------------------------------------------------------------------------------------------|--------------------------------------------------------------------------------------------------------------| | PP-OCRv5_server_rec | （服务端）致力于以单一模型高效、精准地支持简体中文、繁体中文、英文、日文四种主要语言，以及手写、竖版、拼音、生僻字等复杂文本场景的识别。在保持识别效果的同时，兼顾推理速度和模型鲁棒性，为各种场景下的文档理解提供高效、精准的技术支撑。 | [Github](https://github.com/PaddlePaddle/PaddleOCR/blob/main/docs/version3.x/algorithm/PP-OCRv5/PP-OCRv5.md) | | PP-OCRv5_mobile_rec | （轻量）致力于以单一模型高效、精准地支持简体中文、繁体中文、英文、日文四种主要语言，以及手写、竖版、拼音、生僻字等复杂文本场景的识别。在保持识别效果的同时，兼顾推理速度和模型鲁棒性，为各种场景下的文档理解提供高效、精准的技术支撑。 | [Github](https://github.com/PaddlePaddle/PaddleOCR/blob/main/docs/version3.x/algorithm/PP-OCRv5/PP-OCRv5.md) | | PP-OCRv4_server_rec | （服务端）推理精度高，可以部署在多种不同的服务器上 | [Github](https://github.com/PaddlePaddle/PaddleOCR/blob/main/docs/version3.x/algorithm/PP-OCRv5/PP-OCRv5.md) | | PP-OCRv4_mobile_rec | （轻量）效率更高，适合在端侧设备部署 | [Github](https://github.com/PaddlePaddle/PaddleOCR/blob/main/docs/version3.x/algorithm/PP-OCRv5/PP-OCRv5.md) | **文本方向分类模型(cls)** | 模型名称 | 模型简介 | 模型开源网站 | | ------------|------------------------------|------------| | ch_ppocr_mobile_v2.0_cls | 原始分类器模型，对检测到的文本行文字角度分类 | [Github](https://paddlepaddle.github.io/PaddleOCR/latest/en/version2.x/ppocr/model_list.html?h=models+list#13-multilingual-detection-model) | | PP_LCNET_X0_25 | （轻量）基于PP-LCNet_x0_25的文本行分类模型 | [Github](https://paddlepaddle.github.io/PaddleOCR/v3.1.0/version3.x/module_usage/textline_orientation_classification.html) | | PP_LCNET_X1_0 | 基于PP-LCNet_x1_0的文本行分类模型 | [Github](https://paddlepaddle.github.io/PaddleOCR/v3.1.0/version3.x/module_usage/textline_orientation_classification.html) | **表格结构识别(Table Structure Recognition)** | 模型名称 | 模型简介 | 模型开源网站 | | ------------|------------------------------|------------| | SLANet | 该模型通过轻量级骨干 PP-LCNet、CSP-PAN 融合与 SLA Head 解码，有效提升表格结构识别的精度与速度。 | [Github](https://paddlepaddle.github.io/PaddleOCR/v3.1.0/version3.x/module_usage/table_structure_recognition.html#_3) | | SLANet_plus | （增强版）该模型通过轻量级骨干 PP-LCNet、CSP-PAN 融合与 SLA Head 解码，有效提升表格结构识别的精度与速度。 | [Github](https://paddlepaddle.github.io/PaddleOCR/v3.1.0/version3.x/module_usage/table_structure_recognition.html#_3) | **车牌检测模型(License Plate Detection)** | 模型名称 | 模型简介 | 模型开源网站 | |---------|--------------------------|------------| | YOLOV5 | 基于YOLOV5训练，支持12种中文车牌 | [Github](https://github.com/we0091234/Chinese_license_plate_detection_recognition) | | yolov7-lite-t | （超小型模型）YOLOv7-Lite 架构的轻量级车牌检测模型 | [Github](https://github.com/we0091234/Chinese_license_plate_detection_recognition) | | yolov7-lite-s | YOLOv7-Lite 架构的轻量级车牌检测模型 | [Github](https://github.com/we0091234/Chinese_license_plate_detection_recognition) | **车牌识别模型(License Plate Recognition)** | 模型名称 | 模型简介 | 模型开源网站 | |--------|------------|------------| | PLATE_REC_CRNN | CRNN中文字符识别 | [Github](https://github.com/Sierkinhane/CRNN_Chinese_Characters_Rec) | --- #### 机器翻译模型支持功能 - 200多语言互相翻译 | 模型名称 | 模型简介 | 模型官网 | |---------------|-----------------------------------------|-----------------------------------------------| | NLLB-200 | Meta AI 开发的一个先进的单一多语言机器翻译模型 | [Github](https://github.com/facebookresearch/fairseq/tree/nllb) | | OPUS_MT_ZH_EN | Helsinki-NLP团队开发的中英翻译模型，基于Transformer架构 | [huggingface](https://huggingface.co/Helsinki-NLP/opus-mt-zh-en) | | OPUS_MT_EN_ZH | Helsinki-NLP团队开发的英中翻译模型，基于Transformer架构 | [huggingface](https://huggingface.co/Helsinki-NLP/opus-mt-en-zh) | --- #### 语音识别模型这里仅介绍模型的开源项目，每个开源项目通常包含多个具体模型，本文不逐一列出。 | 模型名称 | 模型简介 | 模型官网 | |---------| ------------------------ |-----------------------------------------------| | Whisper | OpenAI 开源的通用语音识别（ASR）模型，支持多语言转写和翻译，具有较高的识别精度，尤其在嘈杂环境中表现良好，适合离线和批量音频处理。 | [Github](https://github.com/ggml-org/whisper.cpp) | | Vosk | 一个轻量级离线语音识别工具包，支持多种语言和平台（包括移动端与嵌入式设备），可在低资源环境中运行，适合实时语音识别场景。 | [Github](https://github.com/alphacep/vosk-api) | --- ## 🙏 鸣谢本项目在开发过程中借鉴或使用了以下优秀开源项目，特此致谢： - **[Deep Java Library](https://docs.djl.ai)** - **[AIAS](https://gitee.com/mymagicpower/AIAS)** ## 联系方式如您在使用过程中有任何问题或建议，欢迎添加微信，与我们交流并加入用户交流群 - **微信**: deng775747758 （请备注：SmartJavaAI） - **Email**: 775747758@qq.com 🚀 **如果这个项目对你有帮助，别忘了点个 Star ⭐！你的支持是我持续优化升级的动力！** ❤️ ## 献代码的步骤 1、在Gitee或者Github/Gitcode上fork项目到自己的repo 2、把fork过去的项目也就是你的项目clone到你的本地 3、修改代码（记得一定要修改dev分支） 4、commit后push到自己的库（dev分支） 5、登录Gitee或Github/Gitcode在你首页可以看到一个 pull request 按钮，点击它，填写一些说明信息，然后提交即可。 6、等待维护者合并 ## 近期更新日志 ## [v1.0.24] - 2025-09-07 - 【人脸检测】新增6个模型(MTCNN、YOLOV5、RetinaFace小尺寸版)，大幅提升性能 - 【人脸识别】新增Seetaface6轻量模型 - 【目标检测】支持视频流目标检测（rtsp、视频文件等） - 【目标检测】支持tensorflow2目标检测模型 - 【目标检测】新增行人检测模型(yolo-person) - 【通用视觉】新增4个动作识别模型 - 【通用视觉】新增语义分割模型 - 【通用视觉】新增5个实例分割模型(含yolov8-seg、yolov11-seg) - 【通用视觉】新增yolo-obb11旋转框检测(含yolov11-obb) - 【通用视觉】新增5个姿态估计模型(含yolov8-pose、yolov11-pose) ## [v1.0.23] - 2025-08-09 - 新增语音识别模块，集成 OpenAI 开源的 Whisper 和 Vosk - 修复质量评估模型的 Bug - 修复 OCR 模块 recognizeAndDraw 方法的 Bug - 修复车牌识别在未检测到车牌时的报错问题 - 优化 OCR 表格识别功能，新增导出方式 ## [v1.0.22] - 2025-07-28 - 新增 Milvus 身份验证支持 - 集成车牌识别模型，支持车牌检测与识别 - 目标检测功能升级：可指定类别及topk - 支持自定义线程池线程数量 ## [v1.0.20] - 2025-07-18 - OCR：新增表格识别模型 - OCR：新增9个通用模型 - OCR：支持批量检测识别 - OCR：新增更多参数，使用更加灵活 - 人脸识别：支持ID查询及分页获取人脸信息 - 活体检测：视频检测支持设置最大帧数