# Tibetan word segmentation
**Repository Path**: weiriwa/tibetan-word-segmentation
## Basic Information
- **Project Name**: Tibetan word segmentation
- **Description**: 基于BiLSTM+CRF的藏文分词模型
- **Primary Language**: Python
- **License**: Artistic-2.0
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No
## Statistics
- **Stars**: 3
- **Forks**: 0
- **Created**: 2021-12-22
- **Last Updated**: 2024-12-13
## Categories & Tags
**Categories**: Uncategorized
**Tags**: 自然语言处理
## README
# 基于BiLSTM+CRF的藏文分词模型
#### 介绍
本项目是一种基藏文分词模型,用音节嵌入+BiLSTM训练模型,最后CRF来分词。
#### 数据预处理
- 训练数据
- 音节表
#### 依赖包
1. numpy 1.20.1
2. keras 2.7.0
3. python 3.8
#### 使用说明
1. xxxx
2. xxxx
3. xxxx
#### 数据来源
**本项目的数据来源是:**
- MLIP2021
> 第二届少数民族语言分词技术评测的共享语料。
> - 项目名称:藏文分词
> - 代号: TI
> - 语种: 藏文
> - 训练语料:2.5W
> - 测试语料:2W
#### 参考文献
1. [深度学习项目四: 实现自己的中文分词模型,基于双向的LSTM(含数据和所需源码)](https://blog.csdn.net/shawroad88/article/details/89525457)
2. [[深度学习TF2][RNN-LSTM]文本情感分析包含(数据预处理-训练-预测)](https://blog.csdn.net/keeppractice/article/details/106145451?utm_medium=distribute.pc_relevant.none-task-blog-2~default~baidujs_baidulandingword~default-0.highlightwordscore&spm=1001.2101.3001.4242.1)
3. [动手学深度学习在线课程](https://courses.d2l.ai/zh-v2/)
4. [LSTM中文分词](https://blog.csdn.net/sinat_41715275/article/details/100557293)