# Tibetan word segmentation **Repository Path**: weiriwa/tibetan-word-segmentation ## Basic Information - **Project Name**: Tibetan word segmentation - **Description**: 基于BiLSTM+CRF的藏文分词模型 - **Primary Language**: Python - **License**: Artistic-2.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 3 - **Forks**: 0 - **Created**: 2021-12-22 - **Last Updated**: 2024-12-13 ## Categories & Tags **Categories**: Uncategorized **Tags**: 自然语言处理 ## README # 基于BiLSTM+CRF的藏文分词模型 #### 介绍 本项目是一种基藏文分词模型,用音节嵌入+BiLSTM训练模型,最后CRF来分词。 #### 数据预处理 - 训练数据 训练样本 - 音节表 #### 依赖包 1. numpy 1.20.1 2. keras 2.7.0 3. python 3.8 #### 使用说明 1. xxxx 2. xxxx 3. xxxx #### 数据来源 **本项目的数据来源是:** - MLIP2021 > 第二届少数民族语言分词技术评测的共享语料。 > - 项目名称:藏文分词 > - 代号: TI > - 语种: 藏文 > - 训练语料:2.5W > - 测试语料:2W #### 参考文献 1. [深度学习项目四: 实现自己的中文分词模型,基于双向的LSTM(含数据和所需源码)](https://blog.csdn.net/shawroad88/article/details/89525457) 2. [[深度学习TF2][RNN-LSTM]文本情感分析包含(数据预处理-训练-预测)](https://blog.csdn.net/keeppractice/article/details/106145451?utm_medium=distribute.pc_relevant.none-task-blog-2~default~baidujs_baidulandingword~default-0.highlightwordscore&spm=1001.2101.3001.4242.1) 3. [动手学深度学习在线课程](https://courses.d2l.ai/zh-v2/) 4. [LSTM中文分词](https://blog.csdn.net/sinat_41715275/article/details/100557293)