# RuleFinder

**Repository Path**: xmhexi/RuleFinder

## Basic Information

- **Project Name**: RuleFinder
- **Description**: 文本规则提取工具
- **Primary Language**: CSS
- **License**: Apache-2.0
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 1
- **Forks**: 0
- **Created**: 2022-03-16
- **Last Updated**: 2022-03-31

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# 文本匹配工具

当前版本号：0.1.13

update: 2020/8/18

RuleFinder 文本匹配工具是一个用于快速编写匹配规则，提取文本的工具。

本工具包括：类库，规则编辑器，批量提取器。

	RuleLib.py	类库，可自行引用到项目中使用；

	RuleEditor.py	规则编辑器，基于flask的WEB应用，可在浏览器中编辑规则；

	RulePicker.py	规则提取器，可加载规则后从批量文件中提取匹配结果；

## 工具有什么用？

文本匹配工具，使用简便的匹配规则来对文本进行匹配。

工具提供了基于WEB的规则编辑器，可快速编辑规则，验证规则的匹配结果。

案例：按规则提取句子分类

![案例1运行图][1]

  [1]: ./images/cap_v0.1.12.png

运行以下命令即可启动案例一：

```
python RuleEditor.py  -rule_file ./rules/rule3.txt -test_file ./test/test3.txt
```

然后在浏览器中访问：`http://127.0.0.1:8910`

## 匹配规则

匹配规则包含以下元素：

* 中括号("[]")  : 代表其中的内容是可选
* 尖括号("<>")  : 代表其中的内容是必选
* 竖线("|")     : 代表或的关系;
* 任意字符("**"): 匹配任意的字符；
* 文字字符("??")：匹配汉字字符，区间为：[\u4E00-\u9FA5]
* 非空字符("++")：匹配一个以上非空字符，非空字符正则为:`"(?:[^　 ，；;。‘’"“”]+?)"`
* 纯数字("##"): 数字0-9
* 含中文的数字("$$"): 表示含中文的数字, 除了0-9还包含："一二三四五六七八九十〇壹贰叁肆伍陆柒捌玖零"

匹配规则与正则相似，规则如下：

* 中括号[]： 代表其中的内容是可选的，比如：

	"不[得]"，能匹配 "不"和"不得"；

* 尖括号<>： 代表其中的内容是必选的，比如：

	"<经>营"， 能匹配 "经营"

* 竖线("|")：代表或的关系，即竖线分隔的内容是可替换的，比如:

	"<注册|成立>时间" 能匹配 "注册时间" 和 "成立时间" 

* 括号():   是可以嵌套的；例如:

	"不[得<少|小>于]" 能匹配: "不"，"不得少于”，“不得小于”

	"[稳定|正常]运营" 能匹配: "稳定运营"，"正常运营"，"运营" 

* 竖线在其所属的括号内，优先级大于括号中的其他括号，比如

	"<注册[登记]|成立>时间" 能匹配: "注册时间"，"注册登记时间"，"成立时间"

* 竖线可以脱离括号独立存在，比如:

	"在哪里|哪里有"  可以匹配: "在哪里"和"哪里有"

## 更新日志

v 0.1.13   

+ 增加了两个匹配规则，用于匹配纯数字和带中文的数字；
+ 增加了数据文件的保存功能，也可以“另存为”；

v 0.1.12   

+ 增加了加载数据文件的功能；
+ 各个客户端之间的规则文件及数据分析相互独立，不会干扰。可打开不同浏览器看效果；

v 0.1.10

+ 可加载规则文件；
+ 可对规则进行增，删，改；


## 使用案例

0. **安装依赖包**
```
pip install -r requirements.txt
```

1. ** 启动规则编辑器 **
运行以下命令，使用默认参数启动启动规则编辑器：

```
python RuleEditor.py  
```

详细参数可见：
```
python RuleEditor.py  -h
```

默认启动时监听`0.0.0.0:8910` 端口

默认加载规则文件为:`./rules/rule.txt`

默认加载数据文件为： `./test/test.txt`


2. **访问规则编辑器**

使用浏览器打开以下地址访问规则编辑器：`http://127.0.0.1:8910`

浏览器界面如下：
![规则编辑器运行图][1]

  [1]: ./images/cap_v0.1.10.png

在浏览器界面中可以完成：

* 规则文件加载；
* 规则文件新建；
* 规则添加、删除、编辑；
* 对数据文件测试当前规则文件所有规则；

3. **使用规则提取器**

完成规则编辑后，可以使用规则提取器，对整个目录下的文件批量提取结果。

运行以下命令可运行demo:
```
python RulePicker.py -rule ./rules/rule.txt 
```

运行示例如下：
```
13:36:55.38|F:>python RulePicker.py -rule ./rules/rule.txt
正在批量处理，请稍候...
正在匹配文件：./test/test.txt
正在匹配文件：./test/test1.txt
正在匹配文件：./test/test2.txt
保存结果:./output/result_20200611134436.csv
匹配用时: 0.03秒
匹配结果共3个文件:
=====文件:test 匹配:5条=====
=====文件:test1 匹配:1条=====
=====文件:test2 匹配:2条=====
```


详细参数运行以下命令查看：
```
python RulePicker.py -h
```

参数如下:
```
12:01:36.57|F:>RulePicker.py -h
usage: RulePicker.py [-h] -rule RULE [-data DATA] [-output OUTPUT]

RulePicker v_0.1.10 by xmxoxo

optional arguments:
  -h, --help      show this help message and exit
  -rule RULE      rule file
  -data DATA      data file path, default: ./test/
  -output OUTPUT  output path, default: ./output/
```