模式匹配常见落地场景、AC自动机原理、正则表达式性能优化
模式匹配常见落地场景、AC自动机原理、正则表达式性能优化
一、模式匹配概述
字符
预定义字符集
数量词
边界匹配(不消耗待匹配字符串中的字符)
逻辑、分组
特殊构造(不作为分组)
二、模式匹配在自然语言处理落地中的使用场景
1. 知识图谱应用:实体发现与链接
2. 搜广推中的敏感词过滤与召回
三、AC自动机原理与应用流程
1. Trie字典树
2. AC自动机的实现
1)构造前缀树
2)添加失配指针
3)模式匹配
四、当前开源高效的模式匹配工具
1. re
2. regex
3. Pyahocorasick
4. Acora
5. esmre
6. pampy
7. flashtext
五、正则表达式性能优化
1. 贪婪模式(默认)
2. 懒惰模式
3. 独占模式
六、常用正则表达式