Python技法之如何用re模块实现简易tokenizer-偶像资源网

一个简单的tokenizer

分词（tokenization）任务是Python字符串处理中最为常见任务了。我们这里讲解用正则表达式构建简单的表达式分词器（tokenizer），它能够将表达式字符串从左到右解析为标记(tokens)流。

给定如下的表达式字符串：

text = \'foo = 12 + 5 * 6\'

我们想要将其转换为下列以序列对呈现的分词结果：

tokens = [(\'NAME\', \'foo\'), (\'EQ\', \'=\'), (\'NUM\', \'12\'), (\'PLUS\', \'+\'),\\
    (\'NUM\', \'5\'), (\'TIMES\', \'*\'), (\'NUM\', \'6\')]

要完成这样的分词操作，我们首先需要定义出所有可能的标记模式（所谓模式（pattern），为用来描述或者匹配/系列匹配某个句法规则的字符串，这里我们用正则表达式来做为模式），注意此处要包括空格whitespace，否则字符串中出现任何模式中没有的字符后，扫描就会停止。因为我们还需要给标记以NAME、EQ等名称，我们采用正则表达式中的命名捕获组来实现。

import re
NAME = r\'(?P<NAME>[a-zA-Z_][a-zA-Z_0-9]*)\' 
# 这里?P<NAME>表示模式名称，()表示一个正则表达式捕获组，合在一起即一个命名捕获组
EQ = r\'(?P<EQ>=)\'
NUM = r\'(?P<NUM>\\d+)\' #\\d表示匹配数字，+表示任意数量
PLUS = r\'(?P<PLUS>\\+)\' #需要用\\转义
TIMES = r\'(?P<TIMES>\\*)\' #需要用\\转义
WS = r\'(?P<WS>\\s+)\' #\\s表示匹配空格， +表示任意数量
master_pat = re.compile(\"|\".join([NAME, EQ, NUM, PLUS, TIMES, WS]))  # | 用于选择多个模式，表示\"或\"

接下来我们用模式对象中的scanner()方法来完成分词操作，该方法创建一个扫描对象：

scanner = master_pat.scanner(text)

然后可以用match()方法获取单次匹配结果，一次匹配一个模式：

scanner = master_pat.scanner(text)
m = scanner.match() 
print(m.lastgroup, m.group()) # NAME foo
m = scanner.match()
print(m.lastgroup, m.group()) # WS

当然这样一次一次调用过于麻烦，我们可以使用迭代器来批量调用，并将单次迭代结果以具名元组形式存储

Token = namedtuple(\'Token\', [\'type\', \'value\'])
def generate_tokens(pat, text):
    scanner = pat.scanner(text)
    for m in iter(scanner.match, None):
        #scanner.match做为迭代器每次调用的方法，
        #None为哨兵的默认值，表示迭代到None停止
        yield Token(m.lastgroup, m.group())
    
for tok in generate_tokens(master_pat, \"foo = 42\"):
    print(tok)

最终显示表达式串"foo = 12 + 5 * 6"的tokens流为：

Token(type=\'NAME\', value=\'foo\')
Token(type=\'WS\', value=\' \')
Token(type=\'EQ\', value=\'=\')
Token(type=\'WS\', value=\' \')
Token(type=\'NUM\', value=\'12\')
Token(type=\'WS\', value=\' \')
Token(type=\'PLUS\', value=\'+\')
Token(type=\'WS\', value=\' \')
Token(type=\'NUM\', value=\'5\')
Token(type=\'WS\', value=\' \')
Token(type=\'TIMES\', value=\'*\')
Token(type=\'WS\', value=\' \')
Token(type=\'NUM\', value=\'6\')

过滤tokens流

接下来我们想要过滤掉空格标记，使用生成器表达式即可：

tokens = (tok for tok in generate_tokens(master_pat, \"foo = 12 + 5 * 6\")
          if tok.type != \'WS\')
for tok in tokens:
    print(tok)

可以看到空格被成功过滤：

Token(type=\'NAME\', value=\'foo\')
Token(type=\'EQ\', value=\'=\')
Token(type=\'NUM\', value=\'12\')
Token(type=\'PLUS\', value=\'+\')
Token(type=\'NUM\', value=\'5\')
Token(type=\'TIMES\', value=\'*\')
Token(type=\'NUM\', value=\'6\')

注意子串匹配陷阱

tokens在正则表达式(即"|".join([NAME, EQ, NUM, PLUS, TIMES, WS]))中顺序也非常重要。因为在进行匹配时，re模块就会按照指定的顺序对模式做匹配。故若碰巧某个模式是另一个较长模式的子串时，必须保证较长的模式在前面优先匹配。如下面分别展示正确的和错误的匹配方法：

LT = r\'(?P<LT><)\'
LE = r\'(?P<LE><=)\'
EQ = r\'(?P<EQ>>=)\'
master_pat = re.compile(\"|\".join([LE, LT, EQ]))  # 正确的顺序
master_pat = re.compile(\"|\".join([LT, LE, EQ]))  # 错误的顺序

第二种顺序的错误之处在于，这样会把'<='文本匹配为LT('<')紧跟着EQ('=')，而没有匹配为单独的LE(<=)。

我们对于“有可能”形成子串的模式也要小心，比如下面这样：

PRINT = r\'(?P<PRINT>print)\'
NAME = r\'(?P<NAME>[a-zA-Z_][a-zA-Z_0-9]*)\'

master_pat = re.compile(\"|\".join([PRINT, NAME]))  # 正确的顺序

for tok in generate_tokens(master_pat, \"printer\"):
    print(tok)

可以看到被print实际上成了另一个模式的子串，导致另一个模式的匹配出现了问题：

# Token(type=\'PRINT\', value=\'print\')
# Token(type=\'NAME\', value=\'er\')

更高级的语法分词，建议采用像PyParsing或PLY这样的包。特别地，对于英文自然语言文章的分词，一般被集成到各类NLP的包中（一般分为按空格拆分、处理前后缀、去掉停用词三步骤）。对于中文自然语言处理分词也有丰富的工具（比如jieba分词工具包）。

引用

[1] Martelli A, Ravenscroft A, Ascher D. Python cookbook[M]. " O'Reilly Media, Inc.", 2015.

总结

版权声明 1 本网站名称：偶像资源网
2 本站永久网址：https://www.ox520.com
3 本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长 QQ593098775进行删除处理。
4 本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5 本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报
6 本站资源大多存储在云盘，如发现链接失效，请联系我们我们会第一时间更新。

THE END

Python技法之如何用re模块实现简易tokenizer

目录

一个简单的tokenizer

过滤tokens流

注意子串匹配陷阱

引用

总结

请登录后发表评论