在中文分词中,jiebe库是最为常见的,主要的原因还是它独特的支持分词模式如:精确模式、全模式、搜索引擎模式。也对应着三种方式,包括jieba.cut()方法、jieba.lcut()方法、jieba.cut_for_search()方法。下面就为大家实例操作这些分词模式,以及方法的使用,一起来了解下吧。
全模式:
import jieba seg_list = jieba.cut(\"南京市长江大桥欢迎你。\", cut_all=True) print(type(seg_list),seg_list)
精确模式:
seg_list1 = jieba.lcut(\"南京市长江大桥欢迎你。\", cut_all=False) print(type(seg_list1),seg_list1)
搜索模式:
seg_list2 = jieba.cut_for_search(\"南京市长江大桥欢迎你。\") print(type(seg_list2),seg_list2) print(\"全模式:\" + \"/ \".join(seg_list)) print(\"精确模式:\" + \"/ \".join(seg_list1)) print(\"搜索引擎模式:\" + \"/ \".join(seg_list2))
输出结果:
全模式:南京/ 南京市/ 京市/ 市长/ 长江/ 长江大桥/ 大桥/ 欢迎/ 你/ 。
精确模式:南京市/ 长江大桥/ 欢迎/ 你/ 。
搜索引擎模式:南京/ 京市/ 南京市/ 长江/ 大桥/ 长江大桥/ 欢迎/ 你/ 。
内容扩展:
获取词性
我们还可以通过jiaba这个库把词性进行区分,比如动词,名词等
import jieba.posseg as psg seg_list = psg.cut(\"我要进行关键词提取\") print([(s.word, s.flag) for s in seg_list]) # [(\'我\', \'r\'), (\'要\', \'v\'), (\'进行\', \'v\'), (\'关键词\', \'n\'), (\'提取\', \'v\')]
我们还可以提取动词或者名词,我们来提取下里面的动词
import jieba.posseg as psg seg_list = psg.cut(\"我要进行关键词提取\") print([(s.word, s.flag) for s in seg_list if s.flag.startswith(\'v\')])
© 版权声明
THE END
暂无评论内容