python通过jieba分词器和whoosh实现地址全文检索和匹配
创始人
2024-05-30 04:21:41

地址匹配效果

在这里插入图片描述

背景

jieba分词是对中文分词这块效果比较理想的,而且有现成的分词器可以供全文检索引擎调用
LTP分词也是对中文分词这块效果比较理想的,在某些方便效果更佳,目前还没有现成的分词器可以供全文检索引擎调用,所以是不是可以将LTP分词后的分词数据给jieba分词引擎补充自定义分词库来用呢

大纲

1、通过LTP分词引擎对地址数据进行分词,并将分词进行整理去重,加入jieba分词库

2、对标准地址数据通过jieba分词引擎建立索引

3、query_test.py 测试检索、地址匹配等等

4、address_match_thread.py 非标地址匹配

源码

1、1writepartword_LTP_mysql_threads.py

# import sys,os,time
# sys.path.append(os.path.abspath(os.path.dirname(__file__) + '/'

相关内容

热门资讯

苗族的传统节日 贵州苗族节日有... 【岜沙苗族芦笙节】岜沙,苗语叫“分送”,距从江县城7.5公里,是世界上最崇拜树木并以树为神的枪手部落...
北京的名胜古迹 北京最著名的景... 北京从元代开始,逐渐走上帝国首都的道路,先是成为大辽朝五大首都之一的南京城,随着金灭辽,金代从海陵王...
世界上最漂亮的人 世界上最漂亮... 此前在某网上,选出了全球265万颜值姣好的女性。从这些数量庞大的女性群体中,人们投票选出了心目中最美...
长白山自助游攻略 吉林长白山游... 昨天介绍了西坡的景点详细请看链接:一个人的旅行,据说能看到长白山天池全凭运气,您的运气如何?今日介绍...
猫咪吃了塑料袋怎么办 猫咪误食... 你知道吗?塑料袋放久了会长猫哦!要说猫咪对塑料袋的喜爱程度完完全全可以媲美纸箱家里只要一有塑料袋的响...