【elasticsearch系列】windows安装IK分词器插件

狂战天下

情况

github下载：https://github.com/medcl/elasticsearch-analysis-ik/releases
留意，IK分词器插件要取ES版本连结分歧；
有的小火伴正在GitHub高低载插件时，出有发明取ES相对应的版本，能够切换到Tags当选择分收版本；
例如Branchs列表中仅能够存正在主版本号；

切换到右边Tags中查找对应的版本便可；小编那里挑选的7.8.0的版本；

装置IK

解紧缩后拷贝到ElasticSearch装置目次的plugins文件夹下，默许状况该文件夹中为空，没有存正在任何插件，将IK插件存进plugins目次并重命名ik，如图：

解紧缩目次以下：
重启elasticsearch，寓目能否减载插件
经由过程ES自带的东西检察, 号令止施行 elasticSearch-plugin list

留意，切换到bin目次下施行上里号令；

kibana真操

介绍两种分词用法战区分，次要以勤奋完成中国梦为例；
ik_smart

ik_smart为起码切分；
怎样起码切分呢？？？

GET _analyze
{
"analyzer": "ik_smart",
"text": "勤奋完成中国梦"
}
分词成果：
{
"tokens" : [
{
"token" : "勤奋完成",
"start_offset" : 0,
"end_offset" : 4,
"type" : "CN_WORD",
"position" : 0
},
{
"token" : "中国",
"start_offset" : 4,
"end_offset" : 6,
"type" : "CN_WORD",
"position" : 1
},
{
"token" : "梦",
"start_offset" : 6,
"end_offset" : 7,
"type" : "CN_CHAR",
"position" : 2
}
]
}

复造代码

ik_max_word

ik_max_word为最细粒度分别；

GET _analyze
{
"analyzer": "ik_max_word",
"text": "勤奋完成中国梦"
}
分词成果：
{
"tokens" : [
{
"token" : "勤奋完成",
"start_offset" : 0,
"end_offset" : 4,
"type" : "CN_WORD",
"position" : 0
},
{
"token" : "勤奋",
"start_offset" : 0,
"end_offset" : 2,
"type" : "CN_WORD",
"position" : 1
},
{
"token" : "完成",
"start_offset" : 2,
"end_offset" : 4,
"type" : "CN_WORD",
"position" : 2
},
{
"token" : "中国",
"start_offset" : 4,
"end_offset" : 6,
"type" : "CN_WORD",
"position" : 3
},
{
"token" : "梦",
"start_offset" : 6,
"end_offset" : 7,
"type" : "CN_CHAR",
"position" : 4
}
]
}

复造代码

自界说分词格局

好比：超等喜好溪源专主，用上里两种分词，会把溪源，专主别离做为单个词分隔，成果以下：

需供念把溪源，专主做为两个词，因而需求我们自界说字典；

修正插件设置文件ik/config/IKAnalyzer.cfg.xml，参加自界说字典；

翻开设置文件夹目次，能够看到曾经存正在的默许词库，以下：
自界说xiyuan.dic文件
将溪源、专主做为词存进文件中；

参加扩大自界说文件，以下：

重启ES效劳战kibana

GET _analyze
{
"analyzer": "ik_smart",
"text": "超等喜好溪源专主"
}
分词成果：
{
"tokens" : [
{
"token" : "超等",
"start_offset" : 0,
"end_offset" : 2,
"type" : "CN_WORD",
"position" : 0
},
{
"token" : "喜好",
"start_offset" : 2,
"end_offset" : 4,
"type" : "CN_WORD",
"position" : 1
},
{
"token" : "溪源",
"start_offset" : 4,
"end_offset" : 6,
"type" : "CN_WORD",
"position" : 2
},
{
"token" : "专主",
"start_offset" : 6,
"end_offset" : 8,
"type" : "CN_WORD",
"position" : 3
}
]
}

复造代码

免责声明：假如进犯了您的权益，请联络站少，我们会实时删除侵权内乱容，感谢协作！

【elasticsearch系列】windows安装IK分词器插件

浏览过的版块