【elasticsearch系列】windows安装IK分词器插件

闲聊 闲聊 1233 人阅读 | 0 人回复

<
情况

github下载:https://github.com/medcl/elasticsearch-analysis-ik/releases
留意,IK分词器插件要取ES版本连结分歧;
有的小火伴正在GitHub高低载插件时,出有发明取ES相对应的版本,能够切换到Tags当选择分收版本;
例如Branchs列表中仅能够存正在主版本号;
145956a4nnsn4f9uifqf2n.jpg

切换到右边Tags中查找对应的版本便可;小编那里挑选的7.8.0的版本;
145956b84a1e1wdhpwhj8g.jpg

装置IK



  • 解紧缩后拷贝到ElasticSearch装置目次的plugins文件夹下,默许状况该文件夹中为空,没有存正在任何插件,将IK插件存进plugins目次并重命名ik,如图:
    145956zzzmednn3nne0eee.png

    解紧缩目次以下:
    145957a1m4lr1hddhh4u21.jpg

  • 重启elasticsearch,寓目能否减载插件
    145957kdafdhfff1faama5.png

  • 经由过程ES自带的东西检察, 号令止施行 elasticSearch-plugin list
    145957oqjq0c0ned9pwtdw.png

    留意,切换到bin目次下施行上里号令;
kibana真操

介绍两种分词用法战区分,次要以勤奋完成中国梦为例;
ik_smart

ik_smart为起码切分;
怎样起码切分呢???
  1. GET _analyze
  2. {
  3.   "analyzer": "ik_smart",
  4.   "text": "勤奋完成中国梦"
  5. }
  6. 分词成果:
  7. {
  8.   "tokens" : [
  9.     {
  10.       "token" : "勤奋完成",
  11.       "start_offset" : 0,
  12.       "end_offset" : 4,
  13.       "type" : "CN_WORD",
  14.       "position" : 0
  15.     },
  16.     {
  17.       "token" : "中国",
  18.       "start_offset" : 4,
  19.       "end_offset" : 6,
  20.       "type" : "CN_WORD",
  21.       "position" : 1
  22.     },
  23.     {
  24.       "token" : "梦",
  25.       "start_offset" : 6,
  26.       "end_offset" : 7,
  27.       "type" : "CN_CHAR",
  28.       "position" : 2
  29.     }
  30.   ]
  31. }
复造代码
ik_max_word

ik_max_word为最细粒度分别;
  1. GET _analyze
  2. {
  3.   "analyzer": "ik_max_word",
  4.   "text": "勤奋完成中国梦"
  5. }
  6. 分词成果:
  7. {
  8.   "tokens" : [
  9.     {
  10.       "token" : "勤奋完成",
  11.       "start_offset" : 0,
  12.       "end_offset" : 4,
  13.       "type" : "CN_WORD",
  14.       "position" : 0
  15.     },
  16.     {
  17.       "token" : "勤奋",
  18.       "start_offset" : 0,
  19.       "end_offset" : 2,
  20.       "type" : "CN_WORD",
  21.       "position" : 1
  22.     },
  23.     {
  24.       "token" : "完成",
  25.       "start_offset" : 2,
  26.       "end_offset" : 4,
  27.       "type" : "CN_WORD",
  28.       "position" : 2
  29.     },
  30.     {
  31.       "token" : "中国",
  32.       "start_offset" : 4,
  33.       "end_offset" : 6,
  34.       "type" : "CN_WORD",
  35.       "position" : 3
  36.     },
  37.     {
  38.       "token" : "梦",
  39.       "start_offset" : 6,
  40.       "end_offset" : 7,
  41.       "type" : "CN_CHAR",
  42.       "position" : 4
  43.     }
  44.   ]
  45. }
复造代码
自界说分词格局

好比:超等喜好溪源专主,用上里两种分词,会把溪源,专主别离做为单个词分隔,成果以下:
145957d52mnn57xk52x2l7.jpg

需供念把溪源,专主做为两个词,因而需求我们自界说字典;


  • 修正插件设置文件ik/config/IKAnalyzer.cfg.xml,参加自界说字典;
    145958mq8bc89x4qq0qz8k.jpg

    翻开设置文件夹目次,能够看到曾经存正在的默许词库,以下:
    145958u7kqddk4qi3yl8xf.jpg

  • 自界说xiyuan.dic文件
    将溪源、专主做为词存进文件中;
    145959uh1dgdjjyvadb6zn.png

参加扩大自界说文件,以下:
150000d8g9rbl29q8ijj2z.jpg



  • 重启ES效劳战kibana
  1. GET _analyze
  2. {
  3.   "analyzer": "ik_smart",
  4.   "text": "超等喜好溪源专主"
  5. }
  6. 分词成果:
  7. {
  8.   "tokens" : [
  9.     {
  10.       "token" : "超等",
  11.       "start_offset" : 0,
  12.       "end_offset" : 2,
  13.       "type" : "CN_WORD",
  14.       "position" : 0
  15.     },
  16.     {
  17.       "token" : "喜好",
  18.       "start_offset" : 2,
  19.       "end_offset" : 4,
  20.       "type" : "CN_WORD",
  21.       "position" : 1
  22.     },
  23.     {
  24.       "token" : "溪源",
  25.       "start_offset" : 4,
  26.       "end_offset" : 6,
  27.       "type" : "CN_WORD",
  28.       "position" : 2
  29.     },
  30.     {
  31.       "token" : "专主",
  32.       "start_offset" : 6,
  33.       "end_offset" : 8,
  34.       "type" : "CN_WORD",
  35.       "position" : 3
  36.     }
  37.   ]
  38. }
复造代码
150001fulyt4w4atwityuu.jpg


免责声明:假如进犯了您的权益,请联络站少,我们会实时删除侵权内乱容,感谢协作!
1、本网站属于个人的非赢利性网站,转载的文章遵循原作者的版权声明,如果原文没有版权声明,按照目前互联网开放的原则,我们将在不通知作者的情况下,转载文章;如果原文明确注明“禁止转载”,我们一定不会转载。如果我们转载的文章不符合作者的版权声明或者作者不想让我们转载您的文章的话,请您发送邮箱:Cdnjson@163.com提供相关证明,我们将积极配合您!
2、本网站转载文章仅为传播更多信息之目的,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证信息的正确性和完整性,且不对因信息的不正确或遗漏导致的任何损失或损害承担责任。
3、任何透过本网站网页而链接及得到的资讯、产品及服务,本网站概不负责,亦不负任何法律责任。
4、本网站所刊发、转载的文章,其版权均归原作者所有,如其他媒体、网站或个人从本网下载使用,请在转载有关文章时务必尊重该文章的著作权,保留本网注明的“稿件来源”,并自负版权等法律责任。
回复 关闭延时

使用道具 举报

 
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则