配置自定义词库 本章节主要介绍如何配置自定义词库。 云搜索服务的自定义词库功能,支持对文本进行分词,使得一些特殊词语在分词的时候能够被识别出来,便于根据关键词搜索文本数据。例如,根据公司名称来查询;或者根据网络流行词来查询,如“喜大普奔”。 说明 l 自定义词库功能上线之前创建的集群,无法使用自定义词库功能。 l 自定义词库支持热更新,不需要重启集群即可生效。 l 自定义词库一般用于中文分词,如果用于英文分词,会按照除 &+.@外的特殊符号进行切分。 背景信息 自定义词库使用的分词器包括IK分词器和同义词分词器。IK分词器配备主词词库和停词词库;同义词分词器配备同义词词库。 主词词库 :主词为用户希望进行分词的特殊词语,如上文场景中的“智能手机”和“喜大普奔”。主词库则是这些特殊词语的集合。 停词词库 :停词为用户不希望进行分词或者关注的词语,如“的”、“什么”、“怎么”等。停词词库是停词词语的集合。 同义词词库 :同义词为意义相同的一组词语,如“开心”和“高兴”。同义词词库是同义词词语的集合。 其中,IK分词器包含ikmaxword和iksmart分词策略。同义词分词器使用的是iksynonym分词策略。 ikmaxword:会将文本做最细粒度的拆分,比如会将“昨夜西风吹折千林梢”拆分为“昨夜西风,昨夜,西风,吹折千林梢,吹折,千林梢,千,林,折千林,千林,吹”,会穷尽各种可能的分词组合。 iksmart:会做最粗粒度的拆分,比如会将“昨夜西风吹折千林梢”拆分为“昨夜西风,吹折千林梢”。