使用示例 本章节主要介绍自定义词库使用示例。 场景说明 通过给集群配置自定义词库,将“智能手机”设置为主词,“是”设置为停词,“开心”和“高兴”设置为同义词。使用配置好的集群,对文本内容“智能手机是很好用”进行关键词搜索,查看关键词查询效果;对文本内容“我今天获奖了我很开心”进行同义词搜索,查看同义词查询效果。 配置自定义词库 1.准备词库文件(UTF8无BOM格式编码的文本文件),上传到对应OBS路径下。 主词词库文件中包含词语“智能手机”;停词词库文件中包含词语“是”;同义词词库文件中包含一组同义词“开心”和“高兴”。 说明 由于系统默认词库的停用词包含了“是”、“的”等常用词,此类停用词可以不用上传。 2.在云搜索服务管理控制台,单击左侧导航栏的“集群管理”。 3.在“集群管理”页面,单击需要配置自定义词库的集群名称,进入集群基本信息页面。 4.在左侧导航栏,选择“自定义词库”,参考配置自定义词库为集群配置1准备好的词库文件。 5.待词库配置信息生效后,返回集群列表。单击集群操作列的“Kibana”接入集群。 6.在Kibana界面,单击左侧导航栏的“Dev Tools”,进入操作页面。 7.执行如下命令,查看自定义词库的不同分词策略的分词效果。 −使用iksmart分词策略对文本内容“智能手机是很好用”进行分词。 示例代码: POST /analyze { "analyzer":"iksmart", "text":"智能手机是很好用" } 运行结束后,查看分词效果: { "tokens": [ { "token": "智能手机", "startoffset": 0, "endoffset": 4, "type": "CNWORD", "position": 0 }, { "token": "很好用", "startoffset": 5, "endoffset": 8, "type": "CNWORD", "position": 1 } ] } −使用ikmaxword分词策略对文本内容“智能手机是很好用”进行分词。 示例代码: POST /analyze { "analyzer":"ikmaxword", "text":"智能手机是很好用" } 运行结束后,查看分词效果: { "tokens" : [ { "token" : "智能手机", "startoffset" : 0, "endoffset" : 4, "type" : "CNWORD", "position" : 0 }, { "token" : "智能", "startoffset" : 0, "endoffset" : 2, "type" : "CNWORD", "position" : 1 }, { "token" : "智", "startoffset" : 0, "endoffset" : 1, "type" : "CNWORD", "position" : 2 }, { "token" : "能手", "startoffset" : 1, "endoffset" : 3, "type" : "CNWORD", "position" : 3 }, { "token" : "手机", "startoffset" : 2, "endoffset" : 4, "type" : "CNWORD", "position" : 4 }, { "token" : "机", "startoffset" : 3, "endoffset" : 4, "type" : "CNWORD", "position" : 5 }, { "token" : "很好用", "startoffset" : 5, "endoffset" : 8, "type" : "CNWORD", "position" : 6 }, { "token" : "很好", "startoffset" : 5, "endoffset" : 7, "type" : "CNWORD", "position" : 7 }, { "token" : "好用", "startoffset" : 6, "endoffset" : 8, "type" : "CNWORD", "position" : 8 }, { "token" : "用", "startoffset" : 7, "endoffset" : 8, "type" : "CNWORD", "position" : 9 } ] }