爆款云主机2核4G限时秒杀,88元/年起!
查看详情

活动

天翼云最新优惠活动,涵盖免费试用,产品折扣等,助您降本增效!
热门活动
  • 618智算钜惠季 爆款云主机2核4G限时秒杀,88元/年起!
  • 免费体验DeepSeek,上天翼云息壤 NEW 新老用户均可免费体验2500万Tokens,限时两周
  • 云上钜惠 HOT 爆款云主机全场特惠,更有万元锦鲤券等你来领!
  • 算力套餐 HOT 让算力触手可及
  • 天翼云脑AOne NEW 连接、保护、办公,All-in-One!
  • 中小企业应用上云专场 产品组合下单即享折上9折起,助力企业快速上云
  • 息壤高校钜惠活动 NEW 天翼云息壤杯高校AI大赛,数款产品享受线上订购超值特惠
  • 天翼云电脑专场 HOT 移动办公新选择,爆款4核8G畅享1年3.5折起,快来抢购!
  • 天翼云奖励推广计划 加入成为云推官,推荐新用户注册下单得现金奖励
免费活动
  • 免费试用中心 HOT 多款云产品免费试用,快来开启云上之旅
  • 天翼云用户体验官 NEW 您的洞察,重塑科技边界

智算服务

打造统一的产品能力,实现算网调度、训练推理、技术架构、资源管理一体化智算服务
智算云(DeepSeek专区)
科研助手
  • 算力商城
  • 应用商城
  • 开发机
  • 并行计算
算力互联调度平台
  • 应用市场
  • 算力市场
  • 算力调度推荐
一站式智算服务平台
  • 模型广场
  • 体验中心
  • 服务接入
智算一体机
  • 智算一体机
大模型
  • DeepSeek-R1-昇腾版(671B)
  • DeepSeek-R1-英伟达版(671B)
  • DeepSeek-V3-昇腾版(671B)
  • DeepSeek-R1-Distill-Llama-70B
  • DeepSeek-R1-Distill-Qwen-32B
  • Qwen2-72B-Instruct
  • StableDiffusion-V2.1
  • TeleChat-12B

应用商城

天翼云精选行业优秀合作伙伴及千余款商品,提供一站式云上应用服务
进入甄选商城进入云市场创新解决方案
办公协同
  • WPS云文档
  • 安全邮箱
  • EMM手机管家
  • 智能商业平台
财务管理
  • 工资条
  • 税务风控云
企业应用
  • 翼信息化运维服务
  • 翼视频云归档解决方案
工业能源
  • 智慧工厂_生产流程管理解决方案
  • 智慧工地
建站工具
  • SSL证书
  • 新域名服务
网络工具
  • 翼云加速
灾备迁移
  • 云管家2.0
  • 翼备份
资源管理
  • 全栈混合云敏捷版(软件)
  • 全栈混合云敏捷版(一体机)
行业应用
  • 翼电子教室
  • 翼智慧显示一体化解决方案

合作伙伴

天翼云携手合作伙伴,共创云上生态,合作共赢
天翼云生态合作中心
  • 天翼云生态合作中心
天翼云渠道合作伙伴
  • 天翼云代理渠道合作伙伴
天翼云服务合作伙伴
  • 天翼云集成商交付能力认证
天翼云应用合作伙伴
  • 天翼云云市场合作伙伴
  • 天翼云甄选商城合作伙伴
天翼云技术合作伙伴
  • 天翼云OpenAPI中心
  • 天翼云EasyCoding平台
天翼云培训认证
  • 天翼云学堂
  • 天翼云市场商学院
天翼云合作计划
  • 云汇计划
天翼云东升计划
  • 适配中心
  • 东升计划
  • 适配互认证

开发者

开发者相关功能入口汇聚
技术社区
  • 专栏文章
  • 互动问答
  • 技术视频
资源与工具
  • OpenAPI中心
开放能力
  • EasyCoding敏捷开发平台
培训与认证
  • 天翼云学堂
  • 天翼云认证
魔乐社区
  • 魔乐社区

支持与服务

为您提供全方位支持与服务,全流程技术保障,助您轻松上云,安全无忧
文档与工具
  • 文档中心
  • 新手上云
  • 自助服务
  • OpenAPI中心
定价
  • 价格计算器
  • 定价策略
基础服务
  • 售前咨询
  • 在线支持
  • 在线支持
  • 工单服务
  • 建议与反馈
  • 用户体验官
  • 服务保障
  • 客户公告
  • 会员中心
增值服务
  • 红心服务
  • 首保服务
  • 客户支持计划
  • 专家技术服务
  • 备案管家

了解天翼云

天翼云秉承央企使命,致力于成为数字经济主力军,投身科技强国伟大事业,为用户提供安全、普惠云服务
品牌介绍
  • 关于天翼云
  • 智算云
  • 天翼云4.0
  • 新闻资讯
  • 天翼云APP
基础设施
  • 全球基础设施
  • 信任中心
最佳实践
  • 精选案例
  • 超级探访
  • 云杂志
  • 分析师和白皮书
  • 天翼云·创新直播间
市场活动
  • 2025智能云生态大会
  • 2024智算云生态大会
  • 2023云生态大会
  • 2022云生态大会
  • 天翼云中国行
天翼云
  • 活动
  • 智算服务
  • 产品
  • 解决方案
  • 应用商城
  • 合作伙伴
  • 开发者
  • 支持与服务
  • 了解天翼云
      • 文档
      • 控制中心
      • 备案
      • 管理中心

      Springboot2.x整合ElasticSearch7.x实战(二)

      首页 知识中心 软件开发 文章详情页

      Springboot2.x整合ElasticSearch7.x实战(二)

      2024-07-01 01:32:37 阅读次数:449

      Elasticsearch,Springboot

      第三章 分词器安装

      使用搜索,少不了使用分词器,elasticsearch 自带了一些简单分词器,也可以使用第三方分词器插件,如 ik、pinyin 等。

      Standard Analyzer - 默认分词器,按词切分,小写处理
      
      Simple Analyzer - 按照非字母切分(符号被过滤), 小写处理
      
      Stop Analyzer - 小写处理,停用词过滤(the,a,is)
      
      Whitespace Analyzer - 按照空格切分,不转小写
      
      Keyword Analyzer - 不分词,直接将输入当作输出
      
      Patter Analyzer - 正则表达式,默认\W+(非字符分割)
      
      Language - 提供了30多种常见语言的分词器
      
      Customer Analyzer 自定义分词器

      ik分词器插件安装

      1. 下载和elasticsearch版本一致

      教程使用的是 7.7.0 版本。

      1. 准备 ik 目录,

      cd plugins && mkdir ik

      1. 下载
      2. 解压到对应ik目录

      解压文件到目录 elasticsearch-7.7.0/plugins/ik 下。

      1. 重启es,查看是否安装成功

      rest 实例:

      拼音分词器插件安装

      1. 下载和elasticsearch版本一致

      教程使用的是 7.7.0 版本。

      1. 准备 ik 目录,

      cd plugins && mkdir pinyin

      1. 下载
      2. 解压到对应pinyin目录

      解压文件到目录 elasticsearch-7.7.0/plugins/pinyin 下。

      1. 重启es,查看是否安装成功

      Springboot2.x整合ElasticSearch7.x实战(二)

      更多扩展词库

      • 同义词词库

      有些情况会使用我们自己的分词服务,后面代码中会讲解使用方式。

      第四章 Elasticsearch核心概念

      Elasticsearch核心概念-相关术语解析

      Cluster

      Elasticsearch 集群,由一台或多台的Elasticsearch 节点(Node)组成。

      Node

      Elasticsearch 节点,可以认为是Elasticsearch的服务进程,在同一台机器上启动两个Elasticsearch实例(进程),就是两个node节点。

      Index

      索引,具有相同结构的文档的集合,类似于关系型数据库的数据库实例(6.0.0版本type废弃后,索引的概念下降到等同于数据库表的级别)。一个集群中可以有多个索引。

      Type

      类型,在索引中内进行逻辑细分,在新版的Elasticsearch中已经废弃。

      文档,Elasticsearch中的最小的数据存储单元,JSON数据格式,很多相同结构的文档组成索引。文档类似于关系型数据库中表内的一行记录

      举个例子,一篇新闻的文档数据。

      news document
      {
      	"id":"1",
      	"title":"China is a great country",
      	"content":"I love China."
      }

      Shard

      分片,单个索引切分成多个shard,分布在多台Node节点上存储。可以利用shard很好的横向扩展,以存储更多的数据,同时shard分布在多台node上,可以提升集群整体的吞吐量和性能。在创建索引的时候可以直接指定分片的数量即可,一旦指定就不能再修改了。

      Replica

      索引副本,完全拷贝shard的内容,一个shard可以有一个或者多个replica,replica就是shard的数据拷贝,以提高冗余。

      replica承担三个任务:

      1. shard故障或者node宕机时,其中的一个replica可以升级成shard
      2. replica保证数据不丢失,保证高可用
      3. replica可以分担搜索请求,提高集群的吞吐和性能

      shard 的全称叫 primary shard,replica 全称叫 replica shard,primary shard 数量在创建索引时指定,后期不能修改,replica shard 后期可以修改。默认每个索引的 primary shard 值为5,replica shard 值为1,含义是5个primary shard,5个 replica shard,共10个 shard。因此 Elasticsearch 最小的高可用配置是2台服务器。

      Springboot2.x整合ElasticSearch7.x实战(二)

      理解倒排索引

      例如倒排索引等内容

      倒排索引相关术语

      倒排索引(Inverted Index)是整个搜索的核心,倒排索引是实现“单词-文档矩阵”的一种具体存储形式,通过倒排索引,可以根据单词快速获取包含这个单词的文档列表。倒排索引主要由两个部分组成:“单词词典”和“倒排文件”。

      单词词典(Lexicon):常索引单位是单词,单词词典是由文档集合中出现过的所有单词构成的字符串集合,单词词典内每条索引项记载单词本身的一些信息以及指向“倒排列表”的指针。

      倒排列表(PostingList):倒排列表记载了出现过某个单词的所有文档的文档列表及单词在该文档中出现的位置信息,每条记录称为一个倒排项(Posting)。根据倒排列表,即可获知哪些文档包含某个单词。

      倒排文件(Inverted File):所有单词的倒排列表往往顺序地存储在磁盘的某个文件里,这个文件即被称之为倒排文件,倒排文件是存储倒排索引的物理文件。

      概念关系:

      Springboot2.x整合ElasticSearch7.x实战(二)

      简单倒排索引实例

      倒排索引从逻辑结构和基本思路上来讲非常简单。下面我们通过具体实例来进行说明,使得大家能够对倒排索引有一个宏观而直接的感受。

      假设有五个文档:

      Springboot2.x整合ElasticSearch7.x实战(二)

      通过分词后,每个文档就转换为由单词序列构成的数据流,为了系统后续处理方便,需要对每个不同的单词赋予唯一的单词编号,同时记录下哪些文档包含这个单词,在如此处理结束后,我们可以得到最简单的倒排索引。

      Springboot2.x整合ElasticSearch7.x实战(二)

      事实上,索引系统还可以记录除此之外的更多信息。下图是一个相对复杂些的倒排索引,与上图的基本索引系统比,在单词对应的倒排列表中不仅记录了文档编号,还记载了单词频率信息(TF),即这个单词在某个文档中的出现次数,之所以要记录这个信息,是因为词频信息在搜索结果排序时,计算查询和文档相似度是很重要的一个计算因子,所以将其记录在倒排列表中,以方便后续排序时进行分值计算。

      Springboot2.x整合ElasticSearch7.x实战(二)

      最后,实用的倒排索引还可以记载更多的信息,上图所示索引系统除了记录文档编号和单词频率信息外,额外记载了两类信息,即每个单词对应的“文档频率信息”(以及在倒排列表中记录单词在某个文档出现的位置信息。

      “文档频率信息”代表了在文档集合中有多少个文档包含某个单词,之所以要记录这个信息,其原因与单词频率信息一样,这个信息在搜索结果排序计算中是非常重要的一个因子。而单词在某个文档中出现的位置信息并非索引系统一定要记录的,在实际的索引系统里可以包含,也可以选择不包含这个信息,之所以如此,因为这个信息对于搜索系统来说并非必需的,位置信息只有在支持“短语查询”的时候才能够派上用场。

      版权声明:本文内容来自第三方投稿或授权转载,原文地址:https://blog.51cto.com/wangshiyu/6253639,作者:JavaPub,版权归原作者所有。本网站转在其作品的目的在于传递更多信息,不拥有版权,亦不承担相应法律责任。如因作品内容、版权等问题需要同本网站联系,请发邮件至ctyunbbs@chinatelecom.cn沟通。

      上一篇:手写Node模块系统-执行字符串中的代码

      下一篇:【Python 学习星球4.0】运算符与表达式

      相关文章

      2025-03-24 08:53:15

      【漏洞复现】CVE-2014-3120 & CVE-2015-1427 Expression Injection

      【漏洞复现】CVE-2014-3120 & CVE-2015-1427 Expression Injection

      2025-03-24 08:53:15
      CVE , Elasticsearch , Java
      2025-01-06 08:42:37

      Springboot入门三十六,logback配置

      Springboot入门三十六,logback配置

      2025-01-06 08:42:37
      logback , Springboot , 指定 , 日志 , 级别 , 配置文件 , 默认
      2024-12-19 08:40:27

      Springboot常用注解记录

      Springboot常用注解记录

      2024-12-19 08:40:27
      Springboot , 注解
      2024-12-17 08:26:04

      每日学习一个数据结构-FST数据结构与算法

      FST(Finite State Transducers,有限状态转换器)是一种高效的数据结构,它在计算机科学中特别是在文本处理、搜索引擎、自然语言处理等领域有着广泛的应用。

      2024-12-17 08:26:04
      Elasticsearch , Lucene , 前缀 , 数据结构 , 查询 , 节点
      2024-12-16 08:19:15

      SpringCloud-ElasticSearch介绍

      Elasticsearch(简称ES)是一个开源的分布式搜索和分析引擎,构建在Apache Lucene基础上。它提供了一个强大而灵活的工具,用于全文搜索、结构化搜索、分析以及数据可视化。

      2024-12-16 08:19:15
      Elasticsearch , ES , 搜索 , 文档 , 索引
      2024-12-04 07:18:18

      基于Springboot的新闻资讯发布系统设计与实现(源码+lw+部署文档+讲解等)

      基于Springboot的新闻资讯发布系统设计与实现(源码+lw+部署文档+讲解等)

      2024-12-04 07:18:18
      Springboot , 管理员
      2024-11-21 09:55:25

      在淘客返利系统中使用Elasticsearch实现搜索引擎优化

      在现代电商系统中,搜索引擎的性能和效率直接影响用户体验和系统的商业价值。

      2024-11-21 09:55:25
      Elasticsearch , 优化 , 搜索
      2024-10-29 09:05:04

      Elasticsearch 精粹:一站式学习全方位搜索技术

      Elasticsearch 是一个开源的搜索引擎,建立在 Apache Lucene™ 基础上。它被广泛用于全文搜索、结构化搜索、分析以及将这些功能组合在一起的复杂搜索用例。

      2024-10-29 09:05:04
      Elasticsearch , 搜索
      2024-10-21 09:46:15

      yum安装elasticsearch6.x

      yum安装elasticsearch6.x

      2024-10-21 09:46:15
      Elasticsearch , yum
      2024-09-25 10:14:34

      【Elasticsearch6】安装笔记

      【Elasticsearch6】安装笔记

      2024-09-25 10:14:34
      Elasticsearch , 内存
      查看更多
      推荐标签

      作者介绍

      天翼云小翼
      天翼云用户

      文章

      33561

      阅读量

      5227608

      查看更多

      最新文章

      【漏洞复现】CVE-2014-3120 & CVE-2015-1427 Expression Injection

      2025-03-24 08:53:15

      Springboot入门三十六,logback配置

      2025-01-06 08:42:37

      Springboot常用注解记录

      2024-12-19 08:40:27

      SpringCloud-ElasticSearch介绍

      2024-12-16 08:19:15

      SpringBoot入门二十五,默认的404错误页面引入css和js文件

      2024-09-24 06:31:08

      SpringBoot入门二十四,Application事件监听

      2024-09-24 06:29:56

      查看更多

      热门文章

      SpringData整合Elasticsearch----文档操作

      2023-04-18 14:14:24

      Eclipse安装springboot支持(sts)

      2023-06-12 08:59:59

      SpringBoot入门二十五,默认的404错误页面引入css和js文件

      2024-09-24 06:31:08

      Java:Springboot整合PageHelper实现分页

      2023-06-12 09:27:10

      SpringBoot入门二十九,整合Swagger3

      2023-06-13 08:35:22

      Eclipse同一个Springboot项目启动多个实例

      2023-06-12 08:59:48

      查看更多

      热门标签

      java Java python 编程开发 代码 开发语言 算法 线程 Python html 数组 C++ 元素 javascript c++
      查看更多

      相关产品

      弹性云主机

      随时自助获取、弹性伸缩的云服务器资源

      天翼云电脑(公众版)

      便捷、安全、高效的云电脑服务

      对象存储

      高品质、低成本的云上存储服务

      云硬盘

      为云上计算资源提供持久性块存储

      查看更多

      随机文章

      Springboot05整合FastJson优化输出

      SpringBoot入门二十九,整合Swagger3

      07_Springboot 整合 RabbitMQ【5个消息队列模式】

      SpringBoot入门二十一,全局异常处理

      SpringBoot入门二十八,添加MyBatis-Plus支持

      SpringBoot入门二十六,配置session超时拦截器

      • 7*24小时售后
      • 无忧退款
      • 免费备案
      • 专家服务
      售前咨询热线
      400-810-9889转1
      关注天翼云
      • 旗舰店
      • 天翼云APP
      • 天翼云微信公众号
      服务与支持
      • 备案中心
      • 售前咨询
      • 智能客服
      • 自助服务
      • 工单管理
      • 客户公告
      • 涉诈举报
      账户管理
      • 管理中心
      • 订单管理
      • 余额管理
      • 发票管理
      • 充值汇款
      • 续费管理
      快速入口
      • 天翼云旗舰店
      • 文档中心
      • 最新活动
      • 免费试用
      • 信任中心
      • 天翼云学堂
      云网生态
      • 甄选商城
      • 渠道合作
      • 云市场合作
      了解天翼云
      • 关于天翼云
      • 天翼云APP
      • 服务案例
      • 新闻资讯
      • 联系我们
      热门产品
      • 云电脑
      • 弹性云主机
      • 云电脑政企版
      • 天翼云手机
      • 云数据库
      • 对象存储
      • 云硬盘
      • Web应用防火墙
      • 服务器安全卫士
      • CDN加速
      热门推荐
      • 云服务备份
      • 边缘安全加速平台
      • 全站加速
      • 安全加速
      • 云服务器
      • 云主机
      • 智能边缘云
      • 应用编排服务
      • 微服务引擎
      • 共享流量包
      更多推荐
      • web应用防火墙
      • 密钥管理
      • 等保咨询
      • 安全专区
      • 应用运维管理
      • 云日志服务
      • 文档数据库服务
      • 云搜索服务
      • 数据湖探索
      • 数据仓库服务
      友情链接
      • 中国电信集团
      • 189邮箱
      • 天翼企业云盘
      • 天翼云盘
      ©2025 天翼云科技有限公司版权所有 增值电信业务经营许可证A2.B1.B2-20090001
      公司地址:北京市东城区青龙胡同甲1号、3号2幢2层205-32室
      • 用户协议
      • 隐私政策
      • 个人信息保护
      • 法律声明
      备案 京公网安备11010802043424号 京ICP备 2021034386号