爆款云主机2核4G限时秒杀,88元/年起!
查看详情

活动

天翼云最新优惠活动,涵盖免费试用,产品折扣等,助您降本增效!
热门活动
  • 618智算钜惠季 爆款云主机2核4G限时秒杀,88元/年起!
  • 免费体验DeepSeek,上天翼云息壤 NEW 新老用户均可免费体验2500万Tokens,限时两周
  • 云上钜惠 HOT 爆款云主机全场特惠,更有万元锦鲤券等你来领!
  • 算力套餐 HOT 让算力触手可及
  • 天翼云脑AOne NEW 连接、保护、办公,All-in-One!
  • 中小企业应用上云专场 产品组合下单即享折上9折起,助力企业快速上云
  • 息壤高校钜惠活动 NEW 天翼云息壤杯高校AI大赛,数款产品享受线上订购超值特惠
  • 天翼云电脑专场 HOT 移动办公新选择,爆款4核8G畅享1年3.5折起,快来抢购!
  • 天翼云奖励推广计划 加入成为云推官,推荐新用户注册下单得现金奖励
免费活动
  • 免费试用中心 HOT 多款云产品免费试用,快来开启云上之旅
  • 天翼云用户体验官 NEW 您的洞察,重塑科技边界

智算服务

打造统一的产品能力,实现算网调度、训练推理、技术架构、资源管理一体化智算服务
智算云(DeepSeek专区)
科研助手
  • 算力商城
  • 应用商城
  • 开发机
  • 并行计算
算力互联调度平台
  • 应用市场
  • 算力市场
  • 算力调度推荐
一站式智算服务平台
  • 模型广场
  • 体验中心
  • 服务接入
智算一体机
  • 智算一体机
大模型
  • DeepSeek-R1-昇腾版(671B)
  • DeepSeek-R1-英伟达版(671B)
  • DeepSeek-V3-昇腾版(671B)
  • DeepSeek-R1-Distill-Llama-70B
  • DeepSeek-R1-Distill-Qwen-32B
  • Qwen2-72B-Instruct
  • StableDiffusion-V2.1
  • TeleChat-12B

应用商城

天翼云精选行业优秀合作伙伴及千余款商品,提供一站式云上应用服务
进入甄选商城进入云市场创新解决方案
办公协同
  • WPS云文档
  • 安全邮箱
  • EMM手机管家
  • 智能商业平台
财务管理
  • 工资条
  • 税务风控云
企业应用
  • 翼信息化运维服务
  • 翼视频云归档解决方案
工业能源
  • 智慧工厂_生产流程管理解决方案
  • 智慧工地
建站工具
  • SSL证书
  • 新域名服务
网络工具
  • 翼云加速
灾备迁移
  • 云管家2.0
  • 翼备份
资源管理
  • 全栈混合云敏捷版(软件)
  • 全栈混合云敏捷版(一体机)
行业应用
  • 翼电子教室
  • 翼智慧显示一体化解决方案

合作伙伴

天翼云携手合作伙伴,共创云上生态,合作共赢
天翼云生态合作中心
  • 天翼云生态合作中心
天翼云渠道合作伙伴
  • 天翼云代理渠道合作伙伴
天翼云服务合作伙伴
  • 天翼云集成商交付能力认证
天翼云应用合作伙伴
  • 天翼云云市场合作伙伴
  • 天翼云甄选商城合作伙伴
天翼云技术合作伙伴
  • 天翼云OpenAPI中心
  • 天翼云EasyCoding平台
天翼云培训认证
  • 天翼云学堂
  • 天翼云市场商学院
天翼云合作计划
  • 云汇计划
天翼云东升计划
  • 适配中心
  • 东升计划
  • 适配互认证

开发者

开发者相关功能入口汇聚
技术社区
  • 专栏文章
  • 互动问答
  • 技术视频
资源与工具
  • OpenAPI中心
开放能力
  • EasyCoding敏捷开发平台
培训与认证
  • 天翼云学堂
  • 天翼云认证
魔乐社区
  • 魔乐社区

支持与服务

为您提供全方位支持与服务,全流程技术保障,助您轻松上云,安全无忧
文档与工具
  • 文档中心
  • 新手上云
  • 自助服务
  • OpenAPI中心
定价
  • 价格计算器
  • 定价策略
基础服务
  • 售前咨询
  • 在线支持
  • 在线支持
  • 工单服务
  • 建议与反馈
  • 用户体验官
  • 服务保障
  • 客户公告
  • 会员中心
增值服务
  • 红心服务
  • 首保服务
  • 客户支持计划
  • 专家技术服务
  • 备案管家

了解天翼云

天翼云秉承央企使命,致力于成为数字经济主力军,投身科技强国伟大事业,为用户提供安全、普惠云服务
品牌介绍
  • 关于天翼云
  • 智算云
  • 天翼云4.0
  • 新闻资讯
  • 天翼云APP
基础设施
  • 全球基础设施
  • 信任中心
最佳实践
  • 精选案例
  • 超级探访
  • 云杂志
  • 分析师和白皮书
  • 天翼云·创新直播间
市场活动
  • 2025智能云生态大会
  • 2024智算云生态大会
  • 2023云生态大会
  • 2022云生态大会
  • 天翼云中国行
天翼云
  • 活动
  • 智算服务
  • 产品
  • 解决方案
  • 应用商城
  • 合作伙伴
  • 开发者
  • 支持与服务
  • 了解天翼云
      • 文档
      • 控制中心
      • 备案
      • 管理中心

      mysql/stonedb-多线程并行遍历元组遇到的问题分析

      首页 知识中心 软件开发 文章详情页

      mysql/stonedb-多线程并行遍历元组遇到的问题分析

      2023-05-05 10:14:14 阅读次数:462

      mysql,stonedb,多线程

      摘要:

      此前的文章中介绍了使用多核cpu去分子集的访问元组并解析数据,以提升访问性能的一般性思想。但是在工程实践中遇到了很多现实性的问题。

      本文对遇到的问题做追踪。

      数据结构决定算法

      采用何种数据结构,决定了所能执行的操作。或者说,就是在设计程序时的数据模型,甚至于说是数学模型,决定了其上的操作。

      重提这句话是目的, 在于说明做多线程并行时,困难点不在于线程的任务的包装,而在于更底层的模块中包含的数据,这些数据被封装在不同的类之后,模块的抽象级别和内聚程度。

      这决定了在物理存储引擎之上的逻辑层,被限制到了何种程度,以及以何种粒度来使用物理引擎的数据结构。

      依赖倒置: 下层决定了上层的逻辑,而非上层决定了下层的逻辑

      设计模式的这个原则,目的首先是为了从横向对功能进行分解,其实也很好理解,更下层面临更多的要处理的细节,给上层提供的接口,必然是本层抽象之后的。必须首先对更底层的进行建模,然后逐层抽象,如果直接由上层的逻辑来决定下层模块的内部逻辑,表面上看起来符合问题分解和分治原则,但是现实情况是更上层由于受业务需求影响更大,导致承载的需求变动距离,架构设计层面更多考虑灵活性,这种灵活对于底层的数据模型而言是灾难性的。难以想象由于逻辑层的需求调整,导致物理层的存储实现方式的修改。

      在理解了一些设计的常识之后,就可以理解下面所面临的困境了。

      直接修改为多线程访问不同的元组子集所产生的问题:

      一. 多线程切换后, 出现上一次本线程加载的pack数据无法访问,导致需要重新加载

      问题现象:

      可以参考: 2022-09-07 mysql/stonedb-多线程遍历元组问题分析_帝尊悟世的博客

      1. 单个线程访问没问题
      2. 开启多个线程,但是其他线程不去处理,仅留一个线程处理,也没问题
      3. 开启多个线程并行处理, 切换到本线程之后,上一次加载的pack数据丢失
      4. 开启多线程并行处理,在每一次处理元组时都强制加载一次pack数据,处理结果正确。但是由于每次处理元组多加载pack数据,总耗时大于单线程时的处理

      问题分析:

      开启多个线程,但是只有一个线程去处理任务,不发生问题,那么

      1. 排除元组分割和任务数据的问题
      2. 排除对pack数据读取和解压的问题。

      线程切换导致本线程已经读取的pack无法再读取, 有以下原因:

      1. 其他线程读取的pack数据覆盖了本线程读取的pack数据
      1. 排查思路是: pack数据读取后存放的位置 -> 锁定cache -> cache缓冲区的修改逻辑
      2. 需要思考是否此前的读取逻辑中,如何设计读取数据后的缓冲区
      1. 其他线程对本线程的数据产生了更多的临界区干扰
      1. MIterator指向了MulIndex, 与DimenGroup存在引用关系
      2. 对迭代器做深复制,只是复制了对底层数据的引用,下层数据还是位于临界区。采取类似并行HashJoin的任务模型做更多的模块关系的拷贝
      1. 这里存在可行性问题,并行HashJoin模块从输入到输出,以及其中的处理都与直接遍历迥异。需要更多的时间理解并行HashJoin对于模块的数据拷贝和单个任务中如何存放单个任务的数据缓存。
      1. 更下层的虚拟列和物理列与Pack和DPN的交互
      1. 提出这点主要是dump的位置正是在物理列中通过DPN拿到对Pack的引用发现没有数据,而对Pack数据的提取在于LockPack时。时序上位于遍历到Pack的开始时,调用LockPack加载下一次Pack的数据。
      2. 线程切换后,发生已经加载的Pack的数据丢失。具体为通过rc_attr拿数据时,是从物理列提取,此时Pack的数据是应位于cache内被使用。

      问题解决:

      问题的解决不是那么清晰,原因在于难以在不破坏其他模块的情况下,仅修改逻辑层的处理,就达到目的

      1. 线程读取Pack后的Cache与其他线程存在覆盖问题(需要更多的定位)
      2. 对虚拟列和物理列的所有逻辑,并未掌握全部细节
      1. 即使掌握了全部细节,如果该设计不符合需求,也面临被改造,那么就必须掌握所有相关模块的逻辑,从而保证改造不会出现未知风险。
      1. 同时面临AP领域业务知识的缺乏和数据库理论的具体实现的实践的缺乏

      要解决这些问题,有一些做法,但是都需要耗费精力的投入和模块逻辑变动引发的连锁反应的风险,更别说所要面临的投入时间上的损耗

      1. 耗时难以评估
      1. 拆解出,单个线程,读取一次元组数据,所涉及的所有的模块的变量的修改
      1. cache缓冲区
      2. status统计信息
      3. SQL被yacc编译后保留的谓词信息
      4. DimenGroup (维度表)
      5. IndexTable (索引表)
      6. Mulindex/MIterator
      1. 在逻辑层, 对读取所涉及到的模块进行深拷贝, 对数据结构进行拷贝
      1. 可以对照并行HashJoin的处理
      2. 搞这么蛋疼的原因,就在于上面提到的,数据结构决定算法,底层模块决定了上层模块的逻辑。
      1. 作个对比, clickhouse用了个简单粗暴的做法,保持列的不变性,任何读取和插入都创建一个新的列来存放结果,原有的列保持只读。当做到了列的不变性时,就无所谓数据安全和并发的问题。毛子的暴力美学确实有一手。
      版权声明:本文内容来自第三方投稿或授权转载,原文地址:https://blog.51cto.com/adofsauron/5644329,作者:帝尊悟世,版权归原作者所有。本网站转在其作品的目的在于传递更多信息,不拥有版权,亦不承担相应法律责任。如因作品内容、版权等问题需要同本网站联系,请发邮件至ctyunbbs@chinatelecom.cn沟通。

      上一篇:mysql/stonedb聚合aggregate多线程并行化-概要设计

      下一篇:mysql/stonedb-多线程聚合的数据访问问题

      相关文章

      2025-05-13 09:49:27

      mysql一些小知识点

      mysql 使用的是三值逻辑:TRUE FALSE UNKNOWN。

      2025-05-13 09:49:27
      left , mod , mysql , null , select , user
      2025-05-08 09:04:49

      MySQL-备份+日志:介质故障与数据库恢复

      MySQL-备份+日志:介质故障与数据库恢复

      2025-05-08 09:04:49
      mysql , MySQL , 备份 , 恢复 , 数据库 , 文件 , 日志
      2025-05-08 09:03:29

      windows下mybatis插入mysql数据中文乱码问题解决

      windows下mybatis插入mysql数据中文乱码问题解决

      2025-05-08 09:03:29
      amp , ini , jdbc , mysql , 乱码
      2025-05-07 09:09:52

      基础—SQL—DCL(数据控制语言)之用户管理

      基础—SQL—DCL(数据控制语言)之用户管理

      2025-05-07 09:09:52
      mysql , 创建 , 数据库 , 权限 , 用户 , 访问
      2025-05-07 09:09:52

      基础—SQL—DCL(数据控制语言)小结

      基础—SQL—DCL(数据控制语言)小结

      2025-05-07 09:09:52
      mysql , SQL , 数据库 , 权限 , 用户 , 管理 , 语句
      2025-05-07 09:08:08

      基于servlet+jsp+mysql实现的java web校园车辆管理系统

      本项目是一套基于servlet+jsp+mysql实现的java web校园车辆管理系统,主要针对计算机相关专业的正在做毕设的学生与需要项目实战练习的Java学习者。

      2025-05-07 09:08:08
      mysql , 信息 , 信息管理 , 添加 , 源码
      2025-05-07 09:07:56

      基于JavaFX和mysql实现的驾考习题管理系统

      本项目是一套基于JavaFX和mysql实现的驾考习题管理系统,主要针对计算机相关专业的正在做bishe的学生和需要项目实战练习的Java学习者。

      2025-05-07 09:07:56
      mysql , 数据库 , 项目
      2025-05-06 09:19:12

      Spring多线程事务 能否保证事务的一致性(同时提交、同时回滚)?

      Spring的事务信息是存在ThreadLocal中的Connection, 所以一个线程永远只能有一个事务

      2025-05-06 09:19:12
      Spring , 事务 , 多线程 , 线程
      2025-04-11 07:15:54

      java使用JDBC方式操作mysql数据库示例

      java使用JDBC方式操作mysql数据库示例

      2025-04-11 07:15:54
      java , JDBC , mysql , 数据库 , 示例
      2025-04-11 07:08:33

      Java线程中的run()和start()区别

      Java线程中的run()和start()区别

      2025-04-11 07:08:33
      run , start , 启动 , 多线程 , 方法 , 线程 , 运行
      查看更多
      推荐标签

      作者介绍

      天翼云小翼
      天翼云用户

      文章

      33561

      阅读量

      5242130

      查看更多

      最新文章

      基础—SQL—DCL(数据控制语言)之用户管理

      2025-05-07 09:09:52

      基础—SQL—DCL(数据控制语言)小结

      2025-05-07 09:09:52

      基于servlet+jsp+mysql实现的java web校园车辆管理系统

      2025-05-07 09:08:08

      基于JavaFX和mysql实现的驾考习题管理系统

      2025-05-07 09:07:56

      Spring多线程事务 能否保证事务的一致性(同时提交、同时回滚)?

      2025-05-06 09:19:12

      Java线程中的run()和start()区别

      2025-04-11 07:08:33

      查看更多

      热门文章

      MySQL 5.7 JSON函数学习

      2023-04-27 08:00:00

      mysql列存储引擎-字符串属性列-列压缩测试

      2023-04-23 09:34:23

      JAVA多线程学习笔记

      2023-05-11 06:05:48

      Python编程:利用上下文管理器管理MySQL的链接对象

      2023-02-21 03:02:11

      Thrift第七课 服务器多线程发送异常

      2023-05-16 09:42:24

      synchronized实现两个线程交替运行

      2022-12-28 07:22:30

      查看更多

      热门标签

      java Java python 编程开发 代码 开发语言 算法 线程 Python html 数组 C++ 元素 javascript c++
      查看更多

      相关产品

      弹性云主机

      随时自助获取、弹性伸缩的云服务器资源

      天翼云电脑(公众版)

      便捷、安全、高效的云电脑服务

      对象存储

      高品质、低成本的云上存储服务

      云硬盘

      为云上计算资源提供持久性块存储

      查看更多

      随机文章

      kotlin创建简单多线程的3种方式

      mysql列存储引擎-字符串属性列-列压缩测试

      16-mysql-dml语言-增删改数据

      Linux PHP编译 make时出现错误libpthread.so.0: error adding symbols: DSO missing from command line的解决方案

      Java线程中的run()和start()区别

      基于springboot项目申报系统完整源码

      • 7*24小时售后
      • 无忧退款
      • 免费备案
      • 专家服务
      售前咨询热线
      400-810-9889转1
      关注天翼云
      • 旗舰店
      • 天翼云APP
      • 天翼云微信公众号
      服务与支持
      • 备案中心
      • 售前咨询
      • 智能客服
      • 自助服务
      • 工单管理
      • 客户公告
      • 涉诈举报
      账户管理
      • 管理中心
      • 订单管理
      • 余额管理
      • 发票管理
      • 充值汇款
      • 续费管理
      快速入口
      • 天翼云旗舰店
      • 文档中心
      • 最新活动
      • 免费试用
      • 信任中心
      • 天翼云学堂
      云网生态
      • 甄选商城
      • 渠道合作
      • 云市场合作
      了解天翼云
      • 关于天翼云
      • 天翼云APP
      • 服务案例
      • 新闻资讯
      • 联系我们
      热门产品
      • 云电脑
      • 弹性云主机
      • 云电脑政企版
      • 天翼云手机
      • 云数据库
      • 对象存储
      • 云硬盘
      • Web应用防火墙
      • 服务器安全卫士
      • CDN加速
      热门推荐
      • 云服务备份
      • 边缘安全加速平台
      • 全站加速
      • 安全加速
      • 云服务器
      • 云主机
      • 智能边缘云
      • 应用编排服务
      • 微服务引擎
      • 共享流量包
      更多推荐
      • web应用防火墙
      • 密钥管理
      • 等保咨询
      • 安全专区
      • 应用运维管理
      • 云日志服务
      • 文档数据库服务
      • 云搜索服务
      • 数据湖探索
      • 数据仓库服务
      友情链接
      • 中国电信集团
      • 189邮箱
      • 天翼企业云盘
      • 天翼云盘
      ©2025 天翼云科技有限公司版权所有 增值电信业务经营许可证A2.B1.B2-20090001
      公司地址:北京市东城区青龙胡同甲1号、3号2幢2层205-32室
      • 用户协议
      • 隐私政策
      • 个人信息保护
      • 法律声明
      备案 京公网安备11010802043424号 京ICP备 2021034386号