爆款云主机2核4G限时秒杀,88元/年起!
查看详情

活动

天翼云最新优惠活动,涵盖免费试用,产品折扣等,助您降本增效!
热门活动
  • 618智算钜惠季 爆款云主机2核4G限时秒杀,88元/年起!
  • 免费体验DeepSeek,上天翼云息壤 NEW 新老用户均可免费体验2500万Tokens,限时两周
  • 云上钜惠 HOT 爆款云主机全场特惠,更有万元锦鲤券等你来领!
  • 算力套餐 HOT 让算力触手可及
  • 天翼云脑AOne NEW 连接、保护、办公,All-in-One!
  • 中小企业应用上云专场 产品组合下单即享折上9折起,助力企业快速上云
  • 息壤高校钜惠活动 NEW 天翼云息壤杯高校AI大赛,数款产品享受线上订购超值特惠
  • 天翼云电脑专场 HOT 移动办公新选择,爆款4核8G畅享1年3.5折起,快来抢购!
  • 天翼云奖励推广计划 加入成为云推官,推荐新用户注册下单得现金奖励
免费活动
  • 免费试用中心 HOT 多款云产品免费试用,快来开启云上之旅
  • 天翼云用户体验官 NEW 您的洞察,重塑科技边界

智算服务

打造统一的产品能力,实现算网调度、训练推理、技术架构、资源管理一体化智算服务
智算云(DeepSeek专区)
科研助手
  • 算力商城
  • 应用商城
  • 开发机
  • 并行计算
算力互联调度平台
  • 应用市场
  • 算力市场
  • 算力调度推荐
一站式智算服务平台
  • 模型广场
  • 体验中心
  • 服务接入
智算一体机
  • 智算一体机
大模型
  • DeepSeek-R1-昇腾版(671B)
  • DeepSeek-R1-英伟达版(671B)
  • DeepSeek-V3-昇腾版(671B)
  • DeepSeek-R1-Distill-Llama-70B
  • DeepSeek-R1-Distill-Qwen-32B
  • Qwen2-72B-Instruct
  • StableDiffusion-V2.1
  • TeleChat-12B

应用商城

天翼云精选行业优秀合作伙伴及千余款商品,提供一站式云上应用服务
进入甄选商城进入云市场创新解决方案
办公协同
  • WPS云文档
  • 安全邮箱
  • EMM手机管家
  • 智能商业平台
财务管理
  • 工资条
  • 税务风控云
企业应用
  • 翼信息化运维服务
  • 翼视频云归档解决方案
工业能源
  • 智慧工厂_生产流程管理解决方案
  • 智慧工地
建站工具
  • SSL证书
  • 新域名服务
网络工具
  • 翼云加速
灾备迁移
  • 云管家2.0
  • 翼备份
资源管理
  • 全栈混合云敏捷版(软件)
  • 全栈混合云敏捷版(一体机)
行业应用
  • 翼电子教室
  • 翼智慧显示一体化解决方案

合作伙伴

天翼云携手合作伙伴,共创云上生态,合作共赢
天翼云生态合作中心
  • 天翼云生态合作中心
天翼云渠道合作伙伴
  • 天翼云代理渠道合作伙伴
天翼云服务合作伙伴
  • 天翼云集成商交付能力认证
天翼云应用合作伙伴
  • 天翼云云市场合作伙伴
  • 天翼云甄选商城合作伙伴
天翼云技术合作伙伴
  • 天翼云OpenAPI中心
  • 天翼云EasyCoding平台
天翼云培训认证
  • 天翼云学堂
  • 天翼云市场商学院
天翼云合作计划
  • 云汇计划
天翼云东升计划
  • 适配中心
  • 东升计划
  • 适配互认证

开发者

开发者相关功能入口汇聚
技术社区
  • 专栏文章
  • 互动问答
  • 技术视频
资源与工具
  • OpenAPI中心
开放能力
  • EasyCoding敏捷开发平台
培训与认证
  • 天翼云学堂
  • 天翼云认证
魔乐社区
  • 魔乐社区

支持与服务

为您提供全方位支持与服务,全流程技术保障,助您轻松上云,安全无忧
文档与工具
  • 文档中心
  • 新手上云
  • 自助服务
  • OpenAPI中心
定价
  • 价格计算器
  • 定价策略
基础服务
  • 售前咨询
  • 在线支持
  • 在线支持
  • 工单服务
  • 建议与反馈
  • 用户体验官
  • 服务保障
  • 客户公告
  • 会员中心
增值服务
  • 红心服务
  • 首保服务
  • 客户支持计划
  • 专家技术服务
  • 备案管家

了解天翼云

天翼云秉承央企使命,致力于成为数字经济主力军,投身科技强国伟大事业,为用户提供安全、普惠云服务
品牌介绍
  • 关于天翼云
  • 智算云
  • 天翼云4.0
  • 新闻资讯
  • 天翼云APP
基础设施
  • 全球基础设施
  • 信任中心
最佳实践
  • 精选案例
  • 超级探访
  • 云杂志
  • 分析师和白皮书
  • 天翼云·创新直播间
市场活动
  • 2025智能云生态大会
  • 2024智算云生态大会
  • 2023云生态大会
  • 2022云生态大会
  • 天翼云中国行
天翼云
  • 活动
  • 智算服务
  • 产品
  • 解决方案
  • 应用商城
  • 合作伙伴
  • 开发者
  • 支持与服务
  • 了解天翼云
      • 文档
      • 控制中心
      • 备案
      • 管理中心

      强化学习笔记(1.0)

      首页 知识中心 其他 文章详情页

      强化学习笔记(1.0)

      2024-11-18 09:54:42 阅读次数:23

      学习

      1.强化学习

      强化学习是一类算法,是让计算机实现从一开始什么都不懂,通过不断地尝试并更新自己的行为准则。从错误中学习,最后找到规律,最终达到目的的方法。

      在计算机中,可以为每一次的行为进行打分。分为高分和低分,有了打分的经验,就可以尽量去选择高分,而避免选到低分。所以强化学习具有分数导向性。

      强化学习的算法:

      (1)通过价值选行为:Q learning、Sarsa(使用表格学习)、Deep Q Network(使用神经网络学习)

      (2)直接选行为:Policy Gradients(基于概率)

      (3)想象环境并从中学习:Model based RL

      2.强化学习方法汇总

      Model free 和Model based

      强化学习的方法分为不理解所处环境的model-free方法和理解model-based方法。

      在Model-free中,Q-learning、Sarsa、Policy Gradients都是从环境中得到反馈然后学习。

      而Model-based多出了一个虚拟环境,且比model-free多了想象力。

      Model-free中,机器人智能等待真实世界的反馈,然后根据反馈做出行动。

      Model-based,能够通过想象来判断接下来发生的状况,然后选择想象情况中最好的,然后采取下一步的策略。

      【1】将强化学习分为基于概率和基于价值(分类方式)

      基于概率是强化学习中最直接的一种,能通过感官分析所处环境,输出下一步要采取行动概率,然后根据概率采取行动,所以每种动作都有可能被选中。

      基于价值的方法是输出所有动作的价值,它会直接选择价值最高的。

      动作一般是不连续的,对于连续的动作,就能体现出基于概率的优势,而基于价值确实无能为力的。

      通过基于概率的方法和基于价值的方法,又创造出了Actor-Critic.actor会基于概率做出动作,而critic会对动作给出价值,在原有的基于概率的policy gradients上加速了学习过程。

      【2】另一种分类方式,回合更新和单步更新

      类比于玩游戏,回合更新是在一局游戏结束后进行总结,一局游戏中所有的转折点,然后更新行为准则。

      单步更新,游戏中每一步都在更新。边玩边学习。

      Monte-Carlo learning和基础版的policy gradients等是回合更新

      Qlearning,Sarsa,升级版的policy gradients等是单步更新。

      现在大多数方法采用单步更新,因为单步更新更有效率。

      【3】另一种分类方式,在线学习和离线学习

      在线学习:本人在场,本人边玩边学习(on-policy)比如:Sarsa

      离线学习:本人可以不在场,本人或者其他人玩,不必边玩边学习(off-policy)

      Sarsa--在线学习

      Q learning,Deep-Q-Network--离线学习

      3.为什么要用强化学习

      强化学习(Reinforcement Learning)是一个机器学习大家族的分支,由于近些年的技术的突破,和深度学习(Deep Learning)的整合,使得强化学习有了进一步的运用。强化学习是让我们的程序从对当前环境完全陌生,成长为一个在环境中游刃有余的高手。

      Q-learning

      为了得到最优策略policy,我们考虑估算每一状态下每一种选择的价值value有多大。然后我们通过分析发现,每一个时间片的Q(s,a)和当前得到的Reward以及下一个时间片的Q(s,a)有关。Q-learning建立在虚拟环境下无限次的实验。这意味着可把上一次实验计算得到的Q值进行使用。这样,就可以根据当前的r,reward以及上一次实验中下一个时间片的Q值来更新当前Q值。下面来具体分析。

      Q-learning的算法过程:
      初始化Q(s,a),任意s属于S,a属于A(s),任意的数值,并且Q(terminal-state,.)=0

      重复(对每一节episode):
      初始化状态S

      重复(对episode的每一步):
      使用某一个policy比如(伊布西龙-greedy)根据状态S选取一个动作执行

      执行完动作后,观察reward和新的状态S'

      Q(St,At)<--Q(St,At)+alpha(R(t+1)+lanmdamax(a)Q(S(t+1),a)-Q(St,At))

      S<--S'

      循环直到S终止

      对于Q-learning,首先就是要确定如何存储Q值,最简单的想法就是矩阵,一个s一个a对应一个Q值,所以可以把Q值想象为一个很大的表格,横列代表S(STATE),纵列代表a(ACTION),里面的数字代表Q值,如下所示:

      Q(1,1)

      Q(1,2)

      Q(1,3)

      Q(2,1)

      Q(2,2)

      Q(2,3)

      Q(3,1)

      Q(3,2)

      Q(3,3)

      这样就可以知道Q值是怎样的了,下面就是看Q表是如何更新的。

      (1)初始化Q矩阵,比如说都设置为0

      (2)开始实验。根据当前Q矩阵及伊布西龙-greedy方法获取动作。比如当前处在状态s1,那么在s1一列每一个Q值都是0,那么这个时候随便选择就可以。

      0(s1,a1)

      0

      0

      0

      0

      0

      0

      0

      0(s3,a3)

      假设为选择a2动作,然后得到的reward是1,并且进入到s3状态,接下来我们要根据

      Q(St,At)<--Q(St,At)+alpha(R(t+1)+lanmdamax(a)Q(S(t+1),a)-Q(St,At))

      来更新Q值,这里我们假设alpha=1,lamda=1,也就是每一次都把目标Q值赋给Q。那么公式变成:

      Q(St,At)=R(t+1)+max(a)Q(S(t+1),a)

      所以在这里,就是

      Q(s1,a2)=1+max(a)Q(S(3),a)

      那么对应的s3状态,最大值是0,所以Q(s1,a2)=1+0=1,Q表格就变成:

      0(s1,a1)

      1(s1,a2)

      0

      0

      0

      0

      0

      0

      0(s3,a3)

      (3)接下来就是进入下一次动作,这次的状态是s3,假设选择动作a3,然后得到1的reward,状态变成s1,那么我们同样进行更新:

      Q(s3,a3)=2+max(a)Q(s1,a)=2+1=3

      所以Q表格就变成:

      0(s1,a1)

      1(s1,a2)

      0

      0

      0

      0

      0

      0

      3(s3,a3)

      (4)重复上面的方法。

      就是这样,Q值在实验的同时反复更新。直到收敛。

      DQN

      为什么会产生DQN呢,那当然是因为Q-learning也有他的不足之处。我们已经知道,Q表是用表格来表示的Q(s,a),但是这只适合于少量的状态空间和行为空间,如果出现大量的数据的话,用表格就显得格外不妥。所以我们需要对状态的维度进行压缩,解决办法就是价值函数近似。

      价值函数近似(Value Function Approximation)

      什么是价值函数近似,其实很简单,就是用一个函数来表示Q(s,a).即

      Q(s,a)=f(s,a)

      这里的f可以是任意类型的函数,比如线性函数:

      Q(s,a)=w1s+w2a+b   其中w1,w2,b就是函数f的参数

      通过函数的表示,我们就可以无所谓s到底是多大的维度,反正最后都会通过矩阵运算输出为单值的Q。这就是价值函数近似的思路。

      如果我们就用w来统一便是函数f的参数,那么就有

      Q(s,a)=f(s,a,w)

      为什么叫近似,因为我们并不知道Q值的实际分布情况,本质上就是一个函数来近似Q值的分布,所以,也可以说是Q(s,a)≈f(s,a,w)

      高维状态输入,低维动作输出的表示问题

      对于海量(state,action)数据来说,这是一个高维状态输入,低维动作输出。那么怎么来表示这个函数f呢。最简单的尝试,把高维s和低维a加在一起作为输入。但实际确有一些不妥。我们只需要对高维的状态进行降维,而不需要对动作也进行降维处理。

      Q(s)≈f(s,w),只把状态s作为输入,但是输出的时候输出每一个动作的Q值,也就是输出一个向量[Q(s,a1),Q(s,a2),Q(s,a3),...,Q(s,an)],记住这里输出是一个值,只不过是包含了所有动作的Q值的向量而已。这样我们就只要输入状态s,而且还同时可以得到所有的动作Q值,也将更方便的进行Q-learning中动作的选择与Q值更新。

      版权声明:本文内容来自第三方投稿或授权转载,原文地址:https://blog.51cto.com/u_15888443/5881356,作者:mez_Blog,版权归原作者所有。本网站转在其作品的目的在于传递更多信息,不拥有版权,亦不承担相应法律责任。如因作品内容、版权等问题需要同本网站联系,请发邮件至ctyunbbs@chinatelecom.cn沟通。

      上一篇:宏病毒分析

      下一篇:是否存在相等的差(JAVA)

      相关文章

      2025-05-16 09:15:10

      【强化学习】强化学习的基本概念与应用

      强化学习(Reinforcement Learning, RL)是一种机器学习方法,通过与环境的交互来学习如何采取行动,以最大化累积奖励。强化学习在机器人控制、游戏AI、自动驾驶等领域取得了显著成就。

      2025-05-16 09:15:10
      代理 , 学习 , 状态
      2025-05-13 09:53:23

      AIGC的底层技术:底层逻辑代码分析与原理实现

      AIGC(AI Generated Content)的底层技术主要涉及深度学习和自然语言处理技术,其核心目的是通过机器学习和模型训练来生成高质量的内容。

      2025-05-13 09:53:23
      AIGC , 学习 , 技术 , 案例 , 模型 , 生成
      2025-05-13 09:49:27

      编程语言逻辑

      编程语言逻辑

      2025-05-13 09:49:27
      分类 , 学习 , 编程 , 编程语言 , 语言 , 逻辑
      2025-05-13 09:49:27

      变量基础_变量场景

      变量基础_变量场景

      2025-05-13 09:49:27
      变量 , 场景 , 存储 , 学习 , 数据 , 编程语言
      2025-05-13 09:49:27

      shell基础_开发规范解读

      shell基础_开发规范解读

      2025-05-13 09:49:27
      学习 , 小结 , 开发 , 脚本 , 规范 , 解析
      2025-05-13 09:49:27

      全局变量_嵌套shell

      全局变量_嵌套shell

      2025-05-13 09:49:27
      export , shell , 原理 , 学习 , 实践 , 嵌套
      2025-05-13 09:49:27

      shell基础_shell简介

      shell基础_shell简介

      2025-05-13 09:49:27
      shell , 学习 , 小结 , 简介 , 语言 , 运维
      2025-05-13 09:49:27

      全局变量_基本操作

      全局变量_基本操作

      2025-05-13 09:49:27
      全局变量 , 基本 , 基本操作 , 基础知识 , 学习 , 小结
      2025-05-13 09:49:19

      内置变量_默认值相关

      内置变量_默认值相关

      2025-05-13 09:49:19
      基础知识 , 学习 , 实践 , 语法 , 默认值
      2025-05-13 09:49:19

      脚本交互_基础知识_子shell基础

      脚本交互_基础知识_子shell基础

      2025-05-13 09:49:19
      shell , 基础知识 , 学习 , 实践 , 简单
      查看更多
      推荐标签

      作者介绍

      天翼云小翼
      天翼云用户

      文章

      33561

      阅读量

      5266252

      查看更多

      最新文章

      【强化学习】强化学习的基本概念与应用

      2025-05-16 09:15:10

      全局变量_基本操作

      2025-05-13 09:49:27

      量子机器学习:颠覆性的前沿技术

      2025-04-22 09:27:28

      【人工智能基础一】深度学习基础

      2025-03-17 07:50:46

      【人工智能基础】学习线路

      2025-03-17 07:50:34

      【人工智能概述(一)】人工智能基本概概念、学派、发展历程与新一代人工智能

      2025-03-17 07:50:26

      查看更多

      热门文章

      react18-学习笔记14-枚举(Enum)

      2023-03-16 07:13:43

      java学习第一天笔记-hello world小案例8

      2023-03-13 09:32:24

      react项目实战学习笔记-学习38-滚动条样式

      2023-04-10 08:56:27

      java202302java学习笔记第四天-用户交互scanner之3

      2023-03-13 09:29:37

      react18-学习笔记5-安装和使用ts

      2023-03-16 06:47:52

      java202302java学习笔记第九天-数组的遍历和三道综合学习6小案例

      2023-03-10 10:21:07

      查看更多

      热门标签

      linux java python javascript 数组 前端 docker Linux vue 函数 shell git 节点 容器 示例
      查看更多

      相关产品

      弹性云主机

      随时自助获取、弹性伸缩的云服务器资源

      天翼云电脑(公众版)

      便捷、安全、高效的云电脑服务

      对象存储

      高品质、低成本的云上存储服务

      云硬盘

      为云上计算资源提供持久性块存储

      查看更多

      随机文章

      react项目实战学习笔记-学习34-a标签跳转

      好客租房9-jsx的学习目标

      react项目实战学习笔记-学习35-id获取

      前端学习案例-清除浮动的四种方式

      react18-学习笔记10-函数和类型推断

      react项目实战学习笔记-学习12-登录页布局

      • 7*24小时售后
      • 无忧退款
      • 免费备案
      • 专家服务
      售前咨询热线
      400-810-9889转1
      关注天翼云
      • 旗舰店
      • 天翼云APP
      • 天翼云微信公众号
      服务与支持
      • 备案中心
      • 售前咨询
      • 智能客服
      • 自助服务
      • 工单管理
      • 客户公告
      • 涉诈举报
      账户管理
      • 管理中心
      • 订单管理
      • 余额管理
      • 发票管理
      • 充值汇款
      • 续费管理
      快速入口
      • 天翼云旗舰店
      • 文档中心
      • 最新活动
      • 免费试用
      • 信任中心
      • 天翼云学堂
      云网生态
      • 甄选商城
      • 渠道合作
      • 云市场合作
      了解天翼云
      • 关于天翼云
      • 天翼云APP
      • 服务案例
      • 新闻资讯
      • 联系我们
      热门产品
      • 云电脑
      • 弹性云主机
      • 云电脑政企版
      • 天翼云手机
      • 云数据库
      • 对象存储
      • 云硬盘
      • Web应用防火墙
      • 服务器安全卫士
      • CDN加速
      热门推荐
      • 云服务备份
      • 边缘安全加速平台
      • 全站加速
      • 安全加速
      • 云服务器
      • 云主机
      • 智能边缘云
      • 应用编排服务
      • 微服务引擎
      • 共享流量包
      更多推荐
      • web应用防火墙
      • 密钥管理
      • 等保咨询
      • 安全专区
      • 应用运维管理
      • 云日志服务
      • 文档数据库服务
      • 云搜索服务
      • 数据湖探索
      • 数据仓库服务
      友情链接
      • 中国电信集团
      • 189邮箱
      • 天翼企业云盘
      • 天翼云盘
      ©2025 天翼云科技有限公司版权所有 增值电信业务经营许可证A2.B1.B2-20090001
      公司地址:北京市东城区青龙胡同甲1号、3号2幢2层205-32室
      • 用户协议
      • 隐私政策
      • 个人信息保护
      • 法律声明
      备案 京公网安备11010802043424号 京ICP备 2021034386号