爆款云主机2核4G限时秒杀,88元/年起!
查看详情

活动

天翼云最新优惠活动,涵盖免费试用,产品折扣等,助您降本增效!
热门活动
  • 618智算钜惠季 爆款云主机2核4G限时秒杀,88元/年起!
  • 免费体验DeepSeek,上天翼云息壤 NEW 新老用户均可免费体验2500万Tokens,限时两周
  • 云上钜惠 HOT 爆款云主机全场特惠,更有万元锦鲤券等你来领!
  • 算力套餐 HOT 让算力触手可及
  • 天翼云脑AOne NEW 连接、保护、办公,All-in-One!
  • 中小企业应用上云专场 产品组合下单即享折上9折起,助力企业快速上云
  • 息壤高校钜惠活动 NEW 天翼云息壤杯高校AI大赛,数款产品享受线上订购超值特惠
  • 天翼云电脑专场 HOT 移动办公新选择,爆款4核8G畅享1年3.5折起,快来抢购!
  • 天翼云奖励推广计划 加入成为云推官,推荐新用户注册下单得现金奖励
免费活动
  • 免费试用中心 HOT 多款云产品免费试用,快来开启云上之旅
  • 天翼云用户体验官 NEW 您的洞察,重塑科技边界

智算服务

打造统一的产品能力,实现算网调度、训练推理、技术架构、资源管理一体化智算服务
智算云(DeepSeek专区)
科研助手
  • 算力商城
  • 应用商城
  • 开发机
  • 并行计算
算力互联调度平台
  • 应用市场
  • 算力市场
  • 算力调度推荐
一站式智算服务平台
  • 模型广场
  • 体验中心
  • 服务接入
智算一体机
  • 智算一体机
大模型
  • DeepSeek-R1-昇腾版(671B)
  • DeepSeek-R1-英伟达版(671B)
  • DeepSeek-V3-昇腾版(671B)
  • DeepSeek-R1-Distill-Llama-70B
  • DeepSeek-R1-Distill-Qwen-32B
  • Qwen2-72B-Instruct
  • StableDiffusion-V2.1
  • TeleChat-12B

应用商城

天翼云精选行业优秀合作伙伴及千余款商品,提供一站式云上应用服务
进入甄选商城进入云市场创新解决方案
办公协同
  • WPS云文档
  • 安全邮箱
  • EMM手机管家
  • 智能商业平台
财务管理
  • 工资条
  • 税务风控云
企业应用
  • 翼信息化运维服务
  • 翼视频云归档解决方案
工业能源
  • 智慧工厂_生产流程管理解决方案
  • 智慧工地
建站工具
  • SSL证书
  • 新域名服务
网络工具
  • 翼云加速
灾备迁移
  • 云管家2.0
  • 翼备份
资源管理
  • 全栈混合云敏捷版(软件)
  • 全栈混合云敏捷版(一体机)
行业应用
  • 翼电子教室
  • 翼智慧显示一体化解决方案

合作伙伴

天翼云携手合作伙伴,共创云上生态,合作共赢
天翼云生态合作中心
  • 天翼云生态合作中心
天翼云渠道合作伙伴
  • 天翼云代理渠道合作伙伴
天翼云服务合作伙伴
  • 天翼云集成商交付能力认证
天翼云应用合作伙伴
  • 天翼云云市场合作伙伴
  • 天翼云甄选商城合作伙伴
天翼云技术合作伙伴
  • 天翼云OpenAPI中心
  • 天翼云EasyCoding平台
天翼云培训认证
  • 天翼云学堂
  • 天翼云市场商学院
天翼云合作计划
  • 云汇计划
天翼云东升计划
  • 适配中心
  • 东升计划
  • 适配互认证

开发者

开发者相关功能入口汇聚
技术社区
  • 专栏文章
  • 互动问答
  • 技术视频
资源与工具
  • OpenAPI中心
开放能力
  • EasyCoding敏捷开发平台
培训与认证
  • 天翼云学堂
  • 天翼云认证
魔乐社区
  • 魔乐社区

支持与服务

为您提供全方位支持与服务,全流程技术保障,助您轻松上云,安全无忧
文档与工具
  • 文档中心
  • 新手上云
  • 自助服务
  • OpenAPI中心
定价
  • 价格计算器
  • 定价策略
基础服务
  • 售前咨询
  • 在线支持
  • 在线支持
  • 工单服务
  • 建议与反馈
  • 用户体验官
  • 服务保障
  • 客户公告
  • 会员中心
增值服务
  • 红心服务
  • 首保服务
  • 客户支持计划
  • 专家技术服务
  • 备案管家

了解天翼云

天翼云秉承央企使命,致力于成为数字经济主力军,投身科技强国伟大事业,为用户提供安全、普惠云服务
品牌介绍
  • 关于天翼云
  • 智算云
  • 天翼云4.0
  • 新闻资讯
  • 天翼云APP
基础设施
  • 全球基础设施
  • 信任中心
最佳实践
  • 精选案例
  • 超级探访
  • 云杂志
  • 分析师和白皮书
  • 天翼云·创新直播间
市场活动
  • 2025智能云生态大会
  • 2024智算云生态大会
  • 2023云生态大会
  • 2022云生态大会
  • 天翼云中国行
天翼云
  • 活动
  • 智算服务
  • 产品
  • 解决方案
  • 应用商城
  • 合作伙伴
  • 开发者
  • 支持与服务
  • 了解天翼云
      • 文档
      • 控制中心
      • 备案
      • 管理中心

      统计分析:判别分析(机器学习)

      首页 知识中心 物联网 文章详情页

      统计分析:判别分析(机器学习)

      2024-11-08 08:55:53 阅读次数:29

      变量,模型

      在经济学中,需要根据人均国民收入、人均工农业产值、人均消费水平等多种指标判定一个国家经济发展所属类型;在考古学中,需要根据头盖骨的高、宽等特征来判断性别;在医疗诊断中,需要根据体验指标判断是否有疾病。正是由于这些需求的存在,才在数学领域中诞生了判别分析。

      1.判别分析的含义

      判别分析类似于机器学习,判别分析是根据观测到的某些指标对所研究的对象进行分别的一种多元统计分析方法。判别分析技术是由费希尔与1936年提出的。
      判别分析是一种有效的对个案进行分类分析的方法,和聚类分析不同的是,判别分析时组别的特征已知。
      例如: 银行为了对贷款进行管理,需要预测哪些类型的客户可能不会按时归还贷款。已知过去几年中900个客户的贷款归还信誉度,据此可以将客户分成两组:可靠用户和不可靠用户。在通过收集客户的一些资料,如年龄,工资收入、教育程度、存款等,将这些资料作为自变量,建立判别函数。那么,如果有150个新的客户提交贷款申请,就可以利用已经创建好的判别函数,对客户进行分析,从而判断客户是属于可靠客户了还是属于不可靠客户类。
      故判别分析就是先根据已知类别事物的性质,利用某种技术建立函数式,然后对未知类别的新事物进行判断以将之归入已知类别中。
      现如今,判别分析技术已经在许多领域取得成功的应用。例如临床上常需根据就诊者的各项症状,体征,实验室检查,病理学检查及医学影像学资料对其作出是否含有某项疾病的诊断或对几种可能患有的疾病进行鉴别诊断,有时已初步诊断为某种疾病,还需要进一步作出属于该类疾病中哪一种或哪一型的判断;体育选才中根据运动员的体形,运动成绩,生理指标,心里素质指标,遗传因素判断是否能选入运动队继续培养;还有动物,植物分类,儿童心理检验,地理区划的经济差异,决策行为预测等。
      在判别分析中,称分组变量为因变量,例如,是否含有某项疾病,能否进入运动队继续培养,而用于分组的其他特征变量称为判别变量或自变量。

      2.判别分析的假设条件

      判别分析的基本条件是:分组变量的水平必须大于或等于2,每组案例的规模必须至少在一个以上; 各判别变量的测度水平必须在间距测度等级以上,即个判别变量的数据必须为等距或等比数据;各分组的案例在各判别变量的数值上能够体现差别。
      判别分析对判别变量有三个基本假设:其一是变量之间没有显著的相关性,否则将无法估计判别函数;其二是各组案例的协方差矩阵相等,在此条件下,可以使用简单的公式来计算判别函数和进行显著性检验;其三是个判别变量之间具有多元正态分布,即每个变量对于所有其他变量的固定值有正态分布。
      简单来说,就是需要满足各变量之间线性无关并可测量,分组变量的类别必须大于等于2;

      3.判别分析的过程

      1.对已知分组属性案例的处理

      此过程为判别分析的第一阶段,也是建立判别分析基本模式的阶段,即分析和解释各组指标特征之间的差异,并建立判别函数。

      2.判别分析的基本模式及其估计过程

      判别分析的基本模型就是判别函数,它表示为分组变量与满足假设条件的判别变量的线性函数关系,其数学表达式为 y = b 0 + b 1 x 1 + b 2 x 2 + ⋯ + b k x k y=b_{0}+b_{1}x_{1}+b_{2}x_{2}+\cdots +b_{k}x_{k} y=b0​+b1​x1​+b2​x2​+⋯+bk​xk​,其中 y y y是判别函数值,又简称为判别值; x i x_{i} xi​为个判别变量; b i b_{i} bi​为相应的判别系数,表示各判别变量对于判别函数值的影响,其中 b 0 b_{0} b0​为常数项。
      判别模式对应的集合解释是,各判别变量代表了 k k k维空间,每个案例就其判别变量的值称为这 k k k维空间中的一个点。如果各组案例就其判别变量值有明显的不同,就意味着每一组将会在这一空间的某一部分形成明显分离的峰集点群。我们可以计算此领域的中心以概括这个组的位置,中心位置可以用这个组别中各案例在每个变量上的组的均值作为其坐标值。因为每个中心代表了所在组的基本位置,我们可以通过研究它们来取得对于这些分组之间差别的理解。

      3.建立判别函数的方法

      (1)全模型法
      它是把用户指定的变量全部放入判别函数中,而不管变量对判别函数是否其作用,作用大小如何,当对反映研究对象特征的变量认识比较全面时可以选择此种方法,其缺点是不能剔除对判别贡献很小的变量。
      (2)向前选择法
      向前选择法是从模型中没有变量开始,每一步把一个对判别模型的判断能力贡献最大的变量引入模型,当模型外的变量没有一个符合进行模型的条件时,变量引入过程结束。当希望比较多的变量留在判别函数中时使用此方法。
      (3)向后选择法
      此方法与向前选择法相反。它从全模型开始,每一步把一个对模型的判断能力贡献最小的变量剔除出模型,直到模型中所有的变量都符合留在模型中的判据时,剔除变量工作结束。在希望较少的变量留在判别函数中时使用此方法。
      (4)逐步选择法
      此方法从模型中没有变量开始,每一步把模型外对模型的判别能力贡献最大的变量加入模型的同时,也考虑把已经在模型中但又不符合留在模型中的变量剔除(因为新加入的引入可能会使原来已经在模型中的变量对模型的贡献变得不显著了),直到模型内的所有变量都不符合剔除模型的判据,而模型外的变量都不复合进入模型的判据为止。

      4.判别分析的常用方法

      判别分析的常用方法有距离判别方法,费希尔判别方法,贝叶斯判别方法。
      具体判别法: 首先根据已知分类的数据,分别计算各类的质心,计算新个体到每类的距离,确定最短的距离(欧式距离,马氏距离)。
      贝叶斯判别法: 计算新给样品属于各总体的条件概率,比较概率的大小,然后将新样品判断为来自概率最大的总体。

      5.用MATLAB进行判别分析

      MATLAB统计工具中提供了classify函数,用来对未知类别的样品进行判别,可以进行距离判别和先验分布为正态分布的贝叶斯判别,其调用格式如下:
      (1)class=classify(sample,training,group);
      (2)class=classify(sample,training,group,type);
      (3)class=classify(sample,training,group,type,prior);
      (4)[class,error]==classify(sample,training,group,type,prior);
      其中sample是代判别的样品数据矩阵,training是用于构造判别函数的已知分类结果的样本数据矩阵,它们的每一行对应一个观察,每一列对应一个变量,sample和training具有相同的列数,参数group是与training相应的分组变量,group和training具有相同的行数,group中的每一个元素指定了training相应观测值所在的组,group可以是一个分类变量,数值向量,字符串数组。
      参数type用于指定判别函数的类型,常见的有linear(线性判别分析),quadratic(二次判别法分类),mahalanobis(马氏距离判别法分类);
      参数prior用来指定先验概率,默认先验概率相等;
      输出参数class是一个行向量,用来指定sample中各观测值所在的组别,class和group具有相同的数据类型,参数error用来返回training数据误判概率的估计值。

      4.鸢尾花的分类解析

      本例使用的数据是统计学家费希尔当年对鸢尾花观察的数据,其中分类变量具有三个水平,分别为1,2,3,代表刚毛鸢尾花,变色鸢尾花和弗吉尼亚鸢尾花。四个变量分别为花萼长,宽和花瓣长,宽。我们的目的就是通过这四个数值型变量,对未知的三种鸢尾花进行判别分类。已知的数据表如下所示:

      序号 分类 花萼长 花萼宽 花瓣长 花瓣宽
      1 1 50 33 14 2
      2 3 67 31 56 24
      3 3 89 31 51 23
      4 1 46 36 10 2
      5 3 65 30 52 20
      6 3 58 27 51 19
      7 2 57 28 45 13
      8 2 63 33 47 16
      9 3 49 25 45 17
      10 2 70 32 47 14
      11 1 48 31 16 2
      12 3 63 25 50 19
      13 1 49 36 14 1
      14 1 44 32 13 2
      15 2 58 26 40 12
      16 3 63 27 49 18
      17 2 50 23 33 10
      18 1 51 38 16 2
      19 1 50 30 16 2

      在某临近地区随机挑选了4个具有代表性的鸢尾花取样点,获得数据如下所示:

      序号 花萼长 花萼宽 花瓣长 花瓣宽
      1 64 28 56 21
      2 51 38 19 4
      3 49 30 14 2

      利用MATLAB软件包中的classify函数编程求解如下所示:

      training=[
      50,33,14,2;67,31,56,24;
      89,31,51,23;46,36,10,2;
      65,30,52,20;58,28,45,13;
      57,28,45,13;63,33,47,16;
      49,25,45,17;70,32,47,14;
      48,31,16,2;63,25,50,19;
      49,36,14,1;44,32,13,2;
      58,26,40,12;63,27,49,18;
      50,23,33,10;51,38,16,2;
      50,30,16,2];
      group=[1;3;3;1;3;3;2;2;3;2;1;3;1;1;2;3;2;1;1];
      sample=[64,28,56,21;51,38,19,4;49,30,14,2];
      [class,error]=classify(sample,training,group,'quadratic');
      

      统计分析:判别分析(机器学习)
      分析结果可知,样本1为分类3,即弗吉尼亚鸢尾花,样品2为分类1,即刚毛鸢尾花,样品3为分类1,即刚毛鸢尾花,犯错的概率为0.0476;

      版权声明:本文内容来自第三方投稿或授权转载,原文地址:https://lglxv587.blog.csdn.net/article/details/124915161,作者:散一世繁华,颠半世琉璃,版权归原作者所有。本网站转在其作品的目的在于传递更多信息,不拥有版权,亦不承担相应法律责任。如因作品内容、版权等问题需要同本网站联系,请发邮件至ctyunbbs@chinatelecom.cn沟通。

      上一篇:全能型与专精型AI模型:平衡的艺术

      下一篇:Django处理枚举(枚举模型)以及source的使用

      相关文章

      2025-05-19 09:04:30

      开源与闭源:AI模型发展的两条路径

      开源与闭源:AI模型发展的两条路径

      2025-05-19 09:04:30
      开源 , 模型 , 用户
      2025-05-14 10:07:38

      C++ 11新特性之auto和decltype

      在C++ 11标准中,引入了两大关键类型推导机制,即:auto关键字和decltype表达式。这两个特性不仅极大地简化了代码编写,提升了可读性,还为开发者提供了更加灵活、直观的类型声明方式。

      2025-05-14 10:07:38
      auto , 函数 , 变量 , 类型 , 表达式
      2025-05-14 10:07:38

      30天拿下Rust之所有权

      在编程语言的世界中,Rust凭借其独特的所有权机制脱颖而出,为开发者提供了一种新颖而强大的工具来防止内存错误。这一特性不仅确保了代码的安全性,还极大地提升了程序的性能。

      2025-05-14 10:07:38
      data , Rust , 内存 , 函数 , 变量 , 数据
      2025-05-14 09:51:21

      Transformer模型:Position Embedding实现

      在自然语言处理(NLP)中,Transformer 模型是一个非常重要的里程碑,它通过自注意力(self-attention)机制极大地提高了处理序列数据的能力。

      2025-05-14 09:51:21
      位置 , 序列 , 模型
      2025-05-14 09:51:21

      python 加载 TensorFlow 模型

      为了加载一个TensorFlow模型,我们首先需要明确模型的格式。TensorFlow支持多种模型格式,但最常见的两种是SavedModel和HDF5(对于Keras模型)。

      2025-05-14 09:51:21
      model , TensorFlow , 加载 , 模型 , 示例 , 签名
      2025-05-13 09:53:23

      AIGC的底层技术:底层逻辑代码分析与原理实现

      AIGC(AI Generated Content)的底层技术主要涉及深度学习和自然语言处理技术,其核心目的是通过机器学习和模型训练来生成高质量的内容。

      2025-05-13 09:53:23
      AIGC , 学习 , 技术 , 案例 , 模型 , 生成
      2025-05-13 09:53:23

      AIGC工具的使用测评:代码分析与原理实现

      AIGC(Artificial Intelligence Guided Coding)工具是一种基于人工智能技术的开发辅助工具,旨在通过智能化的代码分析和预测,为开发者提供更快速、准确的开发体验。

      2025-05-13 09:53:23
      AIGC , 代码 , 工具 , 开发者 , 模型 , 生成 , 示例
      2025-05-13 09:53:23

      Java静态变量在静态方法内部无法改变值

      在Java中,静态变量(也称为类变量)属于类本身,而不是类的任何特定实例。它们可以在没有创建类的实例的情况下访问和修改。如果我们发现在静态方法内部无法改变静态变量的值,这通常是因为我们的代码中有一些逻辑错误或误解。

      2025-05-13 09:53:23
      Java , 变量 , 实例 , 类名 , 访问 , 静态 , 静态方法
      2025-05-13 09:53:13

      计算机萌新的成长历程18——指针

      计算机要存储数据的话有以下几种途径,按访问速度由快到慢来排列分别是:寄存器>高速缓存>内存>硬盘。它们的存储空间大小是依次增大的,寄存器的存储空间大小最小,硬盘存储空间大小最大。

      2025-05-13 09:53:13
      内存 , 变量 , 地址 , 寄存器 , 指针
      2025-05-13 09:49:27

      全局变量_文件体系

      全局变量_文件体系

      2025-05-13 09:49:27
      bash , bashrc , profile , 变量 , 实践 , 文件
      查看更多
      推荐标签

      作者介绍

      天翼云小翼
      天翼云用户

      文章

      33561

      阅读量

      5245246

      查看更多

      最新文章

      开源与闭源:AI模型发展的两条路径

      2025-05-19 09:04:30

      python 加载 TensorFlow 模型

      2025-05-14 09:51:21

      Transformer模型:Position Embedding实现

      2025-05-14 09:51:21

      django从入门到精通(五)——表单与模型

      2025-04-18 08:02:02

      diffusionAI从入门到精通——基本组件介绍

      2025-04-18 08:02:02

      python 无监督生成模型

      2025-04-09 09:13:17

      查看更多

      热门文章

      Django入门:第五章、模型建立与迁移

      2023-03-22 09:02:52

      PyTorch 06: PyTorch保存和加载模型

      2023-05-06 08:59:26

      AIGC从入门到大神:解锁人工智能生成内容的奥秘

      2024-12-17 08:34:36

      什么是模型

      2024-04-18 09:42:00

      深度学习TensorFlow---保存和加载 Keras 模型

      2025-03-05 09:22:35

      数学建模系列(1/4):数学建模简介

      2024-10-30 08:59:10

      查看更多

      热门标签

      模型 生成 学习 django python 图像 训练
      查看更多

      相关产品

      弹性云主机

      随时自助获取、弹性伸缩的云服务器资源

      天翼云电脑(公众版)

      便捷、安全、高效的云电脑服务

      对象存储

      高品质、低成本的云上存储服务

      云硬盘

      为云上计算资源提供持久性块存储

      查看更多

      随机文章

      统计学习方法——机器学习和统计学习介绍及基本入门

      增强现实:MATLAB在3D数学建模的关键作用

      探索图像生成大模型Imagen:原理、比较与应用

      Matlab数学建模实战应用:案例3 - 投资组合优化

      AI的智慧精华:解锁知识蒸馏的秘密

      RBAC模型

      • 7*24小时售后
      • 无忧退款
      • 免费备案
      • 专家服务
      售前咨询热线
      400-810-9889转1
      关注天翼云
      • 旗舰店
      • 天翼云APP
      • 天翼云微信公众号
      服务与支持
      • 备案中心
      • 售前咨询
      • 智能客服
      • 自助服务
      • 工单管理
      • 客户公告
      • 涉诈举报
      账户管理
      • 管理中心
      • 订单管理
      • 余额管理
      • 发票管理
      • 充值汇款
      • 续费管理
      快速入口
      • 天翼云旗舰店
      • 文档中心
      • 最新活动
      • 免费试用
      • 信任中心
      • 天翼云学堂
      云网生态
      • 甄选商城
      • 渠道合作
      • 云市场合作
      了解天翼云
      • 关于天翼云
      • 天翼云APP
      • 服务案例
      • 新闻资讯
      • 联系我们
      热门产品
      • 云电脑
      • 弹性云主机
      • 云电脑政企版
      • 天翼云手机
      • 云数据库
      • 对象存储
      • 云硬盘
      • Web应用防火墙
      • 服务器安全卫士
      • CDN加速
      热门推荐
      • 云服务备份
      • 边缘安全加速平台
      • 全站加速
      • 安全加速
      • 云服务器
      • 云主机
      • 智能边缘云
      • 应用编排服务
      • 微服务引擎
      • 共享流量包
      更多推荐
      • web应用防火墙
      • 密钥管理
      • 等保咨询
      • 安全专区
      • 应用运维管理
      • 云日志服务
      • 文档数据库服务
      • 云搜索服务
      • 数据湖探索
      • 数据仓库服务
      友情链接
      • 中国电信集团
      • 189邮箱
      • 天翼企业云盘
      • 天翼云盘
      ©2025 天翼云科技有限公司版权所有 增值电信业务经营许可证A2.B1.B2-20090001
      公司地址:北京市东城区青龙胡同甲1号、3号2幢2层205-32室
      • 用户协议
      • 隐私政策
      • 个人信息保护
      • 法律声明
      备案 京公网安备11010802043424号 京ICP备 2021034386号