爆款云主机2核4G限时秒杀,88元/年起!
查看详情

活动

天翼云最新优惠活动,涵盖免费试用,产品折扣等,助您降本增效!
热门活动
  • 618智算钜惠季 爆款云主机2核4G限时秒杀,88元/年起!
  • 免费体验DeepSeek,上天翼云息壤 NEW 新老用户均可免费体验2500万Tokens,限时两周
  • 云上钜惠 HOT 爆款云主机全场特惠,更有万元锦鲤券等你来领!
  • 算力套餐 HOT 让算力触手可及
  • 天翼云脑AOne NEW 连接、保护、办公,All-in-One!
  • 中小企业应用上云专场 产品组合下单即享折上9折起,助力企业快速上云
  • 息壤高校钜惠活动 NEW 天翼云息壤杯高校AI大赛,数款产品享受线上订购超值特惠
  • 天翼云电脑专场 HOT 移动办公新选择,爆款4核8G畅享1年3.5折起,快来抢购!
  • 天翼云奖励推广计划 加入成为云推官,推荐新用户注册下单得现金奖励
免费活动
  • 免费试用中心 HOT 多款云产品免费试用,快来开启云上之旅
  • 天翼云用户体验官 NEW 您的洞察,重塑科技边界

智算服务

打造统一的产品能力,实现算网调度、训练推理、技术架构、资源管理一体化智算服务
智算云(DeepSeek专区)
科研助手
  • 算力商城
  • 应用商城
  • 开发机
  • 并行计算
算力互联调度平台
  • 应用市场
  • 算力市场
  • 算力调度推荐
一站式智算服务平台
  • 模型广场
  • 体验中心
  • 服务接入
智算一体机
  • 智算一体机
大模型
  • DeepSeek-R1-昇腾版(671B)
  • DeepSeek-R1-英伟达版(671B)
  • DeepSeek-V3-昇腾版(671B)
  • DeepSeek-R1-Distill-Llama-70B
  • DeepSeek-R1-Distill-Qwen-32B
  • Qwen2-72B-Instruct
  • StableDiffusion-V2.1
  • TeleChat-12B

应用商城

天翼云精选行业优秀合作伙伴及千余款商品,提供一站式云上应用服务
进入甄选商城进入云市场创新解决方案
办公协同
  • WPS云文档
  • 安全邮箱
  • EMM手机管家
  • 智能商业平台
财务管理
  • 工资条
  • 税务风控云
企业应用
  • 翼信息化运维服务
  • 翼视频云归档解决方案
工业能源
  • 智慧工厂_生产流程管理解决方案
  • 智慧工地
建站工具
  • SSL证书
  • 新域名服务
网络工具
  • 翼云加速
灾备迁移
  • 云管家2.0
  • 翼备份
资源管理
  • 全栈混合云敏捷版(软件)
  • 全栈混合云敏捷版(一体机)
行业应用
  • 翼电子教室
  • 翼智慧显示一体化解决方案

合作伙伴

天翼云携手合作伙伴,共创云上生态,合作共赢
天翼云生态合作中心
  • 天翼云生态合作中心
天翼云渠道合作伙伴
  • 天翼云代理渠道合作伙伴
天翼云服务合作伙伴
  • 天翼云集成商交付能力认证
天翼云应用合作伙伴
  • 天翼云云市场合作伙伴
  • 天翼云甄选商城合作伙伴
天翼云技术合作伙伴
  • 天翼云OpenAPI中心
  • 天翼云EasyCoding平台
天翼云培训认证
  • 天翼云学堂
  • 天翼云市场商学院
天翼云合作计划
  • 云汇计划
天翼云东升计划
  • 适配中心
  • 东升计划
  • 适配互认证

开发者

开发者相关功能入口汇聚
技术社区
  • 专栏文章
  • 互动问答
  • 技术视频
资源与工具
  • OpenAPI中心
开放能力
  • EasyCoding敏捷开发平台
培训与认证
  • 天翼云学堂
  • 天翼云认证
魔乐社区
  • 魔乐社区

支持与服务

为您提供全方位支持与服务,全流程技术保障,助您轻松上云,安全无忧
文档与工具
  • 文档中心
  • 新手上云
  • 自助服务
  • OpenAPI中心
定价
  • 价格计算器
  • 定价策略
基础服务
  • 售前咨询
  • 在线支持
  • 在线支持
  • 工单服务
  • 建议与反馈
  • 用户体验官
  • 服务保障
  • 客户公告
  • 会员中心
增值服务
  • 红心服务
  • 首保服务
  • 客户支持计划
  • 专家技术服务
  • 备案管家

了解天翼云

天翼云秉承央企使命,致力于成为数字经济主力军,投身科技强国伟大事业,为用户提供安全、普惠云服务
品牌介绍
  • 关于天翼云
  • 智算云
  • 天翼云4.0
  • 新闻资讯
  • 天翼云APP
基础设施
  • 全球基础设施
  • 信任中心
最佳实践
  • 精选案例
  • 超级探访
  • 云杂志
  • 分析师和白皮书
  • 天翼云·创新直播间
市场活动
  • 2025智能云生态大会
  • 2024智算云生态大会
  • 2023云生态大会
  • 2022云生态大会
  • 天翼云中国行
天翼云
  • 活动
  • 智算服务
  • 产品
  • 解决方案
  • 应用商城
  • 合作伙伴
  • 开发者
  • 支持与服务
  • 了解天翼云
      • 文档
      • 控制中心
      • 备案
      • 管理中心

      机器学习/数据分析--通俗语言带你入门逻辑回归(结合案例)

      首页 知识中心 软件开发 文章详情页

      机器学习/数据分析--通俗语言带你入门逻辑回归(结合案例)

      2024-12-11 06:19:22 阅读次数:23

      分类,可视化,回归

      1、逻辑回归简介

      1、二分类问题

      逻辑回归也称为对数几率回归,主要处理的是二分类问题,虽然名字带有回归,但是处理的是分类问题,那

      什么是二分类问题呢?

      二分类问题就是y取值为{0,1},转化成函数表达式如下:

      ​ y = { 0 , z < 0 ; 0.5 , z = 0 ; 1 , z > 0 , \left.y=\left\{\begin{array}{cc}0,&z<0 ;\\0.5,&z=0 ;\\1,&z>0 ,\end{array}\right.\right. y=⎩ ⎨ ⎧​0,0.5,1,​z<0;z=0;z>0,​

      从这个表达式就可以看出:

      • Z > 0,判断为正例
      • Z < 0,判断为反例
      • Z = 0,为临界值,可以任意判断

      但是,这个表达式属于分段函数,不连续,无法求导,故我们希望有一个函数来替代它,这个函数成为**“对数几率”**函数,表达式如下:

      ​ y = 1 1 + e − z . y=\frac1{1+e^{-z}} . y=1+e−z1​.

      也称为:**“Sigmoid”**函数,结合回归,我们可以得到如下表达式:

      ​ y = 1 1 + e − ( w T x + b ) . y=\frac1{1+e^{-(\boldsymbol{w}^\mathrm{T}\boldsymbol{x}+b)}} . y=1+e−(wTx+b)1​.

      提示:W 和 b求解的方法是极大似然估计,有兴趣的同学可以阅读机器学习西瓜书

      从上图中可以分析出如下几个特征:

      • y 的取值范围为[0, 1]
      • 分界点为:0.5,大于0.5的为一类,小于0.5的为一类
      • 在 Z 属于 (-6, 6) 的时候,变化比较大,尤其是在 (-3, 3)的时候变化大,实际证明在这些区间的时候预测效果也比较好,故很多时候需要结合数据情况来决定是否需要对数据进行归一化
      • 对数几率函数是凸函数,有很好的数学性质,在深度学习中也经常用来作为处理二分类的激活函数

      2、多分类问题浅谈

      多分类问题可以此份为多个二分类问题,假色我们有这么一组数据:

      ​ D = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , … , ( x m , y m ) } , y i ∈ { C 1 , C 2 , … , C N } . D=\{(\boldsymbol{x}_1,y_1),(\boldsymbol{x}_2,y_2),\ldots,(\boldsymbol{x}_m,y_m)\}, y_i\in\{C_1,C_2,\ldots,C_N\}. D={(x1​,y1​),(x2​,y2​),…,(xm​,ym​)},yi​∈{C1​,C2​,…,CN​}.

      最后,通过累加计算出不同类别的概率,属于那个类别的概率大,就属于哪一类。

      3、与线性回归的区别

      • 问题类别不同:线性回归属于回归问题,逻辑回归属于分类问题
      • 分布不同,线性回归的y值服从正态分布,逻辑回归的y值服从伯努利分布

      2、案例展示

      背景:一组探究消费等级是否与年龄、收入有关,消费等级分为两类。

      1、数据预处理

      1、导入数据

      import numpy as np 
      import pandas as pd 
      import matplotlib.pyplot as plt 
      
      data = pd.read_csv('./Social_Network_Ads.csv')
      data
      
        User ID Gender Age EstimatedSalary Purchased
      0 15624510 Male 19 19000 0
      1 15810944 Male 35 20000 0
      2 15668575 Female 26 43000 0
      3 15603246 Female 27 57000 0
      4 15804002 Male 19 76000 0
      ... ... ... ... ... ...
      395 15691863 Female 46 41000 1
      396 15706071 Male 51 23000 1
      397 15654296 Female 50 20000 1
      398 15755018 Male 36 33000 0
      399 15594041 Female 49 36000 1

      400 rows × 5 columns

      # 设置头
      columns = {
          'User ID': '用户ID',
          'Gender': '性别',
          'Age': '年龄',
          'EstimatedSalary': '工资',
          'Purchased': '购买等级'
      }
      data.rename(columns=columns, inplace=True)
      data
      
        用户ID 性别 年龄 工资 购买等级
      0 15624510 Male 19 19000 0
      1 15810944 Male 35 20000 0
      2 15668575 Female 26 43000 0
      3 15603246 Female 27 57000 0
      4 15804002 Male 19 76000 0
      ... ... ... ... ... ...
      395 15691863 Female 46 41000 1
      396 15706071 Male 51 23000 1
      397 15654296 Female 50 20000 1
      398 15755018 Male 36 33000 0
      399 15594041 Female 49 36000 1

      400 rows × 5 columns

      2、选取目标变量和划分数据集

      from sklearn.model_selection import train_test_split
      
      X = data.iloc[:, [2, 3]].values
      y = data.iloc[:, 4].values
      
      X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
      

      3、数据标准化

      from sklearn.preprocessing import MinMaxScaler
      
      scaler = MinMaxScaler()
      X_train_scaler = scaler.fit_transform(X_train)
      X_test_scaler = scaler.transform(X_test)
      

      2、模型的创建与训练

      from sklearn.linear_model import LogisticRegression
      
      model = LogisticRegression()
      model.fit(X_train_scaler, y_train)  # 模型训练
      

      3、模型预测

      y_pred = model.predict(X_test_scaler)
      

      4、误差计算

      from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score
      
      # 计算误差
      accuracy = accuracy_score(y_test, y_pred)
      precision = precision_score(y_test, y_pred)
      recall = recall_score(y_test, y_pred)
      f1 = f1_score(y_test, y_pred)
      
      print("Accuracy", accuracy)
      print("Precision", precision)
      print("recall", recall)
      print("f1", f1)
      
      Accuracy 0.875
      Precision 0.95
      recall 0.6785714285714286
      f1 0.7916666666666667
      

      从准确率和召回率来看,模型分类效果显著。

      5、结果可视化

      1、训练集可视化

      from matplotlib.colors import ListedColormap  # 颜色映射类,将颜色映射到列表中,用于观察分布
      
      # 年龄为:x, 工资为:y
      x = np.arange(start=X_train[:, 0].min() - 1, stop=X_train[:, 0].max() + 1, step=0.1)
      y = np.arange(start=X_train[:, 1].min() - 1, stop=X_train[:, 1].max() + 1, step=100)
      
      # 将x,y绑定为网格形状
      x1, x2 = np.meshgrid(x, y)
      
      plt.xlim(x1.min(),x1.max())
      plt.ylim(x2.min(),x2.max())
      
      for i,j in enumerate(np.unique(y_test)):
          plt.scatter(X_train[y_train==j, 0],
                      X_train[y_train==j, 1],
                      color = ListedColormap(['red', 'green'])(i),   # i 为不同类别
                      label=j)
      
      plt.title('LOGISTIC(Training set)')
      plt.xlabel('Age')
      plt.ylabel('Estimated Salary')
      plt.legend()
      plt.show()
      

      2、测试集可视化

      # 年龄为:x, 工资为:y
      x = np.arange(start=X_test[:, 0].min() - 1, stop=X_test[:, 0].max() + 1, step=0.1)
      y = np.arange(start=X_test[:, 1].min() - 1, stop=X_test[:, 1].max() + 1, step=100)
      
      # 将x,y绑定为网格形状
      x1, x2 = np.meshgrid(x, y)
      
      plt.xlim(x1.min(),x1.max())
      plt.ylim(x2.min(),x2.max())
      
      for i,j in enumerate(np.unique(y_test)):
          plt.scatter(X_test[y_test==j, 0],
                      X_test[y_test==j, 1],
                      color = ListedColormap(['red', 'green'])(i),   # i 为不同类别
                      label=j)
      
      plt.title('LOGISTIC(Test set)')
      plt.xlabel('Age')
      plt.ylabel('Estimated Salary')
      plt.legend()
      plt.show()
      

      6、对数据分析结果进行分析

      • 收入的高低与年龄有关,年纪较小的,收入普遍较低,年龄大的收入可以分为三类:高收入、中等收入和低收入人群。
      • 消费等级与年龄,年龄越大的人,消费等级为 1,年龄较小的人,消费等级为0。
      • 消费等级与收入,收入高人群中和,消费等级为1的占比居多。
      版权声明:本文内容来自第三方投稿或授权转载,原文地址:https://yxzbk.blog.csdn.net/article/details/141360393,作者:羊小猪~~,版权归原作者所有。本网站转在其作品的目的在于传递更多信息,不拥有版权,亦不承担相应法律责任。如因作品内容、版权等问题需要同本网站联系,请发邮件至ctyunbbs@chinatelecom.cn沟通。

      上一篇:详细讲解Python中的aioschedule定时任务操作

      下一篇:详细分析python中的 async 和 await(附Demo)

      相关文章

      2025-05-13 09:49:27

      shell基础_shell实践

      shell基础_shell实践

      2025-05-13 09:49:27
      shell , 分类 , 实践 , 方式
      2025-05-13 09:49:27

      编程语言逻辑

      编程语言逻辑

      2025-05-13 09:49:27
      分类 , 学习 , 编程 , 编程语言 , 语言 , 逻辑
      2025-05-06 09:20:29

      深入探索机器学习中的目标分类算法

      在当今数据驱动的世界中,机器学习(Machine Learning, ML)正逐渐成为解决问题的重要工具。在众多机器学习任务中,目标分类(Classification)算法尤其受到关注。

      2025-05-06 09:20:29
      分类 , 回归 , 目标 , 算法
      2025-05-06 09:19:30

      【30天玩转python】数据分析与可视化

      数据分析是通过数据提取、整理和分析来发现有用信息的过程,而数据可视化则通过图形和图表的方式,将数据转化为视觉化信息,以便快速理解数据趋势和模式。

      2025-05-06 09:19:30
      可视化 , 数据 , 数据分析 , 数组
      2025-05-06 09:18:38

      【数据可视化技术】使用Matplotlib、Seaborn进行数据可视化

      在现代数据分析中,数据可视化是一项至关重要的技能。通过图形和图表直观地展示数据,能够帮助我们更好地理解数据的结构和趋势。

      2025-05-06 09:18:38
      Matplotlib , 可视化 , 图形 , 数据
      2025-04-09 09:15:47

      Java实战之管家婆记账系统(3)——数据库表

      Java实战之管家婆记账系统(3)——数据库表

      2025-04-09 09:15:47
      null , 主键 , 分类 , 用户 , 记录
      2025-04-09 09:11:38

      优化线性回归模型的代价函数

      线性回归是机器学习领域中最基础的模型之一,它通过找到最佳拟合直线来预测连续型输出变量。在线性回归中,代价函数(Cost Function)起着至关重要的作用,它衡量了模型的性能,并通过优化来调整模型的参数。

      2025-04-09 09:11:38
      代价 , 函数 , 回归 , 模型 , 线性
      2025-03-31 08:50:08

      sklearn 回归模型评价指标及代码示例

      sklearn 回归模型评价指标及代码示例

      2025-03-31 08:50:08
      python , sklearn , 回归
      2025-03-26 08:57:33

      知识图谱学习与实践(2)——知识图谱数据模型的构建

      数据模型就是数据组织方式,是构建知识图谱首要解决的问题,无论是开放域的知识图谱还是行业的知识图谱,都需要收集大量的数据,这些数据的收集是有选择性的,这个选择的依据就是数据模型。数据模型,也可以称为知识表达模型,解决知识图谱如何组织数据的问题,是数据的底层架构,是一个知识体系框架,能够涵盖住知识图谱所有的数据,决定了数据收集的范围。

      2025-03-26 08:57:33
      分类 , 图谱 , 属性 , 数据模型 , 知识
      2025-03-24 08:52:40

      机器学习算法的分类

      机器学习算法的分类

      2025-03-24 08:52:40
      回归 , 学习 , 模型 , 算法
      查看更多
      推荐标签

      作者介绍

      天翼云小翼
      天翼云用户

      文章

      33561

      阅读量

      5228715

      查看更多

      最新文章

      编程语言逻辑

      2025-05-13 09:49:27

      Java实战之管家婆记账系统(3)——数据库表

      2025-04-09 09:15:47

      sklearn 回归模型评价指标及代码示例

      2025-03-31 08:50:08

      【Java】代码块

      2025-03-10 09:52:33

      C语言刷题 | 成绩等级判别(18)

      2025-03-06 09:16:45

      机器学习Python使用scikit-learn工具包详细介绍

      2025-03-05 09:23:32

      查看更多

      热门文章

      通过SAS网络分析对人口迁移进行可视化分析

      2023-02-08 10:33:55

      Matlab广义线性模型glm泊松回归的lasso、弹性网络正则化分类预测考试成绩数据和交叉验证可视化

      2023-02-15 09:58:40

      r语言中对LASSO回归,Ridge岭回归和Elastic Net模型实现

      2023-02-07 10:34:04

      R语言连续型变量回归分析预测

      2024-08-02 09:08:33

      数据流监控可视化1树状结构

      2024-08-01 09:02:29

      Python统计学13——回归的多重共线性、异方差、自相关的检验

      2024-10-18 09:52:58

      查看更多

      热门标签

      java Java python 编程开发 代码 开发语言 算法 线程 Python html 数组 C++ 元素 javascript c++
      查看更多

      相关产品

      弹性云主机

      随时自助获取、弹性伸缩的云服务器资源

      天翼云电脑(公众版)

      便捷、安全、高效的云电脑服务

      对象存储

      高品质、低成本的云上存储服务

      云硬盘

      为云上计算资源提供持久性块存储

      查看更多

      随机文章

      [数据分析与可视化] Python绘制数据地图2-GeoPandas地图可视化

      通过SAS网络分析对人口迁移进行可视化分析

      R语言连续型变量回归分析预测

      Python统计学13——回归的多重共线性、异方差、自相关的检验

      机器学习Python使用scikit-learn工具包详细介绍

      【Java】代码块

      • 7*24小时售后
      • 无忧退款
      • 免费备案
      • 专家服务
      售前咨询热线
      400-810-9889转1
      关注天翼云
      • 旗舰店
      • 天翼云APP
      • 天翼云微信公众号
      服务与支持
      • 备案中心
      • 售前咨询
      • 智能客服
      • 自助服务
      • 工单管理
      • 客户公告
      • 涉诈举报
      账户管理
      • 管理中心
      • 订单管理
      • 余额管理
      • 发票管理
      • 充值汇款
      • 续费管理
      快速入口
      • 天翼云旗舰店
      • 文档中心
      • 最新活动
      • 免费试用
      • 信任中心
      • 天翼云学堂
      云网生态
      • 甄选商城
      • 渠道合作
      • 云市场合作
      了解天翼云
      • 关于天翼云
      • 天翼云APP
      • 服务案例
      • 新闻资讯
      • 联系我们
      热门产品
      • 云电脑
      • 弹性云主机
      • 云电脑政企版
      • 天翼云手机
      • 云数据库
      • 对象存储
      • 云硬盘
      • Web应用防火墙
      • 服务器安全卫士
      • CDN加速
      热门推荐
      • 云服务备份
      • 边缘安全加速平台
      • 全站加速
      • 安全加速
      • 云服务器
      • 云主机
      • 智能边缘云
      • 应用编排服务
      • 微服务引擎
      • 共享流量包
      更多推荐
      • web应用防火墙
      • 密钥管理
      • 等保咨询
      • 安全专区
      • 应用运维管理
      • 云日志服务
      • 文档数据库服务
      • 云搜索服务
      • 数据湖探索
      • 数据仓库服务
      友情链接
      • 中国电信集团
      • 189邮箱
      • 天翼企业云盘
      • 天翼云盘
      ©2025 天翼云科技有限公司版权所有 增值电信业务经营许可证A2.B1.B2-20090001
      公司地址:北京市东城区青龙胡同甲1号、3号2幢2层205-32室
      • 用户协议
      • 隐私政策
      • 个人信息保护
      • 法律声明
      备案 京公网安备11010802043424号 京ICP备 2021034386号