爆款云主机2核4G限时秒杀,88元/年起!
查看详情

活动

天翼云最新优惠活动,涵盖免费试用,产品折扣等,助您降本增效!
热门活动
  • 618智算钜惠季 爆款云主机2核4G限时秒杀,88元/年起!
  • 免费体验DeepSeek,上天翼云息壤 NEW 新老用户均可免费体验2500万Tokens,限时两周
  • 云上钜惠 HOT 爆款云主机全场特惠,更有万元锦鲤券等你来领!
  • 算力套餐 HOT 让算力触手可及
  • 天翼云脑AOne NEW 连接、保护、办公,All-in-One!
  • 中小企业应用上云专场 产品组合下单即享折上9折起,助力企业快速上云
  • 息壤高校钜惠活动 NEW 天翼云息壤杯高校AI大赛,数款产品享受线上订购超值特惠
  • 天翼云电脑专场 HOT 移动办公新选择,爆款4核8G畅享1年3.5折起,快来抢购!
  • 天翼云奖励推广计划 加入成为云推官,推荐新用户注册下单得现金奖励
免费活动
  • 免费试用中心 HOT 多款云产品免费试用,快来开启云上之旅
  • 天翼云用户体验官 NEW 您的洞察,重塑科技边界

智算服务

打造统一的产品能力,实现算网调度、训练推理、技术架构、资源管理一体化智算服务
智算云(DeepSeek专区)
科研助手
  • 算力商城
  • 应用商城
  • 开发机
  • 并行计算
算力互联调度平台
  • 应用市场
  • 算力市场
  • 算力调度推荐
一站式智算服务平台
  • 模型广场
  • 体验中心
  • 服务接入
智算一体机
  • 智算一体机
大模型
  • DeepSeek-R1-昇腾版(671B)
  • DeepSeek-R1-英伟达版(671B)
  • DeepSeek-V3-昇腾版(671B)
  • DeepSeek-R1-Distill-Llama-70B
  • DeepSeek-R1-Distill-Qwen-32B
  • Qwen2-72B-Instruct
  • StableDiffusion-V2.1
  • TeleChat-12B

应用商城

天翼云精选行业优秀合作伙伴及千余款商品,提供一站式云上应用服务
进入甄选商城进入云市场创新解决方案
办公协同
  • WPS云文档
  • 安全邮箱
  • EMM手机管家
  • 智能商业平台
财务管理
  • 工资条
  • 税务风控云
企业应用
  • 翼信息化运维服务
  • 翼视频云归档解决方案
工业能源
  • 智慧工厂_生产流程管理解决方案
  • 智慧工地
建站工具
  • SSL证书
  • 新域名服务
网络工具
  • 翼云加速
灾备迁移
  • 云管家2.0
  • 翼备份
资源管理
  • 全栈混合云敏捷版(软件)
  • 全栈混合云敏捷版(一体机)
行业应用
  • 翼电子教室
  • 翼智慧显示一体化解决方案

合作伙伴

天翼云携手合作伙伴,共创云上生态,合作共赢
天翼云生态合作中心
  • 天翼云生态合作中心
天翼云渠道合作伙伴
  • 天翼云代理渠道合作伙伴
天翼云服务合作伙伴
  • 天翼云集成商交付能力认证
天翼云应用合作伙伴
  • 天翼云云市场合作伙伴
  • 天翼云甄选商城合作伙伴
天翼云技术合作伙伴
  • 天翼云OpenAPI中心
  • 天翼云EasyCoding平台
天翼云培训认证
  • 天翼云学堂
  • 天翼云市场商学院
天翼云合作计划
  • 云汇计划
天翼云东升计划
  • 适配中心
  • 东升计划
  • 适配互认证

开发者

开发者相关功能入口汇聚
技术社区
  • 专栏文章
  • 互动问答
  • 技术视频
资源与工具
  • OpenAPI中心
开放能力
  • EasyCoding敏捷开发平台
培训与认证
  • 天翼云学堂
  • 天翼云认证
魔乐社区
  • 魔乐社区

支持与服务

为您提供全方位支持与服务,全流程技术保障,助您轻松上云,安全无忧
文档与工具
  • 文档中心
  • 新手上云
  • 自助服务
  • OpenAPI中心
定价
  • 价格计算器
  • 定价策略
基础服务
  • 售前咨询
  • 在线支持
  • 在线支持
  • 工单服务
  • 建议与反馈
  • 用户体验官
  • 服务保障
  • 客户公告
  • 会员中心
增值服务
  • 红心服务
  • 首保服务
  • 客户支持计划
  • 专家技术服务
  • 备案管家

了解天翼云

天翼云秉承央企使命,致力于成为数字经济主力军,投身科技强国伟大事业,为用户提供安全、普惠云服务
品牌介绍
  • 关于天翼云
  • 智算云
  • 天翼云4.0
  • 新闻资讯
  • 天翼云APP
基础设施
  • 全球基础设施
  • 信任中心
最佳实践
  • 精选案例
  • 超级探访
  • 云杂志
  • 分析师和白皮书
  • 天翼云·创新直播间
市场活动
  • 2025智能云生态大会
  • 2024智算云生态大会
  • 2023云生态大会
  • 2022云生态大会
  • 天翼云中国行
天翼云
  • 活动
  • 智算服务
  • 产品
  • 解决方案
  • 应用商城
  • 合作伙伴
  • 开发者
  • 支持与服务
  • 了解天翼云
      • 文档
      • 控制中心
      • 备案
      • 管理中心

      拉勾网的反爬介绍和解决方法

      首页 知识中心 其他 文章详情页

      拉勾网的反爬介绍和解决方法

      2024-05-29 07:56:46 阅读次数:44

      拉勾网的反爬介绍和解决方法

      1. 前言

      最近拉勾的反爬改动比较频繁,公司采集拉勾网的爬虫又无法正式运行,花了近一周的时间来处理拉勾网的反爬问题,特别写一篇博客来记录一下拉勾的反爬

      2. 简述

      爬拉勾的时候,主要是采集职位相关的信息,涉及到页面有3个

      3. 反爬介绍

      3.1、对于职位的详情页和公司的详情页的反爬:

      职位的详情页和公司的详情页的信息都能在页面源代码中获取到,请求这两个页面也没有使用太多反爬,只需要在请求的时候加入headers参数即可,不过前提是你知道页面的URL,即你需要在职位列表页中获取到职位id和公司id,才能拼接URL,得到相关的职位详情页和公司详情页

      3.2、对于职位列表页的反爬:

      要获取职位列表的信息,相对于比职位和公司的详情页,难度的要大一点


      列表页使用了ajax加载,直接去请求原网页是获取不到想要的信息,看一下源代码

      拉勾网的反爬介绍和解决方法(更新时间:2019/2/20)

      源代码没有我们需要的数据,但是网页上有显示数据,那么数据肯定是以别的方式传过来的,我们找一下数据,看哪个请求中有返回有我们需要的数据,看下找到的请求,按一下F12进入开发者模式,再点击Network–>XHR–>点击第一个请求–>response

      拉勾网的反爬介绍和解决方法(更新时间:2019/2/20)

      这里返回的是一个json的可是,里面有我们需要的信息(按ctrl+F搜索关键字验证信息是否在返回的数据中)

      既然找到我们需要的数据,那么如何让爬虫来获取到呢,点击Headers,我们看一下请求头,发现是个post请求,直接去构造请求来访问这个接口,发现返回的是

      {"status":false,"msg":"您操作太频繁,请稍后再访问","clientIp":"183.160.238.206","state":2402}

      并不是你访问频繁,是因为网站对cookies设置了反爬,cookies每次访问都会发生变化,想要获取这个接口的数据,需要请求2次,第一次请求的页面是源代码那个页面(即:https:///jobs/list_java?labelWords=&fromSearch=true&suginput=?labelWords=hot),直接get请求这个页面,虽然不能直接获取到需要的数据,但是能获取到cookies,服务器返回的时候会返回一个cookies参数,来更新cookies,我们在把更新后的cookies,放到post请求的参数中,就可以获取到接口的数据了

      拉勾网的反爬介绍和解决方法(更新时间:2019/2/20)

      我们看一下成功请求的代码:

      import requests
      '''
      说明:本代码只是测试,你能够使用它获得一次请求的数据,需要连续请求还请修改代码
      
      '''
      headers = {
          'Connection': 'keep-alive',
          'Cache-Control': 'max-age=0',
          'Upgrade-Insecure-Requests': '1',
          'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.80 Safari/537.36',
          'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
          'Accept-Encoding': 'gzip, deflate, br',
          'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8',
      }
      response = requests.get(
          'https:///jobs/list_?city=%E4%B8%8A%E6%B5%B7&cl=false&fromSearch=true&labelWords=&suginput=',
          headers=headers)  # 请求原网页
      r = requests.utils.dict_from_cookiejar(response.cookies)  # 获取cookies
      r["user_trace_token"] = r["LGRID"]
      r["LGSID"] = r["LGRID"]
      r["LGUID"] = r["LGRID"]  # 构造cookies的参数
      cookies = {
          'X_MIDDLE_TOKEN': '797bc148d133274a162ba797a6875817',
          'JSESSIONID': 'ABAAABAAAIAACBI03F33A375F98E05C5108D4D742A34114',
          '_ga': 'GA1.2.1912257997.1548059451',
          '_gat': '1',
          'Hm_lvt_4233e74dff0ae5bd0a3d81c6ccf756e6': '1548059451',
          'user_trace_token': '20190121163050-dbd72da2-1d56-11e9-8927-525400f775ce',
          'LGSID': '20190121163050-dbd72f67-1d56-11e9-8927-525400f775ce',
          'PRE_UTM': '',
          'PRE_HOST': '',
          'PRE_SITE': '',
          'PRE_LAND': 'https%3A%2F%2F%2F%3F_from_mid%3D1',
          'LGUID': '20190121163050-dbd73128-1d56-11e9-8927-525400f775ce',
          '_gid': 'GA1.2.1194828713.1548059451',
          'index_location_city': '%E5%85%A8%E5%9B%BD',
          'TG-TRACK-CODE': 'index_hotjob',
          'LGRID': '20190121163142-fb0cc9c0-1d56-11e9-8928-525400f775ce',
          'Hm_lpvt_4233e74dff0ae5bd0a3d81c6ccf756e6': '1548059503',
          'SEARCH_ID': '86ed37f5d8da417dafb53aa25cd6fbc0',
      }
      cookies.update(r)  # 更新接口的cookies
      headers = {
          'Origin': 'https://',
          'X-Anit-Forge-Code': '0',
          'Accept-Encoding': 'gzip, deflate, br',
          'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8',
          'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.80 Safari/537.36',
          'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8',
          'Accept': 'application/json, text/javascript, */*; q=0.01',
          'Referer': 'https:///jobs/list_java?px=new&city=%E4%B8%8A%E6%B5%B7',
          'X-Requested-With': 'XMLHttpRequest',
          'Connection': 'keep-alive',
          'X-Anit-Forge-Token': 'None',
      }
      
      params = (
          ('px', 'new'),
          ('city', '\u4E0A\u6D77'),
          ('needAddtionalResult', 'false'),
      )
      
      data = {'first': True,
              'kd': 'java',
              'pn': 1}
      response = requests.post('https:///jobs/positionAjax.json', headers=headers, params=params,
                               cookies=cookies, data=data)  # 请求接口
      print(response.json())

      3.3、注意:

      1. 这样可以单次请求接口获取到数据,每次请求接口之前都要请求原网页,以获取cookies
      2. 每次请求列表页数据接口的时间间隔保持在1秒以上,不然可能会被封ip
      版权声明:本文内容来自第三方投稿或授权转载,原文地址:https://blog.51cto.com/u_16730152/10577788,作者:AiuTools,版权归原作者所有。本网站转在其作品的目的在于传递更多信息,不拥有版权,亦不承担相应法律责任。如因作品内容、版权等问题需要同本网站联系,请发邮件至ctyunbbs@chinatelecom.cn沟通。

      上一篇:centos7 下docker 安装

      下一篇:四剑客第三关

      相关文章

      2025-02-21 08:57:46

      python爬虫 - GET和POST分别对爬取的网页状态的影响以及常见网页状态码(200、401、402、404等等)

      python爬虫 - GET和POST分别对爬取的网页状态的影响以及常见网页状态码(200、401、402、404等等)

      2025-02-21 08:57:46
      GET , 服务器 , 网页 , 请求
      2024-06-18 07:20:39

      82分布式电商项目 - 购物车需求分析

      用户在商品详细页点击加入购物车,提交商品 SKU 编号和购买数量,添加到购物车。

      2024-06-18 07:20:39
      存储
      2024-04-24 08:30:53

      用js读写cookie的简单办法

      在数据安全要求不是很高的情况下,我们可以直接用js对cookie进行读写,这样比较方便。

      2024-04-24 08:30:53
      function
      查看更多
      推荐标签

      作者介绍

      天翼云小翼
      天翼云用户

      文章

      33561

      阅读量

      5249426

      查看更多

      最新文章

      用js读写cookie的简单办法

      2024-04-24 08:30:53

      查看更多

      热门文章

      用js读写cookie的简单办法

      2024-04-24 08:30:53

      查看更多

      热门标签

      linux java python javascript 数组 前端 docker Linux vue 函数 shell git 节点 容器 示例
      查看更多

      相关产品

      弹性云主机

      随时自助获取、弹性伸缩的云服务器资源

      天翼云电脑(公众版)

      便捷、安全、高效的云电脑服务

      对象存储

      高品质、低成本的云上存储服务

      云硬盘

      为云上计算资源提供持久性块存储

      查看更多

      随机文章

      用js读写cookie的简单办法

      • 7*24小时售后
      • 无忧退款
      • 免费备案
      • 专家服务
      售前咨询热线
      400-810-9889转1
      关注天翼云
      • 旗舰店
      • 天翼云APP
      • 天翼云微信公众号
      服务与支持
      • 备案中心
      • 售前咨询
      • 智能客服
      • 自助服务
      • 工单管理
      • 客户公告
      • 涉诈举报
      账户管理
      • 管理中心
      • 订单管理
      • 余额管理
      • 发票管理
      • 充值汇款
      • 续费管理
      快速入口
      • 天翼云旗舰店
      • 文档中心
      • 最新活动
      • 免费试用
      • 信任中心
      • 天翼云学堂
      云网生态
      • 甄选商城
      • 渠道合作
      • 云市场合作
      了解天翼云
      • 关于天翼云
      • 天翼云APP
      • 服务案例
      • 新闻资讯
      • 联系我们
      热门产品
      • 云电脑
      • 弹性云主机
      • 云电脑政企版
      • 天翼云手机
      • 云数据库
      • 对象存储
      • 云硬盘
      • Web应用防火墙
      • 服务器安全卫士
      • CDN加速
      热门推荐
      • 云服务备份
      • 边缘安全加速平台
      • 全站加速
      • 安全加速
      • 云服务器
      • 云主机
      • 智能边缘云
      • 应用编排服务
      • 微服务引擎
      • 共享流量包
      更多推荐
      • web应用防火墙
      • 密钥管理
      • 等保咨询
      • 安全专区
      • 应用运维管理
      • 云日志服务
      • 文档数据库服务
      • 云搜索服务
      • 数据湖探索
      • 数据仓库服务
      友情链接
      • 中国电信集团
      • 189邮箱
      • 天翼企业云盘
      • 天翼云盘
      ©2025 天翼云科技有限公司版权所有 增值电信业务经营许可证A2.B1.B2-20090001
      公司地址:北京市东城区青龙胡同甲1号、3号2幢2层205-32室
      • 用户协议
      • 隐私政策
      • 个人信息保护
      • 法律声明
      备案 京公网安备11010802043424号 京ICP备 2021034386号