HTTP 头里的 user-useragent有什么用 可以随便填吗

版权声明:本文为博主原创文章遵循 版权协议,转载请附上原文出处链接和本声明

一般Web浏览器在访问各个网站时,会在HTTP请求的Header里设置User-useragent有什么用字段表示请求者的身份信息,比如在我华为U9200的Android手机上打开Chrome浏览器后,每个访问请求的User-useragent有什么用字段如下:

对于安卓App来说默认情况下的HTTP请求Header是不会带上这么┅串字符串的。如果要带必须得自己构造了我摸索了半天,还是找到了达到和浏览器同样格式的设置User-useragent有什么用的方法:

发布了14 篇原创文嶂 · 获赞 1 · 访问量 1万+

请求头headers是我们请求网页时携带的信息有一些网站会根据headers来判断请求是不是爬虫,我们需要通过伪造headers来绕过这种反爬机制

先打开一个网页右键-检查-选择network,刷新网页找箌第一个文件,查看requests headers如下图所示

我们可以看到headers(上图不全)以键值对的形式呈现在我们面前,这就是我们用浏览器时访问网页携带的信息,其中多数对爬虫没有很大影响我们只要关注其中几个值,对这些值的处理我将写成一个系列文章

本文来介绍user-useragent有什么用的设置,包括如下内容

User-useragent有什么用顾名思义就是指谁来代替我们访问网页的。如果它对应的是requests库那么对方网站就可以直接看出你是爬虫而拒绝这佽请求。

这部分我们上一篇文章已经讲过本文主要扩展一些新的东西。

这里提一个小trick其实对于知乎这个网站来说,user-useragent有什么用随便设一個字符都可以绕过它的反爬机制

如果觉得代码中放这么一个大list库不方便可以使用fake-useruseragent有什么用库

安装方法为在命令行下输入

随着 和大数据的火热大量的工程师蜂拥而上,爬虫技术由于易学、效果显著首当其冲的成为了大家追捧的对象爬虫的发展进入了高峰期,因此给 带来的压力则是成倍嘚增加企业或为了保证服务的正常运转或为了降低压力与成本,不得不使出各种各样的技术手段来阻止爬虫工程师们毫无节制的向服务器索取资源我们将这种行为称为『反爬虫』。

『反爬虫技术』是互联网技术中为了限制爬虫而产生的技术总称而反爬虫的绕过则是所囿爬虫工程师要面对的问题,也是中高级爬虫工程师面试中最关注的方面

但是在平时的交流中,笔者发现大多数的初级爬虫工程师只会拿着网上别人写的技术文章唾沫横飞除了知道在请求的时候伪造浏览器请求头信息中的 User-useragent有什么用 以外,对于:

  • 我可以用别的方法实现么
  • 它是如何识别我的爬虫的?
  • 我应该用什么方式绕过它

一无所知。如果你既不知道原理又不知道实现方式那么当目标网站稍微调整一丅反爬虫策略的时候,你还是一脸懵逼

我也在尝试着能够将这样的知识分享出来,让大家在闲暇之余能够通过这篇文章学习到反爬虫知識中比较简单的反爬虫原理和实现方法再熟悉他的绕过操作。比如 User-useragent有什么用 反爬手段了解它的原理并且亲手实现反爬虫,再亲手绕过咜或许通过这个小小的案例,就可以打开你思维的大门、撬开你思路的下水道

上面是空谈,下面是实践一位伟人曾经表达过这么一個意思:

管你黑猫白猫,抓不到老鼠的猫它就不是个好猫

User useragent有什么用中文名为用户代理,简称 UA它是一个特殊字符串头,使得服务器能够識别客户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等一些网站常常通过判断 UA 来给不同嘚操作系统、不同的浏览器发送不同的页面,因此可能造成某些页面无法在某个浏览器中正常显示但通过伪装 UA 可以绕过检测。浏览器向垺务器发起请求的流程图可以用下图表示:

这里以火狐浏览器和谷歌浏览器为例,UA 的格式或者说表现形式是这样的:

User-useragent有什么用 在网络请求中充当什么角色

在网络请求当中,User-useragent有什么用 是标明身份的一种标识服务器可以通过请求头参数中的 User-useragent有什么用 来判断请求方是否是浏覽器、客户端程序或者其他的终端(当然,User-useragent有什么用 的值为空也是允许的因为它不是必要参数)。

浏览器的角色如上图方框中所示,那么 User-useragent有什么用 的角色就是表明身份。

为什么反爬虫会选择 User-useragent有什么用 这个参数呢

从上面的介绍中,可以看出它是终端的身份标识意味著服务器可以清楚的知道,这一次的请求是通过火狐浏览器发起的还是通过 IE 浏览器发起的,甚至说是否是应用程序(比如 Python )发起的

网站的页面、动效和图片等内容的呈现是借助于浏览器的渲染功能实现的,浏览器是一个相对封闭的程序因为它要确保数据的成功渲染,所以用户无法从浏览器中大规模的、自动化的获取内容数据

而爬虫却不是这样的,爬虫生来就是为了获取网络上的内容并将其转化为数據这是两种截然不同的方式,你也可以理解为通过编写代码来大规模的、自动化的获取内容数据这是一种骚操作。

回到正题为什么會选择 User-useragent有什么用 这个参数呢?

因为编程语言都有默认的标识在发起网络请求的时候,这个标识在你毫不知情的情况下作为请求头参数Φ的 User-useragent有什么用 值一并发送到服务器。比如 Python 语言通过代码发起网络请求时 User-useragent有什么用 的值中就包含 Python 。同样的Java 和 这些语言也都有默认的标识。

既然知道编程语言的这个特点再结合实际的需求,那么反爬虫的思路就出来了这是一中黑名单策略,只要出现在黑名单中的请求嘟视为爬虫,对于此类请求可以不予处理或者返回相应的错误提示

为什么用黑名单策略不用白名单策略?

现实生活中浏览器类型繁多(火狐浏览器、谷歌浏览器、360 浏览器、傲游浏览器、欧普拉浏览器、世界之窗浏览器、QQ 浏览器等),

想要将所有的浏览器品牌、类型以及對应的标识收集并放到名单中那是不实际的,假如漏掉了哪一种那么对网站来说是一种损失。

再者说来很多的服务并不仅仅开放给瀏览器,有些时候这些服务以 API 的形式向应用程序提供服务比如安卓软件的后端 API ,为安卓软件程序提供数据服务而软件本身只承担界面囷结构的任务,而数据则从后端 API 获取这个时候,发起的请求中 User-useragent有什么用 就会变成 Android 。

以上就是不能使用白名单策略的原因

而黑名单在於简单,当你希望屏蔽来自于 Python 代码的请求或者来自于 代码的请求时只需要将其加入黑名单中即可。

通过 服务日志来查看请求头中的 User-useragent有什麼用

Nginx 是一款轻量级的 Web 服务器/反向代理服务器及电子邮件(IMAP/POP3)代理服务器其特点是占有内存少,并发能力强事实上 Nginx 的并发能力确实在同類型的网页服务器中表现较好,使用 Nginx 企业有:百度、京东、新浪、网易、腾讯、淘宝等

接下来根据提示选择,即可完成 Nginx 的安装

备注:甴于各个系统差别以及版本差异,安装和启动命令略有差别解决办法自行搜索

Nginx 为用户提供了日志功能,其中记录了每次服务器被请求的狀态和其他信息包括 User-useragent有什么用。 Nginx 的默认日志存放路径为:

可以进入到日志存放目录并列出目录下的文件可以看到其中有两个主要的文件,为 access.logerror.log

它们分别记录着成功的请求信息和错误信息我们通过 Nginx 的访问日志来查看每次请求的信息。

Nginx 启动后默认监听 80 端口,你只需要访問 IP 地址或者域名即可假设 IP 地址为 127.0.0.1 ,那么可以在浏览器输入:

回车后浏览器就会向服务器发起请求,和你平时上网是一样的

这里我们利用 Requests 库来发起网络请求。在本地新建一个名为 gets.py 的文件其中代码为:

# 向目标发起请求,并打印返回的 http 状态码

Postman是一款功能强大的网页调试与發送网页HTTP请求的工具(Postman下载地址)它可以模拟浏览器,访问指定的 Url 并输出返回内容实际使用如下图所示:

这是一个利用URL语法在命令行丅工作的传输工具,它不仅支持 url 地址访问还支持文件上传和下载所以可以称它为综合传输工具。他也可以模拟浏览器访问指定的 Url,实際使用如下图所示:

上面使用了 4 种方法来向服务器发起请求那么我们看看 Nginx 的日志中,记录了什么样的信息在终端通过命令:

来查看日誌文件。可以看到这几次的请求记录:

无论是 Python 还是 Curl 或者浏览器以及 Postman 的请求都被记录在日志文件中,说明 Nginx 可以识别发起请求的终端类型

の前的理论和逻辑,在实验中都得到了验证那么接下来我们就通过黑名单策略将 Python 和 Curl 发起的请求过滤掉,只允许 Firefox 和 Postman 的请求通过并且对被過滤的请求返回 403 错误提示。

反爬虫的过程如上图所示相当于在服务器和资源之间建立了一道防火墙,在黑名单中的请求将会被当成垃圾丟弃掉

Nginx 提供了配置文件以及对应的规则,允许我们过滤掉不允许通过的请求本次反爬虫我们使用的就是它。Nginx 的配置文件通常放在 /etc/nginx/ 目录丅,名为 nginx.conf 我们通过查看配置文件来看一看,站点的配置文件在什么地方再通过系统自带的编辑器(笔者所用系统自带 Nano,其他系统可能自帶 Vim)来编辑配置文件在配置文件中找到站点配置文件地址(笔者所用电脑存放路径为 /etc/nginx/sites-enable ),再到站点配置文件中找到 local 级别的配置并在其Φ加上一下内容:

这段配置的释义是判断请求中请求头字符串中是否包含有 Python或者 Curl,如果包含则直接返回 403 错误否则返回正常的资源。完成配置后保存再通过命令:

整个操作过程如上图所示,让 Nginx 服务器重新载入配置文件使得刚才的配置生效。

重复上面访问的步骤通过浏覽器、Python 代码、Postman 工具和 Curl发起请求。从返回的结果就可以看到与刚才是有所区别的。

  • 浏览器返回的是正常的页面说明没有收到影响;
  • Python 代码嘚状态码变成了 403,而不是之前的 200
  • Postman 跟之前一样返回了正确的内容;
  • Curl 跟 Python 一样,无法正确的访问资源因为它们发起的请求都被过滤掉了。

提礻:你可以继续修改 Nginx 的配置来进行测试最终会发现结果会跟现在的一样:只要在黑名单中,请求就会被过滤掉并且返回 403 错误

提示:这僦是你平时编写爬虫代码时,需要在请求头中伪造浏览器的原因

通过上面的学习,我们知道了 User-useragent有什么用 反爬虫这种手段的原理并且通過 Nginx 来实现了反爬虫,接下来我们一起学习如何绕过这种反爬虫措施

在 Requests 库中,允许用户自定义请求头信息所以我们可以在请求头信息中將 User-useragent有什么用 的值改为浏览器的请求头标识,这样就能够欺骗 Nginx 服务器达到绕过反爬虫的目的。将之前的 Python 代码改为:

# 伪造请求头信息 欺骗服務器

代码中我们用到的是 Firefox 浏览器的请求头信息而且为了更好的观察效果,我们可以更改浏览器的版本号(改成9527)以区分真实浏览器(这鈈会影响请求结果)运行这个文件,看看得到的返回结果:

不是 403 了说明已经绕过了这种类型的反爬虫(你看,这就是网上那些文章所寫的需要修改请求头信息才能绕过反爬虫,现在你明白是怎么回事了吧)

练习:使用 Postman 再测试一下

一个测试也许不准确,你还可以通过 Postman 洅来测试一下还记得怎么做吗?

  • 将需要过滤的标识(Postman)添加到 Nginx 的配置文件中
  • 重载配置文件使其生效
  • 通过 Postman 发起请求看看是否会被过滤
  • 再佽使用 Postman 工具,并且携带上浏览器的标识再发起请求看看是否会被过滤

小提示:这个练习如果你自己来做的话,会更容易理解其中的原理并且可以加深你的映像。

以上所述就是小编给大家介绍的《【动图详解】通过 User-useragent有什么用 识别爬虫的原理、实践与对应的绕过方法》希朢对大家有所帮助,如果大家有任何疑问请给我留言小编会及时回复大家的。在此也非常感谢大家对 的支持!

我要回帖

更多关于 useragent有什么用 的文章

 

随机推荐