当使用同一个IP去爬取同一个网站嘚网页时次数多了或者时间久了,该网站服务器就会对这个IP进行屏蔽而这也是我们爬虫程序必须要解决的一个问题。如何去解决这个問题呢
如果有HTTP基础,就知道有一种叫做python实现代理服务器器的东西而我们也可以使用这个python实现代理服务器器解决上述问题。
基本思路:茬爬取网页的时候在对方服务器上显示的是别人的IP地址,那么即使对方将显示出来的这个IP地址进行屏蔽,那么我们可以再次换另一个IP哋址进行网站爬取
基本原理:使用python实现代理服务器器时,在对方服务器上显示的不是我们真实的IP地址而是python实现代理服务器器的IP地址
一般情况下,我们不仅需要知道IP地址还需要知道网络端口号,即:IP地址:端口号的形式