防止爬虫（防止爬虫策略）

2023-07-11 166阅读

如何防止网站被爬虫爬取的几种办法

1、屏蔽主流搜索引擎爬虫（蜘蛛）抓取/索引/收录网页的几种思路。是整站屏蔽，而且是尽可能的屏蔽掉所有主流搜索引擎的爬虫。通过robots.txt文件屏蔽，可以说robots.txt文件是最重要的一种渠道（能和搜索引擎建立直接对话）。

2、限制User-Agent字段User-Agent字段能识别用户所使用的操作系统、版本、CPU、浏览器等信息，如果请求来自非浏览器，就能识别其为爬虫，阻止爬虫抓取网站信息。

3、避开反爬的方法：模拟正常用户。反爬虫机制还会利用检测用户的行为来判断，例如Cookies来判断是不是有效的用户。动态页面限制。有时候发现抓取的信息内容空白，这是因为这个网站的信息是通过用户的XHR动态返回内容信息。

4、手工提交：一次性提交链接给百度，可以使用此种方式。方法五：利用JS加密网页内容这个方法是在个别网站上看到的，非常暴力。

1、使用nginx的自带功能通过对httpuseragent阻塞来实现，包括GET/POST方式的请求，以nginx为例。

2、避开反爬的方法：模拟正常用户。反爬虫机制还会利用检测用户的行为来判断，例如Cookies来判断是不是有效的用户。动态页面限制。有时候发现抓取的信息内容空白，这是因为这个网站的信息是通过用户的XHR动态返回内容信息。

3、主动推送：最为快速的提交方式，推荐您将站点当天新产出链接立即通过此方式推送给百度，以保证新链接可以及时被百度收录。sitemap：您可以定期将网站链接放到sitemap中，然后将sitemap提交给百度。

4、所以比较通用的做法是统计单个IP在一定时间范围内的请求数量，超过了一定的量就认为是爬虫，把它阻断掉。也许你自己有压测程序，把他们加入白名单就可以了。

5、这样User-Agent会一直在变化，防止被墙。综上所述，爬虫怎么突破反爬虫的方法比较多，上文从更换IP、控制下载频率、分布式爬取、修改User-Agent这四个方面介绍了突破反爬虫机制的方法，从而实现数据的爬取。

6、useragent模仿谷歌浏览器，获取十几个代理ip，爬的过程中不断轮换ip。通过注册等各种方法，获取一个真实账号，模拟登陆，每次请求携带登录产生的cookie。设置定时器，直接爬取所有能爬取的数据。

1、针对善意爬虫，几乎所有的搜索引擎爬虫，都会遵守robots协议，只要我们在网站的根目录下存放一个ASCII编码的文本文件，告诉搜索引擎哪些页面不能爬取，搜索引擎的蜘蛛便会遵照协议，不爬取指定页面的内容。

2、基于程序本身去防止爬取：作为爬虫程序，爬取行为是对页面的源文件爬取，如爬取静态页面的html代码，可以用jquery去模仿写html，这种方法伪装的页面就很难被爬取了，不过这种方法对程序员的要求很高。

3、屏蔽主流搜索引擎爬虫（蜘蛛）抓取/索引/收录网页的几种思路。是整站屏蔽，而且是尽可能的屏蔽掉所有主流搜索引擎的爬虫。通过robots.txt文件屏蔽，可以说robots.txt文件是最重要的一种渠道（能和搜索引擎建立直接对话）。

4、限制User-Agent字段User-Agent字段能识别用户所使用的操作系统、版本、CPU、浏览器等信息，如果请求来自非浏览器，就能识别其为爬虫，阻止爬虫抓取网站信息。

免责声明：本文来自网友投稿，不代表苦迪号的观点和立场，如有侵权请联系本平台处理。