百度蜘蛛不存在目录对应的解决方法
浏览:252 时间:2022-5-13

相信大家在分析百度蜘蛛日志的时候经常会发现一个问题,那就是百度蜘蛛经常会抓取一些不存在的目录。例如,我的网站没有这些目录,但是百度蜘蛛一直在爬行,或者你会发现百度蜘蛛在爬行他们自己的私有目录或php文件。这是为什么?今天就给大家详细分析一下,并说明相应的解决方法。这篇文章干货很多,建议仔细阅读。

1、如果蜘蛛只爬首页,不爬内页,是什么情况!很简单,域名有问题。一般来说,如果出现这种情况,域名目前可能处于审查期,也就是说你从事过非法行业,或者你的程序有作弊嫌疑,但域名占比很大。如果程序有问题,百度蜘蛛一开始会抓取一些。

2.如果百度蜘蛛抓取一些私人文件,如php,zip和rar,会发生什么?在这种情况下,你要判断当前的ip是否是假的蜘蛛文件,因为现在很多Ips都会自动改变自己的UA,就像百度蜘蛛一样,你无法从蜘蛛日志中分辨出来,你可以通过ip138识别出这个Ip,看看是不是蜘蛛Ip,如果不是,果断屏蔽掉,如果太多,按照Ip段屏蔽掉。

3.如果百度的蜘蛛爬上一些私有目录,如果是真的蜘蛛该怎么办?如果你确认这是一只真正的百度蜘蛛,百度可能正在抓取你页面的内部程序,检查你使用的程序版本,等等。这些百度将有独特的战略。一般来说,百度会优先考虑自己写的节目。为了防止蜘蛛抓取我们的私有目录,我们通常使用robots.txt来屏蔽它。记住:有效时间约为24小时。

4.如果蜘蛛抓取一些不存在的目录和一些不存在的文件怎么办?

首先还是要判断它是不是真的蜘蛛。如果它是一个真正的蜘蛛,百度抓取一些不存在的目录,因为你在这个域名之前已经做了一些网站,现在你又开始做了。百度将根据以前的分数和网址爬行,看看以前的网站是否再次恢复。一般来说,这种爬行会在30天内自动消失。如果30天之后还存在,就要屏蔽这种链接。总之,这种爬行对你的网站没有太大的伤害,只是检查而已。

此外,如果你把其他网站301放在你当前的域名上,蜘蛛会根据其他网站的网址抓取你的网站。这个时候,你也会发现百度在爬一些不存在的目录,但是不要害怕,这不会伤害你的网站。

5.蜘蛛抓取的时候状态码301、304、200、403、404、444呢?

首先我们要明白301状态码是重定向。如果你的顶级域名,比如daidaiseo.com-,抓取daidaiseo.com上面的资源,301重定向代码就会出现。如果上面的资源被抓取,将是200状态码,这意味着抓取成功。

抢304状态码是为什么?如果在日志中看到304状态码,说明你的资源一直没有变化,属于静态页面资源。304状态码对网站影响不大。一般来说,如果你做一个百度CDN,有缓存,304状态码很容易出现,但只要你每天提交资源给百度,并保持不时更新,就没问题了。

403是权限问题,禁止访问。你的服务器已经设置了,而444是一个空页面。这一页丢失了。这三个状态代码表明网站有问题。记住:不要让网站有大量的404,你可以把状态码改成403只是为了限制访问。如果都是404,就意味着网站大量页面不可用,百度评分会降低。好的。