百度无法收录网站排查方法

来源:本站原创 点击数: 发布时间:2020年11月03日

问题描述:例如有些政府网站,百度始终无法收录;

问题分析:针对于我们公司开发的系统,直接分析下面几个原因:

  1. 查看robots.txt文件是否禁止爬虫抓取数据。

  2. 手动提交页面让百度收录,后面观察是否被收录;

  3. 检查服务器前端的安全设备是否有阻止,爬出无法访问到源服务器。

问题解决

1.检查robots文件是否屏蔽了百度蜘蛛:robots文件会屏蔽百度或网站部分页面,导致蜘蛛进不了门。

2.查看日志:查看百度蜘蛛爬行记录bai的方法:第一,前往空间服务器,下载网站日志。第二,打开网站日志文件,搜索:Baiduspider。百度(Baidu)爬虫名称:Baiduspider。第三,鉴别百度蜘蛛的真伪。由于很多站长工具会模拟百度蜘蛛的名称来爬抓网站,因此,需要我们鉴别百度蜘蛛的真伪。鉴别方法:开始—运行—输入 cmd ,用命令nslookup +ip只要是百度的IP段,代码中会有出现:name:baiduspider,如果没有出现,那就不说不是真的百度IP段第四,可以通过日志工具来查看网站日志。例如:光年日志。

3.检查服务器前端的安全设备(waf等)是否有阻止,爬出无法访问到源服务器。

4.要具体分析出爬虫抓取异常的原因,可以利用站长工具进行分析排查。

8f7b19d4316045bb924294c29b938c52.png

c1e9992bbb3b4c2d8dfb4bf2febe4184.png

3b33eea363a34919b738a85cdb91cd9e.png

通过抓取异常信息判断出:是网关处出现了错误,其中里面还显示waf设备齐安信;这时就让安全设备技术检查策略是否有限制,因为策略限制了百度爬出抓取内容,爬虫被挡在门外无法访问服务器,所以一般通过修改策略后爬虫就可以访问源服务器。

438b0b9133b443dfb55b4c911795dcee.png


进行普通收录:资源提交—普通收录-手动提交,填写主要的地址,首页、频道页地址,让百度快点收录

bf9c710f09224362b84a892fe26c2029.jpg

c7e4648185a94957acfb3e66bb5e325a.png

3dd9d33ebdcc4328af6c86a8b02d7d9d.png

全部抓取成功。