湖南站长论坛

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 254|回复: 2

站长座论坛:你的网站是否遭遇了抓取异常?

[复制链接]
发表于 2015-7-8 16:24:24 | 显示全部楼层 |阅读模式

帖子内包含图片,需登陆后查看高清大图

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
1.服务器链接异常,服务器出现异常,会导致蜘蛛链接你的网站时出现问题,严重时,蜘蛛甚至一直无法抓取到你的网页,造成服务器异常的原因通常是网站服务器超负荷运转,还有可能是服务器主机由于某些原因阻止了百度的访问,所以出现这种情况最好测试一下网站和主机的防火墙设置,并且检查一下网站的web服务器是否正确运行。
2.网络运营商异常,网络运营商只有电信和联通两种,如果是百度只能通过联通访问你的网站,但你使用的却是电信网络,那就悲剧了,解决这种问题可以考虑购买双线服务空间或者购买cdn服务。
3.DNS异常,算是比较常见的问题了,蜘蛛无法解析你网站的IP时,DNS就会出现问题,之所以出现这种情况,可能是你的IP地址出了问题,也可能是域名服务商把百度给禁止了。这个时候,你需要使用WHOIS或者host查询网站IP地址是不是正确,是不是能够被解析,如果不是,那就联系域名注册商吧,更新一下IP地址。
4.IP封禁问题,IP封禁是指限制网络的出口IP地址,禁止这一IP段的访问者访问。所以,如果你的网站设置中有禁止百度蜘蛛IP的部分,百度自然无法访问你的网站,所以出现这种情况时,检查一下相关设置中是否误禁了百度蜘蛛IP。当然,也有可能是网站所在的空间服务商把百度IP做了禁止,这种情况你就需要联系服务商了。
5.UA封禁,UA就是用户代理,服务器正是通过UA识别访问者身份的。当网站针对特定UA访问,返回异常页面(像403,500)或跳转到其他页面的情况时,就是UA封禁。遇到这种情况需要检查useragent相关设置中是否设置了百度蜘蛛的UA,如果有,去掉就没事了。
6.死链,指的是那种无效页面或者没法对用户**任何有价值信息的页面,主要包括协议死链和内容死链两种形式。
协议死链:页面的TCP协议状态/HTTP协议状态明确表示的死链,常见的如404、403、503状态等。
内容死链:服务器返回状态是正常的,但内容已经变更为不存在、已删除或需要权限等与原内容无关的信息页面。
对于死链,我们可以使用协议死链,并通过百度站长平台--死链工具向百度提交,以便百度更快地发现死链,减少死链对用户以及搜索引擎造成的负面影响。
7.异常跳转:将网络请求重新指向其他位置即为跳转。异常跳转指的是以下几种情况:
1)当前页面为无效页面(内容已删除、死链等),直接跳转到前一目录或者首页,百度建议站长将该无效页面的入口超链接删除掉
2)跳转到出错或者无效页面
注意:对于长时间跳转到其他域名的情况,如网站更换域名,百度建议使用301跳转协议进行设置。
8.其他异常:
1)针对百度refer的异常:网页针对来自百度的refer返回不同于正常内容的行为。
2)针对百度ua的异常:网页对百度UA返回不同于页面原内容的行为。
3)JS跳转异常:网页加载了百度无法识别的JS跳转代码,使得用户通过搜索结果进入页面后发生了跳转的情况。
4)压力过大引起的偶然封禁:百度会根据站点的规模、访问量等信息,自动设定一个合理的抓取压力。但是在异常情况下,如压力控制失常时,服务器会根据自身负荷进行保护性的偶然封禁。这种情况下,请在返回码中返回503(其含义是“Service Unavailable”),这样百度蜘蛛会过段时间再来尝试抓取这个链接,如果网站已空闲,则会被成功抓取。
建筑模板www.bofu.biz



发表于 2015-7-8 16:30:43 | 显示全部楼层
广告位,,坐下看看
发表于 2015-7-9 15:41:02 | 显示全部楼层
前排支持下,今天不吃饭也要看您的帖子。。哈。。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|小黑屋|手机版|Archiver|湖南站长论坛

GMT+8, 2024-5-2 08:39 , Processed in 0.203048 second(s), 8 queries , Gzip On, MemCached On.

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表