湖南站长论坛

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 476|回复: 1

如何查看蜘蛛访问情况

[复制链接]
发表于 2013-4-28 13:15:03 | 显示全部楼层 |阅读模式

帖子内包含图片,需登陆后查看高清大图

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
蜘蛛爬取路径
在网站日志中我们可以跟踪到特定IP的访问路径,如果我们跟踪特定蜘蛛的访问路径则能发现对于本网站结构下蜘蛛的爬取路径偏好。由此,我们可以适当的引导蜘蛛的爬取路径,让蜘蛛更多的爬取重要、有价值、新更新页面。其中爬取路径中我们双可以分析页面物理结构路径偏好以及url逻辑结构爬取偏好。通过这些,可以让我们从搜索引擎的视角去审视自己的网站。
访问状态码
蜘蛛经常出现的状态码如301、404等,出现这些状态码要及时处理,以避免对网站造成坏的影响。
页面抓取
在网站日志分析中,我们可以看到具体被蜘蛛爬取的页面。在这些页面中,我们可以分析出蜘蛛爬取了哪些需要被禁止爬取的页面、爬取了哪些无收录价值页面、爬取了哪些重复页面url等,为充分利用蜘蛛资源我们需要将这些地址在robots.txt中禁止爬取。
另外,我们还可以分析未收录页面原因,对于新文章,是因为没有被爬取到而未收录抑或爬取了但未放出。对于某些阅读意义不大的页面,可能我们需要它作为爬取通道,对于这些页面,我们是否应该做Noindex标签等。但从另一方面讲,蜘蛛会弱智到靠这些无意义的通道页爬取页面吗,蜘蛛不懂sitemap?
抓取时间段
通过分析对比多个单日蜘蛛小时爬取量,我们可以了解到特定蜘蛛对于本网站在特定时间的活跃时段。通过对比周数据,我们可以看到特定蜘蛛在一周中的活跃周期。了解这个,对于网站内容更新时间有一定指导意义,而之前所谓小三大四等均为不科学说法。
蜘蛛访问IP
曾经有人提出过通过蜘蛛的ip段来判断网站的降权情况,笨鸟感觉这个意义不大,因为这个后知性太强了。而且降权更多应该从前三项数据来判断,用单单一个ip段来判断意义不大。IP分析的更多用途应该是判断是否存在采集蜘蛛、假蜘蛛、恶意点击蜘蛛等。
目录抓取统计
通过日志分析我们可以看到网站哪些目录受蜘蛛喜欢、抓取目录深度、重要页面目录抓取状况、无效页面目录抓取状况等。通过对比目录下页面抓取及收录情况,我们可以发现更多问题。对于重要目录,我们需要通过内外调整增加权重及爬取;对于无效页面,在robots.txt中进行屏蔽。
另外,通过多日日志统计,我们可以看到站内外行为给目录带来的效果,优化是否合理,是否达到了预期效果。对于同一目录,以长期时间段来看,我们可以看到该目录下页面表现,根据行为推测表现的原因等。
www.xianjinkh.com   www.biandoo.com
www.xiehouwu.com   我们只提供精品情人网


发表于 2013-4-28 13:16:08 | 显示全部楼层
OMG!介是啥东东!!!
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|小黑屋|手机版|Archiver|湖南站长论坛

GMT+8, 2024-5-12 06:17 , Processed in 0.288854 second(s), 8 queries , Gzip On, MemCached On.

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表