SEO优化中的搜索引擎蜘蛛技术

斯蒂芬 · 发表于 2015-7-6 15:02:45

帖子内包含图片，需登陆后查看高清大图

您需要登录才可以下载或查看，没有帐号？立即注册

x

一蜘蛛工作原理
　　网络蜘蛛也就是搜索引擎蜘蛛，是通过链接地址来寻找网页的。搜索引擎蜘蛛名称根据搜索引擎都不同。那它的原理是由一个启始链接开始抓取网页内容，同时也采集网页上的链接，并将这些链接作为它下一步抓取的链接地址，如此循环，直到达到某个停止条件后才会停止。停止条件的设定通常是以时间或是数量为依据，可以通过链接的层数来限制网络蜘蛛的爬取。同时页面信息的重要性为客观因素决定了蜘蛛对该网站页面的检索。站长工具中的搜索引擎蜘蛛模拟器其实它就是这个原理，准不准确笔者也不清楚。基于这蜘蛛工作原理，站长都会不自然的增加页面关键词出现次数，虽然对密度产生量的变化，但对蜘蛛而言并没达到一定质的变化。这在搜索引擎优化过程中应该要避免的。
　　二搜索引擎蜘蛛与网站的交互问题
　　搜索引擎技术基础中，蜘蛛爬取到网站中，通常会去检索一个文本文件robots.txt，通常存放在网站的根目录下。它是专门用来同网络蜘蛛交互用的专用文件。这也就是SEOer老是去屏蔽网站页面不想被搜索引擎抓取的原因，它是一个网站和搜索引擎蜘蛛对话的重要工具，但是蜘蛛是否都遵循站长对其实施的规则呢？其实蜘蛛遵循还是得看蜘蛛出身，素质高的会遵循规则，相反则不遵循。并将它作为网站的入口文件，这也是蜘蛛与网站的交互方法。对于交互性的SEO手段，我们了解了就可以针对性的做出符合搜索引擎的蜘蛛喜好的网站地图。
　　页面Meta字段也是站长经常使用的搜索引擎优化技术，这个字段通常会放在文档的头部，很多站点都只是简单的写个允许百度抓取的字段，正不正确笔者不清楚，SEO其实很多现象都是基于数据分析对比才能得知。Meta字段蜘蛛可以在没有读取到全部文档的情况下就了解文档的相关信息，可以避免将无效的网页取下来后又将其废弃而造成无谓的浪费。
　　三搜索引擎蜘蛛对于文件的处理
　　(一)二进制文件处理
　　网络中除了HTML文件和XML文件外，也有大量的二进制文件，搜索引擎对二进制文件采用单独处理的方式，其对内容的理解完全需要依靠二进制文件的锚点描述来完成。锚点描述通常代表了文件的标题或是基本内容，也就是通常所说的锚文字这就是为什么我们要对网站锚文字的分析选择的原因所在。
　　(二)脚本文件的处理
　　网页中的客户端脚本，当网页加载至读取到该脚本，搜索引擎往往会直接省略对它的处理。但是由于现在网站设计者对于无刷新页面要求的提高和对ajax技术的大量使用，对它的分析处理往往会采用另外一种网页检索程序，由于脚本程序复杂和多样性，通常站长会根据自身网站将这些脚本存放到一个文档中，采用调用技术，从而加快页面加载速度，同时蜘蛛也不能对调用文件分析处理。这也属于搜索引擎优化技术，如果忽略了对它的处理将会是一项巨大的损失。
　　(三)不同文件类型处理
　　对于网页内容的提取分析一直是网络蜘蛛的重要技术环节，这也是SEO需要去了解的搜索引擎技术，这取决于网站信息更新的多样性。这也就是为什么专业网站上会在网站内附有下载的execl，pdf等各种文件类型，这也是属于搜索引擎优化过程中需要注意的。网上不同文件类型文件的处理，网络蜘蛛通常是采用插件的方式来处理。如果有能力，网站信息内容的更新尽可能采取多样性，来帮助网站达到一个搜索信息多样化的SEO体系。
地热清洗机www.dlgdws.com

GreysonChance · 发表于 2015-7-6 15:03:56

为了三千积分！

JustinBieber · 发表于 2015-7-9 14:00:05

打酱油的人拉，回复下赚取积分

		自动登录	找回密码
密码			立即注册

SEO优化中的搜索引擎蜘蛛技术

帖子内包含图片，需登陆后查看高清大图

相关帖子

浏览过的版块