湖南站长论坛

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 968|回复: 2

个人学习搜索引擎原理消重算法的一点菜鸟见解

[复制链接]
发表于 2015-7-2 17:21:35 | 显示全部楼层 |阅读模式

帖子内包含图片,需登陆后查看高清大图

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
网页消重是指搜索引擎把搜集到的网页集,首先去除网页中的噪音内容或无关信息,通过DOC文档内容模型提取出和网页主题相关的元数据信息:网页标识url,网页类别,内容类别,正文,摘要,关键词,相关链接等,网页正文内容和相关链接重组后得到真正表达网页主题的信息,然后通过一些算法来对比网页的相似度。例如对比网页p1,p2
          算法1。网页摘要相似度比度,当两篇网页接要的n个字节相同p1,p2为转载页面
         算法 2。如果两篇网页中前n个权重最高的高频关键词既和网页主题最相关的关键词相同时,p1,p2为互为转载页面
         算法3.   把两篇网页看成由关键词集合组成的有大小和方向的两条线段,当这两条线段的夹角较小域长度相关不大时p1,p2 可以判为转载页面,当两条线段垂直时可以证明p1p2是内容不重复的两个页面。
        
        最近学习搜索引擎原理的一点小总结,知道的就这些了,我只是一个菜鸟,不一定正确,高手不要见笑。
地热清洗机www.dlgdws.com





发表于 2015-7-2 17:23:50 | 显示全部楼层
无论是不是沙发都得回复下
发表于 2015-7-4 10:14:42 | 显示全部楼层
前排支持下,今天不吃饭也要看您的帖子。。哈。。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|小黑屋|手机版|Archiver|湖南站长论坛

GMT+8, 2024-5-3 19:34 , Processed in 0.136904 second(s), 9 queries , Gzip On, MemCached On.

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表