★ GOOGLE搜索引擎蜘蛛的等级:

首先先谈下GOOGLE蜘蛛起源:

当GOOGLE搜索引擎刚建立之初,就拥有这一个非常强大的的服务器,

其每天放出大量的蜘蛛,我们称为1号蜘蛛,其抓取量抓取速度是非常的快,

对其整个互联网每天进行信息进行的采集,可见服务器的速度是多少快,其实最主要的是后期GOOGLE

将服务器延伸到了很多城市,所以现在你能发现GOOGLE的运算速率是超前的快.

服务器将采集的信息分类,整理.到庞大的数据库.

其中有个数据库都是用来存网站域名的.

域名只要被搜索引擎索引到,将自动存入此数据库.

此数据库是1号蜘蛛的核心.

其内部分为10个PR各等级的小数据库,虽说小数据库,但也是大的可怕!

10个等级的数据库 其周期也不同

基本上以一个PR=4的网站来讲 1号蜘蛛爬行的概率也在7天一次.

所以基本你也会发现收录有大的幅度也是在7天内的某一天 .

细心的站长会发现其实有时候7天还是蛮准的,但只针对PR=4

越是PR高其周期越是短,越是PR低周期越长,

当然说到这很多站长有这样的疑惑.会觉得蜘蛛有时天天收录他的站

这里对其收录的也就是接下来要说的2号蜘蛛

2号蜘蛛往往是在1号蜘蛛爬行过程中放出去的,

主要针对于被1号蜘蛛爬过的网站的外部链接.

PS既然都说是2号蜘蛛 肯定其抓取力度要比1号小很多.

★ 当然不只是有2号,还有3号蜘蛛

所谓3号也就 A站1号蜘蛛爬行到B站,B站的2号蜘蛛爬行到C站

目前GOOGLE为了限制其无限的循环对于蜘蛛只分为这三个等级.并对其等级的抓取率有个很明确的标准

而且2号与3号蜘蛛有个抓取特点 基本以时间的先后顺序进行抓取

★ 比方讲:

A网站被1号蜘蛛爬行后的一篇文章最后时间为 2008-6-1

那当A网站被从别的网站过来的2号蜘蛛给爬行,首先有可能会对其收录的是

最近发表的几篇文章如: 2008-5-31等 2008-5-30等文章将会进行第2次,第3次的访问

之后再爬行2008-6-1以后的信息.如果你网站没有任何更新,它将对其近一个月内的更改内容进行2次爬行.

如果外部来的2号与3号蜘蛛越多,同一篇文章有可能会被爬上好几次.

以下为GOOGLE提供的官方数据<秘>

★ 1号蜘蛛

基本抓取率在5%~10%

基于PR=0 没有任何导入链接与提交时 有可能被抓取的周期在6个月~12个月不等

基于PR=1 没有任何导入链接与提交时 有可能每次被抓取的周期在4个月~8个月不等

基于PR=2 没有任何导入链接与提交时 有可能被抓取的周期在2个月~4个月不等

基于PR=3 没有任何导入链接与提交时 有可能被抓取的周期在1个月~2个月不等

基于PR=4 没有任何导入链接与提交时 有可能被抓区的周期在1周~1个月不等

当然没有任何导入链接的网站无法做到PR=4

最高也只有PR=3

上述此数据只是GOOGLE官方提供的一个基数.

意思也就是1号蜘蛛主动爬取你网站的周期数.

对于2号或者3号蛛爬取你的网站,也就根据你的导入链接而定.

所以你会发现你的网站有时天天在被更新.

★ 2号蜘蛛

基本抓取率是2.5%~5%<基于1号蜘蛛爬行后的数据记录进行再次采集,对于最后次被采集日期的前后进行再次访问>

★ 3号蜘蛛

基本抓取率为1.25%~2.5%<基于1号蜘蛛与2号蜘蛛爬行后的数据记录进行再次采集,对于最后次被采集日期的前后进行再次访问>

GOOGLE目前蜘蛛的等级分为三种

当然蜘蛛有不同的蜘蛛

这里单单只的是网页蜘蛛.因为我只对这个感兴趣.

大家都知道隐藏网页内容对于引擎来说是一种作弊行为,通常的情况下作弊网站还会根据来访者的IP来判断是用户还是蜘蛛,来区分给与返回不同的内容。但是根据不同的IP返回不同的结果有时也是一种需要,并非全部都是作弊行为,其中就需要有所界定,以免出现误伤。谷歌中文博客对此发表了一篇文章,我将其以比较易懂的方法阐述给大家,查看原文地址

按地理位置传送:根据用户所在位置,提供有针对性的内容。网站管理员可以通过用户储存在Cookie里的参数确定用户地理位置,还可以根据登录信息或者IP地址确定用户所在的位置,然后提供当地用户比较感兴趣的话题。例如你的网站是提供体育比赛信息的,假如你的访问者是从青岛来的,那就会首先显示青岛地区团队的比赛成绩。

按用户IP传送:根据用户的IP地址,提供特定内容信息。一般情况下,用户的IP地址与地理位置是绑定的,所以IP可以被当成是一种特定的地理位置标识,这个主要是针对未在你网站进行注册,判断电脑里面没有cookie的参数的用户所在的地理位置的一种手段,也是为了给访问者提供最针对的内容的一种方法,他非但不是作弊,而且是对访问者的一种有好。

内容伪装:用户提供与Googlebot不同的内容。也是根据访问者的IP进行判断,一些著名网络公司的IP地址都是可以查的到的,如果来访者是蜘蛛则返回针对关键词优化好的内容,如果是普通用户则返回真实的内容,这种作弊方法是搜索引擎所深恶痛绝的,如果被引擎发现,那将面临残酷的惩罚,我建议大家不要铤而走险,这种作弊方式已经可以很容易被识别,引擎只需要用一个大家都不知道的IP发送蜘蛛请求,如果抓取到的内容和其他的蜘蛛抓取到的差别太大,立刻就可以判断出来你这是内容伪装作弊。

首次点击免费:由于某些网站的文章内容是需要收费后才能观看的,但是他还期望能被谷歌所抓取,所以谷歌就出了一个Google资讯首次点击免费政策,他的内容就是可以让访问者第一次通过搜索引擎访问这些收费内容是可以免费浏览的,但是当同一个用户第二次浏览时就会提示你需要付费后才能阅读了,这样既保证了引擎的抓取也保证了网站的权益。

说它最权威是因为是Google工程副总裁,负责排名算法的Udi Manber,发表在Google官方博客的一个帖子。下面捡主要内容翻译一下,想看完整原文的请参考Google官方博客Google 搜索质量简介。

搜索质量组是Google内部负责搜索结果排名的。每天Google处理无数查询,Google需要在不到一秒的时间内从数以亿计的网页中选择出应该返回哪些,以及以哪样的顺序显示。

Google对排名算法一直都比较保密,主要原因有两条:竞争及防止被滥用。

Google排名算法的细节是Google皇冠上的珍珠,我们以它为傲,并且非常注意保护。但是完全保密有时候也不是理想状况,所以Udi Manber等人决定与站长多沟通,谈一谈有什么新鲜事,解释一些老的内容,给点建议,参与对话等。这篇帖子是第一篇,以后还会有其他内容。

这个部门的心脏是核心排名小组。排名是相当困难的,比大部分人所想象的更困难。其中一个原因是语言都是模棱两可的,文件也没有任何规则,怎样理解信息没有标准。所以我们需要理解任何人,因为任何原因所写的任何网页。这只是一部分。我们还需要理解用户的查询,再将查询投射到我们所理解的文件上。更不要说不同的人有不同的需求。而且我们需要在几毫秒之内完成这一切。

Google排名算法最出名的部分就是PageRank。PR现在还在使用中,不过已经是一个更大的一系统中的一部分。其他部分还包括语言模块(处理短语,同义词,方言,拼写错误等的能力),查询模块(不仅仅是语言,还包括人们怎样使用语言),时间模块(有的查询返回一个30分钟前刚创作的网页最合适,有的时候返回已经存在很长时间的网页更合适),个性化模块(不是每个人都需要相同的东西)。

另外一个组负责评估我们做的怎样。目标是改善用户体验,这不是主要目标,而是唯一的目标。有每分钟进行的自动评估,阶段性整体质量评估,更重要的还有个别算法调整的评估。当某个工程师有个好主意,开发一个新算法后,我们对这个主意进行测试。一组统计学家会检查数据,确定这个新主意的价值。

2007年,我们做了450次以上的调整,差不多每个星期9次。比如今年1月份,我们对PR算法做了大幅调整。大多数时间我们都是寻找相关性改善的方法,有时我们也致力于简化算法,简单就是好的。

在过去两年中,国际搜索是我们的主要焦点之一,包括所有的语言,而不仅限于主要语言。

另外一个小组专门负责新功能和用户界面。Google的用户搜索界面相当简单,当我们增加新功能时,尽量确保对用户来说是简单易用的。在过去一年中,主要的改变包括通用搜索,Google Notebooks,自定义搜索引擎以及iGoogle的改进。用户界面小组有一组易用性专家,在辅助研究用户及评估新功能。

还有一个小组专注于反垃圾和其他各种被滥用的技巧,这也就是Matt Cutts所负责的小组。这个组识别新的垃圾技术,并且以可扩展的方式克服这些垃圾。和其他组一样,这个组也是要处理国际多语种。反垃圾组与Google站长工具组紧密配合。

还有其他专门的项目组。整体来说我们的组织结构相当非正式,人员调动频繁,新项目也随时开始。

  Google经常会有各式各样的惩罚或过滤机制被SEOer发现和研究。像去年提到的Google排名下降30位惩罚,后来还有950惩罚,以及刚刚发生的第六位惩罚。
这几天Google工具条PR又在更新了。我感觉更新还没结束,显示PR数据准确性很值得怀疑。

现在对Google PR更新本身越来越不感兴趣了。因为基本上没有大的造链接活动,PR值也不会有什么太大变化了。不过看到网上有一些关于PR更新及网页在Google中排名变化的一些迷思,觉得还是有必要把自己的一些理解跟大家介绍一下。
Google经常会有各式各样的惩罚或过滤机制被SEOer发现和研究。像去年提到的Google排名下降30位惩罚,后来还有950惩罚,以及刚刚发生的第六位惩罚。
 有了googel网站管理工具,让你不必烦心robots.txt文件怎么去写,写得正不正确,也避免了写错robots而给网站带来不必要的创伤直接为网站管理者带来的经济损失!
  12月1号Matt Cutts在他自己的博客及Google站长工具博客,同时分别发了一篇帖子,表达了对付费链接比较正式的态度。
  Google博客搜索(Google Blog Search)对于博客网站建设与推广而言是一个相当重要的工具,一般而言,只要能够出现在Google博客搜索排名比较靠前的位置比如说第一位,博客便能在相当长的一段时间内获得稳定的访问来源。——
如果你知道怎样对自己的网站进行优化从而在搜索引擎上获得高的排名,或者你是一名优化专家,那么你就不需要阅读这篇文章。
分页:[«]1[2][3][4][5][6][7][8][9][»]
 
XHTML 1.0  RSS  ABOUT US CONTACT US
Power by Z-blog1.8. Copyright 2006 网站优化-SEO优化 All rights reserved.