首页 > SEO基础知识 > 我们为什么要在网站下设置robots协议?
2013
10-14

我们为什么要在网站下设置robots协议?

我们知道一般在网站的根目录下会设置robots.txt这样一个文件,其实robots.txt算是互联网上的一个协议,robots.txt是搜索引擎中访问网站的时候要查看的第一个文件,可查看具体的“robots.txt文件的书写方式”。

robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(robots Exclusion Protocol),网站通过robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。robots协议的本质是网站和搜索引擎爬虫的沟通方式,用来指导搜索引擎更好地抓取网站内容,而不是作为搜索引擎之间互相限制和不正当竞争的工具。

当然我们看到并不是所有的网站都存在robots协议,所以robots协议是可有可无的,这么说来是不是并不是很重要呢?其实并不是这样的。

其实robots协议在最开始设立的时候最主要的就是为了保护网站内部的信息,保护服务器流量的平衡。这也是因为在互联网发展早期,搜索引擎还没有为网站带来明显的商业价值,搜索引擎爬虫也没有受到网站的普遍欢迎,这是为什么呢?其实也是有着以下几个原因:

一、快速抓取导致网站过载,影响网站正常运行;

二、重复抓取相同的文件,抓取层级很深的虚拟树状目录,浪费服务器资源;

三、抓取网站管理后台等内部敏感信息,或抓取临时文件等对用户没有价值的信息;

四、抓取会对投票等CGI脚本造成负面影响,可能出现虚假的投票结果。

robots协议正是针对搜索引擎爬虫的这些弊端而设计的约束措施。对于网站来说,设置robots协议主要有三个目的:

一、首先是保护网站内部信息不被搜索引擎爬虫抓取;

二、引导爬虫不要抓取对用户没有价值的信息;

三、为了保护中小网站的流量平衡,避免爬虫快速抓取给网站服务器带来过大压力。


PS:当然一般的来说网站中会不然搜索引擎抓取到重要的文件或资料就会通过robots协议来判断,但是我们之前就说到有的网站并没有设置robots协议,这也是因为这些网站希望自己的网站内容能够更快、更全面地被搜索引擎收录,并展现在搜索结果的前列。

最后编辑:
作者:云南SEO
这个作者貌似有点懒,什么都没有留下。

我们为什么要在网站下设置robots协议?》有 3 条评论

  1. 欢乐的十月欢乐的心情,欢乐的祖国绽放的笑脸。欢声笑语连成片,华夏儿女共庆祖国成立六十周年。祝好朋友国庆节快乐,愿祖国明天更美好!

  2. 优璇 说:

    我也来看了,很不错,收藏了

留下一个回复

你的email不会被公开。