贵阳网站建设_网站优化排名_万词霸屏推广-贵州易商网络

网站robots协议文件怎么写?

2020-01-09 21:02


很多人都不知道网站robots协议如何去书写,还有不知道robots协议如何去使用。所以就会出现很多网站问题,因为不知道如何书写就会导致我们在书写的过程中屏蔽所有搜索引擎抓取,网站不能够收录和抓取。或者不知道我们屏蔽掉那些文件不能够让所有搜索引擎抓取。就会使一些后台页面被所有搜索引擎抓取到。今天贵阳恒丰SEO就来教大家如何书写网站robots协议。

robots协议

一、robots协议是什么?

搜索引擎访问网站时第一个要查看的文件就是robots文件。对每一个站点而言,最好都建立一个robots文件,向蜘蛛程序(spider)发出指令:某些文件可查看,某些文件不可查看,即指定内容才可被搜索引擎收录。

robots协议是什么

二、robots文件存放在什么位置?

robots文件是存放在一个网站的根目录下。不可以存放在根目录某个文件下面。

robots协议存放位置

三、robots文件的格式是什么?

在该文件中可以使用#进行注解,具体使用方法和UNIX中的惯例一样。该文件中的记录通常以一行或多行User-agent开始,后面加上若干Disallow和Allow行,详细情况如下:

User-agent:该项的值用于描述搜索引擎robot的名字。在"robots.txt"文件中,如果有多条User-agent记录说明有多个robot会受到"robots.txt"的限制,对该文件来说,至少要有一条User-agent记录。如果该项的值设为*,则对任何robot均有效,在"robots.txt"文件中,"User-agent:*"这样的记录只能有一条。如果在"robots.txt"文件中,加入"User-agent:SomeBot"和若干Disallow、Allow行,那么名为"SomeBot"只受到"User-agent:SomeBot"后面的 Disallow和Allow行的限制。

 

Disallow:该项的值用于描述不希望被访问的一组URL,这个值可以是一条完整的路径,也可以是路径的非空前缀,以Disallow项的值开头的URL不会被 robot访问。例如"Disallow:/help"禁止robot访问/1.html、/1abc.html、/1/index.html,而"Disallow:/1/"则允许robot访问/1.html、/1abc.html,不能访问/1/index.html。"Disallow:"说明允许robot访问该网站的所有url,在"/robots.txt"文件中,至少要有一条Disallow记录。如果"/robots.txt"不存在或者为空文件,则对于所有的搜索引擎robot,该网站都是开放的。

 

Allow:该项的值用于描述希望被访问的一组URL,与Disallow项相似,这个值可以是一条完整的路径,也可以是路径的前缀,以Allow项的值开头的URL 是允许robot访问的。例如"Allow:/2"允许robot访问/2.htm、/2com.html、/2/com.html。一个网站的所有URL默认是Allow的,所以Allow通常与Disallow搭配使用,实现允许访问一部分网页同时禁止访问其它所有URL的功能。

 

使用"*"and"$":Baiduspider支持使用通配符"*"和"$"来模糊匹配url。

 "*" 匹配0或多个任意字符

"$" 匹配行结束符。

robots文件书写规范

最后需要说明的是:百度会严格遵守robots的相关协议,请注意区分您不想被抓取或收录的目录的大小写,百度会对robots中所写的文件和您不想被抓取和收录的目录做精确匹配,否则robots协议无法生效。

 

以上就是贵阳恒丰SEO分享给大家的robots协议的书写规范,如果不懂如何书写的话可以去看一下《百度robots协议