robots.txt如何使用详解

在中国,网站管理员似乎并没有过多关注robots.txt。 应一些朋友的要求,我想今天通过本文简要地讨论一下robots.txt的编写。

robots.txt基本介绍

robots.txt是纯文本文件。 在此文件中,网站管理员可以声明不想被机器人访问的网站部分,或指定搜索引擎仅包括指定的内容。

当搜索机器人(有些称为搜索蜘蛛)访问某个网站时,它将首先检查该网站的根目录中是否存在robots.txt。 如果存在,搜索机器人将按照文件的内容确定访问范围; 如果文件不存在,搜索机器人将沿着链接进行爬网。

此外,robots.txt必须放置在网站的根目录中,并且文件名必须全部小写。

robots.txt编写语法

User-agent: *
Disallow:

以上文字的意思是允许所有搜索机器人访问网站下的所有文件。

一:在网站上设置robots.txt的原因很多。

1:设置访问权限以保护网站安全。

2:禁止搜索引擎抓取无效页面,并将权重集中在主页上。

二:如何以标准方式撰写协议?

有几个概念需要掌握。

用户代理是指定义了哪个搜索引擎,例如,用户代理:Baiduspider,它定义了百度蜘蛛。

Disallow表示禁止访问。

允许表示运行访问。

通过以上三个命令,您可以组合多种写入方法,允许使用哪种搜索引擎或禁止使用哪种页面。

三:robots.txt文件在哪里?

此文件必须放置在网站的根目录中,并且对字母大小有限制。 文件名必须使用小写字母。 所有命令的首字母必须大写,其余的必须小写。 命令后必须有一个英文字符空间。

四:何时需要使用此协议。

1:没用的页面。 许多网站都与我们联系,用户协议和其他页面。 与搜索引擎优化相比,这些页面几乎没有效果。 目前,您需要使用Disallow命令来防止这些页面被搜索引擎捕获。

2:动态页面,企业类型的网站会阻止动态页面,这有利于网站安全。 而且,如果多个URL访问同一页面,那么权重将会分散。 因此,通常,阻止动态页面并保留静态或伪静态页面。

3:网站后台页面,也可以将网站后台页面归类为无用页面,并且禁止包含所有收益而不会造成伤害。


吾爱圈 » robots.txt如何使用详解

发表评论