Robots文件生成器(Robots.txt是放在站点根目录下一个纯文本文件▍,指定搜索引擎蜘蛛抓取指定的内容▍,或是禁止搜索引擎蜘蛛抓取网站部分或全部内容)
什么是robots.txt文件▍?
1. Robots.txt 是存放在站点根目录下的一个纯文本文件▍。虽然它的设置很简单▍,但是作用却很强大▍。 它可以指定搜索引擎蜘蛛只抓取指定的内容▍,或者是禁止搜索引擎蜘蛛抓取网站的部分或全部内容▍。
2. robots.txt(统一小写)是一种存放于网站根目录下的ASCII编码的文本文件▍, 它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛)▍,此网站中的哪些内容是不应被搜索引擎的漫游器获取的▍, 哪些是可以被(漫游器)获取的▍。
3. 如果想单独定义搜索引擎的漫游器访问子目录时的行为▍,那么可以将自定的设置合并到根目录下的robots.txt▍, 或者使用robots元数据▍。
4. 因为一些系统中的URL是大小写敏感的▍,所以robots.txt的文件名应统一为小写▍。robots.txt应放置于网站的根目录下▍。
5. robots.txt协议并不是一个规范▍,而只是约定俗成的▍,所以并不能保证网站的隐私▍。 注意robots.txt是用字符串比较来确定是否获取URL▍,所以目录末尾有与没有斜杠“/”表示的是不同的URL▍。robots.txt允许使用类似"Disallow: *.gif"这样的通配符▍。
6. Robots协议是国际互联网界通行的道德规范▍,基于以下原则建立:1▍、搜索技术应服务于人类▍, 同时尊重信息提供者的意愿▍,并维护其隐私权▍;2▍、网站有义务保护其使用者的个人信息和隐私不被侵犯▍。
robots.txt文件使用方法
1. Robots.txt 文件应该放在网站根目录下▍,并且该文件是可以通过互联网进行访问的▍。 例如:如果您的网站地址是 http://www.xxx.com/那么▍,该文件必须能够通过 http://www.xxx.com/robots.txt 打开并看到里面的内容▍。