网站robots.txt使用中常见的误区

作者:Lgo100 来源:未知 2012-04-27 23:06:53 阅读 我要评论 直达商品

  前几天写了robots.txt的规则误区并介绍百度和Google的robots工具的使用,介绍了几个robots.txt文件的规则的误区,然后发现其实不止那些,还有很多大家没有注意的误区。

  今天重新列举一下常见的robots.txt实际使用中的误区:

  误区1.Allow包含的范围超过Disallow,并且位置在Disallow前面。

  比如有很多人这样写:

  User-agent: *

  Allow: /

  Disallow: /mulu/

  想让所有蜘蛛抓取本站除/mulu/下面的url之外的所有页面,禁止抓取/mulu/下面的所有url。

  搜索引擎蜘蛛执行的规则是从上到下,这样会造成第二句命令失效。也就是说禁止抓取/mulu/目录这条规则是无效的。正确的是Disallow应该在Allow之上,这样才会生效。

  误区2.Disallow命令和Allow命令之后没有以斜杠”/”开头。

  这个也很容易被忽视,比如有人这样写Disallow: 123.html ,这种是没有效果的。斜杠”/”表示的是文件对于根目录的位置,如果不带的话,自然无法判断url是哪个,所以是错误的。

  正确的应该是Disallow: /123.html,这样才能屏蔽/123.html这个文件,这条规则才能生效。

  误区3.屏蔽的目录后没有带斜杠”/”。

  也就是比如想屏蔽抓取/mulu/这个目录,有些人这样写Disallow: /mulu。那么这样是否正确呢?

  首先这样写(Disallow: /mulu)确实可以屏蔽/mulu/下面的所有url,不过同时也屏蔽了类似/mulu123.html这种开头为/mulu的所有页面,效果等同于Disallow: /mulu*。

  正确的做法是,如果只想屏蔽目录,那么必须在结尾带上斜杠”/”。

  转载请注明来自逍遥博客,本文地址:http://liboseo.com/1193.html

  转载请注明出处和链接!


  推荐阅读

  浅谈关于网站首选域问题

最近在群内和一些朋友交流以及一些朋友问我,发现关注比较多的就是网站首选域的问题,很多新手朋友很困惑,特别是对于一个新站,看见自己的带www的不带www的同时在的时候,其实这种情况完成没有必要惊慌,是很正常的>>>详细阅读


本文标题:网站robots.txt使用中常见的误区

地址:http://www.lgo100.com/a/34/20120427/55659.html

顶一下

乐购科技部分新闻及文章转载自互联网,供读者交流和学习,若有涉及作者版权等问题请及时与我们联系,以便更正、删除或按规定办理。感谢所有提供资讯的网站,欢迎各类媒体与乐购科技进行文章共享合作。

网友点评
我的评论: 人参与评论
验证码: 匿名回答
网友评论(点击查看更多条评论)
友情提示: 登录后发表评论,可以直接从评论中的用户名进入您的个人空间,让更多网友认识您。
自媒体专栏

评论

热度