Robots规则常见误区及Google百度Robots工具的使用

作者:Lgo100 来源:未知 2012-04-16 17:59:44 阅读 我要评论 直达商品

  对于robots.txt文件对于网站的浸染巨匠都知道,可是经由过程不雅察看发现,有些伴侣对于robots.txt文件的轨则仍是有必然的误区。

  好比有良多人这样写:

  User-agent: *

  Allow: /

  Disallow: /mulu/

  不知道巨匠有没有看出来,这个轨则其实是不起浸染的,第一句Allow: / 指的是许可蜘蛛爬行所有内容,第二句Disallow: /mulu/指的是禁止/mulu/下面的所有内容。

  概况上看这个轨则想达到的目的是:许可蜘蛛爬行除了/mulu/之外的网站所有页面。可是搜索引擎蜘蛛执行的轨则是年夜上到下,这样会造成第二句呼吁失踪效。

  正确的轨则应该是:

  User-agent: *

  Disallow: /mulu/

  Allow: /

  也就是先执行禁止呼吁,再执行许可呼吁,这样就不会失踪效了。此外对于百度蜘蛛来说,还有一个轻易犯的错误,那就是Disallow呼吁和Allow呼吁之后要仪笕?/开首,所以有些人这样写:Disallow: *.html 这样对百度蜘蛛来说是错误的,应该写成:Disallow: /*.html 。

  有时辰我们写这些轨则可能会有一些没有注重到的问题,此刻可以经由过程百度站长工具(zhanzhang.baidu.com)和Google站长工具来测试。相对来说百度站长工具robots工具相对简陋一些:

  

 

  

 

  

 

  百度Robots工具只能检测每一行呼吁是否合适语犯罪则,可是不检测现实效不美观和抓取逻辑轨则。

  相对来说Google的Robots工具好用良多,如图:

  

 

  在谷歌站长工具里的名称是抓取工具的权限,并陈述Google抓取网站页面的时辰被阻挡了若干好多个网址。

  

 

  还可以在线测试Robots改削后的效不美观,当然这里的改削只是测试用,如不美观没有问题了,可以生成robots.txt文件,或者把呼吁代码复制到robots.txt文本文档中,上传到网站根目录。

  

 

  Google的测试跟百度有很年夜的区别,它可以让你输入某一个或者某些网址,测试Google蜘蛛是否抓取这些网址。

  

 

  测试结不美观是这些网址被Google蜘蛛抓取的情形,这个测试对于Robots文件对某些特定url的轨则是否有用。而两个工具连系起来当然更好了,这下应该彻底年夜白robots应该怎么写了吧。

  转载请注明来自逍遥博客,本文地址:http://liboseo.com/1170.html,转载请注明出处和链接!


  推荐阅读

  从名人博客得到的关于“怎样降低网站跳出率”的启示

想必巨匠都知道卢松松这小我,他的博客在国内是数一数二的小我自力博客,经常阅读他的网站总能年夜中学到点IT行业的常识,对自己未来培植网站有很年夜的益处,可是他的博客值得我们进修的处所不只章矣闽,其实还有良>>>详细阅读


本文标题:Robots规则常见误区及Google百度Robots工具的使用

地址:http://www.lgo100.com/a/34/20120416/51323.html

顶一下

乐购科技部分新闻及文章转载自互联网,供读者交流和学习,若有涉及作者版权等问题请及时与我们联系,以便更正、删除或按规定办理。感谢所有提供资讯的网站,欢迎各类媒体与乐购科技进行文章共享合作。

网友点评
我的评论: 人参与评论
验证码: 匿名回答
网友评论(点击查看更多条评论)
友情提示: 登录后发表评论,可以直接从评论中的用户名进入您的个人空间,让更多网友认识您。
自媒体专栏

评论

热度