Robots规则常见误区及Google百度Robots工具的使用

　　对于robots.txt文件对于网站的浸染巨匠都知道，可是经由过程不雅察看发现，有些伴侣对于robots.txt文件的轨则仍是有必然的误区。

　　好比有良多人这样写：

　　User-agent: *

　　Allow: /

　　Disallow: /mulu/

　　不知道巨匠有没有看出来，这个轨则其实是不起浸染的，第一句Allow: / 指的是许可蜘蛛爬行所有内容，第二句Disallow: /mulu/指的是禁止/mulu/下面的所有内容。

　　概况上看这个轨则想达到的目的是：许可蜘蛛爬行除了/mulu/之外的网站所有页面。可是搜索引擎蜘蛛执行的轨则是年夜上到下，这样会造成第二句呼吁失踪效。

　　正确的轨则应该是：

　　User-agent: *

　　Disallow: /mulu/

　　Allow: /

　　也就是先执行禁止呼吁，再执行许可呼吁，这样就不会失踪效了。此外对于百度蜘蛛来说，还有一个轻易犯的错误，那就是Disallow呼吁和Allow呼吁之后要仪笕?/开首，所以有些人这样写：Disallow: *.html 这样对百度蜘蛛来说是错误的，应该写成：Disallow: /*.html 。

　　有时辰我们写这些轨则可能会有一些没有注重到的问题，此刻可以经由过程百度站长工具(zhanzhang.baidu.com)和Google站长工具来测试。相对来说百度站长工具robots工具相对简陋一些：

　　百度Robots工具只能检测每一行呼吁是否合适语犯罪则，可是不检测现实效不美观和抓取逻辑轨则。

　　相对来说Google的Robots工具好用良多，如图：

　　在谷歌站长工具里的名称是抓取工具的权限，并陈述Google抓取网站页面的时辰被阻挡了若干好多个网址。

　　还可以在线测试Robots改削后的效不美观，当然这里的改削只是测试用，如不美观没有问题了，可以生成robots.txt文件，或者把呼吁代码复制到robots.txt文本文档中，上传到网站根目录。

　　Google的测试跟百度有很年夜的区别，它可以让你输入某一个或者某些网址，测试Google蜘蛛是否抓取这些网址。

　　测试结不美观是这些网址被Google蜘蛛抓取的情形，这个测试对于Robots文件对某些特定url的轨则是否有用。而两个工具连系起来当然更好了，这下应该彻底年夜白robots应该怎么写了吧。

　　转载请注明来自逍遥博客，本文地址：http://liboseo.com/1170.html，转载请注明出处和链接!

想必巨匠都知道卢松松这小我，他的博客在国内是数一数二的小我自力博客，经常阅读他的网站总能年夜中学到点IT行业的常识，对自己未来培植网站有很年夜的益处，可是他的博客值得我们进修的处所不只章矣闽，其实还有良>>>详细阅读