<b>分析Robots.txt规则误区百度和Googlerobots工具使用</b>

　　前段时刻写了篇robots.txt文件怎么写，可是经由过程现实不雅察看，有些伴侣对于robots.txt文件的轨则仍是有必然的误区。

　　好比有良多人这样写：

User-agent: *
Allow: /
Disallow: /mulu/

　　不知道巨匠有没有看出来，这个轨则其实是不起浸染的，第一句Allow: / 指的是许可蜘蛛爬行所有内容，第二句Disallow: /mulu/指的是禁止/mulu/下面的所有内容。

　　概况上看这个轨则想达到的目的是：许可蜘蛛爬行除了/mulu/之外的网站所有页面。

　　可是搜索引擎蜘蛛执行的轨则是年夜上到下，这样会造成第二句呼吁失踪效。

　　正确的轨则应该是：

User-agent: *
Disallow: /mulu/
Allow: /

　　也就是先执行禁止呼吁，再执行许可呼吁，这样就不会失踪效了。

　　此外对于百度蜘蛛来说，还有一个轻易犯的错误，那就是Disallow呼吁和Allow呼吁之后要仪笕?/开首，所以有些人这样写：Disallow: *.html 这样对百度蜘蛛来说是错误的，应该写成：Disallow: /*.html 。

　　有时辰我们写这些轨则可能会有一些没有注重到的问题，此刻可以经由过程百度站长工具(zhanzhang.baidu.com)和Google站长工具来测试。

　　相对来说百度站长工具robots工具相对简陋一些：

　　百度Robots工具只能检测每一行呼吁是否合适语犯罪则，可是不检测现实效不美观和抓取逻辑轨则。

　　相对来说Google的Robots工具好用良多，如图：

　　在谷歌站长工具里的名称是抓取工具的权限，并陈述Google抓取网站页面的时辰被阻挡了若干好多个网址。

　　还可以在线测试Robots改削后的效不美观，当然这里的改削只是测试用，如不美观没有问题了，可以生成robots.txt文件，或者把呼吁代码复制到robots.txt文本文档中，上传到网站根目录。

　　Google的测试跟百度有很年夜的区别，它可以让你输入某一个或者某些网址，测试Google蜘蛛是否抓取这些网址。

　　测试结不美观是这些网址被Google蜘蛛抓取的情形，这个测试对于Robots文件对某些特定url的轨则是否有用。

　　而两个工具连系起来当然更好了，这下应该彻底年夜白robots应该怎么写了吧。

　　转载请注明来自逍遥博客，本文地址：http://liboseo.com/1170.html

　　除非注明，逍遥博客文章均为原创，转载请注明出处和链接!

seo(Search Engine Optimization)，汉译为seo，是较为风行营销体例之一，年夜06年起头，百度百科的词条被列位站长编纂了几千次，这个也证了然巨匠逐步地年夜白了seo的精髓地址。可是，此刻的seo逐渐变质了，为何这样>>>详细阅读