前段时刻写了篇robots.txt文件怎么写,可是经由过程现实不雅察看,有些伴侣对于robots.txt文件的轨则仍是有必然的误区。
好比有良多人这样写:
User-agent: *
Allow: /
Disallow: /mulu/
不知道巨匠有没有看出来,这个轨则其实是不起浸染的,第一句Allow: / 指的是许可蜘蛛爬行所有内容,第二句Disallow: /mulu/指的是禁止/mulu/下面的所有内容。
概况上看这个轨则想达到的目的是:许可蜘蛛爬行除了/mulu/之外的网站所有页面。
可是搜索引擎蜘蛛执行的轨则是年夜上到下,这样会造成第二句呼吁失踪效。
正确的轨则应该是:
User-agent: *
Disallow: /mulu/
Allow: /
也就是先执行禁止呼吁,再执行许可呼吁,这样就不会失踪效了。
此外对于百度蜘蛛来说,还有一个轻易犯的错误,那就是Disallow呼吁和Allow呼吁之后要仪笕?/开首,所以有些人这样写:Disallow: *.html 这样对百度蜘蛛来说是错误的,应该写成:Disallow: /*.html 。
有时辰我们写这些轨则可能会有一些没有注重到的问题,此刻可以经由过程百度站长工具(zhanzhang.baidu.com)和Google站长工具来测试。
相对来说百度站长工具robots工具相对简陋一些:



百度Robots工具只能检测每一行呼吁是否合适语犯罪则,可是不检测现实效不美观和抓取逻辑轨则。
相对来说Google的Robots工具好用良多,如图:

在谷歌站长工具里的名称是抓取工具的权限,并陈述Google抓取网站页面的时辰被阻挡了若干好多个网址。

还可以在线测试Robots改削后的效不美观,当然这里的改削只是测试用,如不美观没有问题了,可以生成robots.txt文件,或者把呼吁代码复制到robots.txt文本文档中,上传到网站根目录。

Google的测试跟百度有很年夜的区别,它可以让你输入某一个或者某些网址,测试Google蜘蛛是否抓取这些网址。

测试结不美观是这些网址被Google蜘蛛抓取的情形,这个测试对于Robots文件对某些特定url的轨则是否有用。
而两个工具连系起来当然更好了,这下应该彻底年夜白robots应该怎么写了吧。
转载请注明来自逍遥博客,本文地址:http://liboseo.com/1170.html
除非注明,逍遥博客文章均为原创,转载请注明出处和链接!

网友点评
精彩导读
科技快报
品牌展示