Robots文件是网站和蜘蛛轨范之间的“正人和谈”——robots文件不仅仅可以节约网站的资本,还可以辅佐蜘蛛加倍有用的抓取网,年夜而提高排名。
1:只许可谷歌bot
如不美观要阻挡除谷歌bot之外的所有爬虫:
User-agent:*
disallow:/
Uer-agent:许可的蜘蛛名
Disallow:
2:“/folder/”和“/folder”的区别
举个例子:
User-agent:*
Disallow:/folder/
Disallow:/folder
“Disallow:/folder/”暗示阻挡的是一个目录,该目录文件下的所有文件不许可被抓取,可是许可抓取folder.hlml。
“Disallow:/folder”:对/folder/下的所有文件和folder.html都不能被抓取。
3:“*”匹配肆意字符
User-agent:*
暗示屏障所有的蜘蛛。当我们做了伪静态措置之后,会同时又动态网页和静态网页,网页内容一模一样,视为镜态页面,所以我们要屏障失踪动态的网页,可以用*号来屏障动态的网页
User-agent:*
Disallow:/?*?/
4:$匹配网址竣事
如不美观要阻挡以某个字符串竣事的网址,就可以使用$,例如,要阻挡以.asp竣事的网址:
User-agent:*
Disallow:/*.asp$
也可以打开斗劲优异的网站,看他们的robots文件是若何书写的,然后按照自己的需求进行响应的改削。Robots文件可以让蜘蛛把更多的时刻花在要抓取的内容上,所以优化robots文件是很有需要的。
本文来自东阳高复:http://mygaofu.com,转载请注明链接

网友点评
精彩导读
科技快报
品牌展示