每小我都有自己的隐私,网站也是这样,网站中也有不但愿被蜘蛛看到的工具,好比会员密码等等,而想要隐瞒住这部门隐私,一般情形下站长城市在第一时刻想到Robots.txt。没错,Robots.txt文件的使用简直可以给蜘蛛指明道路,告诉它什么处所该去,什么处所不应去,也恰是因为这点原因,良多站长都热衷于用Robots.txt,可是巨匠真的会用Robots.txt吗?对于它的编写轨则巨匠又知道若干好多呢?本人不才,但对于这方面总归有点经验,在这分享出来,让巨匠有个参考,当然老鸟可以飞过了。
Robots.txt编写的挨次问题
举个最简单的例子,如不美观你想让自己a文件中的b.html被抓取,那么你怎么编写呢?是
Allow:/a/b.html Disallow:/a/ 仍是Disallow:/a/ Allow:/a/b.html这样?
在Robots.txt编写轨则中,它并不执行树状剖析结构,换句话说编写时并不应该把母文件夹放在最前,而是遵循一种就近原则,如不美观我们把母文件夹放在前面,蜘蛛会认为这个路子被封锁了,不能访谒,而我们最终的目的却是访谒,这样一来,方针和现实就年夜相迳庭了。
Robots.txt编写的开放性问题
良多站长,尤其是新手站长对于Robots.txt的理解过清客面,他们认为既然Robots.txt可以划定蜘蛛的访谒路子,那我们何须不开放,把所有文件都设置成可访谒,这样一来网站的收录量不久当即上升了,其实问题远远没有我们想象的简单,巨匠都知道网站一一些固定的文件是不必传送给搜索引擎访谒的,如不美观我们把网站“全方位开放”,后不美观就是加年夜网站处事器负载,降低访谒速度,减缓蜘蛛的爬行率,对于网站收录没有一点用处,所以对于固定不需要访谒的文件,我们直接Disallow失踪就可以了。
一般情形下,网站不需要访谒的文件有后台打点文件、轨范剧本、附件、数据库文件、等等。
Robots.txt编写的一再性问题
我们天天都在写着原创内容,然后更新到自己的网站中,巨匠想过没有我们这样做的目的是什么?当然是为了讨搜索引擎的好,巨匠都知道搜索引擎很垂青原创内容,对于原创内容的收录很快,相反,如不美观你的网站中充溢着年夜量的复制内容,那么我只能遗憾的告诉你,网站的前途一片渺茫。不外这也年夜另一个方面告诉我们要积极的操作robots文件禁止一再页面的代码,降低页面的一再度,可是在编写robots文件时必然要记得
在User-agent后插手某个搜索引擎,例如User-agent:BaiduSpider Disallow:/,如不美观没有插手,编写成User-agent: * Disallow: /形式,则是对网站所有内容的“屏障”。
Robots.txt编写的meta问题
在 Robots.txt编写轨则中,有一个取最强参数法例,而且如不美观网站以及页面标签上同时呈现robots.txt文件和meta标签,那么搜索引擎就会年夜命两个轨则中较为严酷的一个,即禁止搜索引擎对于某个页面的索引,当然如不美观robots.txt文件和meta标签不是呈现一个文件中,那么搜索引擎就会遵循就近原则,就会索引meta标签前的所有文件。
Robots.txt编写的细节性问题
1.反斜杠的插入
仍是以Disallow:/a/b.html为例,在编写该语句的时辰,如不美观健忘插手了反斜杠,则是对全数内容进行开放,这与编心暌癸句的设法相悖,因为反斜杠的意义是根目录。
2.空格的呈现
空格的呈现就很好理解了,因为搜索引擎对于这个非凡符号的呈现并不识别,它的插手只会使语句失踪饶暌功有的效用。
此刻巨匠理解我为什么说有人知道robots.txt文件,可是少有人知道该怎么正确编写了robots.txt文件了吧。其实robots.txt文件中还会其他的细节以及注重问题,在往后的时刻里我会继续和说一下robots.txt文件编写中涉及到的目录巨细、user-agent的数目等问题。
推荐阅读 比来我在GA帐户里建树了一些自界说过滤器以期图解seomoz在曩昔12个月的流量: seomoz曩昔12个月的流量来历分布图 以下按照各流量来历占总流量百分比排序: * 搜索流量(谷歌,雅虎,必应,百度等):36.0% * 直接流量(>>>详细阅读 本文标题:Robots.txt编写似雷区 稍有不慎“毒害甚深”(一) 地址:http://www.lgo100.com/a/34/20120406/48691.html

网友点评
精彩导读
科技快报
品牌展示