<b>小苏:由浅到深再谈网站原始访问日志分析</b>

作者: 来源:未知 2012-04-18 19:06:47 阅读 我要评论 直达商品

  近期笔者对年夜约50多位刚年夜事或已经年夜事1-2年的seoer做了个小发芽拜访,其中搜罗良多面试者,真正在工作中能剖析到日志的seoer比例很是很是的少,在问到访谒日志在seo所起到的浸染,良多seoer都直摇头,或者仅仅知道一些皮短处未亲手操作过,其首要原因仍是在公司平台中并文暌剐机缘去实践,下面笔者分享下自己对网站原始访谒日志的熟悉:

  什么是访谒日志

  网站访谒日志是记实web处事寡领受措置请求以及运行时错误等各类原始信息的以.log结尾的文件,切当的讲,应该是处事器日志。它的浸染是让我们seoer可以清嚣张的得知用户在什么IP、什么时刻、用什么操作系统、什么浏览器、什么分辩率显示器的情形下访谒了你网站的哪个页面,是否访谒成功。

  什么时辰我们需要去剖析日志及日志特征

  我们会天天都去剖析日志吗?不会的,因为日志剖析斗劲死板,一般都是每月或者半月剖析一次。这种剖析属于日常剖析,如不美观您的网站一向都斗劲正常那可以每月剖析一次,或者可以简单的剖析一次。

  其实日志更多是在网站呈现异常的时辰,会不雅察看半个月日志,集平剖析蜘蛛的动向。好比会剖析是不是网站404,robots设置异常或者挂马等问题造成蜘蛛消逝踪,逐儿去查找解决问题。

  下面是年夜笔者日常剖析的日志中取的一条访谒记实:

  119.254.22.200 - - [10/Apr/2012:00:04:54 +0800] "GET /bbjk/index.html HTTP/1.0" 200 25269 "-" "Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)"

  119.254.22.200 为用户访谒ip

  10/Apr/2012:00:04:54 +0800 为访谒日期 -时区

  GET /bbjk/index.html HTTP/1.0 按照HTTP/1.1 和谈 抓取(域名下)/bbjk/index.html 这个页面(GET暗示处事器动作)

  200 处事器响应状况码

  25269 为页面字节数。

  Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07) 为搜狗蜘蛛特征。

  注重:任何蜘蛛都仅仅为网站的通俗用户。不要觉得蜘蛛很是的强年夜,良多人还认为网站若禁止登录查看内容,蜘蛛都能爬取上岸后的页面内容,这是不成能的。除非网站做了蜘蛛专属手段。

  怎么去剖析网站访谒日志

  曾记得在几年前,笔者刚接触seo的时辰,工具稀少的年月,标识表记标帜一向都喜欢手工

  去剖析访谒日志,当然手工剖析很费时吃力,再这里只讲解下笔者最喜欢手工剖析日志中的几点。

  笔者此刻手工剖析一般都集中在研究每日蜘蛛在网站上爬行纪律与网站更新数据之间的关系。当然每个网站需按照自己来不雅察看,最后会有一个很是完美的纪律。

  笔者会把每日的蜘蛛访谒时刻按时刻段排序统计成报表,

  好比:2012-4-18 1-2点爬行5次

  2-3点爬行3次

  3-4点爬行10次

  如不美观你细心的话可以做个走势图就很是直不美观。这种统计一般都是在网站刚成立后和网站出异常后增强剖析日志,日常运营中,更多注重的是剖析出蜘蛛每日的爬行纪律然后按时的放出充量文章,增添收录。

  手工剖析日志都是斗劲死板的,有时会影响神色,不外此刻工具兴旺的年月,我们也借助工具来达到事半功倍。

  笔者斗劲举荐的是光年日志剖析工具。该工具很是简单,笔者不在此演示,有乐趣的自己百度,它的利益在于能在生成的陈述中清楚的告诉我们蜘蛛爬行异常,与页面抓取痕迹。好比404. 独一遗憾的是今朝笔者还未找到一款工具带有剖析蜘蛛爬行纪律生成走势图的工具。

  注重:在日志剖析中,良多时辰我们都是想年夜日志中寻找到问题,以便改良我们的自身的问题,所以需要出格关注404,301等状况码。

  真假蜘蛛分辩

  为什么会呈现真假蜘蛛,主若是因为此刻信息兴旺,良多采集工具为不让对方发现自己的痕迹都模拟蜘蛛的痕迹来下载数据源。所以会造成良多seoer误认为蜘蛛年夜量的抓取页面却发现收录并未增添的现象。下面笔者告诉巨匠斗劲轻易辨当真假蜘蛛和一些出格注重的处所。

  1, 真蜘蛛

  220.181.108.96 - - [07/Apr/2012:01:22:21 +0800] "GET /site/sex/index.php HTTP/1.1" 302 20 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"

  这是笔者某网站的日志片段,我拿出ip,在win系统下cmd登录dos框下输入nslookup 220.181.108.96 查看回显:

  

 

  如上图,若是百度蜘蛛,他会直接回显百度的域名。

  2, 假蜘蛛

  假蜘蛛斗劲经典的就是chinaz的发芽工具了,他就是模拟百度蜘蛛的,他的ip为125.90.88.96 我们反查后并未呈现百度域名。有乐趣的可以nslookup 125.90.88.96下,笔者就一直图了。

  一般假蜘蛛的存在形式为:XXX.XXX.XXX.XXX - - [07/Apr/2012:01:22:21 +0800] "GET /site/sex/index.php HTTP/1.1" 302 20 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"

  看着跟真的一样,唯独ip就是猫腻!

  3, 奸细作况的蜘蛛

  1) cdn加速后,造成ip杂乱。

  此类情形呈现一般是网站在做了cdn加速后,再去查看apache处事器的访谒日志的时辰发现良多蜘蛛的痕迹ip都很是的近似,如不美观按照百度官方出的分辩手法nslookup ip 后必定为匿名,因为这些ip都是cdn节点ip,所以会造成曲解。若开启cdn后,蜘蛛现实访谒次数一般都<=日志中蜘蛛总数值。

  2) 百度匿名蜘蛛的存在性谈判。

  匿名蜘蛛?百度工程师lee一向强调百度蜘蛛是不会匿名去访谒网站的,但笔者年夜网上查阅资料,加上笔者某个站的数据猜测,笔者认为会有两种情形:

  第一种:假如真的存在匿名蜘蛛,这很较着与lee的话有悖。所以这点我们可以去辩证的去理解,假如存在,匿名蜘蛛会做什么,良多seoer包短文者都猜测可能会存在用此类蜘蛛去验证网站是否对蜘蛛与用户做了分歧的待遇。所以此种情形,做贼就不要心虚嘛,老诚恳实做站吧。


  推荐阅读

  信用卡非法套现约7成发生在第三方支付平台

>>>详细阅读


本文标题:<b>小苏:由浅到深再谈网站原始访问日志分析</b>

地址:http://www.lgo100.com/a/22/20120418/52246.html

乐购科技部分新闻及文章转载自互联网,供读者交流和学习,若有涉及作者版权等问题请及时与我们联系,以便更正、删除或按规定办理。感谢所有提供资讯的网站,欢迎各类媒体与乐购科技进行文章共享合作。

网友点评
我的评论: 人参与评论
验证码: 匿名回答
网友评论(点击查看更多条评论)
友情提示: 登录后发表评论,可以直接从评论中的用户名进入您的个人空间,让更多网友认识您。
自媒体专栏

评论

热度