谷歌开发实时索引系统 抓取内容更新仅需数秒

作者: 来源:IT新闻网 2011-12-31 12:27:49 阅读 我要评论 直达商品

消息称谷歌正开发一套新系统,使任何规模的网络发布者在发布新内容后,都能够在数秒钟内将内容自动提交给谷歌搜索索引目录。

据美国科技博客网站ReadWriteWeb报道,谷歌正开发一套新系统,使任何规模的网络发布者在发布新内容后,都能够在数秒钟内将内容自动提交给谷歌搜索索引目录。

美国搜索引擎技术网站SearchEngineLand主编丹尼·苏利文(Danny Sullivan)认为,谷歌这项新系统投入使用后,无疑将使该公司“翻开新篇章”。

谷歌PubSubHubbub(以下简称“PuSH”)实时同步协议开发主管布雷特·斯拉特金(Brett Slatkin)去年秋季曾表示,他希望谷歌今后能够使用PuSH协议来为网络内容建立索引,而放弃各大搜索引擎商多年来使用的网络爬虫技术。

谷歌高级产品经理迪伦·凯西(Dylan Casey)周二在美国加州圣克拉拉市举行的搜索营销大会(Search Marketing Expo)上表示,谷歌计划不久后为网站所有者提供相关技术标准,使这些网站能够参与诸如PuSH之类的技术协议。

工作原理

据悉,PuSH是一种基于ATOM格式的同步系统。内容发布者使用该系统过程中,将对外公布一个Hub,该Hub将负责通知每次新发布的内容。注册用户则相当于告诉该Hub:“该内容发布者每次发布新内容时,请立即发送给我。”如此一来,注册用户无需再访问内容发布者的初始网站是否有内容更新,而只需等待来自Hub的通知。换句话说,每次内容发布者发布了新内容,就会自动通知Hub,Hub再将所有内容发送给所有注册用户。整个过程仅需数秒钟时间。

如果谷歌利用PuSH协议来建立网络内容索引,便可要求所有网站使用该技术,同时要求这些网站报明各自所使用的Hub。然后谷歌再利用这些PuSH所投递的信息,来随时查找各网站上每次发布的新内容。这种作法同传统RSS新闻聚合服务颇为相似。

ReadWriteWeb认为,PuSH协议不大可能完全替代当前使用的爬虫技术。事实上,要获取PuSH所投递的信息,首先需借助爬虫技术。尽管如此,如果谷歌使用PuSH协议,无疑将使该公司现有索引技术变得更为强大。

SearchEngineLand的苏利文表示,谷歌今后必须考虑采取一种垃圾信息的控制机制,而不是不加选择地让所有信息都收录于索引当中。他指出,在搜索引擎技术初期开发阶段,就曾出现过这种抓取内容过滥现象,从而给各大搜索引擎服务带来了“大麻烦”。

产品优势

从运算角度看,PuSH协议的效率更高。谷歌的斯拉特金称,更为重要的是,如果使用PuSH协议,将给小型网站带来更为积极的影响。就目前而言,谷歌爬虫对大量小型网站的抓取频率仅为每周一次。而使用PuSH协议后,这些小型网站可随时将新发布内容提交给谷歌。

互联网内容更丰富、发布更及时、运行效率更高后,无疑将使所有人都受益,而不仅仅限于谷歌一家。PuSH是一种开放协议,雅虎和微软必应(Bing)也可以访问。斯拉特金说:“我的技术主管表示,即便是竞争对手,我们也要对这一协议采取开放的推广方式。”

进入论坛>>声明:IT商业新闻网登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。文章内容仅供参考。新闻咨询:(010)68023640.

  推荐阅读

  取缔网吧,治标不治本的下下策

现在不少正规网吧无论在硬件条件还是软件条件上都已经达到了很高的标准,特别是在“北上广”这样中国比较发达的城市中尤其突出。网吧所涉猎的范围已经大大超过了其本身字面上的意义。假设取缔这些有正规牌照的网吧,>>>详细阅读


本文标题:谷歌开发实时索引系统 抓取内容更新仅需数秒

地址:http://www.lgo100.com/a/01/20111231/249873.html

乐购科技部分新闻及文章转载自互联网,供读者交流和学习,若有涉及作者版权等问题请及时与我们联系,以便更正、删除或按规定办理。感谢所有提供资讯的网站,欢迎各类媒体与乐购科技进行文章共享合作。

网友点评
我的评论: 人参与评论
验证码: 匿名回答
网友评论(点击查看更多条评论)
友情提示: 登录后发表评论,可以直接从评论中的用户名进入您的个人空间,让更多网友认识您。
自媒体专栏

评论

热度