2009年2月25日星期三

国际先驱论坛报:谷歌面临新兴搜索技术挑战

据国外媒体报道,美国《国际先驱论坛报》网站周一刊登分析文章称,虽然谷歌的页面索引量去年夏天就超过了1万亿,但是对于浩如烟海的互联网而言,这仅仅是沧海一粟。众多创业公司和研究机构看到了这样的机会,纷纷开发“深层网络”搜索技术,希望能够完善搜索引擎。这将使谷歌面临巨大的挑战。

沧海一粟

去年夏天,谷歌搜索引擎迎来了一个里程碑,它索引的页面数达到了1万亿。但是令人感到不可思议的是,对于浩如烟海的网络世界而言,这仅仅是沧海一粟。

除了这1万亿个页面之外,还有为数众多的隐藏数据,例如,财务信息、产品类别、航班时刻、医疗研究以及各种各样存储在数据库中的文件,这些数据中的绝大多数都无法被搜索引擎索引到。

在对所谓的“深层网络(Deep Web)”的渗透过程中,主流搜索引擎面临着巨大的挑战。而“深层网络”中的数据恰恰对解决诸如“下周四从纽约到伦敦怎么走最划算?”或“纽约扬基队(Yankees)今年什么时候跟波士顿红袜队(Red Sox)比赛?”这样的问题大有裨益。其实这些问题的答案就摆在那里,关键得看搜索引擎怎么才能找到它们。

新兴技术

现在,一批新的技术正在逐渐兴起,它们有望将搜索引擎的触角拓展到网络的死角中。一旦这些技术最终成形,不仅会提升搜索结果的质量,甚至会从根本上改变许多公司的网络业务模式。

搜索引擎依赖于一种名为爬虫(或蜘蛛)的程序,这种程序可以通过追踪超链接来搜集互联网中的信息。尽管这种方式在“表层网络(Surface Web)”中表现优异,但是想要渗透到数据库中却比较困难,而这些数据库恰恰可以回答某些特定的搜索查询。

“ 爬虫所能索引的网络只是冰山一角。” 专注于“深层网络”搜索的创业公司Kosmix联合创始人安迪-拉贾罗曼(Anand Rajaraman)如是说。该公司的投资人包括网络零售巨头亚马逊首席执行官杰夫-贝佐斯(Jeffrey Bezos)。Kosmix已经开发了一种能够索引数据库的搜索软件,通过这种方式,就可以为用户提供相关信息,而且可以在综合多种资源信息后返回特定主题的概述。

大海捞针

拉贾罗曼说:“大部分搜索引擎只是帮助你进行大海捞针。而我们则会帮助你探索‘海洋’。”

海洋是无穷无尽的。有数百万的数据库与互联网相连,而搜索项的组合也是无穷的,因此无论多么强大,也不可能有哪个搜索引擎能够为所有可能的数据组合提供迅速有效的检索。

想要从“深层网络”中提取有意义的数据,搜索引擎就必须要分析用户的搜索请求并找到一种方法将这些搜索请求与特定的数据库关联起来。例如,如果用户输入了荷兰画家“伦勃朗(Rembrandt)”,那么搜索引擎就需要知道哪个数据库最有可能包含与美术相关的信息(例如,博物馆或是拍卖行),以及这些数据库究竟会接受哪种查询。

从理论上,这种方法似乎很简单,但在实践中,浩如烟海的数据库结构以及可能的搜索项都会成为运算所面临的棘手问题。

谷歌对策

前华盛顿大学计算机教授阿龙-哈勒维(Alon Halevy)现在就在谷歌领导一个研发小组,试图解决“深层网络”的问题。他说:“这是我们所能想象到的最为有趣的数据集成问题。”

谷歌的“深层网络”搜索战略将会对外发送一个程序并对其所遇到的所有数据库进行分析。例如,如果搜索引擎找到一个与美术相关的页面,它就会开始猜测有可能的搜索项,例如“伦勃朗”、“毕加索(Picasso)”和“费米尔(Vermeer)”等艺术大师的名字,直到其中一个搜索项返回匹配信息。随后,搜索引擎还会分析结果并针对数据库的数据开发预测模式。

与此类似,犹他大学的朱莉安娜-弗雷尔(Juliana Freire)也在从事一项意义深远的项目。这个名为DeepPeep的项目希望最终能够遍历并索引公共网络中的所有数据库,从中提取广泛的数据以匹配复杂的搜索需求。

弗雷尔说:“如果像查询字典中的每个字一样去从事这项工作,那就未免太天真了。”费雷尔并没有采取这种方式,而是从一小部分样本查询开始入手,她说:“通过这种方式,我们就可以建立起对于数据库的理解,并选择究竟需要搜索哪些文字。”

基于这种分析,程序会自动对数据库发送搜索项,并借此提取尽可能多的数据。费雷尔称,她的方法对任何数据库内容的检索比例都超过90%。她的研究成果最近还吸引了一家主流搜索引擎公司的注意。

随着主流搜索引擎也开始尝试将“深层网络”的内容整合到其索引结果中,它们一方面需要展示不同种类的数据,另一方面又不能使得页面过于复杂。这对于谷歌而言尤其困难,因为他们长期以来都对大幅更改自己那“久经考验”的搜索格式非常抗拒。

专门研究搜索引擎的美国网站Search Engine Land执行主编克里斯-谢尔曼(Chris Sherman)说:“谷歌面临着严峻的挑战。他们希望提供更好的用户体验,但是却非常担心自己的改变会疏远用户。”

企业领域

除了消费级搜索领域之外,“深层网络”技术最终还有可能为企业提供新的数据使用方式。例如,一个健康网站可以交叉参考多个制药公司的最新医药研究数据,而本地新闻网站则可以通过提取政府数据库中的公共记录来对事件进行延伸报道。

这种程度的数据集成最终将演变成“语义网络(Semantic Web)”,这是一种被大肆炒作但尚未实现的概念,这种网络将实现数据之间的相互连接。但是这一概念的发展遭遇到了一定的挑战,因为这种概念想要成形,就需要所有人都提供必要的建议。“深层网络”技术有望达到类似的效果但消耗的成本却更小,因为它能够自动分析数据库结构以及交叉参考的结果。

参与编撰“深层网络”这一术语的麦克-伯格曼(Mike Bergman)说:“‘深层网络’的最大优点在于能够将彼此独立的数据资源联系起来。”他认为,从长期来看,“深层网络”搜索对企业的影响要大于普通用户。

没有评论:

发表评论

欢迎交流,欢迎评论