搜索新生代

时间：2010-12-17 来源：作者：

Google已经非常强大，但它仍然不能统治整个互联网世界，

　　因为下一代搜索引擎的诞生将有可能打破目前的局面。

　　媒体大鳄默多克正准备收购一家名为布林克斯(Blinkx)的搜索引擎公司。双方谈判正在紧锣密鼓地进行，收购金额在20亿美元左右。新闻集团此举旨在快速进入日渐火爆的搜索市场。

　　这家公司的创始人是毕业于剑桥大学计算机系的26岁小伙子苏伦贾・坎德雷特尔雷克以及现任公司CEO兼市场总监凯西・立特维格。虽然现在布林克斯的名气还无法与Google相提并论，但他们有自己的特长，擅长利用语音识别软件将视频和音频数据转换为文本内容，这项技术能够实现比其他搜索技术更精确的全文本搜索。因此，该公司被公认为“视频音频搜索”这个细分市场内的领军角色。

　　看来，今后的搜索引擎市场不是Google一统天下，还会涌现出各种各样的新搜索引擎技术来填补Google留下的市场空白。甚至这些搜索引擎能够在某些方面超越Google。虽然已年逾古稀，但默多克的商业嗅觉日然敏锐。搜索引擎加上庞大内容提供者，其中孕育的商机让默多克激动不已。一旦新闻集团顺利收购布林克斯，整个新闻集团的内容资源将被搜索引擎加速传播。媒体的利润将出现成倍数的增长。

　　Google的力量已经让人不寒而栗，然而新的搜索技术将超越Google。因为他们会思考。他们的算法也不同于Google的PageRank。

　　一种称之为自我学习运算法则的搜索算法可以帮助计算机理解用户浏览网页中的资料内容。当用户浏览网页的时候，布林克斯就在后台工作，为用户自动搜索相关链接。

　　我们该怎样看待这些在某些特性上超越Google的搜索新生代呢？他们是第几代的搜索引擎技术呢？

　　成熟的二代搜索

　　1998年，Google粉墨登场，看到它的所有人都眼前一亮。是雅虎开创了互联网的搜索时代，但Google的技术具有革命性的意义。它是用机器人程序自动抓取资料，然后通过一种复杂的数学分析，通过估算反馈网页质量及相关程度来决定排名次序。要知道一个网页的质量，Google可以通过有多少网页与它链接来判断，这是因为人们一般不会与低质量的网页做链接。传统的搜索引擎如Hotbot和Lycos等当前使用的是元素搜索技术，即使用网页中的关键词进行搜索，而Google则使用一种包含对整个网络的链接结构进行分析和大规模资料挖掘的技术。

　　Google不仅扫描搜索关键词，还阅读页面全文，考虑到图像和所有链接，然后把该页面与类似页面区分开来。要想在Google获得好的排名，对网站推广提出了更高的要求，仅仅依靠对网页的优化也是不够的，而是依据网站的综合推广水平来决定在搜索结果中的排名次序。所以，被其它网站链接的数量也是考核网络营销效果的一项参考指标。

　　这显然比雅虎的人工分类方式要先进得多，用户得到的不是一个个网站地址，而是海量的网页信息。

　　所以，2002年10月9日，雅虎放弃了自己的网站目录搜索，改为默认Google的搜索结果，这标志着第二代搜索引擎正式取代了第一代搜索引擎。两年后，雅虎推出了自己新的第二代搜索引擎。在国内市场，百度使用的技术与Google相同，因此，百度可以算是中国第二代搜索引擎的代表。

　　二代核心机密

　　百度的创始人李彦宏早在1996年就申请了名为超链分析的专利，PageRank的原理和超链分析的原理是一样的。可以说PageRank是第二代搜索引擎的核心。

　　PageRank的原理类似于科技论文中的引用机制：谁的论文被引用次数多，谁就是权威。说的更白话一点：张三在谈话中提到了张曼玉，李四在谈话中也提到张曼玉，王五在谈话中还提到张曼玉，这就说明张曼玉一定是很有名的人。在互联网上，链接就相当于“引用”，在B网页中链接了A，相当于B在谈话时提到了A，如果在C、D、E、F中都链接了A，那么说明A网页是最重要的，A网页的PageRank值也就最高。

　　HillTop同样是一项搜索引擎结果排序的专利，是Google的一个工程师Bharat在2001年获得的专利。Google的排序规则经常在变化，但变化最大的一次也就是基于HillTop算法进行了优化。HillTop究竟原理如何，值得Google如此青睐？

　　其实HillTop算法的指导思想和PageRank的是一致的，都是通过网页被链接的数量和质量来确定搜索结果的排序权重。但HillTop认为只计算来自具有相同主题的相关文档链接对于搜索者的价值会更大：即主题相关网页之间的链接对于权重计算的贡献比主题不相关的链接价值要更高。如果网站是介绍“服装”的，有10个链接都是从“服装”相关的网站链接过来，那这10个链接比另外10个从“电器”相关网站链接过来的贡献要大。Bharat称这种对主题有影响的文档为“专家”文档，从这些专家文档页面到目标文档的链接决定了被链接网页“权重得分”的主要部分。

　　仍然不满意

　　各种搜索引擎的技术改进和优化，都直接反应到搜索结果的排序上。许多搜索引擎都在进一步研究新的排序方法，来提升客户的满意度。专业人士认为，目前的搜索引擎排序算法上还存在两大不足。没有真正解决相关性。

　　相关性是指搜索词和页面的相关程度。仅仅通过链接、字体、位置等表面特征，不能真正判断搜索词和文章的相关性，更何况许多时候这些特征不会都同时存在。这也是许多对搜索引擎做弊方法能有效的原因。另外，有些文章中没有出现搜索词，但说的就是和搜索词十分相关的内容，例如搜索“恐怖分子”，但有网页是介绍本拉登的一些破坏行动，文中没有出现"恐怖分子"的字眼，搜索引擎就无法搜索到该网页。表面特征只能治标，不能治本。治本的方法应该是增加语意理解，例如主题词和关键词的提取，从语意上分析，得出搜索词和网页的相关程度，分析的越准，效果就会越好。

　　在搜索引擎上，任何人搜索同一个词的结果都是一样。这样明显不能满足访问者。科学家搜索“星球”，可能是希望了解星球的知识，但普通人可能是想找“星球大战”电影，但搜索引擎所给的都是一样的结果。如何满足这些不同类型的访问者，这需要对搜索结果的个性化。搜索引擎的排序技术应该也会朝着解决这两个不足的方向发展：语意相关性和排序个性化。前者需要完善的自然语言处理技术，后者需要记录庞大访问者信息和复杂的计算，要达到其中任何一个的要求均非易事，谁解决了这个问题，谁就可以成为下一个搜索世界霸主。

　　期待下一代诞生

　　尽管现在有厂商不断推出新的搜索服务，但在技术上没有本质的改变,不论是新闻搜索、图片搜索、MP3搜索还是本地搜索和地图搜索。现在，很多人已经不再满足在一个搜索引擎的输入框里输入关键词，点击搜索，然后快速得到很多搜索结果，因为人们需要精确，在成千上万条纪录中，我们可能只需要其中一条。下一代搜索引擎的追求目标是“求专”和“求易”。

　　有专家认为：第三代搜索引擎应该具有以下三个“模样”特征：智能化、个性化和社区化。

　　目前的搜索引擎能够给人们提供海量的搜索结果，一次搜索往往会有成百上千页的结果，实践表明，很少有人会看10页以后的搜索结果。未来的搜索引擎必须要引入人工智能技术，尝试去理解用户的查询意图，并优先显示用户需要的结果。目前比较可行的智能化技术除了智能纠错外，还有分类和联想等。

　　未来的搜索引擎必须要考虑到用户的个性化需求，不仅要给出符合不同用户需求的不同结果，连搜索结果的界面都应该有所区别。未来搜索引擎本身就是一个社交网络，通过用户的互动交流，我们可以更快、更方便地获取信息。

　　为了提高搜索引擎对用户检索提问的理解，就必须有一个好的检索提问语言，为了克服关键词检索和目录查询的缺点，现在已经出现了自然语言智能答询。用户可以输入简单的疑问句，比如“如何杀死计算机病毒?”。搜索引擎在对提问进行结构和内容的分析之后，或直接给出提问的答案，或引导用户从几个可选择的问题中进行再选择。

　　投资雅虎和Google的麦克・莫里兹曾说：“互联网是一个年轻的产业，这里面有无数的机会，我在等待下一个雅虎！”。一年前，当他投资的Google上市后，他依然说：“互联网还是一个年轻的产业，这里面还有无数的机会，我在等待下一个Google！”

　　背景资料

　　中国互联网络信息中心(CNNIC) 简介

　　中国互联网络信息中心(China Internet Network Information Center，简称CNNIC)是经国务院主管部门批准，于1997年6月3日组建的管理和服务机构，行使国家互联网络信息中心的职责。

　　作为中国信息社会基础设施的建设者和运行者，中国互联网络信息中心(CNNIC)以“为我国互联网络用户提供服务，促进我国互联网络健康、有序发展”为宗旨，负责管理维护中国互联网地址系统，引领中国互联网地址行业发展，权威发布中国互联网统计信息，代表中国参与国际互联网社群。

　　网址：www.cnnic.cn

　　背景资料

　　世界著名搜索引擎

　　AltaVista搜索

　　AOL搜索

　　Ask Jeeves搜索

　　百度搜索

　　Google搜索

　　爱问搜索

　　Inktomi搜索

　　Lycos搜索

　　MSN搜索

　　Netscape搜索

　　Overture搜索

　　搜狗搜索

　　搜索引擎的组成

　　1.搜索器

　　搜索器的功能是在互联网中漫游，发现和搜集信息。它要尽可能多、尽可能快地搜集各种类型的新信息，同时因为互联网上的信息更新很快，所以还要定期更新已经搜集过的旧信息，以避免死连接和无效连接。目前有两种搜集信息的策略：

　　● 从一个起始URL集合开始，顺着这些URL中的超链(Hyperlink)，以宽度优先、深度优先或启发式方式循环地在互联网中发现信息。这些起始URL可以是任意的URL，但常常是一些非常流行、包含很多链接的站点(如Yahoo！)。

　　● 将Web空间按照域名、IP地址或国家域名划分，每个搜索器负责一个子空间的穷尽搜索。

　　搜索器搜集的信息类型多种多样，包括HTML、XML、Newsgroup文章、FTP文件、字处理文档、多媒体信息。

　　搜索器的实现常常用分布式、并行计算技术，以提高信息发现和更新的速度。商业搜索引擎的信息发现可以达到每天几百万网页。

　　2.索引器

　　索引器的功能是理解搜索器所搜索的信息，从中抽取出索引项，用于表示文档以及生成文档库的索引表。

　　索引表一般使用某种形式的倒排表(Inversion List)，即由索引项查找相应的文档。索引表也可能要记录索引项在文档中出现的位置，以便检索器计算索引项之间的相邻或接近关系(proximity)。

　　3.检索器

　　检索器的功能是根据用户的查询在索引库中快速检出文档，进行文档与查询的相关度评价，对将要输出的结果进行排序，实现某种相关性反馈机制。

　　4.用户接口

　　用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。主要的目的是方便用户使用搜索引擎，高效率、多方式地从搜索引擎中得到有效、及时的信息。用户接口的设计和实现使用人机交互的理论和方法，以充分适应人类的思维习惯。

已有位网友发表了看法

推荐文章

推荐网站

相关文章

网站搜集最新加入