搜索引擎技术的发展历程
在互联网络日益渗入我们日常生活的今天,海量的贮存和科学的搜索是人们信息行为中两样最重要的能力。搜索引擎以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的。互联网上的搜索引擎可以分为两大类:目录式搜索引擎以及基于关键词的搜索引擎。
1、目录式搜索引擎
我们知道,处理复杂事物的一种有效方法是按照一定标准将事物归类。经过归类后,每个事物都与其他事物建立联系,与未经分类的,杂乱无序的状态相比,此时查找就变得相对容易。目录式搜索引擎采取的就是这一方法。
●目录式搜索引擎的工作原理
目录式搜索引擎的数据库建立在人工编辑的基础上,由专业人员对网上信息进行选择、标引、分类,合理地将不同学科、专业、行业或区域的网络信息,按照分类或主题目录的形式组织起来,编制成为等级式的主题指南或主题目录,供用户浏览和寻找感兴趣的信息内容。
●目录式搜索引擎的典型代表Yahoo
Yahoo的信息组织方式具有以下特点 :完备分类体系,归纳网上信息。它将传统的分类思想移植于网上信息的组织,在此思想的指导下,结合网络信息源的特点,构筑类目体系。在14个基本大类之下又以拥有信息的多寡及知识组织的需要程度,将每一基本大类细分成不同层次的次类目。层次越深,主题越专指,从而形成了一个由类目、子类目构成的可供浏览的相当详尽的目录等级结构,为网上丰富的信息资源归类,特别是确切归类提供了保障。
以人工方式为主,保证加工质量。采用分面分析原理,由信息专家编制主题目录,将人的智力投入到信息的选择与加工过程中,从而保证了目录编制的质量。同时,以人工为主,对提交的网页按主题目录进行筛选、归类和组织,克服了单纯由搜索软件自动分类所带来的缺陷,增强了分类的合理性,提高了检索的准确性。
●目录式搜索引擎的不足
覆盖率有限 :网络信息增长迅速,使得采集信息的速度远远跟不上信息增长的速度,更不用说编制主题索引的速度了;分类困难:不同搜索引擎的体系结构不同,分类体系的建立缺乏统一的标准,使得同一内容的信息在不同搜索引擎中经常会被归入不同类目,造成用户的困扰;成本高,时效差。随着网络应用技术的发展,用户不再满足于这种对网站分类和摘要的简单查找,更希望对内容进行查找,于是就出现了基于关键词查询的搜索引擎。
2、基于关键词的搜索引擎
目前互联网上的搜索引擎大多数都采用了基于关键词的查询技术,其典型代表为Google和百度,内容可以覆盖互联网上的绝大多数网页内容。
基于关键词的搜索引擎一般由搜索器、索引器、检索器和用户接口等四个部分组成。
●基于关键词的搜索引擎的排序算法
基于关键词的搜索引擎通过程序收集并索引的信息资源量极其庞大,而用户的提问式却大多由几个词组成,这种情况会导致数量庞大的检索结果,用户需要花费巨大的精力进行浏览筛选。搜索引擎采用的排序算法包括以下几种:基于词频统计的排序算法 。早期很多搜索引擎采用的排序算法是基于词频统计的,词权的计算一般把该词在HTML网页中出现的位置考虑进来,例如在标题中出现的词比在正文中的词权值高。但是由于网络资源的数量巨大,词频相同的两个网页质量却可能相差很远,因此这种算法的局限性很明显。
●基于超链分析的排序算法。
传统情报检索理论中的引文分析方法是确定学术文献权威性的重要方法之一,即根据引文的数量来确定文献的权威性。Google所采用的PageRank即借鉴了这一思想。PageRank的发明者对网络超链接结构和文献引文机制的相似性进行了研究,把引文分析思想借鉴到网络文档重要性的计算中来,利用网络自身的超链接结构给所有的网页确定一个重要性的等级数,以此来帮助实现排序算法的优化。但它存在着偏重旧网页和偏重综合站点的缺陷。
●基于关键词的搜索引擎的不足
明显的不足表现为:结果多,相关性低;更新慢;对自然语言理解能力差;不支持个性化查询;对多媒体内容的检索尚不成熟。
搜索引擎的技术热点
针对基于关键词搜索引擎所存在的不足,各搜索引擎网站纷纷向智能化、个性化方面发展,世界各国计算机科学界和信息产业界也都在积极的探索解决之道,搜索引擎已成为一个新的研究、开发领域。
1、多媒体搜索技术
基于内容的检索,是指直接对媒体内容特征和上下文语义环境进行的检索。一般而言,可用于网络检索的多媒体信息的内容特征大致包括:图像的颜色、纹理、形状等;声音的音频、响度、频度和音色等;影像的视频特征、运动特征等。这种类型的搜索引擎还不多见,并且主要用于图像检索,如QBIC、WeebSeek、ImageRover等。目前的多媒体搜索引擎覆盖面小,检索功能不够完善,效果也不太理想,因此,多媒体搜索技术尤其是音频、视频数据的检索仍是搜索引擎的一个研究重点。
2、对等搜索技术
目前的互联网是以服务器为中心的,人们向服务器发送请求,然后浏览服务器回应的信息,而对等搜索技术P2P(Peer to Peer)将以用户为中心,所有的用户都是平等的伙伴。相隔万里的用户可以通过P2P共享硬盘上的文件、目录甚至整个硬盘。把这一理念具体运用到搜索引擎技术上来:P2P将使用户能够深度搜索文档,而且这种搜索无须通过Web服务器,也可以不受信息文档格式和宿主设备的限制,可达到传统目录式搜索引擎无可比拟的深度。
P2P网络的一个很大的问题在于搜索信息时所产生的网络通信量非常巨大,在时间和网络资源方面造成很大的浪费。为方便P2P网络中的信息检索,有关专家提出了三种建立在特征文件基础上的检索机制:对语义路由进行详细分析,提出了一个建立在此技术和RDF技术基础上的新方法。
3、用户行为分析
一个以西班牙语的目录式搜索引擎的用户日志为样本分析了网络用户的搜索行为,发现网络搜索用户与传统检索系统的用户其行为存在差别,例如,网络用户一般只查看最前面的几个结果页面,网络用户很少使用操作符构造提问式等。该研究还对搜索次数与用户每分钟查看的文献或目录数进行了分析。
4、智能检索技术
智能检索主要包括自然语言处理、个性化搜索等技术,目前涉及这一领域的研究较多。
智能工具MySpiders是一个线性多代理系统,可以在用户提问时对网络信息进行挖掘,实现实时的动态查询,从而加强搜索引擎的功能。智能检索系统——ACIRD使用机器学习技术组织和检索网络文献。它由知识获取模块、文献分类器和搜索引擎组成。
5、检索结果的后处理
目前这方面的研究内容主要集中在结果排序的优化算法以及结果的聚类及可视化等领域。
对内容敏感的排序算法的研究表明,传统的PageRank算法是与提问无关的,只计算一个向量值用以衡量网页的重要性。而事实上,对于不同的提问,网页的重要性也不相同。
检索结果可视化并可修正提问的交互系统Webrat不依赖事先计算好的元数据,而是直接从搜索引擎的结果列表中获取所有必要信息,将结果文献实时动态聚类,并以图示方法提供给用户。用户可以利用选择关键词以及类别的方式与系统交互,从而修正提问获取更满意的结果。该系统独立于语言,适用于大量数据来源及可视化模型。
要想真正解决网络搜索问题,完全满足用户的各种信息查询需求,搜索引擎要解决的难题还很多。这些难题包括:科学组织和管理索引数据库,保持索引的更新与完整,包括对隐藏内容的索引;鉴别站点的优劣,向用户推荐质量高的内容,鉴别并移除恶意内容及链接;研究开发能充分表达用户查询要求的查询语言、方式和模式,提高查询语言的功能和查询的准确性;挖掘研究用户反馈,提高网络搜索的智能性,为用户提供个性化的服务;实现网络信息的自动化处理等。