全文数据库检索效率更高

  随着网络技术和软件技术的飞速发展,特别是Internet和Intranet技术的发展,使得非结构化数据的应用日趋扩大。关系数据库从1970年发展至今,虽功能日趋完善,但对数据类型的处理只局限于数字、字符等,对多媒体信息的处理只是停留在简单的二进制代码文件的存储。然而,随着用户应用需求的提高、硬件技术的发展和IntranetInternet提供的多彩的多媒体交流方式,用户对多媒体处理的要求从简单的存储上升为识别、检索和深入加工,正是用户呼唤出“通用”数据库服务器来处理占信息总量70%的声音、图像、时间序列信号和视频等复杂数据类型。据有关数据,1996年,全球数据库市场的销售额已接近40亿美元,到2000年,数据库市场销售额将达到80亿美元。巨大的增长潜力来自复杂数据类型的处理需求,使处理复杂数据类型的“超媒体”数据库将成为各公司投资研发的重点。但是从目前的Internet发展进度来看,还不是多媒体数据库时代到来的时候,因为Internet基础设施的缘故,使目前Internet上的最有价值的信息还是文本信息,因为单位带宽内文本数据提供的信息普遍要高于其他类型的数据。这也是在90年代全文数据库得到飞速发展的原因。

  全文数据库是建立全文检索的基础,但全文数据库的一个关键技术就是全文检索技术,因为从存储的角度来看,全文数据库并没有太多的技巧可言,如何从庞大的数据库中检索出正确的信息才是最关键的。全文检索技术的出现,导致了信息检索领域的一场革命。比起标引检索来,全文检索提供了全新的、强大的检索功能,可以直接根据文献资料的内容进行检索,支持多角度、多侧面综合利用信息资源。全文检索技术是发现信息、分析和过滤信息、信息代理、信息安全控制等应用的主要技术基础。在应用方面,早期的全文检索应用仅限于专业情报领域,主要是非中文的全文检索,随着信息的电子化,信息量呈爆炸性增长,从而导致对全文检索系统的需求激增。特别是中文全文检索需求越来越多,在我国其应用也从专业情报领域扩展到图书馆、报社、电台、电视台、信息中心、大中型企业等各种有电子媒体的领域。面对这种需求,国内许多软件厂商开始看好全文检索软件,相继开发了多种中文全文检索系统。纵观计算机信息检索系统的发展,可以将全文检索的发展过程划分为四个阶段:

  1)第一阶段:1971年以前建立了许多信息检索系统,并取得了一定的进展。其工作方式是传统的批处理检索方式。如1954年美国海军兵器中心(NOTS)图书馆在IBM701型计算机上成功建立的世界上第-个计算机文献检索系统。这一阶段的数据存取与数据通信能力都比较差。

  2)第二阶段:1971年以后产生并发展了联机情报检索系统。其中,美国国家医药图书馆中心建立的在线计算机图书馆中心、SDC公司建立的SystemDevelopmentCompany及Lockheed公司的Dialog系统都是在线商用数据库查询系统。这一阶段的特点是联机数据库集中管理,具有完备的数据库联机检索功能,但其数据通信能力较差。

  3)第三阶段:以Internet的出现为标志。系统大多采用分布式的网络化管理,其信息资源的主要特点是:数字形式表达、多媒体和多载体、内容覆盖全社会领域、分布无序、难于规范化和结构化、内容特征抽取复杂、用户界面要求高等。这些特点导致了信息处理从传统模式向新型模式的转变,如体系结构从终端主机方式到客户/服务器结构方式,网络环境从局域网到Internet等开放网,应用接口从封闭界面到www和Z3950等,信息结构从结构化到非结构化,系统功能从单纯信息检索到综合信息管理和服务等等。其中较著名的系统有Altavista、Yahoo、WebCrawler等。

  4)第四阶段:在前三个阶段的基础上,随着连续性语音识别技术的不断发展,预计计算机信息检索系统将会跨入一个新的阶段。

  我国计算机全文检索技术研究开始于80年代初期,并在计算机编制主题词表、汉语自动分词和标引、数据库建造、情报检索和相关软件的研制、联机检索、机器翻译、图书馆业务管理、全文检索理论等主要领域取得了很大进步。目前在国内全文资料检索系统中,应用得最广泛的有易宝北信的TRS、北大方正的MIRS等。

  由于汉语语言的独特性,十几年来国内的计算机信息检索基本上仍以传统的顺序检索或顺序检索与倒排文档相结合的检索方法为主,局限于以传统人工赋词标引方法为主的目录或摘要二次文献以及以词检索为主的全文系统。这与国外的信息检索系统有一定的差距。当今,信息检索技术正向两个方向发展:-是传统信息检索向全文文本、多媒体等新型信息检索发展,在深度上应能对提问的内容进行分析和理解,提高查准率,探索自动抽词、自动索引、自动检索、自动文摘、自动分类、自动翻译等解决方案,提高管理和组织信息的能力;二是信息资源的网络化和分布化,面对Internet中浩瀚无垠的资源,提高查全率。

  随着Internet的飞速发展,人们越来越依靠网络来查找他们所需要的信息,但是,由于网上的信息源多不胜数,如何有效地去发现所需要的信息就成了一个很关键的问题。为了解决这个问题,搜索引擎随之诞生。搜索引擎是指Internet.上的专门从事Web页面和网站资料收集的Web站点,它提供网站的导航服务。从目前来看,搜索引擎的基础技术也是全文检索技术,但不同的是它针对Web页面搜索进行了格外优化。

  现在网上的搜索引擎也已经有很多,国外比较著名的站点有Yahoo、搜索引擎、AltaVista、InfoSeek等等。国内也建立了很多的搜索引擎,比如新浪、搜狐、网易等等。其中值得-提的是搜索引擎服务的新宠搜索引擎,自从Yahoo公司将搜索引擎服务基于Gooble以后,该搜索引擎开始迅速风靡,目前很多索引站点都采用了搜索引擎的搜索引.擎服务。目前,搜索引擎拥有全球最大的可搜索Web页面全文数据库,用户已经可以使用包括中文、法语、德语、意大利语和西班牙语在内的14种语言进行搜索,而且搜索引擎公司正在进一步扩展其服务内容,如日语、朝鲜语和其他客户化定制的搜索引擎服务等。搜索引擎采用新一代的先进技术,根据互联网本身的链接结构对相关网站用自动方法进行分类,为用户的每一个查询迅速提供准确的结果。搜索引擎建立的网页级别技术打破了传统网络分类概念,带来网络搜索的革命。搜索引擎的搜索速度极快,而且准确率极高。搜索引擎可贮存网页的快照,当网页服务器暂时中断时,您仍可浏览到该网页的内容。若找不到服务器,则搜索引擎暂存的网页也可救急。从贮存网页快照中找寻资料要比常规链接快得多,尽管所获取的信息可能不是最新的。当我们在进行搜索时,会经常看到它在百分之一秒的级别上搜索出几十万甚至上百万的Web页面。

  搜索引擎的基本原理是通过网络机器人定期在大范围内的web站点上搜索,当发现新的网页时,就把它们取回来放到本地的全文数据库中,用户的查询请求可以通过查询本地的数据库来得到。

  搜索引擎的实现机制一般有两种,-种是通过手工方式对网页进行索引,比如yahoo的网页是通过手工分类的方式实现的,它的缺点是Web的覆盖率比较低,同时不能保证最新的信息。查询匹配是通过用户写入的关键字和网页的描述和标题来进行匹配,而不是通过全文的匹配进行的。第二种是对网页进行自动的索引,像AltaVista则是完全通过自动索引实现的。这种能实现自动的文档分类,实际上采用了信息提取的技术。但是在分类准确性上可能不如手工分类。另外有一些关于某一个主题的专门的引擎,它们只对某一个主题的内容进行搜索和处理,这样信息的取全率和精度相对就比较高。

  搜索引擎一般都有一个机器人定期访问一些站点,来检查这些站点的变化,同时查找新的站点。一般站点有一个robot.txt文件用来说明服务器不希望机器人访问的区域,机器人必须遵守这个规定。如果是自动索引,机器人在得到页面以后,需要对该页面根据其内容进行索引,根据它的关键字的情况把它归到某一类中。页面的信息是通过元数据的形式保存的,典型的元数据包括标题、IP地址、-个该页面的简要的介绍,关键字或者是索引短语、文件的大小和最后的更新的日期。尽管元数据有-定的标准,但是很多站点都采用自己的模板。文档提取机制和索引策略对Web搜索引擎的有效性有很大的关系。高级的搜索选项一般包括布尔方法或者是短语匹配和自然语言处理。一个查询所产生的结果按照提取机制被分成不同的等级提交给用户。最相关的放在最前面。每一个提取出来的文档的元数据被显示给用户。同时包括该文档所在的URL地址。

  一个优秀的搜索引擎必须处理以下几个问题:网页的分类、自然语言的处理、搜索策略的调度和协作、面向特定用户的搜索等。所以很多搜索引擎不同程度地使用了一些人工智能的技术来解决这些方面的问题。