网站数据存储软件

  目前计算机能处理的数据信息大体可以分为两类:-类是结构化数据,如数字、符号等;另一类是非结构化数据,如图像、声音和网页等。对于结构化数据,数据库存储技术发展到今天,关系型数据库已经成为处理结构化数据的首选产品,而且关系型数据库也是距今为止使用得最为广泛的数据存储软件。但是随着网络和软件技术的飞速发展,Internet时代的数据越来越显示出两个最主要的特点,即非结构化数据大量涌现和海量数据的产生。这对数据存储和检索技术提出了完全不同的新需求,集中表现在数据库管理系统本身的存储和检索技术上。特别是随着非结构化数据应用领域的不断拓展,擅长于处理结构化数据的关系数据库开始暴露出越来越多的局限,这些局限性也集中表现在对海量信息的存储和检索方面。

  在数据检索方面,海量信息对查询速度有较高的要求,查全率、查准率是衡量检索效率的标准。我们知道,关系数据库的索引是基于B+树的方法,这种方法对海量数据的检索效率是非常低的,甚至几乎不可行。而产生于70年代主要针对数值和字符处理.的关系数据库模型由于当时应用的局限,在设计时几乎没有考虑到多媒体、网页等非结构化数据处理的问题,没有料到Internet会发展得如此迅速,没有料到会出现数据急速膨胀的局面。所以,关系数据库在Internet时代的非结构化数据和海量信息数据的处理方面存在着许多问题,特别是关系数据库对数据类型的处理只局限于数字、字符,对非.结构化信息的处理只是停留在简单的二进制代码文件的存储,已经不适应用户从原先数据的简单存储上升为对数据的识别、检索和深入加工的要求,基于Internet内容的应用尤其使关系数据库相形见绌。因此有人说,数据库技术将进入“后关系数据库时代”,进入基于网络应用和内容管理的非结构化数据库时代,数据的存储管理技术和检索技术也会随之发生相应的变化。

  全文检索技术目前最常用的算法主要是采用自动标引的办法。自动标引涉及到切分技术,国内的TRS和天宇是这方面比较有特点的两种产品。另外一种典型的方法是单汉字抽词方法,以国信贝斯的iBASE数据库系列产品为代表。自动抽词技术是全文检索中非常关键的技术,对英文来说自动抽词非常简单,因为可以通过逗号或空格将词抽取出来,但对于中文来说则是非常麻烦的一一个问题。比如用户键入“中华人民共和国”,那么,做抽词的时候是按“中华”还是“中华人民”来做呢?这就涉及到汉语的自动切分和自然语言理解的问题,我们试图从内容管理角度用未知组配的算法来实现全文检索,采用单汉字抽词的办法来解决中文的全文检索问题。