网站数据存储软件

2021-03-29 21:47 本网

目前计算机能处理的数据信息大体可以分为两类:-类是结构化数据，如数字、符号等;另一类是非结构化数据，如图像、声音和网页等。对于结构化数据，数据库存储技术发展到今天，关系型数据库已经成为处理结构化数据的首选产品，而且关系型数据库也是距今为止使用得最为广泛的数据存储软件。但是随着网络和软件技术的飞速发展，Internet时代的数据越来越显示出两个最主要的特点，即非结构化数据大量涌现和海量数据的产生。这对数据存储和检索技术提出了完全不同的新需求，集中表现在数据库管理系统本身的存储和检索技术上。特别是随着非结构化数据应用领域的不断拓展,擅长于处理结构化数据的关系数据库开始暴露出越来越多的局限，这些局限性也集中表现在对海量信息的存储和检索方面。

在数据检索方面，海量信息对查询速度有较高的要求，查全率、查准率是衡量检索效率的标准。我们知道，关系数据库的索引是基于B+树的方法，这种方法对海量数据的检索效率是非常低的，甚至几乎不可行。而产生于70年代主要针对数值和字符处理.的关系数据库模型由于当时应用的局限，在设计时几乎没有考虑到多媒体、网页等非结构化数据处理的问题，没有料到Internet会发展得如此迅速，没有料到会出现数据急速膨胀的局面。所以，关系数据库在Internet时代的非结构化数据和海量信息数据的处理方面存在着许多问题，特别是关系数据库对数据类型的处理只局限于数字、字符，对非.结构化信息的处理只是停留在简单的二进制代码文件的存储，已经不适应用户从原先数据的简单存储上升为对数据的识别、检索和深入加工的要求，基于Internet内容的应用尤其使关系数据库相形见绌。因此有人说，数据库技术将进入“后关系数据库时代”，进入基于网络应用和内容管理的非结构化数据库时代，数据的存储管理技术和检索技术也会随之发生相应的变化。

全文检索技术目前最常用的算法主要是采用自动标引的办法。自动标引涉及到切分技术，国内的TRS和天宇是这方面比较有特点的两种产品。另外一种典型的方法是单汉字抽词方法，以国信贝斯的iBASE数据库系列产品为代表。自动抽词技术是全文检索中非常关键的技术，对英文来说自动抽词非常简单，因为可以通过逗号或空格将词抽取出来，但对于中文来说则是非常麻烦的一一个问题。比如用户键入“中华人民共和国”，那么，做抽词的时候是按“中华”还是“中华人民”来做呢?这就涉及到汉语的自动切分和自然语言理解的问题，我们试图从内容管理角度用未知组配的算法来实现全文检索，采用单汉字抽词的办法来解决中文的全文检索问题。