视频多媒体数据存储新技术

  多媒体服务是Internet作为信息高速公路的未来发展方向,届时计算机网、有线电视、通讯网以及电台广播网多网合一时,Internet无疑将成为多媒体通讯的平台。在很,多领域中,多媒体信息服务都是非常必要的,例如远程教育、新闻娱乐、远程医疗、计算机协同工作、远程视频会议等等。目前在多媒体电子邮件系统、视频点播系统(VOD)、地理信息系统、计算机桌面会议系统、远程医疗诊断系统等方面已出现了一些成功的实例。随着多媒体技术及其支撑技术的飞速发展,其应用领域将越来越广,实用系统也会越来越多,因而信息量将会大幅度地增长,此时对信息进行快速高效的处理就显得非常重要了。

  多媒体数据是多种式样信息的载体,例如文本、图形、图像、声音等数据,其特点是:多媒体数据种类繁多(大多是非结构化数据),来源于不同的媒体,具有完全不同的形式和格式;多媒体数据量庞大:多媒体数据具有时间特性和版本概念,如在视频点播系统中必须考虑到媒体间以及媒体内部在时间上的同步关系。由此可知多媒体数据与传统的数值和字符不同,因而其存储结构和存取方式也具有特殊性,描述它的数据结构和数据模型也是有差别的。在这种情况下产生了一种全新的数据库系统一多媒体数据库系统。

  多媒体数据库是能够有效实现多媒体数据的存储、读取、检索等功能的数据库系统。它的主要特点是:首先,继承了传统数据库的一些优点,例如数据独立性、利用数据库查询语言进行高层次查询、并发控制、容错技术等等;其次它能对具有时空关系的数据进行同步和管理。

  但是目前对于多媒体数据库的功能以及实现方法还没有达成共识,因而出现了多种形式的多媒体数据库,并且实现方法也各不相同。从其总体发展上看,多媒体数据库的数据模型可分为三类:

  (1) 关系数据模型;

  (2) 面向对象的数据模型:

  (3) 超媒体数据模型。基于不同数据模型的多媒体数据库管理系统的功能也有很大差别,通常基于关系数据模型的多媒体DBMS可以实现多媒体数据的存取,对多媒体数据对象之间的语义关系、时态关系、空间关系不加处理,所以这部分工作就留给应用程序去完成了。面向对象的数据模型和超媒体数据模型可以支持多媒体数据对象之间的语义关系、时态关系、空间关系的处理,其抽象程度更高,但DBMS的实现也相对复杂。

  下面就对当前基于不同数据模型的多媒体数据库作一些介绍。

  1)关系数据模型:基于关系数据模型的多媒体DBMS是目前比较实用且较多的一类系统,典型的有DB2、ORACLE7及以上版本、INGRES6及以上版本以及Infomix-Online等,它们是在著名的商品化关系DBMS的基础上扩充了一种新类型的字段以支持多媒体数据的存取,对关系数据模型的基本结构不作改动。用户只能对字段的存在进:行查询,不能实现基于字段内容的查询。尽管如此,对于目前大量使用的是关系型数据库这一现实,这种方法无论是在开发成本上,还是在兼容性方面都是比较实际的选择。许多国内的多媒体数据库系统也采用了该方式,例如:清华紫光的ITbase、东大阿尔派的OpenBASE、华中理工大学的MDBMS等。

  2)面向对象数据模型:面向对象技术以其丰富的建模能力而备受青睐,它通过对现实世界的抽象描述而对各种媒体数据加以定义和操作。OMEGA(Objec-OrientedMultimedia-DatabaseEnviromentforGeneralApplication,用于通用应用程序的面向对象多媒体数据库环境)的设计者首先提出了一种可以控制多媒体对象之间时空关系的设想,为当前风靡一时的视频点播系统VOD奠定了基础。QBIC(QueryByImageContent,,通过图形内容查询)则是一个典型的图像管理系统,它提供了可视化查询语言可以完成基于内容的查询。它首先从数据库中提取一些典型的范例,然后用户选择一些范例提交给系统,最后由系统从数据库中抽取出所有可能匹配的图像呈现给用户。这种类型的数据库系统能够支持多媒体数据的一般特性,如颜色、形状、大小等,同时也可表达出媒体间时空的联系,但是这类系统大多是专用的,因为范例很难通用化。

  3)超媒体数据模型:超媒体是利用关系链来表示离散数据片断的方法。超媒体的数据片断可以是任何媒体形式的数据,如文本、图像、图形、声音、视像等。用户通过链,由一个信息结点转移到另一个信息结点,从而实现信息的查询。

  多媒体数据库中的关键问题:

  1)新的数据类型:每一种多媒体信息都要有自己的一组最基本概念(操作和功能)和一种高性能的实现,包括适当的数据结构和存取方法。面对各种新的数据类型,只能处理字符和数值的传统数据库显得力不从心了,这就要求产生一个专用于多媒体数据的新字段,该字段可以存储大数据量、非结构化数据对象,并且同其他字段一样通过DBMS可进行存储、查询、备份、恢复等操作。

  2)查询语言:查询语言是数据库系统极其重要的特性之一,是鉴别一个DBMS成功与否的重要依据。一个功能强大的查询语言有助于用户高效地操纵多媒体数据库,可以实现数据库与应用程序间的相互独立,并且对于用户是友好的。由于多媒体数据本身的特性,使得多媒体数据库对查询的处理与传统数据库大不相同。首先,查询结果的表达经常需要对连续媒体进行同步;其次,传统数据库只能处理精确的概念,而多媒体数据库的查询语言应不仅能用关键字进行检索,还可以处理基于内容的查询,即要求非精确的查询或模糊查询。

  下面讨论一下多媒体数据库的三种查询方法:关键字查询、可视化查询、语义查询。

  1)关键字查询是最简单的方法,它要求每个对象都带有精确描述其内容的标签或关键字,然后通过该关键字进行快速查询。在大多数的多媒体数据库系统中都采取了这种方法,主要原因是对于标准的SQL来说,这可以容易地实现。但是关键字查询也存在着缺点:关键字的准确性问题。在许多情况下,对于一幅图像很难用-个确切的词把它的内容描述出来,或者面对许多可以使用的词选取哪个也难达成-致的意见。关键字不能保存媒体之间的时空关系,也无法存储媒体本身的特性,在某些情况下不可避免的信息丢失是令人无法忍受的。因此,在许多系统中将关键字查询与其他查询方法一起使用,这样既可以利用关键字查询的简单和高效的特点,又可以实现基于内容的查询。

  2)由于多媒体数据的复杂结构和时空关系,可视化查询在多媒体数据库中显得非常重要。通常用户为了找到所需对象而放松查询条件或难于描绘一个对象时,就可能发出非确定性查询。查询的每个对象都有本身的相似范围,对象间的相似程度依权重而定。可视化查询不仅包括数字字符表达式,还包括非数字字符表达式,如图像、图标、样本帧等。可视化查询语言允许用户发出视图查询,并将其转化成低层的查询原语,所以可被看作是查询模型与用户间的接口,通过该接口,用户用不完全或相似的图片来实现模糊查询,如向一个图像数据库发出“寻找所有与该照片相似的人”命令,首先数据库把该照片中人的一些特点抽取出来,然后将这些特点加以转化,最后在数据库中进行查询。实现这一功能有两点要求:查询系统必须将模糊查询映射成内部查询表示,即把诸如颜色、形状等非精确定义的特征转变成低层查询原语可以处理的查询条件;必须对查询语言加以改动,在标准的SQL语言中不能允许模棱两可的查询语义,所以只有对查询语言加以扩展才能实现查询。首先,要提供实现模糊查询的运算符来计算不同对象间的相似程度,其次,查询时对多媒体字段不能使用GROUPBY、ORDERBY等子句。总的.来说,可视化查询对初学者非常有用,他们不必了解数据库的查询语言就能轻松地进行操作,对于那些有经验的人而言,在很难用数据库查询语言表达所要查询的对象的情况下,可视化查询也是非常有用的。

  3)语义查询(或基于内容的查询)是各种方法中最具挑战性的,它采用索引、模式匹配等多种技术。它要求数据库中信息的表示必须包括隐含或明显的语义,明显的语义可以通过声明的知识表达技术实现。一个对象的语义或内容可通过本身的性质和它与其他对象的关系表示出来,这些性质的识别依赖于多媒体数据的处理技术,包括图像处理、模式识别、语音识别、动态检测等。这些技术的目标就是从输入数据中精确地提取其性质。例如在一个图像数据库中,语义查询允许用户使用各种图像描述符,如颜色、材料、形状来进行信息的检索,这样通过图像描述符把-幅图像分解成一些独立的子对象而将其描绘出来。但是目前模式匹配的条件还不能很好地处理,模式识别的准确率也不是令人非常满意,因而DBMS模式匹配条件的查询,恐怕还得有待于其他领域技术取得更大的进展。

  由于多媒体字段的内容非常大,所以通常的日志和恢复机制就不再适用了。例如当一个事务把多媒体数据插入到数据库中时,则要求日志文件要非常大,才能记录这些插入操作,并且日志中记载的操作在事务提交前是保存在内存的缓冲区中的,这样就会经常造成缓冲区满而大幅度降低数据库的性能。因此,对于多媒体字段而言,其内容是不能记载在日志文件中的,进行插入或修改操作应直接写到数据库中。

  目前多媒体数据库的研究虽然有了很大的进展,但由于图形图像的检索的确存在很多待解决的问题,因此真正能商业上推广应用的还是很少。目前的多媒体存储很多还是基于文件系统的,如果需要检索,那么可以外加一个关系型数据库根据文件名来进行索引。例如IBM的比较成熟的VideoCharger视频点播系统就是采用了一种称为“多媒体文件系统(MMFS)”的特殊文件系统进行视频素材的存储,这种MMFS系统可以提供基于素材名等文本信息的检索,如果需要提供更多信息的检索功能,比如视频简介等,就需要另外再配一个关系数据库,VideoCharger中使用的是专门为此设计的DB2系统。另外一个著名的视频点播解决方案提供商Real也是采用了普通的文件系统进行多媒体数据的存储。