(077) Hbase中若干DML模块的实现

【摘要】步入新世纪,关系数据库管理系统产品日趋成熟。为适应时代发展的需要,许多新型数据库模型应运而生,时态数据库便是其中一份子。时态数据库是人类创造力在时间维上的延伸,旨在高效地存储和利用时态数据,它在自然现象观测、自然灾害对策、古地质研究、考古和金融股票方面的应用在国外已经开始试用,并不断有原型和报告发表。本文所涉及到的Hbase便是一个32兆内存模拟时态主存数据库的原型。Hbase从第一次用Pascal语言在DOS平台上开发到现在用Visual C++ 5.0在Windows 95平台上开发,经历了三次升级。而且还以Hbase for Windows 2.5版为核心,与**科技情报所合作,成功地开发了一个Internet机器翻译系统,即信译系统。
  数据操纵语言是一个数据库管理系统的重要组成部分,用户通过这些语言对数据库进行修改。数据操纵语言使用方便、快捷与否,直接影响该数据库管理系统的市场前景。在Hbase的移植过程中,本文主要做了以下工作:
(1) 介绍Hbase的背景和结构体系;
(2) 改造、调试工具模块;
(3) 分析工作区模块;
(4) 讨论数据操纵语言的开发方法;
(5) 改造、调试数据操纵语言的连接模块;
(6) 改造、调试数据操纵语言的投影模块。

【关键词】时态数据库 数据操纵语言 连接 投影 移植

【Abstract】Relational Data Base Manage System has been more ripened since 1990. For the time’s development , many new data base models were introduced , such as Temporal Data Base Manage System ( Temporal DBMS ) . Temporal DBMS is the extension of human creativity in time dimension , with the ability of storing and using temporal data efficiently . Its application on the observation of natural phenomenon , the tactic of handling the natural disaster , the research of the antiquity geology , archaeology , finance and stock , had being in use on aboard , further more many prototypes and reports had been published successively . Hbase , which is introduced in this paper , is just a prototype of Temporal DBMS over 32M memory platform . Its first version was completed by Pascal in DOS , but its latest version is to be achieved by Visual C++ 5.0 in Windows 95 . In the cooperation of SiChuan Union University and SiChuan Science and Technical Information Institute , we successfully developed an Internet machine translation system called Xin Yi System based on Hbase for Windows 2.5 .
  Data Manipulation Language ( DML ) is one of the main component of DBMS , and users can use it to modify DBF directly . The friendliness and performance of DML influence the prosperity of this DBMS’s market . In this transplant , the main contribution of this paper are :
(1) Introduce the background , construct system of the Hbase ;
(2) Modify and debug the Tool model ;
(3) Analyses the WorkArea model ;
(4) Discuss the method to develop DML ;
(5) Modify and debug the Join model of DML ;
(6) Modify and debug the Projection model of DML .


目 录
一、引言-----------------------------------------------------------------------------1

二、Hbase的体系结构----------------------------------------------------------1

三、Hbase模块的组织原则-----------------------------------------------------2

四、Hbase中的DML------------------------------------------------------------4

五、与DML相关的模块及数据结构------------------------------------------4

六、 开发DML模块的方法 ----------------------------------------------------6

(一) 连接操作的实现--------------------------------------------------------8

1、 连接操作的基本原理---------------------------------------------8

2、 Hbase中的Join的命令格式------------------------------------8

3、 主要函数------------------------------------------------------------8

4、 连接算法调用关系图---------------------------------------------9

5、 连接算法------------------------------------------------------------9

6、 移植中遇到的问题及解决方法--------------------------------11

(二) 投影操作的实现-----------------------------------------------------12

1、 投影操作的基本原理--------------------------------------------12

2、 投影操作的两个重点--------------------------------------------13

3、 实现时的特殊问题____投影有可能产生重复元组--------13

4、 投影操作中函数调用关系图-----------------------------------14

5、 投影算法----------------------------------------------------------14

6、 移植中遇到的问题及其解决方法-----------------------------16

(三) Tools模块的调试---------------------------------------------------17

七、小结-----------------------------------------------------------------------------19

一、引言
  1979年,E.F.Codd在著名的“大型共享数据库的数据关系模型”一文中提出了关系数据库模型,开创了数据库研究的新纪元。经过一大批计算机科学家多年的努力,关系数据库以其简单、灵活、数据独立性高、理论严格等优点表现了强大的生命力,与此同时,数据库设计方法得到进一步完善。进入90年代,分布数据库管理系统产品逐步走向成熟,富于远见的理论家们纷纷考虑、研究和开发新的跨世纪DBMS。演绎数据库,时态数据库,图形数据库,工程数据库,主动数据库,主存数据库,多媒体数据库,面向对象数据库等等,几十种新型数据库模型被提出来,其中面向对象数据库后来居上,显示了巨大的活力和光明的前景。随着Internet的出现和迅速发展,网上信息海洋的管理问题被提出来,数据仓库( Data Warehousing ),数据挖掘 ( Data Mining ) ,Web数据库等新的方向的研究在国外也相继展开,国内许多数据库科学家也开始了这些方面的理论研究和产品开发。
  本文涉及的Hbase for Windows是Hbase基于Windows平台开发的升级版。Hbase是国家自然科学基金资助项目。H即History(历史)之意。该项目的最终目标是开发一个能处理历史性时间和知识的时态数据库管理系统,即Temporal DBMS。时态数据库( Temporal DBMS) 是人类创造力在时间维上的延伸,旨在高效地存储和利用时态数据。它在自然现象观测,自然灾害对策,古地质研究,考古和金融股票方面的应用在国外已经开始试用,并不断有原型和报告发表。本项目实现的Hbase是一个32M内存模拟时态主存数据库的原型。
  Hbase for Windows 2.5版是用Borland C++ 4.5开发的,在默认方式下,按普通数据库管理系统的方式工作。当在Config.HDB文件中设置TempoDb=On,或用命令Set Tempo=On后, 才按时态数据库方式工作。以该版本为核心,与四川省科技情报所合作,成功开发了一个Internet机器翻译系统,即Xin Yi系统。目前已推出的Xin Yi 4.0版能够从Internet上抓取任一Web页,并对其进行同步翻译,可以很好地保持该Web页面的格式和链点。该产品在市场上已取得一定的效益,其相关成果在国内外引起同行的关注。
  Hbase for Windows,作为一个应用系统,要不断地升级,适应时代、市场的需要才能有所发展。缘于Visual C++ 5.0强大的开发应用工程的能力,为将来的升级做好准备,我们决定将其移植到Visual C++ 5.0上。本人在其中主要担任了DML(数据操纵语言)的Join(连接)模块、投影模块,以及工具模块的移植工作。在理解大部分模块的基础之上,改造并调试了以上三个模块,共涉及程序3000余行,函数150多个。

二、Hbase的体系结构
  在不同的历史背景和技术条件下,数据库专家们提出了不同的体系结构,其目的是为了保证数据库的共享性。1971年,CODASYL下属的数据库任务组(DBTG)提出子模式、模式、和存储模式三级的体系结构,它仅仅保证了设备的独立性和数据完整性,缺乏数据的独立性。1975年,ASNI / SPARC提出了另一个三级结构,即由外模式、概念模式和内模式组成的体系结构。J.D.Ullman于1984年在对DBMS一般结构的描述上综合了数据流和控制流观点,其结构如图1所示。几乎每一个具体的BDMS产品都是在上述结构的大框架下,添加表现开发者特色的模块。


                图1.DBMS控制流和数据流结构

  DBMS复杂而繁多的功能。图2是DBMS的一个具有普遍性的层次结构:

.. ...       ... ...
 
... ...       ... ...
 
【论文说明】该论文包含DBMS控制流和数据流结构图、Hbase各部分支承关系图、部分算法,Word格式,文件大小174K,字数1.1万,按计算机毕业论文格式要求书写,适用于计算机专业!

返回论文

 

关于本站  |   联系我们  |   获取方式  |   常见问题  |   网站地图
版权所有:计算机论文网