公务员期刊网 论文中心 正文

传统关系数据库与大数据库技术浅谈

传统关系数据库与大数据库技术浅谈

1引言

全球多家研究机构统计数据显示,大数据产业将迎来发展黄金期,IDC预计,大数据和分析市场将从2016年的1300亿美元增长到2020年的2030亿美元以上,中国报告大厅的大数据行业报告数据也说明,自2017年起,未来2-3年的市场规模增长率将保持在35%左右。大数据像空气一样,随处可见,日积月累的海量数据不得不让人们重新考虑大数据的存储和管理。

2传统关系数据库面临的挑战

基于二维关系模型的数据库在数据管理的发展历程中是一个标志性的时期,数据结构化存储,冗余较低、程序和数据具有一定的独立性、易扩充等特点。随着Internet技术的发展,涌现出半结构化、非结构化数据,对这些结构复杂的大数据的高效实时多维分析的需求越来越多。传统的关系数据库从70年展至今,虽然应用范围较广技术较成熟,但在处理海量数据方面还存在许多不足。(1)关系模型结构制约了快速访问大数据的能力。在二维关系表中,依据属性的值来检索相应的元组,受这种方式的束缚,在检索数据过程中,将耗费一定的时间,从而使访问数据的时间较慢。在存储对象设计上虽然可以使用分区的方法,提高数据访问冲突,但在大量数据的前提下,分区技术改善的性能较微弱。(2)处理大数据的灵活性不足。在应用系统中,用户的各种查询需求经常发生变化,不受时间和操作对象的约束,用户希望随时随地都能快速得到反馈结果。关系型数据库需要专门的数据库维护人员对用户的查询要求进行优化处理,不能及时的反馈给用户查询结果,这使得使用关系数据库存储数据的企业不具备对大数据的快速响应能力。(3)处理复杂结构数据能力较弱。关系型数据库对现实数据的处理常见类型为字符、数值等,对于半结构化和非结构化数据的处理只限于二进制代码文件的存储,而现今用户对复杂结构数据的要求上升为识别、检索和多维分析,如何处理占总数据量85%的非结构化数据,是许多关系数据库产品需要解决的问题。(4)存储维护管理PB级数据导致成本不断增加。数据量递增使得企业在硬件存储上投资不断增加,虽然存储设备的投入成本在逐步降低,但总成本却在逐步提高。此外,大量复杂结构的数据维护工作也给数据库管理员增加了很多负担。

3大数据库技术

随着大数据技术的日趋完善,各大公司及开源社区都陆续了一系列新型数据库来解决海量数据的组织、存储及管理问题。目前,工业界主流的处理海量数据的数据库有四种,分别是列式数据库、内存数据库、键值数据库及流式数据库。

3.1列式数据库

采用列族存储数据,将经常被使用的数据放到一个列族中,例如,经常会查询学生的学号和姓名,而不是专业,这样把学号和姓名放到一个列族中,专业放到另一个列族中,该数据库通常用来存储分布式大数据,HBase是列式数据库的典型代表。

3.2内存数据库

对数据库中所有数据的操作都在内存中完成,一般数据库也有一定的缓存机制,对大部分数据的操作都包含从外存到内存的读取,这一过程在很大程度上降低了系统的性能。由于在内存中的读/写是以纳秒为单位的,所以内存数据库的性能极高,Spark是内存数据库的典型代表。

3.3键值数据库

该数据库主要借助哈希表的结构,使用一个特定的键和一个指向特定数据的指针,利用键来完成对数据库中数据的添加、删除和查询操作,这种结构具有很好的扩展性,使系统具有较高的性能,Memcached、Redis、MemcacheDB都是键值数据库的典型代表。

3.4流式数据库

基本理念是数据的价值会随着时间的流逝而不断减少,因此,需要使式数据库来实现流式计算。流式计算处理模式是将源源不断的数据视为数据流,它总是尽可能快速地分析最新的数据,并给出分析结果,也就是尽可能实现实时计算。典型流式数据库:SparkStreaming、Storm。

4大数据SQL

大数据查询分析是基于互联网的相关服务的增加、使用和交互模式中的核心问题。由ApacheLucene的创始人DoungCutting使用GFS、Map-Reduce技术支持创建的ApacheHadoop,是一个能够对大量数据进行分布式处理的软件框架。Hadoop技术无处不在,其发展得益于Google发表的关于GFS和MapReduce的论文。在开源世界,ApacheHadoop的分布式文件系统HDFS和HadoopMapReduce完全是谷歌文件系统GFS和MapReduce的开源实现。Hadoop项目已经发展成为一个生态圈,触及了大数据领域的各个方面。由Google的BigTable和Amazon的Dynamo使用的NoSQL数据库,提倡使用非关系型的数据存储,这一全新的思维的注入,打破了关系型数据库管理系统在商用数据库领域几十年的统治性地位。

5小结

本文在分析了大数据研究现状后,对传统关系数据库面临的挑战进行了介绍,在此基础上研究分析了当前主流的大数据库技术以及大数据查询分析。对开发一个大数据库项目而言,技术是不断更新变换的,哪种技术能被使用的时间越久,关键在于谁的生态系统更强,能够高效的应对用户各种随机变化的需求。

参考文献

[1]刘鹏.大数据库[M].电子工业出版社,2018:1-27.

[2]胡世昆.分布式数据库技术在大数据中的应用[J].电子技术与软件工程,2019(01):153.

[3]蒋晖等.大数据技术概论[M].清华大学出版社,2017:38-42.

作者:翟霞 单位:哈尔滨华德学院