• 休闲生活
  • 教育教学
  • 经济贸易
  • 政法军事
  • 人文社科
  • 农林牧渔
  • 信息科技
  • 建筑房产
  • 环境安全
  • 当前位置: 达达文档网 > 达达文库 > 政法军事 > 正文

    基于分布式数据库的ROLAP数据自助分析系统的研究与应用

    时间:2021-04-12 07:52:26 来源:达达文档网 本文已影响 达达文档网手机站

    摘 要:文章通过对某保险公司的分布式数据库架构下数据自助分析平台中的应用方案进行研究与应用,提出在自助分析系统中使用分布式MPP数据库进行海量数据处理的思路,对开源分布式数据库GreenPlum进行了重点分析,同时结合ROLAP自助分析系统的功能特点,给出系统部署的应用建议。研究内容对于分布式数据库在大数据决策分析系统的落地具有一定的实用价值。

    关键词:分布式数据库;BIG LAKE;ROLAP;数据分析

    中图分类号:TP311.1 文献标志码:A 文章编号:2095-2945(2018)11-0055-02

    Abstract: Through the research and application of the data self-help analysis platform under the distributed database architecture of an insurance company, this paper puts forward the idea of using distributed MPP database for mass data processing in the self-help analysis system, analyzes the open source distributed database GreenPlum emphatically, and through the function characteristics of ROLAP self-help analysis system, the application suggestions of system deployment are given. The research content has certain practical value to the distributed database in big data decision analysis system landing.

    Keywords: distributed database; BIG LAKE; ROLAP; data analysis

    1 概述

    近幾年,随着移动互联网的高速发展,大数据、云计算等新技术的不断推进,保险公司面临着海量的数据处理、复杂的数据结构分析、精细化业务需求、平台能力开放共享等多重压力,所以需要先进的技术,搭建公司全新的大数据处理平台及自助分析系统。国内外有一个非常火热的词汇“BIG LAKE”(数据湖泊),目的是不需要再对数据像以前那样经过定制,生成特定的业务报表,而是要保存原始数据,什么时候想分析就从原始数据上直接处理。依托云计算分布式数据库技术,处理、整合海量数据,实现原始清单粒度的ROLAP技术的自助分析系统,将会极大提高数据挖掘的价值,为企业经营提供决策、营销、服务建议的支撑工作。

    2 云计算下的分布式数据库

    2.1 SQL on Hadoop和MPP技术选型

    数据仓库是数据分析类系统的核心,传统数仓一般采用完全共享的架构部署,随着存储数据的增长,性能负载将急剧增加,导致存储I/O瓶颈、系统应用加载时间长等问题。作为IT的最新演进成果,大数据分布式数据库技术已成为一系列可能改变未来生活和企业发展技术的基石,选型上有Hadoop(分布式系统基础架构)、MPP(Massive Parallel Processing,海量并行处理结构)架构两种技术架构。这两种都可处理大规模数据的并行计算,共同之处在于:

    (1)存储数据分布在多个节点服务器上。

    (2)支持横向扩展来提高整个系统的计算能力和存储容量。

    (3)采用分布式并行计算框架。

    (4)支持X86开放集群架构。

    但在数据存储、计算方法、效率、功能上,也存在明显差异:

    (1)MPP按照关系数据库行列表方式存储数据(有模式),Hadoop按照文件切片方式分布式存储(无模式)。

    (2)数据分布机制不同,MPP采用Hash分布,计算节点和存储紧密耦合,而Hadoop按照文件切块后随机分配,节点和数据无耦合。MPP采用SQL并行查询计划,Hadoop采用Mapreduce框架。

    (3)MPP数据库在计算并行度和算法上比Hadoop效率更高且灵活。在同样的环境下测试对比中,Mapreduce对单表的计算尚可,但对于复杂查询,如多表关联等,性能很差。

    (4)MPP数据库采用SQL作为主要交互式语言,SQL语言简单易学,大幅简化了数据的操作和交互过程。而对MapReduce编程明显是困难的,这几年SQL-on-HADOOP技术大量涌现出来,这些技术包括:Hive、Impala、SPARK SQL等,虽然易用上有所提高,但仍与MPP数据库有较大差距。SQL-on-Hadoop大多不支持数据局部更新和删除功能(update/delete),基本上都缺少索引和存储过程等特征综上,MPP在更灵活,适合于统计分析一类的业务场景,结合我公司的自助分析系统的应用场景,选用开源的MPP软件GreenPlum作为系统的分析引擎。

    2.2 开源分布式数据库GreenPlum

    GreenPlum(简称:GP)数据库也是关系型数据库,是由数个独立的数据库服务组合的分布式逻辑数据库,GP于2016年开源。GP的基本组件为Master节点、Segment节点以及它们之间的高速互联网络。Master节点是访问入口,负责处理客户端的连接和SQL命令入口,在Segment节点之间分配工作负载,整合Segment处理结果并将最终结果呈现给客户端程序。Segment节点负责数据存储和查询,由Master生成执行计划,处理逻辑数据,并将结果返回至Master,节点间可通过高速互联网络进行彼此的数据交互。

    GP能够提升大数据分析的处理能力,关键原因有两点:一是采用MPP并行处理架构,使得对大数据量的处理工作可被分配至多个Segment并行执行,发挥了并行计算的性能优势;二是采用完全不共享的数据库体系,使得每个Segment都具有独立使用的磁盘子系统及数据传输通道,数据存取的I/O能力强。

    3 ROLAP自助分析系统的规划与设计

    OLAP技术一般分为ROLAP和MLAP两种,ROLAP技术扩展性更好,可以在不影响模型的情况下无限扩展指标和维度,数据加工负担小,适合快速迭代的数据分析场景特点。ROLAP自助分析是一种敏捷灵活的分析方法,简化了用户对多样化信息的访问,为数据分析和挖掘创造了良好的条件。

    结合我公司保险大数据的业务场景需求,基于ROLAP的思想,可以将清单粒度的业务指标和维度数据放在分布式GP数据仓库存储,同时为用户提供一个灵活定制的前台功能,前台采用B/S架构,展现层采用HTML+CSS+JS等语言开发,服务器端以JAVA、SQL等语言处理业务逻辑及数据的抽取、清洗采用Mybatis技术框架,前后台独立开发。

    用户可以对单指标或多指标组合,系统随之自动生成动态SQL逻辑,利用强大的分布式数据库GP的并行查询优势,快速在前端生成数据分析结果。在设计过程中,为达到最优的效率以及灵活可扩展,我们采用独创的一指标一事实表的数据存储模型方式,对查询接口方面做了大量优化,更是引入Redis缓存数据库,在数据分析效率方面也是表现极佳。图2是自助取数分析的逻辑关系图。

    4 结束语

    大数据时代,全球数据生产量在高速增长,数据将改变企业的传统业务模式,对系统提出新的挑战。传统数据处理技术在原始清单粒度的数据分析应用中出现了明显的性能瓶颈,用户无法灵活自主,快速的获得想要的信息。而MPP数据库具有很强的大规模并行数据分析处理能力,能够解决数据量过大后系统处理能力低效、数据加载耗时较长等问题,因此基于大数据分布式数据库技术实现ROLAP自助分析,将使我们的业务人员对数据仓库中的指标和维度进行提取和拖拽分析,3-5分钟便可以满足任务数据需求,快速、灵活、敏捷地发现以前无法得到的分析方向,为业务人员开启了数据世界的自由掘宝之旅,真正实现大数据时代业务数据分析的新模式,最终让公司在市场竞争中更具活力。

    参考文献:

    [1]魏进武,靳淑娴,张基恒.大数据关键技术及运营商落地建议[J].邮电设计技术,2015.

    [2]刘玮.企业的变革思维——大数据时代的来临[J].办公自动化,2014.

    [3]何清,庄福振.基于云计算的大数据挖掘平台[J].中兴通讯技术,2013.

    [4]IT架构设计研究组.大数据时代的IT架构设计[M].北京:电子工业出版社,2014.

    [5]萨师煊,王珊.数据库系统概论[M].北京:高等教育出版社,2010.

    [6]Hive DB. http://www.hivedb.org[EB/OL].

    [7]邵佩英.分布式數据库系统及其应用[M].科学出版社,2005.

    相关热词搜索: 分布式 自助 数据库 分析 数据

    • 生活居家
    • 情感人生
    • 社会财经
    • 文化
    • 职场
    • 教育
    • 电脑上网