DataV | 数据之路文章连载(一)——数据仓库

南京迪塔维数据技术有限公司,以数据之路为初心,自2014年成立以来,经过7年多的深耕,公司秉承着“孜孜问道,数业专攻”的理念,在数据技术上不断颠覆力求精进,在产品理念上也坚持了 “客户定义产品”的发展思路,逐步在数据技术和教育行业的交叉口站稳脚跟。

DataV | 数据之路文章连载(一)——数据仓库


          经过7年的发展与技术积累,公司在数据技术和数据相关产品上做了大量的创新和迭代,公司计划将于2022年3月发布DataV高校全域数据中心解决方案V4.0,最新解决方案会涉及数据治理方法论的系统化实现、实时数仓、数据资产化管理与服务、云原生架构等多个领域。

          在解决方案正式发布前,我们将多年来积累的理念与解决方案进行分享,欢迎转发、关注。本文作为系列文章的开篇,首先重点介绍数据仓库技术相关架构、概念和组成。

 

概念解读

01

数据仓库

          目前数据仓库的主流定义是数据仓库之父Bill Inmon在1991年出版的《Building the Data Warehouse》一书中所提出的。

          数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。

          根据定义,我们逐条解读一下数据仓库的特点如下:

          面向主题:数据仓库中的数据按照主题域进行组织、存储,非严格第三范式结构。

          集成的:分散的数据经过抽取、清洗后,经过系统加工、汇总和整理后,消除源数据的不一致性,形成整体的全局的信息。

          相对稳定:数据主要应用数据查询、分析、辅助决策类应用,进入仓库的数据一般会长期保存、相对稳定。

          反应历史变化:包含历史信息(常用的数据切片、快照及数据拉链技术),历史数据可追溯。

          看到上述的特征大家会发现,数据仓库的特点也正是目前数据中台和数据治理的核心建设目标。

 

02

数仓组成

          数据仓库结构包含:

          基础数据存储,主要特点支持海量数据存储,支持快速检索。

          数据集成工具,主要是ETL工具,以T+1的周期性同步、CDC增量同步、触发式实时同步为主,数据源最早定义为关系型数据库。

          元数据,数据仓库建模以星型模型为主,事实表+维表作为核心存储结构,多表之间星型或者雪花型结构延展。表模型数据、描述信息以元数据的方式抽象重构。

          可视化分析工具,主要是以T+1报表的形式,将数据仓库中的数据进行可视化呈现,例如经典的28分析、库存周转率分析、商品关联销售分析等。

          以上作为数据仓库的基础组成部分,在数据存储方面,数仓又逐步形成了一直影响至今的几个概念:

          数据集市:以一个业务场景或应用域为边界,构建出一个数仓子集,数据经过预计算后进行存储。

          ODS:用来存储来自各业务系统的原始数据,是数据仓库的前置库,主要用于业务数据备份及减少ETL的复杂度。

 

03

数仓的沿革

           随着技术的沿革,我们可以发现,数据仓库到大数据平台再到数据中台,各个基本架构依然存在,只是名称和功能外延发生了扩展。举例来说:

           ODS从最早的数仓前置库,逐步演进到现阶段的数据湖,贴源层这样的概念,数据内容从单纯的关系型数据,逐步扩展到日志、信号数据,音视频数据、图文数据等,但是其核心作用依然与ODS的定义保持一致。

           再比如说数据集市,在现在的中台架构中,数据集市逐步演变为了专题库、主题库的概念,但是本质依然是为数据价值萃取,数据分析可视化等目标服务。

           总结来说:

           数据仓库从提出概念到落地再到成熟,时间跨度上和Oracle从非主流到一统江湖的时间基本一致,在2010年左右数据仓库的建设理念在企业、政府、金融等领域不断落地、更新迭代,达到架构发展的顶峰时期。

           随着Hadoop开源大数据架构的推出,数据仓库理念的统治地位也和 Oracle数据库的地位一样,逐渐开始进入了下行阶段。

           然而,无论是大数据平台、数据中台还是数据库云都没有在本质上颠覆数据仓库架构,数据仓库的核心理念依然存在于各个最新概念当中,不得不承认其思想和架构的经典。

           迪塔维公司在创业伊始,有幸参与苏州市国税局的数据仓库架构体系建设,截止到目前为止公司也一直在参与江苏省税务局的数据仓库建设体系。

 

DataV | 数据之路文章连载(一)——数据仓库

基础架构图如图所示


           经过多年的发展,税务数据仓库体系的基础依然屹立不倒,依然作为目前大数据风险管理、税收风险识别等内部业务的主要支撑平台。

           但是,随着新兴技术的发展,原有数据仓库的核心组成部分已经发生了一些变化,这与高校信息化行业中数据平台的发展非常类似。   

           下一期我们将重点解读一下数据仓库技术在近20年间教育行业落地中的发展和变化。    

 

作者:王珂

上一篇:

下一篇:

相关新闻