DataV | 数据之路文章连载(二)——共享数据平台

共享数据平台&主数据平台

在DataV数据之路文章连载第一篇关于数据仓库基础概念介绍的文章中,我们提到数据仓库的理论自始至终贯穿了数据技术的整个发展脉络。在教育信息化领域中,数据仓库的落地和演变过程也很有既视感。

启蒙阶段:共享数据平台

在2000年-2010年(粗略估计,不要抬杠),教育信息化整体处于启蒙阶段,被广泛认可的建设方针是“硬件集群、数据集成、应用集中”,在这样的指导方针下,教育信息化软件诞生了三大平台“共享数据平台、身份认证平台、信息门户平台”,一直到现在,三大平台的理论基础依然存在。根据软文的主旨,这三大平台当中,我们只聊聊共享数据平台。

高校共享数据平台作为三大平台之一主要有以下定位:

目标作用:打通数据孤岛、实现数据共享。

核心技术:ETL、ESB。

建设效果:基本实现了教职工、学生以及身份信息的集中存储,实现身份数据的共享和同步。基本实现了统一数据标准(落地强的高校),但绝大多数落地场景只完成了学号、工号、组织架构编码等基础校标的制定。先后形成了两个版本的教育信息化国标版本,在高校初步形成了“数据仓库明细表”的模型。

主要采用的工具:Oracle或IBM的数据仓库构建工具,例如OWB(OracleWareHouse Builder),数据集成工具例如ODI(OracleData Integrator)、应用集成工具例如OSB(OracleService Bus)。

主要遇到的问题:

A、很多高校都会提出为什么要落地、冗余存储一份共享数据?因为当年的存储计算资源贼贵,而共享库中间要落地一次数据导致数据交换延迟,还造成存储冗余带来额外的开销。一般的可接受的回答是:按照2002年第一版试行的教育部《教育信息化行业标准》要求,对上可以用于数据上报,对中可以屏蔽业务源头数据的结构变化(例如更换了系统),对下可以实现标准数据下发、订阅,冗余本身也是数据仓库的核心理念。

B、哪些数据应该作为共享数据?对于“共享”二字没有标准,甚至没有理论依据,所有数据共享按需分配,每个学校90%以上的共享都是人员基础信息,而大量的业务数据在共享数据平台中并没有得到共享,究其原因主要还是当时高校信息化还停留在“面向管理”的阶段,更多的割裂式闭环管理,对共享和交换的诉求并没有那么强烈,所以共享数据只是一个图腾,无法用现实刻画。这时数据仓库的ODS层的理念被派上了用场,共享库被定义为ODS,业务数据都应该存进来,这个理由也基本上模糊了啥是共享数据的问题,总之基本上被接受了。

C、增量及变化数据同步如何处理?在“共享数据平台”时期,各个厂商都会遇到“准实时”、“增量及变化数据同步”的场景,最典型的就是基本信息(Oracle数据库居多)与统一身份认证(LDAP数据存储居多)之间的同步问题,总之八仙过海各显神通,例如借助Oracle数据库minus函数,通过一张临时基本信息表用于比对变化,短周期内实现数据同步等等,但基本都会依托数据库自身的能力,很难形成“完美”的解决方案。针对这个问题,还是数据仓库理论特性出来救场,T+1,完美的阐述了共享数据库就是一个自带延迟的体系。

DataV | 数据之路文章连载(二)——共享数据平台
2008年共享数据平台某应用场景

在共享数据平台建设的阶段,迪塔维公司的创始人和核心骨干都参与其中,印象最深刻的是复旦大学共享数据平台,学校先后在DB2和Oracle之间做了多次的验证切换,核心的共享交换工具从OWB到ESB最后到ODI,逐步形成了教育信息化共享数据平台的建设标准。记得我当时也参与了教育部标准制定的意见收集,复旦大学依托自身多年的共享数据建设经验,为教育部2012年《教育信息化行业标准》提供了多个业务域的数据模型建设标准,成为当时的高校信息化建设的引路人。

发展阶段:主数据平台

以上是最早的高校数据中心建设方案的介绍,在共享数据平台之后,出现了主数据平台的概念,我就不再详细展开介绍了,因为主数据平台和共享数据平台之间的区别只有两点:

由虚到实:给共享数据下了一个定义,解决了什么数据是共享数据的问题,称之为主数据。其实主数据是有标准定义的,也是数据仓库中的一个概念,准确且通俗的来说,主数据就是各个业务系统之间交集的合集。明白了吧?说穿了还是需要共享的数据的合集,还是按需定义。

由分到合:主数据合并了信息标准、元数据、数据共享订阅等共享数据平台阶段产生的各个分散的子模块,变成了一个完整的数据资源管理平台,简称主数据平台。

DataV | 数据之路文章连载(二)——共享数据平台
2016年迪塔维主数据平台1.0版本

所以,主数据平台与共享数据平台对比,并没有质的突破,只是版本功能升级。高校信息化数据建设的真正突破和爆发是在2015年前后,随着Hadoop架构和大数据相关技术基本成熟,逐渐开始了快速的架构和技术升级,迎来了一波大的突破,具体情况我们在下一期的软文中继续为您介绍。

作者:王珂

上一篇:

下一篇:

相关新闻