加入收藏 | 设为首页 | 会员中心 | 我要投稿 南平站长网 (https://www.0599zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

《阿里大数据之路》第8章--建模综述

发布时间:2022-12-11 15:01:37 所属栏目:大数据 来源:未知
导读: 费曼学习法说最好的学习方法就是讲给别人听,最近在学习数仓的知识,那就从这本书《大数据之路:阿里巴巴大数据实践》开始吧。此篇《建模综述》是这本书的第八章,共以下五小节:
一、为什

费曼学习法说最好的学习方法就是讲给别人听,最近在学习数仓的知识,那就从这本书《大数据之路:阿里巴巴大数据实践》开始吧。此篇《建模综述》是这本书的第八章,共以下五小节:

一、为什么需要数据建模

二、关系型数据库系统和数据仓库

三、OLTP和OLAP系统的区别看模型方法论的选择

四、典型的数仓建模方法论

五、阿里巴巴的数据建模实践综述

一:为什么需要数据建模。随着互联网及其它信息技术的发展阿里云大数据,数据爆发式增长。从使用角度来看如何合理的存储数据,从而方便快速的查询所需要的数据,并且减少不必要的数据冗余提升使用体验就变得很关键。数据模型方法就是帮助更好的组织存储数据,以便在性能、成本、效率和质量之间取得最佳平衡。

二:关系型数据库系统和数据仓库。关系型数据库,是指采用了关系模型来组织数据的数据库,其以行和列的形式存储数据,以便于用户理解,关系型数据库这一系列的行和列被称为表,一组表组成了数据库。

数据仓库是决策支持系统(dss)和联机分析应用数据源的结构化数据环境。数据仓库的概念最早由比尔 恩门于1990年提出,主要功能仍是将组织透过咨询系统之联机事务处理(OLTP)经年累月所积累的大量资料,透过数据 仓库理论所特有的资料存储架构,做有系统的分析整理,以利于各种分析方法如联机分析处理(OLAP)和数据挖掘(Data Mining)之进行,进而支持如决策支持系统(DSS)、主管资讯系统(EIS)之创建,帮助决策者能快速有效的在大量的资料中,分析出有价值的资讯。

阿里云大数据_阿里云大数据应用学院_阿里云大数据

三、OLTP和OLAP系统的区别看模型方法论的选择。首先厘清两个概念,什么是OLTP和OLAP。OLTP,即联机事务处理,指利用计算机网络,将分布于不同地理位置的业务处理计算机设备或网络与业务管理中心网络连接,以便于在任何一个网络节点上都可以进行统一、实时的业务处理活动或客户服务。OLAP,即联机分析处理,是一种软件技术,它使分析人员能够迅速、一致、交互地从各个方面观察信息,以达到深入理解数据的目的。

OLTP系统通常面向的主要数据操作是随机读写,主要满足3NF的实体关系模型存储数据,从而在事务处理中解决数据的冗余和一致性问题;而OLAP系统面向的主要数据操作是批量读写,事务处理中的一致性不是OLAP关注的,其主要关注数据的集合,以及在一次性的复杂大数据查询和处理中的性能,因此需要采用一些不同的数据建模方法。

四、典型的数据建模方法论,主要有ER模型、维度模型、Data Vault模型、Anchor模型。

阿里云大数据_阿里云大数据_阿里云大数据应用学院

五、阿里巴巴的数据建模实践综述。阿里巴巴的数据仓库模型建设经历了多个发展阶段。第一阶段:完全应用驱动的时代,阿里巴巴的第一代数据仓库系统构建在Oracle上,数据完全以满足报表需求为目的,基本没有系统化的模型方法体系。这回收的数据架构只有两层,即ODS+DSS。第二阶段:随着业务快速发展,数据爆发式增长,性能成为一个较大的问题,因此引入MPP架构体系的Greenplum。同时阿里数据团队着手进行数据模型优化,希望通过模型技术改变改变烟囱式的开发模型,消除冗余,提升数据一致性。第三个阶段:阿里业务和数据还在飞速发展,自助研发的Maxcomputer也在紧锣密鼓的进行。拥抱分布式计算平台的同事,也在开始简历自己的第三代模型架构。于是选择Kimball的维度建模为核心理论的模型方法论,构建了阿里集团公共层模型数据架构体系。公共层建设的指导方法是一套统一化的集团数据整合及管理的方法体系,内部称之为“Onedata”,包括一致性的指标定义体系、模型设计方法体系以及配套工具。

(编辑:南平站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!