数据中台是什么?能发挥什么作用?
对最近很火的数据中台一些思考。
数据中台是什么?
Source
2015年全年产生的数据量等于历史上所有人类产生数据的总和,人类的数据增长正式从乘法型增长变成了指数型增长,海量数据处理成为了全人类的挑战。
阿里提出了DT时代已经到来:DataTech替代ITTech,强调数据驱动的重要性。
阿里走在了前面,阿里用几百人的团队支撑了几万亿的GMV,其中60%-70%来源于数据支持的机器决策,机器智能赋能业务,用更低的成本,更高的效率去服务顾客,提供个性化推荐。
阿里的数据处理经理了四个阶段,分别是:
一、数据库阶段,主要是OLTP(联机事务处理)的需求;
二、数据仓库阶段,OLAP(联机分析处理)成为主要需求;
三、数据平台阶段,主要解决BI和报表需求的技术问题;
四、数据中台阶段,通过系统来对接OLTP(事务处理)和OLAP(报表分析)的需求,强调数据业务化的能力。
第一个阶段到第二阶段很好理解,数据库阶段,简单的OLTP(OLTP强调高并发,单条数据简单提取和战士,后者对并发的要求并不高,后者是地并发,大批量,面向分析。)
第一次转型就是从数据库阶段走到了数据仓库的阶段。互联网数据里面数据量最大的是网页日志,90%以上的数据是非结构化数据,数据量已经到了TB界别,针对分析需求,诞生了数据仓库(DW),阿里的第一个DW是Oracle RAC搭建了DW,这个阶段DW支持的主要久食BI和报表需求。数据库这是也在从传统CB转向分布式DB。
第二次转型就是从数据仓库阶段到数据平台阶段,这个阶段解决的 还是BI和报表需求,但是主要是在解决底层的技术问题。也即是数据库架构设计问题。
第二次转型是数据从TB阶段走向了PB级别, Oracle RAC是基于IOE架构的,所有数据用同一个EMC存储。在海量数据处理上,IOE架构有天然的限制,不适合未来的发展。阿里巴巴的第一个数据仓库就是建立在Oracle RAC上,由于数据量增长太快,所以很快就到达20个节点,当时是全亚洲最大的Oracle RAC集群,但阿里巴巴早年算过一笔账,如果仍然沿用IOE架构,那么几年后,阿里的预计营收还远远赶不上服务器的支出费用,就是说,如果不去IOE,阿里会破产。 Shared Nothing的代表就是Hadoop。Hadoop的各个处理单元都有自己私有的存储单元和处理单元, Shared Everything一般是针对单个主机,完全透明共享CPU/MEMORY/IO,并行处理能力是最差的,典型的代表SQLServer。
所以第二次转型关键词就是去IOE,建立Shared Nothing的海量数据平台来解决数据存储成本增长过快的问题,在阿里巴巴,前期是Hadoop,后期转向自研的ODPS。
第四阶段就是数据中台服务,这个阶段的特征是数据量的指数级增长,从PB级别到了EB级别,未来会到什么级别,还不好说。
目前互联网是主力,15年之后,视图声数据指数级增长,未来90%的数据可能都是非结构化数据,这些数据需要CV等技术的解析,5G技术发展,可能会进一步方法数据的体量。
另一方面,从业务来看,数据也好,数据分析也好,最终都是要为了业务服务,也就是说,要在系统层面能把OLAP和OLTP去做对接,这个对接不能靠人来完成,要靠智能算法。
目前的数据中台,最底下的数据平台还是偏技术,是中台技术方案中的一个组件,主要解决数据存储和计算,上面是数据服务层,数据服务层通过服务化API能够把数据平台和前台的业务层对接;数据中台里面就没有人的事情,直接系统去做对接,通过智能算法,能把前台的分析需求和交易需求去做对接,最终赋能业务。
未来的数据中台,一定是「AI驱动的数据中台」,这个中台包括「计算平台+算法模型+智能硬件」,不仅要在端上具备视觉数据的收集和分析能力,而且还要能通过Face ID,帮助企业去打通业务数据,最终建立线上线下触达和服务消费者的能力。
真正做到「一切业务数据化,一切数据业务化」。
数据中台需要三种能力:
数据模型能力,AI算法模型能力,行业的应用能力。
Ex.
阿里中台全景图
基础设施服务,即IAAS层,提供硬件底层支持。
基础服务层,即PAAS层,包括分布式服务框架、分布式数据库、分布式消息、分布式存储、分布式事务、实时监控服务等等。
互联网业务中台,包括各服务中心的抽象出来的各种业务能力,包括交易中心、支付中心、营销中心、结算中心、用户中心、账户中心等等。也包括非业务类服务,如日志分析中心、配置中心、序列中心、基础中心。
业务应用,经过调取业务中台,组装形成独立业务服务能力的业务应用。
交易来源,就是前台用户使用的各个端,如淘宝App、PC站等。
数据量超EB,表数量超过百万。
PPT小结:
1、阿里业务中台架构图。阿里完整前后中台技术架构图。
2、业务中台化-产品形态。将商业基础形态和逻辑梳理出来,解构成业务“积木块”。
3、业务中台化-全局架构。建立中台的中心化控制单元,对中台有一个纵观全局的视图。
4、业务中台化 - 业务创新和智能化。业务中台化,汇集和沉淀业务逻辑和数据,对快速创新提供支持。
5、阿里核心业务架构。小前台、大中台、轻后台的相互支撑体系。
6、阿里数据中台架构。数据中台建设理论、方法和实践。
7、阿里技术全栈全景图。阿里的移动中台、业务中台、数据中台、技术中台。
8、阿里技术平台底座。阿里多年技术积累和沉淀,构建在阿里云之上。
9、阿里中台组织架构。阿里的中台战略,相匹配的组织架构升级。
10、业务中台建设路径。企业中台建设应遵循的3个步骤:决心变革、成功试点、持续融合。
11、企业中台战略4个升级。从战略、组织、流程、技术四个方面进行升级。
12、阿里中台的能力开放。基于阿里云、ET大脑、业务&数据双中台的能力开放。
13、阿里业务中台建设方法论。中台建设和基础协议、中心化操控单元。
思考
中台这个概念被炒作的恨火,然而究竟什么是中台,似乎并没有人给出一个明确的定义。
有的人把技术集成平台叫中台,都感觉很片面。
我查阅了很多资料,中台像业务发展遇到某一瓶颈的时候,为了解决实际问题提出的解决方案。
2018年9月,腾讯宣布组织架构调整,在原有七大事业部重新组织机构, 新成立了云与智慧产业事业群(CSIG)、平台与内容事业群(PCG),调整为新的6大事业群。而6大事业群紧紧围绕的,正是技术委员会充当“技术中台”角色。
同年12月18日,百度集团进行了一次大的架构调整,由百度创始人、董事长李彦宏发信宣布:”百度将打造AI时代最领先的技术平台,实现前端业务和技术平台的资源高效统筹及组织全面协同。”
3天后的12月21日,京东集团人力资源部发布关于京东商城组织架构调整的公告,公告内容称:“在新的组织架构下,京东商城将围绕以客户为中心,划分为前中后台。中台为前台业务运营和创新提供专业能力的共享平台职能。”
建设方法:
阿里:业务数据双中台;移动中台;技术中台。
腾讯:业务中台和数据中台。
百度:搜索中台
京东:数据中台
阿里数据中台概念提出这么久了,我看了这么多资料,对中台的定义大多是一家之言,我个人观点:中台是阿里为了两个目的提出来的概念,第一个目标是大企业的尾大不掉,第二点是数据驱动价值。
第二点在电商领域的价值已经不用多提,第一点可能是他觉得阿里必须要克服的问题。
说实话,具体的落地可能都还在摸索之中,先把这个概念拿出来炒作挺离谱的。
时间过了挺久了,这边我对中台和最新的数据湖有很多新的理解,后面会添上…
特性 | 数据仓库 | 数据湖 |
---|---|---|
数据 | 来自业务系统、运营数据库和业务线应用程序的关系数据 | 来自IoT设备、网站、移动应用程序、社交媒体和企业应用程序的非关系型和关系数据 |
Schema | 设计在数据仓库实施之前(写入型Schema) | 写在分析时(读取型Schema) |
性价比 | 更快查询结果会带来较高存储成本 | 任何可以或无法进行监管的数据(例如原始数据) |
数据质量 | 可作为重要事实依据的高度监管数据 | 任何可以或无法进行监管的数据(使用监管数据) |
用户 | 业务分析师 | 数据科学家、数据开发人员和业务分析师(使用监管数据) |
分析 | 批处理报告、BI和可视化 | 机器学习、预测分析、数据发现和分析 |
在数据湖中,我们直接添加RAW数据(原始数据),具体的规则我们可以在数据入湖之后根据各种需要来处理。
更新于 2021 - 1 - 28
现在阿里已经公开宣布拆分中台,宣告了中台战略的失败,回过头来看 中台很有一点噱头的意思,把平台做成中台的概念推出去。