新闻动态 > 从Gartner Hype Cycle 2021报告看湖仓一体的未来发展

从Gartner Hype Cycle 2021报告看湖仓一体的未来发展

 2022-04-12
官网小杉树.png

1.前言



Gartner 2021年度数据管理领域的成熟度模型报告—Hype Cycle中,「湖仓一体」(Lakehouse与Edge Data Management、Intercloud Data Management、Active Metadata等新兴技术一起,成为了首次进入成熟度模型的五个新军之一,备受业界关注。

自1995年开始,Gartner开始采用技术成熟度曲线,来分析各行业的发展,针对技术创新的发展趋势进行评价和预测,即如何从启动开始,历经泡沫、低估、爬升阶段,最终进入成熟发展模式。

1999年,Gartner发布的电子商务技术成熟度曲线,准确预测了2001年的网络泡沫破裂以及电子商务的最终“回归正常”,因此,Hype Cycle报告在业界有着非常高的权威和参考价值。该报告旨在帮助人们理解新技术在市场、专业领域内的价值及角色定位,也常被用来辅助技术决策人员,规划技术方面的选型和投入。

近1-2年,「湖仓一体」已经成为了新兴的技术热点。通过本文,我们透过Gartner的评测模型,一起感受「湖仓一体」未来的发展。


1.png

官网小杉树.png

2.Hype Cycle 2021


Hype Cycle 2021评测图表如下:

2.png
图一:Hype Cycle for Data Management 2021,成熟度曲线
曲线的坐标为“时间”,表示技术将随时间发展经历的阶段。纵坐标为“预期”,即受关注程度,代表市场对技术未来价值的预估。坐标点的形状,代表该技术进入成熟期的预计时间。

在Gartner模型中,可以从两个维度来量化新技术的成熟度:功能丰富性和主流性。Gartner认为,新技术从诞生到最终成熟商用,一般都会经历5个阶段:

3.png

技术成熟度曲线的不同形状呈现了响应技术在发展过程中的价值预期随时间的变化情况,能够准确地反映随技术发展出现高峰的更深层根本原因和性质。

在Gartner看来,如今整体上数据管理技术已经逐步趋于成熟,其中大约有一半都处在爬升期。这些进入者中的大多数将在两年内进入稳步发展的成熟期。这意味着,技术决策者们,可以优先考虑采用这些新技术,因为相对较高的成熟度,即具有很高的业务价值和最小的技术风险。

关于数据仓库架构,Gartner认为,LDW(逻辑数据仓库)已成为最主流的数据仓库架构。这是因为它可以灵活适应许多架构变化,通过其逻辑层,将底层复杂且差异化的数据仓库环境实现统一。而作为数据仓库架构的重要组件,Data Lake、Data Hub Strategy和Lakehouse,还有较长的路要走。
(注:在成熟度曲线中,三者的定位为:Data lake-即将走出低谷期,走向成熟;Data Hub Strategy-经过泡沫期的爆发,正走向低谷期;Lakehouse-仍处于启动阶段,是等待探索的新技术)

4.png

官网小杉树.png

3.Gartner对于「湖仓一体」的分析


定义:
重要意义:
商业影响:
技术驱动力:
主要难题:

官网小杉树.png

4.「湖仓一体」在国内外的技术探索


在我看来,「湖仓一体」的出现,降低了大数据分析的技术复杂度和成本,同时满足了用户对性能和易用性的更高要求。


在艾瑞发布的《2021年中国数据库行业研究报告》中,「湖仓一体」也被看作是未来数据库发展的新趋势。


5.png

6.png


在国外,Snowflake、Databricks等数据库公司,作为「湖仓一体」理念的先行者,凭借其前沿的技术特性和丰富的技术生态,获得了迅猛发展,已经成为了「湖仓」领域的技术引领者。国内方面,巨杉SequoiaDB作为原生的分布式数据库,凭借多年的产品打磨和行业深耕,已经有了较为成熟的「湖仓一体」落地案例。


此外,随着越来越多企业客户的IT架构从本地数据中心转向云端,云原生正在成为新一代数据架构的主流标准,大数据领域也将加速“一体化”新方向的演进。各大云厂商陆续提出自己的「湖仓一体」技术方案,同样受到了业界的普遍关注,我们也因此看到了更多的技术探索案例。



4.1 Snowflake


Snowflake,是完全构建在云上的企业级「湖仓一体」解决方案。它基于云环境进行了根本性地重新设计,处理引擎和其他大部分组件均为自主研发。Snowflake从2012 年开始投入研发,到 2015年6月完成了初步商用。目前,Snowflake 已经被越来越多的组织采用,每天承载PB级的数据存储及超过上千万次的查询。


Snowflake本是「云数仓」提供商,主要面向结构化及半结构化的数据分析。伴随着Lakehouse概念的诞生,Snowflake逐步增强其数据湖相关能力,例如第三方数据源接入、IoT/流处理等多种工作负载,以及已经实现的跨云部署等。2021年6月,Snowflake更正以Private Perview的方式对部分客户提供Unstructured Data非结构化数据的存储及处理能力的技术预览,以解锁全新的数据价值。


7.png



4.2 Databricks


Databricks早期,是将Azure的云存储挂载为DBFS(Databricks File System),借助Spark的计算实现基本的表存储和SQL简单处理。而到了现在已经提供了基于SQL/Python/R/Scala的成熟BI工具,并在AI和ML的扩展支持方面做了大量的投入。


Databricks现已经支持AWS、Azure、Google三家公有云,且部署在全球超过50个Region。相比于Snowflake,Databricks的发展路径,更接近于从数据湖逐步走向「湖仓一体」。Delta Lake 及 Delta Engine是Databricks的两大重要组成部分。


Delta Lake作为可靠的开源存储层,与 Apache Spark API完全兼容,提供ACID事务,且支持可缩放元数据处理、版本管理、Schema管理、审计等一系列数据管理功能等,可轻松实现流处理和批数据的统一。此外,可以根据实际工作负载对Delta Lake进行灵活地配置。


Delta Engine作为高性能的数据处理引擎,提供了对Apache Spark的良好兼容性。Delta Engine在数据查询方面的全面优化,可加快数据湖的操作效率,并支持丰富的工作负载类型,从大规模ETL处理到交互式查询均可胜任。Databricks典型部署架构如下:


8.png



4.3 巨杉SequoiaDB,湖仓一体数据平台


基于100%自研的分布式数据库内核,巨杉数据库SequoiaDB提供了「湖仓一体」数据平台。目前在银行、保险、证券等各行业,已经拥有丰富的最佳实践及案例,帮助客户构建起数据平台最佳底座。

9.png



巨杉数据库基于「湖仓一体」的架构特性,构建数据基础设施平台,整合结构化、半结构化、非结构化数据的统一存储与管理,为面向全量数据业务提供:SQL、NoSQL、Object多种接口。
此外,通过特有的跨引擎事务能力,可以有效简化多团队开发流程中对不同引擎、不同结构的数据管理,打通ACID事务支持,提升业务开发、数据处理、运维管理能力,释放全量数据价值,提升企业数据处理的“人效”及“能效”。


10.png



在金融银行业生产环境中,最早的巨杉数据库集群已经连续运行超过7年,最大单客户集群规模达300台物理服务器,所管理的单集群最大数据量达到1.2万亿条,助力客户实现提升数据管理水平、降低成本、提升运营效率、提升用户体验等目标。
官网小杉树.png

5.结语


伴随着20年的大数据发展史,我们看到了数据湖与数据仓库的不断发展和创新,业界也认识到以湖仓一体化为核心的技术架构,对企业大数据的价值发挥带来了更为重要的现实意义。


数据湖和数据仓库,原本是大数据技术条件下构建分布式系统的两种数据架构设计取向。而融合后的「湖仓一体」,为业界和用户展现了一种「湖」与「仓」互相补充、协同工作的架构。


11.png


在“2021年大数据前沿技术及产业论坛”中,报告《研究大数据产品融合演进之路》指出:在数字化驱动下,「湖仓一体」或将成为大数据技术发展的下一跳,而支撑这一技术架构的基础,将是如何更好地将数据湖和数据仓库的能力相结合,具备完善的数据存储及高性能的联机处理能力。

毫无疑问,「湖仓一体」代表了未来技术演进的方向。未来,「湖仓一体」将会更好地助力企业降低成本、提升运营效率、丰富业务模式探索,从而释放全量数据的价值,提升数据处理的“能效”和“人效”。



参考阅读


1.《Hype Cycle for Data Management, 2021》 - Gartner
https://www.gartner.com/document/4004072?toggle=1
2.《2021年中国数据库行业研究报告》 - 艾瑞网
http://report.iresearch.cn/report/202105/3787.shtml 
3.《What is Lakehouse》 - DataBricks
https://databricks.com/blog/2020/01/30/what-is-a-data-lakehouse.html
4.《What is Lakehouse》 - Snowflake
https://www.snowflake.com/guides/what-data-lakehouse
5.《湖仓:数据湖与数据仓库的融合》- 巨杉数据库
https://blog.sequoiadb.com/cn/detail-id-176