夯实数据库根科技，提升企业数智化转型的“人效”和“能效” | 数据猿_SequoiaDB技术博客

夯实数据库根科技，提升企业数智化转型的“人效”和“能效” | 数据猿

2021-09-28

以下文章来源于数据猿，作者许建辉

“本文由 SequoiaDB巨杉数据库合伙人兼研发VP许建辉撰写并投递参与由数据猿&上海大数据联盟联合推出的“行业盘点季之数智化转型升级”大型主题策划活动之《2021中国企业数智化转型升级先锋人物》榜单/奖项的评选。

互联网的崭新格局催生了5G、云计算、大数据等新兴技术，企业的数智化、智能化转型势在必行。

数据已然成为数字经济中关键的生产要素，它如同燃油和电力一样为不同组织注入源源不断的能源。而数据库作为企业级基础软件，是我国数智化转型和国产化进程中的重要一环。

因此，如何让诸如数据库的“新基建”赋能上层应用，协助企业数智化转型，是所有底层技术企业都应思考的问题。

后疫情时代的企业数智化转型

新冠疫情的突发，使得数据进入到了一个裂变式增长期，同时也在推动着各行各业的数智化转型升级。数智化不断促使产业变革，人们看到了“新基建”背后蕴藏的巨大经济活力，大批企业朝着人工智能、大数据方向发展，并努力寻求发展的创新点和增长点。

根据业界权威机构的统计，全球的数据量将从2020年的55ZB，增加到2025年的175ZB，这意味着未来五年数据量将会有2倍以上的增长。可以说，未来市场的竞争其实是数据的竞争，谁处理好了数据，谁就掌握了核心制胜点。

数据成为企业发展的新动能，而企业的数智化转型则是顺应时代潮流、响应国家政策号召的必由之路。在转型的进程中，企业应该关注难点和痛点问题，并结合自身的资源和能力水平对症下药，从而找到最优的解决方案。通过我的观察，发现企业在数智化转型的过程中有可能会面临以下两方面的瓶颈：

一、数据研发团队的“人效”瓶颈

“罗马不是一天建成的”，企业的数智化系统往往是分阶段、分项目建立起来的。在不同的建设周期的项目中，各个系统的数据结构模型，甚至是数据库引擎都不尽相同。这样的建立方法，不但会引起数据孤岛的问题，还将导致企业在数据管理过程中出现“人效”的问题。

企业往往需要为不同的数据库构建全流程运维机制（包括：软硬件、运维指南、监控系统等），并聘用独立运维及开发人员团队。而不同数据库之间，由于数据层并不通用，因此当两个系统需要进行数据交换时，又需要通过ETL或应用程序单独开发数据流动的组件，这样将进一步消耗研发人力和提高后续管理的复杂度。这些问题都导致了企业在数智化转型过程中，无法充分释放“人效”，也无法将有限的技术人力投入到业务增值的方向上。

二、数据调度的“能效”瓶颈

获得数据调度“效能”最有效的途径，就是构建统一的数据基础设施，让不同的数据之间可以无缝对接共享，避免数据在不同数据库产品间的频繁流动。在国家“低碳环保”的发展战略下，统一的数据基础设施一方面可以减少数据流动导致的CPU计算、磁盘IO占用及网络带宽消耗；另一方面还可以避免数据的过分冗余，降低数据的总体使用空间。

然而这并不简单，正如我前面所言，在企业的数智化系统的演进过程中，由于不同的数据结构、数据类型的需求，需要引入多种数据库产品。由于这些产品间的数据无法直接共用，因此就只能通过频发的数据调度、数据同步，来实现各个系统间的数据调用，因此浪费了大量的系统“效能”。

夯实数据库根科技，提升企业数智化转型的“人效”和“能效”

如今市场中有众多处理数据的产品，但只有将基础软件作为转型的核心，才能从本质上帮助企业在第一时间洞察海量数据背后的价值，从而有效驱动企业高速发展，占据行业发展先机。

我在数据库领域有着十二年的从业经验，作为国内分布式技术的开拓者，我清楚地认识到，基于引擎级多模技术，通过数据库的“湖仓一体”架构，可以有效帮助企业增强数据复用能力，全方位提升管理及开发效率。具体而言，我认为可以通过以下两个方面的技术，帮助企业突破在数智化转型过程中面临的“人效”和“能效”瓶颈。

一、通过分布式多模技术提升企业运作“人效”

首先，借助“湖仓一体”技术架构下的引擎级多模技术能力（Multi-Model），数据库可以基于统一的数据源，面向不同的开发团队提供包括：结构化、半结构化及非结构化的数据模型，甚至提供兼容多引擎的SQL接口。这使得不同的研发团队可以基于同一份数据进行业务处理，应业务的需求自由选择适合业务的SQL语言，提升开发及管理效率。

同时，通过序列时钟协议或其他分布式时钟技术，可以有效控制分布式架构下时钟调用延迟，以提供高性能的事务能力，甚至是与传统集中式数据库相同的RR事务隔离级别。开发者可以放心地将事务一致性逻辑交由分布式数据库层进行处理，让开发人员回归到纯粹的业务设计中，提升企业研发“人效”。

二、通过融合联机处理能力提升企业运作“能效”

在数据融合处理能力方面，“湖仓一体”可以将各类原始数据统一存储，通过权限及租户隔离实现数据的共享及安全保护。因此数据可以天然打通，避免由于不同引擎间的频发传输导致性能损耗，也避免了数据在各引擎间的数据冗余导致空间浪费。

例如，企业在数智化转型过程中，非结构化数据（如同：音视频、声纹指纹、人脸识别等）已经进入到在线业务系统中，成为了海量数据的新入口。这些数据不但容量上远超结构化数据，而且通过持续迭代的AI和机器学习处理，会不断产生海量的结构化或半结构化标签数据，对底层数据处理平台提出了更高的实时联机处理能力要求。通过“湖仓一体”实现交易分析一体化、流批一体化、多模数据一体化，就可以为里面存储的每一个对象赋予标签、描述和内容进行统一有效的管理、分类、检索和查询，实现非结构化数据治理，从而提升企业内数据的整体“能效”。

目前，巨杉数据库的“湖仓一体”架构已在超过100家金融银行业客户规模化生产上线应用。在金融银行业生产环境中，运行时间最长的巨杉数据库集群已经超过7年，最大单客户集群规模达300台物理服务器，所管理的单集群最大数据量超过1万2000亿条。未来企业数据将持续爆发增长，巨杉将面向核心应用场景的高价值数据，为千行百业提供数智化转型的基础服务。

当今社会，数据已然成为链接万物的关键。无论是传统行业还是新兴产业，都在积极地进行数智化、智能化改造升级。而数据库作为企业级基础软件，能够从技术层面出发，帮助企业实现内部的数智化转型升级，从而做到真正意义上的降本提效。

数据量的激增，将促使更多的企业往数智化方向进行转型，而数智化又将持续为全球数据带来爆炸性的增量发展，并为数据库行业带来全新的市场机遇。数据与数智化之间实际上是双向的推动力，它们之间彼此作用，共同促进数字经济达到新的增长点。

巨杉数据库SequoiaDB将持续夯实底层根科技，基于湖仓一体架构构建新一代国产数据库，降低数据流动带来的开发成本及计算存储开销，成为提升企业数智化转型期“人效”和“能效”的数据基础设施。

作者个人简介

许建辉，SequoiaDB巨杉数据库合伙人兼研发VP，拥有超过12年数据库、分布式架构研发经验。前华为分布式数据库和分布式存储团队成员，是国内最早一批研究分布式技术的开拓者。2012年加入SequoiaDB，作为总架构师，负责数据库的架构设计、数据库技术创新和研发管理工作，协助巨杉数据库服务于金融、能源、运营商、政府等多个行业，为众多客户提供坚实的数据基础设施。

新闻动态 > 夯实数据库根科技，提升企业数智化转型的“人效”和“能效” | 数据猿

夯实数据库根科技，提升企业数智化转型的“人效”和“能效” | 数据猿

技术文档

应用场景

技术生态

联系我们