以下文章来源于数据猿 ,作者许建辉
“本文由 SequoiaDB巨杉数据库合伙人兼研发VP许建辉 撰写并投递参与由数据猿&上海大数据联盟联合推出的“行业盘点季之数智化转型升级”大型主题策划活动之《2021中国企业数智化转型升级先锋人物》榜单/奖项的评选。
数据已然成为数字经济中关键的生产要素,它如同燃油和电力一样为不同组织注入源源不断的能源。而数据库作为企业级基础软件,是我国数智化转型和国产化进程中的重要一环。
因此,如何让诸如数据库的“新基建”赋能上层应用,协助企业数智化转型,是所有底层技术企业都应思考的问题。
新冠疫情的突发,使得数据进入到了一个裂变式增长期,同时也在推动着各行各业的数智化转型升级。数智化不断促使产业变革,人们看到了“新基建”背后蕴藏的巨大经济活力,大批企业朝着人工智能、大数据方向发展,并努力寻求发展的创新点和增长点。
根据业界权威机构的统计,全球的数据量将从2020年的55ZB,增加到2025年的175ZB,这意味着未来五年数据量将会有2倍以上的增长。可以说,未来市场的竞争其实是数据的竞争,谁处理好了数据,谁就掌握了核心制胜点。
数据成为企业发展的新动能,而企业的数智化转型则是顺应时代潮流、响应国家政策号召的必由之路。在转型的进程中,企业应该关注难点和痛点问题,并结合自身的资源和能力水平对症下药,从而找到最优的解决方案。通过我的观察,发现企业在数智化转型的过程中有可能会面临以下两方面的瓶颈:
一、数据研发团队的“人效”瓶颈
“罗马不是一天建成的”,企业的数智化系统往往是分阶段、分项目建立起来的。在不同的建设周期的项目中,各个系统的数据结构模型,甚至是数据库引擎都不尽相同。这样的建立方法,不但会引起数据孤岛的问题,还将导致企业在数据管理过程中出现“人效”的问题。
企业往往需要为不同的数据库构建全流程运维机制(包括:软硬件、运维指南、监控系统等),并聘用独立运维及开发人员团队。而不同数据库之间,由于数据层并不通用,因此当两个系统需要进行数据交换时,又需要通过ETL或应用程序单独开发数据流动的组件,这样将进一步消耗研发人力和提高后续管理的复杂度。这些问题都导致了企业在数智化转型过程中,无法充分释放“人效”,也无法将有限的技术人力投入到业务增值的方向上。
二、数据调度的“能效”瓶颈
获得数据调度“效能”最有效的途径,就是构建统一的数据基础设施,让不同的数据之间可以无缝对接共享,避免数据在不同数据库产品间的频繁流动。在国家“低碳环保”的发展战略下,统一的数据基础设施一方面可以减少数据流动导致的CPU计算、磁盘IO占用及网络带宽消耗;另一方面还可以避免数据的过分冗余,降低数据的总体使用空间。
然而这并不简单,正如我前面所言,在企业的数智化系统的演进过程中,由于不同的数据结构、数据类型的需求,需要引入多种数据库产品。由于这些产品间的数据无法直接共用,因此就只能通过频发的数据调度、数据同步,来实现各个系统间的数据调用,因此浪费了大量的系统“效能”。
如今市场中有众多处理数据的产品,但只有将基础软件作为转型的核心,才能从本质上帮助企业在第一时间洞察海量数据背后的价值,从而有效驱动企业高速发展,占据行业发展先机。
我在数据库领域有着十二年的从业经验,作为国内分布式技术的开拓者,我清楚地认识到,基于引擎级多模技术,通过数据库的“湖仓一体”架构,可以有效帮助企业增强数据复用能力,全方位提升管理及开发效率。具体而言,我认为可以通过以下两个方面的技术,帮助企业突破在数智化转型过程中面临的“人效”和“能效”瓶颈。
一、通过分布式多模技术提升企业运作“人效”
首先,借助“湖仓一体”技术架构下的引擎级多模技术能力(Multi-Model),数据库可以基于统一的数据源,面向不同的开发团队提供包括:结构化、半结构化及非结构化的数据模型,甚至提供兼容多引擎的SQL接口。这使得不同的研发团队可以基于同一份数据进行业务处理,应业务的需求自由选择适合业务的SQL语言,提升开发及管理效率。
同时,通过序列时钟协议或其他分布式时钟技术,可以有效控制分布式架构下时钟调用延迟,以提供高性能的事务能力,甚至是与传统集中式数据库相同的RR事务隔离级别。开发者可以放心地将事务一致性逻辑交由分布式数据库层进行处理,让开发人员回归到纯粹的业务设计中,提升企业研发“人效”。
二、通过融合联机处理能力提升企业运作“能效”
在数据融合处理能力方面,“湖仓一体”可以将各类原始数据统一存储,通过权限及租户隔离实现数据的共享及安全保护。因此数据可以天然打通,避免由于不同引擎间的频发传输导致性能损耗,也避免了数据在各引擎间的数据冗余导致空间浪费。
例如,企业在数智化转型过程中,非结构化数据(如同:音视频、声纹指纹、人脸识别等)已经进入到在线业务系统中,成为了海量数据的新入口。这些数据不但容量上远超结构化数据,而且通过持续迭代的AI和机器学习处理,会不断产生海量的结构化或半结构化标签数据,对底层数据处理平台提出了更高的实时联机处理能力要求。通过“湖仓一体”实现交易分析一体化、流批一体化、多模数据一体化,就可以为里面存储的每一个对象赋予标签、描述和内容进行统一有效的管理、分类、检索和查询,实现非结构化数据治理,从而提升企业内数据的整体“能效”。
目前,巨杉数据库的“湖仓一体”架构已在超过100家金融银行业客户规模化生产上线应用。在金融银行业生产环境中,运行时间最长的巨杉数据库集群已经超过7年,最大单客户集群规模达300台物理服务器,所管理的单集群最大数据量超过1万2000亿条。未来企业数据将持续爆发增长,巨杉将面向核心应用场景的高价值数据,为千行百业提供数智化转型的基础服务。
当今社会,数据已然成为链接万物的关键。无论是传统行业还是新兴产业,都在积极地进行数智化、智能化改造升级。而数据库作为企业级基础软件,能够从技术层面出发,帮助企业实现内部的数智化转型升级,从而做到真正意义上的降本提效。
数据量的激增,将促使更多的企业往数智化方向进行转型,而数智化又将持续为全球数据带来爆炸性的增量发展,并为数据库行业带来全新的市场机遇。数据与数智化之间实际上是双向的推动力,它们之间彼此作用,共同促进数字经济达到新的增长点。
巨杉数据库SequoiaDB将持续夯实底层根科技,基于湖仓一体架构构建新一代国产数据库,降低数据流动带来的开发成本及计算存储开销,成为提升企业数智化转型期“人效”和“能效”的数据基础设施。
作者个人简介
许建辉,SequoiaDB巨杉数据库合伙人兼研发VP,拥有超过12年数据库、分布式架构研发经验。前华为分布式数据库和分布式存储团队成员,是国内最早一批研究分布式技术的开拓者。2012年加入SequoiaDB,作为总架构师,负责数据库的架构设计、数据库技术创新和研发管理工作,协助巨杉数据库服务于金融、能源、运营商、政府等多个行业,为众多客户提供坚实的数据基础设施。