巨杉,一种杉科、巨杉属大乔木,形如其名,可生长至100米高,胸径可达10米。巨杉种子需要两年才能长成,一旦出芽,幼苗便能快速生长,树龄可以达到百年甚至数百年。
巨杉数据库亦是如此,在迎来成立10周年之际,21经济网对巨杉数据库进行专题采访,以下为详细内容,原稿来自于21经济网。
经过十年历练,以巨杉为名,以“培育数据沃土,提升数据价值”为使命的巨杉数据库从零开始,打造原生金融级分布式数据库产品,目前正服务超过100家大型银行及金融机构的生产业务规模上线应用,运行时间最长的集群长达7年,单集群数据量超过1万2000亿行。作为一只资本青睐的“潜力股”,2020年完成D轮融资后,巨杉数据库成为基础软件领域的“独角兽企业”。
在刚刚过去的2021CNBC全球科技大会上,巨杉数据库与各行业的科技领袖齐聚广州南沙,共商共议科技领域的前沿发展与未来趋势。南财记者专访巨杉数据库联合创始人、研发高级副总监许建辉与巨杉数据库产品运营资深总监萧少聪并了解到,巨杉数据库总部目前已落户南沙,将在南沙这片培育科技创新企业的沃土上,开启下一个十年的挑战。
破土:3000+个日夜,打造自研数据库引擎
巨杉数据库核心研发团队来自于北美的IBM DB2 Lab,是DB2的核心研发的归国团队。团队于2011年写下了第一行代码,并于2012年正式创立巨杉数据库。回国后,巨杉更吸引了包括华为、阿里在内的一批数据库技术专家加入。
数据库是基础软件界的一颗明珠。在数字经济中,数据如同燃油和电力一样为不同组织注入源源不断的能源。数据库作为企业级基础软件,是我国数智化转型和国产化进程中的重要一环。许建辉介绍,数据库作为硬核基础软件,在近60年的发展中经历了层次型、集中式、分布式三代产品。目前主流应用最广的是以Oracle及MySQL为代表的第二代集中式数据库。2012年,可以说是第三代分布式数据库商业落地的元年,海外的Snowflake、Databricks以及中国的巨杉数据库均在这一年成立。
(巨杉数据库)
回到2012年,除了互联网厂商自行探索以外,国内几乎没有任何独立数据库厂商愿意在分布式领域进行大量投入。巨杉为何要坚持分布式数据库的研发?许建辉解释:“10年前,几乎所有业务都是依靠集中式数据库解决的。随着互联网和移动业务的发展,我们预见交易流水数据将呈海量增长,这蕴含着无限的数据价值。集中式数据库无法适应数据的海量扩展,如何存储,如何处理,如何释放数据的潜在价值?这就是巨杉团队需要解决的问题。”
怎样开发?是重复造轮子,在集中式数据库已经占有优势的场景中争夺生存空间?还是利用开源代码二次研发,再包装出一个数据库产品?许建辉表示:“巨杉选择自研内核,而并非简单地参照业界的论文,或者拷贝开源产品。我们通过不断与客户沟通交流,聚焦于分布式数据库架构的优势场景打造产品,形成自己特有的产品竞争力。”通过自主技术研发分布式数据库产品并不容易,但自研会让产品更有生命力。”萧少聪一语道破自研的初衷,“与其在开源代码上魔改,不如专注于自研。如果数据库内核技术有天花板的话,那天花板一定是我们自己。”
2011年,巨杉团队写下了第一行代码,并确立了自研分布式数据库内核的发展路径。在成立的最初两年,团队将精力都投入到技术输出上。当时,Google去中心化分布式系统论文三件套(Percolator、Spanner、F1)还未发表,分布式一致性协议Raft协议也还未提出,对团队而言,没有现成的成熟方案可供参考学习。如何做分布式架构、如何设置框架、怎样选型、如何解决数据一致性问题……面对巨大的工作量和技术难点,团队成员没有别的捷径,只有讨论方案,测试代码,耐住寂寞,埋头苦干。
“如今回头看,那个时候沉淀下来的一系列方案和技术对现在还有很多启发。”许建辉回忆道。2013年至2014年,巨杉瞄准对数据库产品准入门槛最高的金融行业,用了两年时间推出SequoiaDB v1.0,将技术产品化并正式商用。“只有在最高标准的行业中打磨产品,才有可能真正达到业界顶尖水平。”萧少聪表示。此后,在其全自研底层引擎的基础上,巨杉根据金融行业对不同系统有不同的数据库应用场景的实际需求,逐步提供SQL、JSON及S3的接口,让客户的接入变得更便捷。
成长:聚焦“人效”与“能效”,5次迭代实现换道超车
“传统的业务模型已经很稳定了,我们不去挑战Oracle的行业核心地位,而是挖掘能够成为未来发展趋势的新的业务场景,去开拓一块新的市场。”萧少聪表示。
在与客户的磨合中,巨杉数据库也找到了产品研发的突破口——集中式数据库适用于要求高性能、低延迟的场景,但难以横向扩展,无法支持海量数据的处理。而传统基于Hadoop的分布式大数据产品,虽然可以处理并分析更大量的数据,但其并发能力却远远达不到客户的要求。客户在两种数据库之间来回选择,市场上没有可平衡的方案,巨杉正好在这两个矛盾点之间找到了“换道超车”的机会。
“一方面,分布式数据库可存储的数据量可以与大数据相媲美,另一方面,我们在保障数据一致性的前提下,提供能够进行高并发的实时查询的联机能力。”许建辉介绍,产品9年间历经5次布局迭代,在2020年10月22日正式发布的SequoiaDB 5.0版本基于引擎级多模技术,采用了充分结合数据湖和数据仓库优势的“湖仓一体”数据管理架构,有效帮助企业增强数据复用能力,在盘活数据资产价值的同时,提供更高时效、高并发的访问,能够全方位提升管理的“人效”及开发的“能效”。
(巨杉数据库参与2021DTCC大会)
国际数据公司IDC发布的《2020年下半年中国关系型数据库软件市场数据跟踪报告》显示,分布式架构已成为支撑高性能场景和解决传统数据库瓶颈的主要选择。目前,巨杉数据库基于“湖仓一体”架构发布了完整的产品线,已在超过100家大型银行及金融机构的生产业务规模上线应用,应用范围包括联机业务、数据中台、实时数据服务、内容管理等,已广泛应用于证券、保险、电信、政府、互联网、交通等领域,在得到上千企业用户认可的同时,巨杉也收获了广泛的行业肯定。
2017年起,巨杉数据库连续三年入选Gartner数据库榜单。2020年,巨杉数据库获得中国电子学会科学技术三等奖、广东省科技进步二等奖,并入选信创产业独角兽100强。2020年和2021年,巨杉数据库连续两年登上广州未来独角兽榜单。在今年6月的信创产业技术与应用大会上,巨杉数据库获评信息技术应用创新优秀产品;同月,产品通过中国信通院第十二批“大数据产品能力评测”;11月更入选2021福布斯中国企业科技50强。
资本的青睐也接踵而至。2020年底,巨杉数据库完成D轮融资,本轮融资由央企中金资本领投,元禾重元与越秀产业跟投。在此之前,巨杉数据库已获得由嘉实投资、DCM、启明创投在内的多家国内外主流投资机构的投融资,成为基础软件领域的“独角兽企业”。
成熟:落户科创福地南沙,用技术服务大湾区建设发展
科技创新离不开人才的支撑。目前,南沙正在开展营智环境建设试点,加快创建国际化人才特区,五年来已聚集高层次和骨干人才1.2万人。一批瞄准新兴产业的创业者看中了这里的资源集聚优势,巨杉便是其中之一。
数据库是人才密集型行业,许建辉介绍,公司自成立之初便立足广州,团队分布在深圳、北京、广州等地,最终将企业新总部落户南沙的重要因素,便是看中了南沙优质的科技产业规划及人才政策。“让人才稳定下来,安居乐业”既是巨杉对人才的承诺,也是南沙留住人才的砝码。“南沙舒适的生活环境和宜居的生活成本,让员工更有幸福感,更愿意留在南沙。”萧少聪告诉南财记者,多位在多伦多实验室的同事也已经回到南沙总部,未来将会有更多的海内外人才选择南沙,扎根南沙。
“南沙是培育科技创新企业的沃土。作为一个新兴区域,南沙在科技产业方面的规划更聚焦、更有方向性。”许建辉表示,南沙正加速打造粤港澳全面合作示范区,不仅拥有成熟的产业底蕴和配套资源,与港澳接轨还能为企业乃至行业输送优秀的国际人才。
许建辉相信,南沙必将成为科技公司的创新福地,并希望能乘南沙加快构建现代产业体系的东风,依托人工智能、生物医药等新兴产业和跨境金融、航运金融、飞机船舶租赁、科技金融等为重点的特色金融,为分布式数据库构建丰富的上下游产业链。
目前,巨杉数据库在拥有200多名研发人员和40余项自主知识产权的基础上,同时发力技术社区,构建分布式数据库技术社区“巨杉学”,提供线上线下的培训考试和认证,共同促进技术生态发展。
“在技术社区,已有超过一万人通过巨杉数据库工程师认证。而对于公司,未来三年我们计划让研发人员每年会以翻倍的速度增长。我们也将设立巨杉奖学金,为粤港澳大湾区培育人才,为我们的自身发展培养人才,为我们的产业培养具备行业知识同时具备高端数据能力的数字化复合型创新人才。”许建辉表示,巨杉已经与华南理工大学建立了奖学金合作,未来希望能与湾区包括香港科技大学、中山大学等共同开展产学研的合作,推动打造人才数据库,服务湾区经济发展。
(巨杉数据库)
IDC预计,2025年中国55%以上的大数据IT支出将来自于政府、通讯、制造及银行四个行业。在对话中,萧少聪透露,巨杉下一步的业务布局与此如出一辙。
2021年11月,巨杉数据库与东华发思特完成产品兼容互认证明,将结合双方优势,联合打造新型智慧城市。萧少聪表示,巨杉数据库将深度参与粤港澳大湾区的信息化建设,结合各地产业优势,加速产业与信息化融合,用技术驱动地方新基建的创新增长。
未来,无论是服务于银行业还是政府,萧少聪表示,巨杉的初心始终不变——依然是聚焦行业痛点,找到优势场景,用技术解决实际问题,让技术实现商业价值。
“数据库产品发展是一场长跑,生命周期长,发展空间大,需要数据库企业的长期投入与积累,也需要政府、企业、客户一起聚焦数据库的新兴业务,打造数据库行业生态,一起发展才能站稳脚跟。”许建辉表示,在打造成为国内领先的金融级分布式数据库厂商的同时,巨杉数据库正紧盯国际金融业务,致力于发展成为全球分布式数据库领域的领导者。
“我们积累的十年,在数据库行业也只是刚刚起步,未来期待与更多有志之士一同培育数据沃土,提升数据价值。”许建辉说道。