6月5日至7日,全球大数据界最顶尖的技术盛会,Spark Summit 峰会将在加州旧金山召开。巨杉数据库作为唯一来自中国的分布式数据库厂商,同时作为 Spark 的全球14家发行商之一,将在大会上带来题为“Building Operational Data Lake using Spark and SequoiaDB”的分享,介绍 SequoiaDB 巨杉数据库与 Spark 深度整合的数据湖解决方案以及海量数据管理和查询在中国企业级市场的典型应用案例。
中国近年来在互联网技术与移动应用方面的飞速发展,传统企业的互联网应用改造,其应用场景、数据量和复杂度都远超国际同行。特别是中国金融行业,2016年在地级以上城市13岁及以上常住人口中,网上银行用户比例为46%,手机银行用户比例为42%;微信银行、电话银行、直销银行用户比例分别为28%、23%和11%。电子银行移动渠道继续迅猛发展,个人手机银行紧追个人网上银行,用户比例预计在2017年有望超过个人网上银行,跃居个人电子银行渠道用户比例第一位。这些发展都吸引了国际业界的关注。
随着手机银行、网上银行、直销银行和移动支付的兴起,带来了如远程开户、面部/指纹认证、保险远程理赔等全新的应用。这些应用产生了基于海量非结构化影像、音视频数据的高并发访问需求。
同时,互联网技术也催生了新的业务风控和运营应用,包括实时风控和风险预警、用户的实时运营推广管理,以及企业内部智能化运营。因此产生大规模对全量多类型数据进行统一的存储管理的需求。
针对这些应用场景,中国企业大数据应用的主要特点是:
数据规模:在中国互联网和移动应用人口基数上,中国企业面对超亿级的移动端用户。庞大的用户基数引发业务数据成指数级增长,海量数据处理需求也因此激增。
移动化需求:中国市场在移动、互联网端的应用已经大大领先海外,例如移动支付50倍于美国。数据处理的实时性、高并发与高性能已经成为新业务最大的技术要求。
除了数据量大,用户众多带来的是业务的复杂化。多样化的业务也带来了更多种类的数据,从结构化、半结构化到非结构化数据,对数据处理的全面性带来不小的挑战。
这些全新的应用场景以及严苛的应用环境,使得中国企业在大数据量、高性能、复杂场景下的技术实力和实践能力得到了实战的检验,也推动了中国技术厂商在企业级功能、产品性能与稳定性方面得以领先众多海外产品。近年来一些海外厂商在中国“遇冷”其实背后也有这样的因素存在。
面对中国大数据技术应用的特点,巨杉数据库的两款主要产品,分布式数据库 SequoiaDB 以及分布式内容管理软件 SequoiaCM,做到了结构化和非结构化数据的全覆盖。通过分布式架构,革新了海量数据的管理方式。
巨杉数据库不仅技术国内领先,而且通过在近百家企业用户,特别是银行用户中的应用实践,巨杉的产品在功能、性能和稳定性各方面上成功经受住了比海外更严苛的考验。
同时,巨杉对跨系统的数据融和、提炼和再加工,非结构化数据存储管理,高并发实时计算、高吞吐量批处理分析,以及在线流处理计算等复杂数据业务都积累了强大的经验。
因此,巨杉在大数据企业应用的场景和深度上领先众多硅谷同类产品,SequoiaDB 与 Spark 的深度整合方案也在世界500强级别的企业中得到了规模化应用。