【1.0时代 终端+Excel】
1.0时代,我们获取数据的方式是在终端点开浏览器,把数据通过 Excel 下载到本地中使用。Excel 中各种透视表与插件组合满足了绝大多数小批量数据使用的场景。Excel+终端浏览器,基本解决了小批量数据使用的问题。
【2.0时代 SQL+单一数据来源】
随着研究的深入、数据维度的拓展、数据规范的清晰,结构化数据开始成为标配。相比于过去的数据浏览器提取方式,SQL 通过一个或几个语句就能实现全部数据的提取,让用户倍感轻松。信息化带来的效率提升,仿佛经历了“工业革命”般的体验。
【2.0时代后期 更高的算力需求】
逐渐地,SQL 也开始暴露一些无法满足研究需求的问题。假如研究的重心放在组合管理、因子挖掘、风险控制领域,SQL 似乎既不能满足计算要求、也无法满足数据处理的时效性要求,这意味着,用户需要花费大量的精力提高一点点效率。
于是,DolphinDB 与聚源也开始给合作探索一种全新的业务模式。
【3.0时代 探索高质量+高性能】
高质量数据与高性能数据库的融合是市场对3.0时代新业务场景的期待,但目前来看仍存在一些难题待解。以MySQL为例,在海量的时序数据场景下存在一些问题:
- 存储成本大:对于时序数据压缩不佳,需占用大量机器资源。
- 维护成本高:单机系统,需要在上层人工的分库分表,维护成本高。
- 写入吞吐低:单机写入吞吐低,很难满足时序数据千万级的写入压力(针对tick级数据场景)。
- 查询性能差:海量数据的聚合分析性能差。
在3.0时代的探索过程中,DolphinDB 与聚源数据达成合作,我们为构建一站式行情数据库服务模式共同努力。
全新的业务场景下,用户可以通过 DolphinDB 访问和调用聚源数据库的各类数据,快速实现高频数据对接、存储、查询、指标计算、因子研究等,助力实现更便捷、更高效的投研。海量数据意味着数据质量高、历史可追溯时间长、维度多,因此全量数据供应商显得尤为重要,而数据质量是一切的基础。
从数据质量的角度:
聚源数据库以金融证券为核心,服务内容涵盖投研数据、财富数据、固收数据、风险数据、ESG 数据等,广泛应用于金融资讯展示、金融投研、大数据分析、风控、量化回测、金融监管等多个领域,经过二十余年的发展,公司与国内券商、基金、保险、信托、银行、期货、资产管理公司等机构建立了广泛的业务合作,确立了在中国金融数据服务领域的领先地位,是中国最优秀的金融资讯服务供应商之一。
从数据库性能的角度:
SQL 或者单一 Python 的处理方法,无论便携性还是成本都不算友好。比如计算一个投资组合的协方差矩阵,无法在 SQL 中完成,需要借助额外的 Python 反推回数据库。高性能时序数据库 DolphinDB 有出色的内置函数、多范式的脚本语言、灵活的自定义计算,无论是在数据存储端,还是在复杂分析端,都是比 SQL 和 Python 更优的选择。以下图为例:
高质量数据、高性能数据库二者怎么融合?从最传统的量化场景出发,以聚源提供的因子库为例。
DolphinDB 支持直接加工底层数据结果并且及时反馈结果到使用者手中,量化场景下的基础因子、特色因子、回测框架都可以直接依托其后的数据基准进行融合。这些步骤的融合帮助用户解决数据储存量极大、读取缓慢的通病。也就意味着,当拥有了捆绑好的高质量基础数据与高性能平台的时候,用户便有了所有想要的内容。同时,因为 DolphinDB 自定义的优势加上聚源数据除常规的披露数据外,还有包括但不限于其它主流另类数据(司法,工商,舆情,预期、宏观行业等)等,极大方便机构客户做特色因子挖掘和回测的工作流程,将原本离散化的工作任务集成式布置在 DolphinDB 上,真正发挥出1+1融合但是产出远大于2的效果。
数据质量与数据库性能的优势相互结合,机构可以直接享受到聚源高质量数据加 DolphinDB 高性能数据库的一站式服务。
除此之外,分布式高性能的数据存储,必然对高频率的数据量处理有着显著优势,对于聚源在金融全场景下涵盖的各更新频率不一的数据,科学合理的插值方法,是提高数据频率的有效手段;因子算法部署在更为高频的数据空间(如 Alpha191 算法由日K,调整为 1分钟K),也是挖掘非线性因子的,进入市场颗粒化程度更深领域的主要路径。数据升频与 DolphinDB 的高性能协作,势必会开辟量化数据场景的新赛道。
这也意味着,3.0时代将迎来数据库与编程语言的融合。
在传统的数据库时代,我们更看重数据的写入,所以我们强调数据库的一致性、原子性、持久性等,而用于分析的 SQL 语句功能则相对简单,复杂的分析和计算通常由更高级的编程语言(如 C++, Python 等)来完成。在海量数据时代,我们更看重数据的读取,也就是通过对海量数据的分析,发掘数据背后的价值,数据分析的时效性则对企业的竞争能力至关重要。未来 SQL 语句和更高级的编程语言也将走向融合,高质量的数据+高性能的数据库将解决数据来源广、时效性差、成本开销大等一系列长期困扰市场的难题。
基于此,DolphinDB 与聚源,在路上。