首页资讯正文

数据治理专题(六):集聚投资有效性 构建DATALET数据资产


【资料图】

基于大模型的情感识别与自动化标注能力,面向全A 行业与个股跟踪,我们构建了DATALET/数据堆叠产品,实现了文本数据、价量数据在同一时间序列条件下,统一指标化与投资指向化创新。在低/高频场景,基于海量文本与行业基本面指标,可提供定制化的配置策略与数据产品。从投资回测角度来看,基于情绪类指标构建的行业轮动与垂直个股配置策略超额收益显著,有效性强。

上市公司持续扩容叠加板块轮动加速推动数据产品创新性需求。注册制试点启动以来,A 股上市公司数量增至5000 余家,同时板块轮动持续加速。

为在此背景下把握住投资机遇,投研时对数据库产品的信息维度丰富化及自动化标注能力的要求日益增长。另外由于如研报、政策等文本化数据数量呈现爆发性增长,对此类文本化数据的结构化需求也与日俱增。

DATALET 实现文本数据指标化及指标标签投资指向化双重创新。为迎合市场投研需求,我们结合大模型对数据库的指标及标签维度进行了充分延展,实现了文本数据、价量数据在同一时间序列条件下,统一指标化与投资指向化创新,构建了DATALET 数据产品。DATALET 不仅挖掘了指标中蕴含的投资指向,同时高精度,面向三级行业/个股,扩充了投研视角。

大模型涌现能力助力自动化标注,提升指标投资指向性。基于大模型循环Prompt 所提供的涌现能力,我们实现了指标标签体系的自动化扩容。

DATALET 中数据共有14 个标签,其中包含7 个投研辅助类标签及7 个投资指向性标签。标签体系中涉及了指标对应产业链环节、指标对相应环节下游成本影响程度打分等多维投资指向性创新标签。

文本数据指标化,扩充投研视角。随着信息化的发展,很多影响市场的信息最先以研究报告、政策等文本形式进行传播,其中蕴含了增量Alpha。考虑数据安全和可及性,我们选择百度文心ERNIE 3.0 Tiny 预训练模型并下载;使用雪球和Wind 有情感标注的金融舆情文本微调模型;将微调后的模型在无标注的财经新闻、分析师研报摘要以及公司公告上提取信息并预测情感。在垂直场景,我们利用预训练大模型将文本类数据进行指标化,在形成情绪打分的同时将其对标到行业或个股,从而构建情绪类指标。情绪类指标体系中涉及研报热度、政策推进力度及电话会议情绪等多重指标。

指标投资有效性探索:情绪类指标具有较强的投资指导性。基于情绪类指标,我们结合其经济意义构建相应的投资策略。基于政策推进力度指标,我们构建了行业轮动策略,对每月政策得分TOP3 行业进行等权配置,其年化超额收益率可以达到9%。另外基于研报情绪指标,我们构建了行业维度的择时策略及单一行业内的选股策略。在行业维度的择时策略中钢铁、消费者服务及基础化工等周期性行业超额收益领先,均超过20%。另外基于研报热度构建的锂电行业TOP3 定期选股策略较中信锂电池行业指数年化超额收益率达20%。

风险因素:底层数据产品可持续性不及预期;底层数据准确性不及预期;投资机构数字化不及预期;大模型技术发展与应用不及预期;科技领域与数据确权监管趋严。

相关阅读

精彩推荐