使用 ChatGPT 生成基于 NLP 的投资策略

由巴普蒂斯特·莱福尔、Eric Benhamou（博士）、Jean-Jacques Ohana（特许金融分析师）、Béatrice Guez、David Saltiel 和 Thomas Jacquot（特许金融分析师）

金融世界依赖及时的洞察、准确的分析和前瞻性的策略。多年来，自然语言处理（NLP）已成为解读大量金融文本的宝贵工具，帮助投资者和分析师做出明智的决策。从基本的情感词典到先进的大型语言模型（如 BERT 和 FinBERT），该领域取得了显著进展。然而，金融新闻分析中的领域特定挑战依然存在。

我们聚焦于热门的LLM，ChatGPT，使用两步法分析 Bloomberg Market Wrap 新闻，提取并分析全球市场头条。通过生成情绪评分并将其转换为投资策略，我们评估了 NASDAQ 市场的表现。我们的发现很有前景，表明有可能预测 NASDAQ 回报并设计可投资策略。

这篇帖子概述了一种从财务摘要中提取情感的两步过程，一种将情感转换为可操作分配的方法，以及一项评估，显示其表现优于被动投资策略。

在简要回顾相关工作后，我们详细介绍了我们的提示工程方法，描述了转换为投资策略的过程，并展示了评估结果。

我们的研究详细分析可在 ssrn 获取：“Bloomberg Market Wraps 的 sentiment score 与 ChatGPT。”

其他资源

最近的研究突显了 ChatGPT 在金融和经济学中的应用。汉森和卡兹尼金[8]展示了其在解读联邦储备通讯方面的实用性，洛佩兹-利拉和唐[16]证明了其在股票预测中的有效提示。科文和塔巴罗克[3]以及科里内克[13]探讨了其在经济学教育中的应用，而诺伊和张[20]则关注其在提高生产力方面的益处。

阳和陈 zer [31] 检查了其对新闻的可信度评估，尽管谢等 [30] 指出其数值预测与线性回归一致，而科和李 [12] 在投资组合选择中遇到了挑战。

我们的研究通过使用多步 ChatGPT 方法来预测纳斯达克趋势，减少噪音并提高准确性。

提示工程

提示工程的第一步是数据收集。我们从 2010 年到 2023 年 10 月收集了彭博全球市场每日摘要，称为市场摘要。我们排除了少于 1200 字符或未提及以下市场类型中至少两种（股票、固定收益、外汇、商品或信贷）的摘要。此外，我们只包括了广泛在线分发的摘要，以确保产生重大公共影响。这一过程产生了超过 70,000 篇文章的数据集，每篇文章平均 1000 字，约 6000 字符。

天真方法

最初，我们的指令是根据文本提供一个情绪评分如下：

Using ChatGPT to Generate NLP-Driven Investment Strategies

这种直截了当的方法类似于 Romanko 等人 [25] 或 Kim 等人 [11] 的做法，结果令人失望，因为它与纳斯达克和标普 500 等主要股票指数的相关性接近于零，最有可能是因为随机模型的幻觉。

转向两步法

我们随后选择将指令分解为更简单和直接的任务。根据[16]中的建议，我们设计了两个提示来细化 ChatGPT 的目标，专注于那些实证上证明与 ChatGPT 的能力高度契合的任务。我们的第一个提示是将文本总结为标题或头条，如下所示：

我们的第二个提示是确定每个头条新闻的情绪得分。

对于两个提示，我们使用了 ChatGPT 的 gpt-3.5-turbo 版本。这种两步方法的整体思路是减轻 ChatGPT 的任务负担，并利用其惊人的能力进行总结，在第二步中找到语气或情绪。我们现在可以设计一个增强且更相关的“全球股票情绪指标”，如下所示：

定义 1. 每日情绪得分：假设从每日新闻 n 中扫描到第 i 条头条 hi，并有两个一致的评分函数，一个正面情绪函数 p(hi)，如果 hi 是正面的则返回 1，否则返回 0；一个负面情绪函数 n(hi)，如果 hi 是负面的则返回 1，否则返回 0。

一天有 N 条新闻的 sentiment 分数 S 给定为：

情绪得分 S 衡量一天内正面情绪与负面情绪的相对主导程度。它满足几个简单的性质，这些性质很容易证明。

命题 1. 情感得分 S 满足一些规范性质：

有界性：S 有界，满足 −1 ≤ S ≤ 1。
对称性：如果所有头条新闻的情绪相反，则 S 改变符号。
中立性：S=0 如果正面和负面新闻数量相等。
单调性：S 随正面和负面新闻头条之间的差异增大而增加。
尺度不变性：S 在我们将正面和负面新闻的数量都乘以一个常数后保持不变。
可加性：两组头条的 S 值之和为各自的 S 值加权平均。

图 1 显示了原始信号，并突出了信号非常嘈杂。使用 10 条每日新闻头条的原始情感得分会得出嘈杂且难以解释的结果。为解决这一问题，我们提出了一种在指定时间段内的累积情感得分。该得分会在一段时间内聚合新闻情感，从而在该期间提供新闻影响的更全面衡量标准。T.

图 1. 原始信号：其表现出显著的噪声。

定义 2. 累积情绪得分：我们定义了如下的月度（d=20）累积得分。给定：

hi,t 为第 t 天的第 i 条头条。

p(hi,t) 和 n(hi,t) 分别作为返回 hi,t 的正负情感的函数，否则返回 0。

d 作为持续时间（我们使用 d = 20 个工作日，约等于一个月）。

累计情绪得分 Sd 在时期 d 为：

图 2. 累计情绪得分。

数学性质，即有界性、对称性、中性、单调性和尺度不变性，这些性质保留在累积情感得分中。图 2 展示了累积过程如何减弱信号中的噪声。

转换为投资策略

去除噪音是关键。鉴于累积情绪得分（参见定义 2），必须对这一得分进行去趋势化以识别更多的可操作交易信号。我们通过计算累积情绪得分与其在一段时间 d 内的平均值之间的差值来计算情绪得分的趋势，我们将这段时间也视为一个月。

定义 3. 去趋势累计情绪得分：我们称去趋势累计情绪得分为累计情绪得分减去其在 d 期的平均值：

拆分为多头和空头

从去趋势得分中，我们可以推导出两种交易头寸：

多头头寸 = max(DS(t), 0)

空头头寸 = min(DS(t), 0)

长期（相应地，短期）头寸是指预期资产价值在未来会上升（相应地，下降）而购买（相应地，出售）该资产。因此，如果我们的去趋势得分为正（相应地，负），我们就采取长期（相应地，短期）头寸。为了回测我们的策略，我们使用纳斯达克指数，因为众所周知，纳斯达克指数对整体市场情绪非常敏感[2]。我们计算策略的价值时非常注意交易成本的核算。我们基于时间 t 和 t−1 之间的权重差异应用线性交易成本。

在时间 t 时，我们策略的价值由累计回报减去任何交易成本给出：

b 表示线性交易成本，对于纳斯达克期货，取为两个基点。需要注意我们在权重上存在两天的滞后：对于第 t 天，我们使用第 t−2 天计算的权重。这种滞后确保策略在第二天执行，从而确保回测不会受到任何数据泄露的影响。

图 3. 短期策略与累计情绪（蓝色）及去趋势得分（橙色）。

结果: 描述性统计

为了评估我们的策略相对于基准的表现，比如相对于纳斯达克指数的简单持有，我们会考虑多个关键的财务指标：如下所示的夏普比率、索提诺比率和卡马比率。

图 4. 长期策略累计情绪（蓝色）与去趋势得分（橙色）。

图 5. 最终策略（多空）与累计情绪（蓝色）。

夏普比率：夏普比率由[27]提出，通过计算投资策略的超额回报与风险敞口的比率来评估投资策略。本质上，它反映了投资者因承担额外风险所获得的回报增量。比率越高，表明该资产的回报对所承担的风险有更好的补偿。
索丁比率和卡马比率：索丁比率（分别为卡马比率）是对夏普比率的修改，定义为超额回报与下行偏差（分别为最大回撤）的比率。

策略绩效指标比较分析

表格 1 和表格 2 详细列出了各种策略的绩效指标。在这些表格中，最佳得分以粗体突出显示，以便于识别和比较。表格 1 显示：

去趋势累积得分（Detrended）策略在各项指标上均优于基准：夏普比率（0.88 对 0.79），索提诺比率（1.06 对 1.02），卡马比率（0.52 对 0.45）。这突显了去趋势全策略的稳健性和帕累托优势。
相比之下，幼稚累积得分（Cumulated）策略明显逊于基准。这在 Cumulated All、Cumulated Long 和 Cumulated Short 策略上尤为明显，这三个策略在所有三项指标上的比率都是最低的。

表 2 提供了更详细的绩效洞察，提供了年度回报、年度波动性和尾部风险度量等指标，尾部风险度量计算方法为年度回报除以最差的 10%分位数 DD。与我们之前的观察一致，我们发现：

The Detrended All 策略的“最差 10%回撤比收益”比值为 1.71，与基准值 1.03 相比，这表明 Detrended All 策略具有较低的下行风险。
累计情绪得分策略再次显得不太有前景，“回报与最差 10%回撤比”比率为 0.72，进一步强调了简单累计得分策略潜在的问题。
基于 ChatGPT 的四种策略的波动性如预期般显著较低，我们在进行投资时调整了时间，并且平均减少了对纳斯达克期货的暴露。

表 1. 投资统计。

策略	夏普比率	索丁比率	卡马比率
去趋势全样本	0.88	1.06	0.52
买入并持有（基准）	0.79	1.02	0.45
去趋势短周期	0.75	0.76	0.32
去趋势化长期	0.56	0.48	0.27
累计全部	0.45	0.50	0.17
累积空头	0.45	0.27	0.21
累积多头	0.38	0.36	0.14

表 2. 描述性统计。

策略	年度回报	年度波动率	回报 / 最差 10
去趋势全样本	1.2%	1.4%	1.71
买入并持有（基准）	16.1%	20.4%	1.03
去趋势短周期	0.6%	0.8%	1.12
去趋势化长期	0.6%	1.1%	0.68
累计全部	1.9%	4.2%	0.72
累积空头	0.3%	0.7%	0.28
累积多头	1.6%	4.1%	0.60

权重分析

分析基于 ChatGPT 的投资策略权重显示了波动率和暴露程度的差异。表 3 提供了四种策略的权重：累计多头、去趋势多头、累计空头和去趋势空头。

去趋势情绪权重的波动性低于累积情绪权重。具体来说，去趋势多头和空头权重的波动性为 3.7%，而累积多头和空头权重的波动性分别为 4.9%和 11.1%。

在平均敞口方面：

平均市场暴露程度对于去趋势长头和累计长头来说相似，约为 2.5%。
相比之下，Short 策略有显著差异，Cumulated Short 的平均曝险为 9.5%，而 Detrended Short 仅为 2.7%，表明去趋势减少了 Short 曝险。

去趋势策略，尤其是在做空方面，权重分布更为可控。由于其低波动性，采用波动率目标方法可以将这些策略的总波动率调整至 5-15%，以符合投资者的风险承受能力。

表 3. 权重描述性统计

	长趋势剔除	长累计	短周期去趋势	短累积
平均	2.6%	2.4%	2.7%	9.5%

关键要点

在本研究中，我们探索了 ChatGPT 从彭博每日财经新闻摘要中生成情绪分数的潜力。通过零样本提示，我们展示了该模型在无需领域特定微调的情况下生成预测性情绪分数的能力。

我们的发现很有前景，在基于 NLP 的策略中，夏普比率、卡马比率和索丁比率很强，表明对未来 NASDAQ 回报的预测有潜在价值。关键见解包括使用有效的提示的重要性；将情感分析分解为总结任务和单句情感任务；并通过累积的、去趋势化的分数减少数据噪音。

未来的工作可以研究 ChatGPT 在预测其他股票市场、个别股票以及不同时间框架下的趋势方面的适用性，以及将其与社交媒体等替代数据源的整合。

参考文献

[1] D. W. 阿纳尔、J. 巴贝里斯和 R. P. 布克利. 金融科技的发展：危机后的全新范式. 乔治亚国际法杂志, 47:1271, 2015.

[2] S. R. Baker, N. Bloom, S. J. Davis, 和 M. C. Sammon. 什么触发股市跳跃？技术报告，美国国家经济研究局，2021 年。

[3] T. Cowen 和 A. T. Tabarrok. 使用大型语言模型学习和教授经济学，包括 GPT，《电子期刊 SSRN》，XXX(XXX):0-0，2023 年 3 月. ISSN 1556-5068. doi: 10.2139/SSRN.

4391863. URL https://papers.ssrn.com/abstract=4391863.

[4] J. Devlin, M.-W. Chang, K. Lee, 和 K. Toutanova. Bert：预训练的深度双向变压器语言理解模型. arXiv 预印本 arXiv:1810.04805, XX(XX):XX, 2018.

[5] G. Fatouros, G. Makridis, D. Kotios, J. Soldatos, M. Filippakis, 和

D. Kyriazis. Deepvar：一种基于概率深度神经网络的投资组合风险评估框架. 数字金融, 5(1):29–56, 2023.

[6] A. S.乔治和 A. H.乔治. ChatGPT 人工智能对多个业务领域的影響. 国际万能创新伙伴期刊, 1(1):9–23, 2023.

[7] A. 葛达拉和 P. 兰格莱. Sedar：一个大规模法英金融领域平行语料库. 在第十二届语言资源和评估会议（LREC）论文集，页码 3595–3602，LREC，2020. LREC. URL http://www.lrec-conf.org/proceedings/lrec2020/index.html.

[8] A. L. Hansen 和 S. Kazinnik. ChatGPT 能破解美联储语言吗？

SSRN 电子期刊, XX(XX):XX, 3 2023. ISSN 1556-5068.

doi: 10.2139/SSRN.4399406. URL https://papers.ssrn.com/abstract=4399406.

[9] I.-B. Iordache, A. S. Uban, C. Stoean, 和 L. P. Dinu. 研究罗马尼亚金融新闻与布达佩斯股票交易所收盘价之间的关系。在第十三届语言资源和评估会议（LREC）论文集，页码 5130-5136，LREC，2022。LREC. URL http://www.lrec-conf.org/proceedings/lrec2022/index.html。

[10] A. 贾巴里，O. 塔夫热，H. 泽因，和 H. 希尔吉。用于金融新闻命名实体识别和关系抽取的法语语料库和标注方案。在第十二届语言资源和评价会议（LREC）论文集，页码 2293–2299，LREC，2020。LREC。网址 http://www.lrec-conf.org/proceedings/lrec2020/index.html。

[11] A. Kim, M. Muhn, 和 V. Nikolaev. 膨胀的披露：ChatGPT 能帮助投资者处理财务信息吗？arXiv 预印本 arXiv:2306.10224, XXX(0-0):XX, 2023.

[12] 科和李. ChatGPT 能改善投资决策吗？从组合管理视角看. SSRN 电子期刊, XX(XX): XX, 2023. doi: 10.2139/SSRN.4390529. URL https://papers.ssrn.com/abstract=4390529.

[13] A. 科林尼克. 语言模型与认知自动化在经济研究中的应用. 马萨诸塞州剑桥, XX(XX):XX, 2023. doi: 10.3386/ W30957. URL https://www.nber.org/papers/w30957.

[14] 李 C, 叶 W, 和赵 Y. Finmath: 为财务报告问答注入一棵结构化的求解器. 在第十三届语言资源和评价会议（LREC）论文集, 页码 6147–6152, LREC, 2022. LREC. URL http://www.lrec-conf.org/proceedings/lrec2022/index.html.

[15] 刘泽, 黄丹, 黄凯, 李卓, 赵军. Finbert：一种预训练的金融语言表示模型及其在金融文本挖掘中的应用. 在第二十九届国际人工智能联合大会论文集, 页码：4513-4519, ICLR, 2021. ICLR.

[16] A. 路易斯-利拉和杨. Tang. ChatGPT 能预测股票价格变动吗？回报可预测性和大型语言模型. SSRN 电子杂志, XXX(XX-XX):XX, 4 2023. ISSN 1556-5068. doi: 10.

2139/SSRN.4412788. URL https://papers.ssrn.com/abstract=4412788. [17] Loughran T 和 McDonald B. 当负债不再是负债？文本分析、词典和 10-K 报表。金融杂志, 66(1): 35–65, 2011.

[18] C. Masson 和 P. Paroubek. 金融领域的自然语言处理分析：Dore 法国 Corpora 公司年度报告语料库（250M 词 token），收录于第十二届语言资源和评估会议（LREC）论文集，页码：2261-2267，LREC，2020. LREC. URL http://www.lrec-conf.org/proceedings/lrec2020/index.html.

[19] A. Moreno-Ortiz, J. Fernández-Cruz, 和 C. P. C. Hernández. Sentiecon 的设计与评估：来自企业新闻语料库的细粒度经济/金融情感词典. 在第十二届语言资源和评价会议（LREC）论文集，页码 5065–5072，LREC，2020. LREC. URL http://www.lrec-conf.org/proceedings/lrec2020/index.html.

[20] Noy S, Zhang W. 生成人工智能的生产率效应实证研究. SSRN 电子期刊, XX(XX):XX, 2023. doi: 10.2139/SSRN.4375283. URL https://papers.ssrn.com/abstract=4375283.

[21] J. 奥卡南 nen, A. 莫贾汗德, K. 邦纳克, F. 托尼, 和 A. 达尼雅尔. 基于图的方法从金融文本中进行无监督的知识发现. 在第十三届语言资源和评价会议（LREC）论文集, 页码 5412–5417, LREC, 2022. LREC. URL http://www.lrec-conf.org/proceedings/lrec2022/index.html.

[22] OpenAI. Gpt-4 技术报告, 2023.

[23] S. Poria, E. Cambria, 和 A. Gelbukh. 基于深度卷积神经网络的意见挖掘方面提取. 知识为基础系统, 108:42–49, 2016.

[24] S. Poria, E. Cambria, R. Bajpai, 和 A. Hussain. 情感计算综述：从单模分析到多模融合. 信息融合, 37:98–125, 2017.

[25] O. Romanko, A. Narayan, 和 R. H. Kwon. 基于 Chatgpt 的投资组合选择. arXiv 预印本 arXiv:2308.06260, XX(XX):

XX, 2023.

[26] R. P. 施马凯和陈辉。基于突发财务新闻的股票市场预测文本分析：Azfin 文本系统。 ACM 交易信息系统（TOIS），27(2):1–19，2009。

[27] W. F. 莎普. 资本资产价格：在风险条件下的市场均衡理论. 金融杂志, 19:425–442, 1964.

[28] F. A. 索蒂诺和 L. N. 价格。基于下行风险框架的投资绩效衡量。《投资杂志》，第 3 期：59–64，1994 年。

[29] P. C. 特洛克. 投资者情绪的内容：媒体在股票市场中的作用. 《金融杂志》, 62(3):1139–1168, 6 2007. ISSN 1540-6261. doi: 10.1111/J.1540-6261.2007.01232.X. URL: https://onlinelibrary.wiley.com/doi/full/10.1111/j.1540-6261.2007. 01232.xhttps://onlinelibrary.wiley.com/doi/abs/10.1111/j.1540-6261. 2007.01232.xhttps://onlinelibrary.wiley.com/doi/10.1111/j.1540-6261. 2007.01232.x.

[30] 谢 Q., 韩 W., 赖 Y., � 彭 M., 黄 J. 华尔街新手：ChatGPT 在多模态股票价格变动预测挑战中的零样本分析. arXiv 预印本 arXiv:2304.05351, XX(XX):XX, 4 2023.

[31] 杨凯诚和费·梅琴 zer. 大型语言模型可以评估新闻机构的可信度. 技术报告, arxiv, 4 2023. URL https://arxiv.org/abs/2304.00228v1.

[32] C. 元, Y. 刘, R. 任, J. 张, Q. 朱, R. 马, 和 R. 徐. 基于目标的情感标注在中国金融新闻中的应用. 在第十二届语言资源和评价会议（LREC）论文集, 页码 5040–5045, LREC, 2020. LREC. URL http://www.lrec-conf.org/proceedings/lrec2020/index.html.

[33] T. 晕, D. 阿 u, C. C. 阿 u, 和 K. Y. 伊 u. 通过 OpenAI 的 ChatGPT 民主化金融知识：释放技术的力量. 可在 SSRN 4346152 获取, XX(XX):XX, 2023.

[34] N. Zmandar, T. Daudert, S. Ahmadi, M. El-Haj, 和 P. Rayson. Cofif plus：一种法语金融叙事总结语料库。在第十三届语言资源和评价会议（LREC）论文集，页码 1622–1639，LREC，2022。LREC. URL http://www.lrec-conf.org/proceedings/lrec2022/index.html。

使用 ChatGPT 生成基于 NLP 的投资策略

其他资源

提示工程

天真方法

转向两步法

转换为投资策略

结果: 描述性统计

策略绩效指标比较分析

权重分析

关键要点

参考文献

相关推荐

人工智能产生的仇恨正在上升：领导者在采用这项新技术之前应该考虑的三件事

Apple 的机器学习新动作

缓慢而稳定的 Waymo 正在赢得自动驾驶竞赛

谷歌的 Bard AI 工具有一些超越 Bing 的新服务

人工智能革命是历史的重演吗？