分类
外匯交易如何獲利

基于强化学习的自动交易系统研究与发展综述

>

Autonomous Trading Agent with Reinforcement Learning

【摘要】 本文使用强化学习构建了与金融市场进行智能交互的自动交易代理。股票市场交易可以用于评估和开发新的机器学习方法,这些方法需要对金融市场交易问题的特征做出调整,尤其是强化学习。预测股市变化是一项非常艰巨的任务,因为驱动市场行为的基本模式是非静态的,这意味着过去学习到的有用的预测模式可能不适合在将来应用。强化学习尚未在该应用领域中广泛应用,相比于其他技术,强化学习的范式可以使代理具有更大自由度地直接学习交易决策模型,例如,无需预设定义用于购买或出售这些决策信号的特定阈值。价格的变化可以自然地被看作是一种奖励,所以强化学习可以避免在监督学习中标注示例和构建训练数据集所需的成本。在对先前文献的研究中,我们发现现有的应用强化学习算法来生成交易决策的研究通常不能解决非静态环境的问题。先前文献中所提出的方法得到的单一代理不会随着时间的变化而重新校准,同时学到的交易策略有时会陷入局部最优。本文提出的方法通过使用多个代理和一个多阶段学习模型来缓解上述提到的问题,多个代理可以竞争性地推荐最佳决策。我们的方法将在线学习与强化学习相结合。在线学习用于在决策点实时从一组代理中选择推荐的交易策略,还可以基于最近的数据重新学习和调整决策模型。为了更好地应用强化学习,实验中对训练强化学习代理的过程做出了调整,使更多的注意力集中在最新数据上。本文使用一系列来自国际和中国股票市场的数据,通过实验分析对所提出的方法进行评估。我们发现,在金融行业中常用于评估风险和收益的各种指标上,基于所提出的方法的代理都能够胜过基于其他机器学习方法的代理。实验表明,使用在线学习和强化学习的代理比基准交易方法购买并持有可获得更高的回报,并且使用在线学习可以大大提高Deep Q-learning代理的性能。值得注意的是,在金融危机期间,在线强化学习(基于强化学习的自动交易系统研究与发展综述 OLR)代理可以在许多情况下保持盈利,而其他代理在所有测试中均有亏损。 更多还原

【Abstract】 This dissertation examines the use of reinforcement learning in autonomous agents that can interact intelligently with financial markets.Stock market trading is used to evaluate and develop a number of machine learning approaches specifically able to handle the challenging characteristics of the financial market trading problem,particularly reinforcement learning.The 基于强化学习的自动交易系统研究与发展综述 prediction of change in the stock market is a very difficult task because the underlying patterns that drive market behavior are non-stationary that means useful predictive patterns learned in the past may not be suitable to be applied in the future.Reinforcement learning has not been widely applied in this application domain and the paradigm 基于强化学习的自动交易系统研究与发展综述 of reinforcement learning provides a way to allow agents to directly learn trading decision models with more degrees of freedom than many other techniques,for example without 基于强化学习的自动交易系统研究与发展综述 a requirement to preset particular thresholds that define certain signals for 基于强化学习的自动交易系统研究与发展综述 buy or sell decisions.The change of price can naturally be viewed as a reward and this will avoid the drawbacks of labeling data related to setting thresholds if the problem is formulated as a supervised learning problem.Reinforcement learning can also avoid costs needed for labelling of examples and 基于强化学习的自动交易系统研究与发展综述 基于强化学习的自动交易系统研究与发展综述 constructing a training data set.However,in a study of the 基于强化学习的自动交易系统研究与发展综述 literature,we find that existing research applying reinforcement learning algorithms to generate trading decisions does not in general account for the environment being non-stationary.The approaches described in the previous literature describe applications of a single agent that may not be recalibrated and learning methodologies that sometimes can be 基于强化学习的自动交易系统研究与发展综述 susceptible to limitations from being 基于强化学习的自动交易系统研究与发展综述 stuck in local optima.The proposed methods in this dissertation mitigate some of these issues by using multiple agents and a multi-stage learning model where the agents compete to recommend the best decisions.Our approach combines online learning with reinforcement learning.Online learning is used to select a recommendation from 基于强化学习的自动交易系统研究与发展综述 a set of agents at 基于强化学习的自动交易系统研究与发展综述 the decision point in real time;in addition,the technique is able to relearn and adapt the set of decision models based on recent data.To develop the approach with reinforcement learning,this research produced new methods that can modify the process of training reinforcement learning agents to give additional focus to recent data.The novel methods are evaluated with empirical 基于强化学习的自动交易系统研究与发展综述 基于强化学习的自动交易系统研究与发展综述 analysis using data from a range of international and Chinese stock markets.We find that agents based on the proposed methodology are able to outperform other machine learning methods in terms of various metrics and including application specific measures of risk and return that are accepted in the finance industry.Experiments show that agents which use online learning and reinforcement learning achieve higher return over a benchmark trading method buy and hold and using online learning provides substantial improvement in performance of a Deep Q-learning agent.Notably,during the financial crisis,the On-Line/Reinforcement 基于强化学习的自动交易系统研究与发展综述 Learning(OLR)agents can stay profitable many cases while other agents suffer a loss in all 基于强化学习的自动交易系统研究与发展综述 tests during this time. 更多还原

牛津大学发布综述《强化学习金融应用进展》-爱代码爱编程

由于数据量的不断增加,金融行业的快速变化使数据处理和数据分析技术发生了革命性的变化,并带来了新的理论和计算挑战。与经典的随机控制理论和其他解决财务决策问题的分析方法相比,强化学习(RL)的新发展能够充分利用大量的金融数据,较少的模型假设,改善复杂金融环境下的决策。本文旨在回顾RL方法在金融领域的最新发展和应用。我们介绍了马尔科夫决策过程,它是许多常用RL方法的设置。然后介绍各种算法,重点介绍不需要任何模型假设的基于值和策略的方法。与神经网络连接,以扩展框架,以包含深度RL算法。我们的综述通过讨论这些RL算法在各种金融决策问题中的应用,包括最优执行、投资组合优化、期权定价和对冲、市场营销、智能订单路由和机器人建议。

引言

近年来,在电子订单驱动的市场中,大量关于交易、报价和订单流的金融数据的可用性给金融中的数据处理和统计建模技术带来了革命性的变化,并带来了新的理论和计算挑战。与经典的随机控制方法相比,来自强化学习(RL)的新思想正在被开发来利用所有这些信息。强化学习描述了一种方法,通过这种方法,在某些系统中活动的主体可以通过与系统交互获得的重复经验来学习做出最优决策。近年来,在金融行业中,RL算法在订单执行、做市和投资组合优化等领域的应用取得了许多成功,引起了人们的广泛关注。当参与者对市场和其他竞争对手的信息有限时,运用RL技术改进各种金融市场的交易决策取得了快速进展。

虽然已经有一些关于金融强化学习方面的更专业的回顾论文,我们的目标是回顾这一领域的广泛工作。本综述旨在提供RL理论的系统介绍,并对下列财务问题——最优执行、投资组合优化、期权定价和对冲、市场营销、智能指令路由和机器人建议进行介绍性讨论。此外,我们还将讨论RL方法相对于经典方法(如随机控制)的优势,特别是对于数学金融文献中已经广泛研究的问题。对于其他具有不同重点的近期综述,见[39],[43],[70],[120],[147]和[155]。关于RL方法在机器学习更广泛的框架内应用于金融问题的讨论,包括期权定价和投资组合优化,见[57,第10章]。

我们的综述将从讨论马尔可夫决策过程(MDP)开始,这是金融中许多强化学习思想的框架。然后,我们将在这个框架内考虑不同的学习方法,主要重点是基于价值和策略的方法。为了实现这些方法,我们将引入深度强化方法,在此背景下结合深度学习思想。对于我们的金融应用,我们将考虑一系列的主题,在考虑使用RL方法处理它们之前,我们将介绍基本的底层模型。我们将讨论每个应用领域的一系列论文,并给出他们的贡献。最后对金融强化学习的发展方向提出了一些思考。

强化学习金融应用未来发展

风险意识或风险敏感RL。风险产生于与未来事件相关的不确定性,并且是不可避免的,因为在作出决定时,行动的后果是不确定的。许多金融导致交易策略和决策问题是很重要的考虑风险的策略(例如可测量的最大提取资金,PnL分布的方差或5%百分位)和/或从市场环境风险等逆向选择风险。

离线学习和在线探索。在线学习需要实时更新算法参数,这对于许多财务决策问题是不切实际的,尤其是在高频情况下。最合理的设置是在交易时段用预先指定的勘探方案收集数据,然后在交易结束后用新的收集到的数据更新算法。这与将在线学习转化为离线回归[185]和使用批量数据的RL[44,77,78,171]密切相关。然而,这些发展集中在一般方法,而不是专门为金融应用量身定制。

在有限的探索预算下学习。探索可以帮助代理找到新的策略来提高他们未来的累积奖励。然而,过多的探索既会消耗时间,也会消耗计算量,特别是对于一些金融应用来说,它可能非常昂贵。此外,在金融机构内部,探索黑箱交易策略可能需要大量的理由,因此投资者倾向于限制探索的努力,并试图在给定的探索预算内尽可能地改善表现。

多目标学习。在金融领域,一个常见的问题是选择一个投资组合时,有两个相互矛盾的目标,渴望投资组合回报的期望值是尽可能高,和渴望有风险,通常以投资组合回报率的标准差来衡量,是尽可能低。

基于强化学习的自动交易系统研究与发展综述

>

距离开会时间还有 天

>