分类
新手都可掌握的蜡烛图分析法

介绍时间序列数据和常见的金融分析方法

时间序列预测的步骤是: 在开始平稳性检验步骤之前,我首先想和大家分享的是平稳性检验的目的。平稳性检验为了确定没有随机趋势或确定趋势,否则将会产生“伪回归”问题.伪回归是说,有时数据的高度相关仅仅是因为二者同时随时间有向上或向下的变动趋势, 并没有真正联系.这样数据中的趋势项,季节项等无法消除, 从而在残差分析中无法准确进行分析。

16种常用统计分析软件介绍

SAS 是英文Statistical Analysis System的缩写,翻译成汉语是统计分析系统,最初由美国北卡罗来纳州立大学两名研究生开始研制,1976 年创立SAS公司, 2003年全球员工总数近万人,统计软件采用按年租用制,年租金收入近12亿美元。SAS系统具有十分完备的数据访问、数据管理、数据分析功能。 在国际上, 介绍时间序列数据和常见的金融分析方法 SAS被誉为数据统计分析的标准软件。SAS系统是一个模块组合式结构的软件系统,共有三十多个功能模块。SAS是用汇编语言编写而成的,通常使用SAS 需要编写程序, 比较适合统计专业人员使,而对于非统计专业人员学习SAS比较困难。SAS最新版为9.0版。网址:http://www.sas.com/。

SAS系统是一个组合的软件系统,它由多个功能模块配合而成,其基本部分是BASE SAS模块。BASE SAS模块是SAS系统的核心,承担着主要的数据管理任务,并管理着用户使用环境,进行用户语言的处理,调用其他SAS模块和产品。也就是说,SAS系统的运行,首先必须启动BASE SAS模块,它除了本身所具有数据管理、程序设计及描述统计计算功能以外,还是SAS系统的中央调度室。它除了可单独存在外,也可与其他产品或模块共同构成一个完整的系统。各模块的安装及更新都可通过其安装程序比较方便地进行。

SAS系统具有比较灵活的功能扩展接口和强大的功能模块,在BASE SAS的基础上,还可以增加如下不同的模块而增加不同的功能:SAS/STAT(统计分析模块)、SAS/GRAPH(绘图模块)、SAS/QC(质量控制模块)、SA/ETS(经济计量学和时间序列分析模块)、SAS/OR(运筹学模块)、SAS/IML(交互式矩阵程序设计语言模块)、SAS /FSP(快速数据处理的交互式菜单系统模块)、SAS/AF(交互式全屏幕软件应用系统模块)等等。SAS提供的绘图系统,不仅能绘各种统计图,还能绘出地图。SAS提供多个统计过程,每个过程均含有极丰富的任选项。用户还可以通过对数据集的一连串加工,实现更为复杂的统计分析。此外,SAS还提供了各类概率分析函数、分位数函数、样本统计函数和随机数生成函数,使用户能方便地实现特殊统计要求。

2 SPSS统计软件

SPSS是英文Statistical package for the social science 的缩写,翻译成汉语是社会学统计程序包,20世纪60年代末由美国斯坦福大学的三位研究生研制,1975年在芝加哥组建SPSS总部。SPSS系统特点是操作比较方便,统计方法比较齐全,绘制图形、表格较有方便,输出结果比较直观。SPSS是用FORTRAN语言编写而成。适合进行从事社会学调查中的数据分析处理。最新版为13.0版。网址:http://www.spss.com/。

20世纪60年代末,美国斯坦福大学的三位研究生研制开发了最早的统计分析软件SPSS,同时成立了SPSS公司,并于1975年在芝加哥组建了 SPSS总部。20世纪80年代以前,SPSS统计软件主要应用于企事业单位。1984年SPSS总部首先推出了世界第一套统计分析软件微机版本 SPSS/PC+,开创了SPSS微机系列产品的先河,从而确立了个人用户市场第一的地位。

SPSS for Windows是一个组合式软件包,目前已经开发出SPSS12版本,它集数据整理、分析功能于一身。用户可以根据实际需要和计算机的功能选择模块,以降低对系统硬盘容量的要求,有利于该软件的推广应用。SPSS的基本功能包括数据管理、统计分析、图表分析、输出管理等等。SPSS统计分析过程包括描述性统计、均值比较、一般线性模型、相关分析、回归分析、对数线性模型、聚类分析、数据简化、生存分析、时间序列分析、多重响应等几大类,每类中又分好几个统计过程,比如回归分析中又分线性回归分析、曲线估计、Logistic回归、Probit回归、加权估计、两阶段最小二乘法、非线性回归等多个统计过程,而且每个过程中又允许用户选择不同的方法及参数。SPSS也有专门的绘图系统,可以根据数据绘制各种统计图形和地图。

SPSS for Windows的分析结果清晰、直观、易学易用,而且可以直接读取EXCEL及DBF数据文件,现已推广到多种操作系统的计算机上,最新的版采用 DAA(Distributed Analysis Architecture,分布式分析系统),全面适应互联网,支持动态收集、分析数据和HTML格式报告,领先于诸多竞争对手。方便易用是SPSS for Windows的主要优点,同时也是SPSS不够全面的原因所在。

3 BMDP统计软件

BMDP是英文Biomedical computer programs 的缩写,翻译成汉语是生物医学计算程序, 美国加州大学于1961年研制,是世界上最早的统计分析软件。特点是统计方法齐全,功能强大。但1991年的 7.0版后没有新的版本推出,使用不太普及,最后被SPSS公司收购。

4 Stata统计软件

Stata统计软件由美国计算机资源中心(Computer Resource 介绍时间序列数据和常见的金融分析方法 Center)1985年研制。 特点是采用命令操作,程序容量较小,统计分析方法较齐全,计算结果的输出形式简洁,绘出的图形精美。不足之处是数据的兼容性差,占内存空间较大,数据管理功能需要加强。最新版为8.0版。网址:http://www.stata.com/。

5 EPINFO软件

EPINFO是英文Statistics program for epidemiology on microcomputer 的缩写,翻译成汉语是流行病学统计程序。美国疾病控制中心CDC和WHO共同研制,为完全免费软件。特点是数据录入非常直观,操作方便,并有一定的统计功能,但方法比较简单,主要应用于流行病学领域中的数据录入和管理工作。最新版为Epidata 2.0版及EPINFO2000版。

6 Minitab

7 Statistica

8 SPLM统计软件

SPLM是英文Statistical program for linear modeling 的缩写,翻译成汉语是线性模型拟合统计软件程序。1988年由解放军第四医学大学统计教研室研制。系统特点是采用线性模型的方法,实现各种统计方法的计算。统计方法比较齐全,功能比较强大。SPLM采用FORTRAN语言编写完成。但1999年推出3.0版后无新的产品推出。

9 CHISS统计软件

CHISS 是英文Chinese High 介绍时间序列数据和常见的金融分析方法 Intellectualized Statistical Software的缩写,翻译成汉语是中华高智统计软件, 由北京元义堂科技公司研制,解放军总医院、首都医科大学、中国中医研究院等参加协作完成。1997年开始研发,2001年推出第一版。CHISS是一套具有数据信息管理、图形制作和数据分析的强大功能,并具有一定智能化的中文统计分析软件。CHISS的主要特点是操作简单直观,输出结果简洁。既可以采用光标点菜单式也可采用编写程序来完成各种任务。CHISS用C++语言、 FORTRAN语言和delphi 开发集成,采用模块组合式结构,已开发十个模块。 CHISS可以用于各类学校、科研所等从事统计学的教学和科研工作。最新版为CHISS2004版。网址:http://www.chiss.cn。

10 SASD统计软件

SASD是英文package for Statistical analysis of stochastic 介绍时间序列数据和常见的金融分析方法 data 的缩写,翻译成汉语是随机数据统计分析程序包。它是由中国科学院计算中心研制。系统特点是以FORTRAN源程序形式向用户提供大量的子程序可供用户进行二次开发,统计方法比较齐全,功能比较强大。SASD采用FORTRAN语言编写完成,比较适合从事统计专业人员使用。但无新版推出。

11 PEMS统计软件

PEMS是英文package for encyclopaedia of medical statistics汉语是中国医学百科全书-医学统计学软件包。它以<中国医学百科全书>一书为蓝本,开发的一套统计软件。系统特点是实现各种统计方法的计算。统计方法比较齐全,功能比较强大。PEMS采用TURBO C和TURBO BASIC语言编写完成,比较适合从事医学工作的非统计专业人员使用。最新版为PEMS3.0版。网址:http://www.pems888.com/。

12 EXCEL电子表格与统计功能

13 DAS统计软件

DAS是英文Drug and Statistics的缩写,翻译成汉语是药理学计算软件,由孙瑞元等开发。特点是内容涵盖基础药理学、临床药理学,药学,医学统计学。能多种处理结果同时显现。EXCEL平台使用方便,智能化,图表直接插入文档。网址:http://www.drugchina.net/。

14 SDAS统计软件

DAS是英文Statistical design and analysis system的缩写,翻译成汉语是统计设计和分析系统。1992年由解放军总医院医学统计教研室开发。特点是窗口操作,操作方便,图表简明,与国内医学统计学教材一致。但只有DOS版,1995年后没新的版本。

15 Nosa统计软件

16 Minitab

S-PLUS提供了方便、灵活、交互、可视化的操作环境,帮助您找出数据之间的关系和趋势,让您做出更好地决策。在科学研究、市场营销、产品研发、质量保证、财务分析、金融证券、资料统计等各个方面,S-PLUS都有广泛的应用。
S-PLUS有流畅、直观的操作界面,广泛的输入输出功能,不论您的数据在何处、数据的格式如何,都可以轻松地存取,生成的结果可以以任意格式进行输出 (图形、文档、表格、网页)。特别是:S-PLUS的操作界面与Microsoft Office完全一致,用鼠标轻松点击,就可以把S-PLUS 的分析结果嵌入到Word文档和PowerPoint文档中;S-PLUS与Excel无缝集成,您可以在S-PLUS 环境中随意操作Excel数据,也可以在Excel环境中使用S-PLUS功能,无需花时间在Excel及S-PLUS之间,将数据来回转换;S- PLUS可以在Internet环境中进行数据分析和结果发布。

Prophet:教你如何用加法模型探索时间序列数据

如果我们的预测曲线过于贴近训练数据,这称为过拟合,此时方差很大,并且模型将不能很好地推广到新的数据。另一方面,如果我们的模型没有捕捉到我们的训练数据中的趋势,这称为欠拟合,此时偏差很大。当模型欠拟合时,增加先验变化点可以使模型具有更大的灵活性来拟合数据;如果模型过拟合,需要减少先验来限制灵活性。由于股票日常变化很大,我们希望模型能够捕捉到这一点,所以我增加了灵活性以更好地拟合数据。在创建一个 prophet 模型中,我们也可以指定变化点,如时间,当希望序列从上升到下降趋势时,反之亦然;如节日,当希望影响时间序列时。如果我们不指定变化点,prophet 会为我们计算它们。

为了进行预测,我们需要用 prophet 模型创建所谓的用于预测的未来数据框。我们指定预测的未来时期区间(两年)和预测的频率(每天)。

我们的未来数据框包含未来两年特斯拉和通用汽车的估计市值。我们可以用 prophet 的绘图函数来可视化预测。


黑点代表实际值(注意实际值测量截止到 2018 年初),蓝线表示预测值,淡蓝色阴影区域表示不确定性(这是预测的关键部分)。未来时间距离越远,不确定性区域越大,因为初始的不确定性随着时间的推移而增长。在天气预报中也观察到这种情况,时间越远天气预报越不准确。

特斯拉搜索频率和股价基点变化

首先,我们将只画出估计值。估计值(在 prophet 包中称为「yhat」)平滑了数据中的一些噪音,因此看起来与原图略有不同:

通用汽车和特斯拉的预测市值

我们的模型认为,特斯拉在 2017 年短暂超越通用汽车的事件只是噪音,在预测中,特斯拉到 2018 年初之后才会超越通用汽车。确切的日期是 2018 年 1 月 27 日,所以如果这个事件发生了,我将准确地预测了未来!

在做上面的图表时,我们忽略了预测中最重要的部分:不确定性!我们可以使用 matplotlib 来画出存疑的区域:


上图更好地显示了预测内容。图中显示两家公司的市值都将预计增加,但特斯拉将比通用汽车增长更快。同样,随着时间的推移,不确定性会随着时间的推移而增加,而特斯拉的预测下限低于通用汽车的预测上限,这意味着或许通用汽车在 2020 年仍将处于领先地位。

通用汽车公司的时间序列分解

道琼斯工业平均指数(反映证券交易所 30 家最大公司的市场指数)很简单地说明了这一点:

道琼斯工业平均指数

显然,要是回到 1900 年投资,你就发财啦!或者实际上,当市场下跌的时候,不要撤资,因为根据历史规律它会回升。从全局来看,日常波动太小,甚至不能被看到,如果我们像数据科学家那样思考,会意识到,与投资全体市场并持有长期相比,短线投资股票是没有意义的。

Prophet 也可以应用于更大规模的数据测量,如国内生产总值(衡量一个国家经济总体规模)。我根据美国和中国的历史 GDP 创建了 prophet 模型并做了以下预测。

中国的 GDP 将超过美国的具体时间是 2036 年!由于观测频率低(每年一次),这个模型是有限的,但它提供了一个不基于宏观经济知识要求的基本预测。

有很多方法来模拟时间序列,从简单线性回归到具有 LSTM 的循环神经网络(recurrent neural network)。加法模型是有用的,因为它们可以快速开发和运行,可以解释并预测不确定性。Prophet 的能力令人印象深刻,我们在这里只涉及到基本功能。我鼓励你使用本文和 notebook 来探索 Quandl 提供的一些数据或者利用你自己的时间序列数据。作为探索时间序列的第一步,Python 中的加法模型是必经之路!

SuperZhang828

其后,Box 和 Jenkins 在 1927 年出版的 Time Series Analysis: Forecasting and Control 被认为是时间序列分析发展的里程碑。该书为实际工作者提供了对时间序列进行分析、预测以及对 ARIMA 模型识别、估计和诊断的系统方法。ARIMA 模型也被称为 Box-Jenkins 模型,主要应用于单变量、同方差场合的线性模型。该模型可以处理非平稳序列,主要思想是先对非平稳序列进行差分,使之变为平稳序列,然后再用 ARMA 模型来拟合差分后的序列。

前面所述的 AR 模型、MA 模型、ARMA 模型和 ARIMA 模型都要求时间序列为单变量、同方差的线性模型。随着时间序列分析理论的发展,人们发现这些假设在一些情形下并不成立,例如 Moran(1953)对加拿大山猫数据的建模过程中发现数据中的怪异特征,即大于均值的样本点的残差显著地小于那些小于均值的样本点的残差。因此,人们越来越关系异方差、多变量、非线性的时间序列。

对于异方差情形,Engle(1982)首先提出 ARCH(Auto-regressive conditional heteroskedasticity,自回归条件异方差)模型。ARCH 模型的基本思想是假设同一时刻噪声服从均值为零,方差是一个随时间变化的量(即为条件异方差)的正态分析,且这个随时间变化的方差是过去有限项序列值平方的线性组合(即为自回归)。作为一种全新的理论,ARCH 模型在近几十年里得到了极大的发展,已被广泛地用于验证金融理论中的规律性描述以及金融市场的预测和决策。该模型也也被认为是近来金融计量学发展中最重大的创新。然而,ARCH 模型只适用于异方差函数短期自相关过程,为此 Bollerslev(1986)对 ARCH 介绍时间序列数据和常见的金融分析方法 推广至广义自回归条件异方差(GARCH)模型,GARCH 模型更能反映实际数据中的长期记忆性质。ARCH 的另外几种推广形式有 Engle 等人(1987)提出的 ARCH-M 模型和 Nelson(1991)提出的指数广义自回归田间异方差(EGARCH)模型,等等。

对于多变量的情形,自然的想法是吧一维时间序列的分析方法推广至多维。因此,早期对于多维时间序列的分析方法中往往要求每个序列都是平稳的。常见的模型有向量 ARMA 模型、向量自回归模型(VAR)等。由于从一元自回归滑动平均模型到多元的情形不能直接推广,其间存在很多问题和需要克服的困难,包括模型的识别、估计和解释等,因此这方面的发展相对较慢。直到 Engle 和 Granger(1987)提出了协整(co-integration)理论及其方法,为多维非平稳序列的建模提供了一种途径。协整理论中各序列可以都是不平稳的,它们的线性组合却是平稳序列,该理论可以解释变量之间的长期稳定的均衡关系。协整方法已成为了分析非线性平稳序列之间数量关系的最重要工具之一。对于序列之间存在非线性的调整机制的情形,Balke 和 Fomby(1997)提出了阈值协整(Threshold Cointegration)方法。例如,在股票交易过程中,由于交易费用、交易政策等因素会导致股价的非对称调整;国家的货币政策由于制度方面的原因也会对通货膨胀率产生非对称调整行为。

对于非线性情形,Tong 和 Lim(1980)提出了 TAR(Threshold Autoregressive,门限自回归)模型。TAR 模型假定在状态空间的不同区域,模型有不同的线性形式,状态空间的划分通常由一个门限变量来确定,该模型属于参数模型。近二十年来,人们更多的关注时间序列的非参数模型,如非参数自回归(NAR)模型、非参数自回归异方差(NARCH)模型等。

时间序列分析方法的另一个突破是在谱分析方面。给定一个时间序列样本,通过傅里叶变化可以把时域上的数据变换到频域,即为经典谱分析方法,例如周期图谱法等。Burg(1967)在他从事的地震信号的分析与处理中提出最大熵谱,其把信息熵的概念融入信号处理中,有时又称为时序谱分析方法,是现代谱分析的开始。Capon(1969)提出了最小方差谱估计。这两个方法共同奠定了现代谱估计的基础。此后Shore 和 Johnson(1980)又提出了最小交叉熵法。理论证明,最大熵谱分析法只是最小交叉熵法的一个特例。当存在先验信息时,最小交叉熵可获得比最大熵法好得多的分辨率。但最小交叉熵法的缺点是运算太繁复。一般地,经典谱估计对于长数据序列有良好的谱估计性能,但对于短数据序列经典谱分析存在分辨率不高等致命弱点,现代谱估计法则具有优良性能。

时间序列分析浅谈

时间序列预测的步骤是: 在开始平稳性检验步骤之前,我首先想和大家分享的是平稳性检验的目的。平稳性检验为了确定没有随机趋势或确定趋势,否则将会产生“伪回归”问题.伪回归是说,有时数据的高度相关仅仅是因为二者同时随时间有向上或向下的变动趋势, 并没有真正联系.这样数据中的趋势项,季节项等无法消除, 从而在残差分析中无法准确进行分析。

平稳性检验


图片 图片 图片





因DF检验假设ut 为白噪声,序列为一阶自回归的模型,但实际上随机干扰项并非为白噪声序列,且序列并非为一阶自回归生成,因此用普通最小二乘法进行估计的t统计量会受到无关参数的影响,导致DF检验无效。 如果时间序列包含有明显的随时间变化的某种趋势,DF检验必须保证能够剔除这种趋势,否则时间趋势的成分会进入ut,导致ut 非白噪声序列,进而偏离了最初的假设。 因此形成了ADF检验。 ADF检验是由下面3个模型完成:


时间序列常见的三种模型

自回归模型(Autoregressive model,简称AR模型), 用同一变数例如x的之前各期,亦即x1至xt-1来预测本期xt的表现,并假设它们为一次线性关系。因为这是从回归分析中的线性回归发展而来,只是不用x预测y,而是用x预测 x(自己);所以叫做自回归。



MA模型(moving 介绍时间序列数据和常见的金融分析方法 average model)移动平均模型,简记形式如下:


自回归滑动平均模型(Autoregressive moving average model,简称:ARMA模型)。是研究时间序列的重要方法,由自回归模型(简称AR模型)与移动平均模型(简称MA模型)为基础“混合”构成。它比AR模型法与MA模型法估计更精确,但其参数估算比较繁琐。ARMA(p,q)模型简记形式如下:


模型的选择与定阶

说到时间序列分析,一定离不开自相关函数(auto-correlation function,ACF)和偏自相关函数(Partial auto-correlation function,PACF),ACF可以提供具有滞后值的任何序列的自相关值。简单来说,它描述了该序列的当前值与其过去的值之间的相关程度。时间序列可以包含趋势,季节性,周期性和残差等成分。ACF在寻找相关性时会考虑所有这些成分。直观上来说,ACF 描述了一个观测值和另一个观测值之间的自相关,包括直接和间接的相关性信息。