時系列データ分析の本を読んでの整理3

時系列データ分析の本を読んでの整理2」の続き。

本はこれ。

現場ですぐ使える時系列データ分析 ~データサイエンティストのための基礎知識~

現場ですぐ使える時系列データ分析 ~データサイエンティストのための基礎知識~

読みながら纏めているもので、はじめて学ぶ分野な上、独学なので間違いが多いと思うので、注意してください。

次に進む前に、前回のポイントを簡単に纏めておく。

1.時間依存を調べる

データが時間依存するのかどうかを調べるために、1つの時系列データの自己相関性を調べる。

手段は、自己相関係数を計算すること。

ある時刻のデータと、別の時刻のデータの相関係数(自己相関係数)と時刻の差をグラフにしたものをコレログラムという。

実は統計的仮説検定によって、「自己相関関係の有無について」について判断する方法がある(Ljung-Box検定)。

2.定常性について

全ての時点の確率変数が同一の分布に従うという条件は強い。

「平均が一定+分散が一定+自己共分散がラグhにのみ依存」するという前提にする(弱定常性)。

「平均が0+分散が一定+自己共分散が0」という前提にした、ホワイトノイズ


3.自己回帰モデルの導入

・1次自己回帰モデルAR(1)の構成要素は、
①「過去の情報をもとに確定的に定まる部分」
②「過去の情報とは無関係に確率的に新たな情報を与える部分」
に分けられる。②の部分はホワイトノイズを仮定しているため自己相関性がなく、過去時点の情報は現在の情報に影響を与えない。
・AR(1)モデルが定常であるための必要条件は、1つ前の過去情報の係数Φの絶対値が1より小さい(|Φ|<1)こと。

時系列データにAR(1)モデルを当てはめてみる。
自己回帰係数Φ、切片μ、イノベーションの分散σ^2はモデルのパラメータで、最小二乗法によって求める。
残差の標本分散を推定値の代理に用いることもできる。
AICとは最適な字数を選択するための指標。
AICが最小の値を示すARモデル」=「AICを計算したARモデルの中で最適なモデル(対象データを最もよく説明するモデル)」