統計

Rで確率・統計の中級 〜 株価の分布

価格分布を描く。 > T6758_AdjClose<-T6758$YJ6758.T.Adjusted > head(T6758_AdjClose) YJ6758.T.Adjusted 1983-01-04 1586.36 1983-01-05 1595.45 1983-01-06 1577.27 1983-01-07 1590.91 1983-01-08 1581.82 1983-01-10 1563.64 > T6758_MeanAdjClose<-mea…

Rで確率・統計の基礎2 〜 中心極限定理

前回「Rで確率・統計の基礎1 〜 母集団と標本」の続き。前回とは異なり、常に10個の抽出を行って平均を取得し、それらをリストmean_listに入れる。 そのヒストグラムを描き、Xの平均を縦線で追加で描く。 > mean_list<-list() > for(i in 1:10000){ + mean_…

Rで確率・統計の基礎1 〜 母集団と標本

乱数を生成してヒストグラムを描き、その上に平均値を縦線で描く。 ほぼ教科書通り。 > set.seed(100) > X <- rnorm(1000000, mean = 2.33, sd = 0.5) > mu <- mean(X) > sd <- sd(X) > hist(X, breaks=100) > abline(v=mu, lwd =3, lty =1) set.seed(引数)…

履歴〜2015年11月22日にSTLを施して2週間後

2015年11月22日に掲載した「Rで周波数解析や成分分解」で、周期240と周期80でSTLを実行した。それから凡そ2週間経過したので、再度解析した結果を載せておく。データは直近の2015年12月7日まで。◎周期80での結果 前回のエントリーでは、周期80の結果を見て次…

続 〜 周期変動部分の分解

「Rで周波数解析や成分分解」や「RでstatsパッケージのSTLによる結果から周期変動部分、トレンド部分、残差部分を取り出す」で取り扱ったことを違うデータでやってみる。データは「2つのデータの相関、ccfなど」で使った、fdataとvi。まずはviについて。 >vi…

2つのデータの相関、ccfなど

今回扱うのは次の2つのデータ。tdataのグラフ。 viのグラフ。 期間は2006/1/6〜2015/11/20のデータ。相関。 > cor(tdata,vi) [1] -0.3088769 CCF。 > ccf(tdata,vi) 次に、tdataを次のfdataと置き換える。 相関。 > cor(fdata.close.ts,vi) [1] -0.3742764 C…

Rでパーセンタイルを求める

ある時系列xのパーセンタイルを求めたい。 quantile関数を使用すれば良い。次のようなデータを使用する。 > summary(x) Min. 1st Qu. Median Mean 3rd Qu. Max. 1.233 36.030 49.950 50.110 64.430 99.490 パーセンタイルを求める。 > quantile(x,c(0,0.1,0.…

RでstatsパッケージのSTLによる結果から周期変動部分、トレンド部分、残差部分を取り出す

前回「Rで周波数解析や成分分解」で、データにSTLを作用させてその結果から今後3ヶ月のシナリオを考えた。 その時思ったことだが、周期変動部分と残差部分の動きが似ている気がした。 そこで、それら2つの相関を計算しようと思ったが、stlの結果から各要素の…

Rで周波数解析や成分分解

今回は、まずこんなデータを考えてみる。 期間は2006/1/4〜2015/11/20。Rのspec.pgramを使用してピリオドグラムを求める。 spec.pgramはデフォルトでは対数グラフを作成するが、今回は対数化は行わないので、log="no"を指定する。 > spec.pgram(y,log="no") …

Rでar関数や残差分析などの復習 〜 続き

前回「Rでar関数や残差分析などの復習」の続き。 今回は、元データを前半と後半に分けて、前半のデータから後半のデータを予測してみる。 > f1min_20151112_Day_0900_1230<-read.csv("f1min_20151112_Day_0900_1230.csv") > f1min_20151112_Day_0900_1230.cl…

Rでar関数や残差分析などの復習

前回「Rのts.arima関数を使ってみる」を書いてから、5日経過。 すでに色んなことを忘れているwww。1日開けば殆ど忘れます。SE的にすべきことが多いので。今回は、まずRの使い方の復習から。 >setwd("D:\\dev\\DataAnalysis\\Data") >f1min_20151112_Day<-…

Rのts.arima関数を使ってみる

今回の目的は、Rの使い方に慣れる・Rの使い方思い出すこと。 従って、適切なモデリングかどうかといったことは気にしない。 1.CSVからデータを読み込む 2.時系列データへ変換する 3.とりあえず、ts.arimaを使用してみる 4.とりあえず、ts.arimaで推…

頭のリフレッシュ 〜 時系列分析4

前回「頭のリフレッシュ 〜 時系列分析3」では、データを加法モデルに分解して遊んでみた。今回は、モデルについて。下図のようなデータを考える。 如何にも単純なグラフである。自己相関はこんな感じ。 > acf(ar1.ts, plot="FALSE") Autocorrelations of s…

頭のリフレッシュ 〜 時系列分析3

前回「頭のリフレッシュ 〜 時系列分析2」では、相互相関で遊んでみた。今回はその時扱ったデータの差分について考えてみる。 Rでプロットするとこんな感じ。なんだか周期的に、-50くらいへ下振れするようなので、周期性を調べてみる。 次の加法モデルを仮…

頭のリフレッシュ 〜 時系列分析2

前回「頭のリフレッシュ 〜 時系列分析1」の続き。前回は1つの時系列データについて、自己相関係数とコレログラムを作ってみた。 今回は2つの時系列データについて考えてみる。とりあえずRでCSVのデータを書いてみた。 見づらいが、気にしないd(´∪`○)…

頭のリフレッシュ 〜 時系列分析1

ここ1年、システムの仕事ばかりしている。しかも、運用・保守が殆ど。 使わない知識は自ずと忘れていく。そこで息抜きに時系列分析について非常に簡単に整理しておく。 難しいことには触れないので、レベルは高校3年生〜大学1年生といったところ。 下図は…

【Rによるデータサイエンス】非線形回帰分析 〜 一般化線形モデル

一般化線形モデルとは・・・。 wikipediaから引用したものが次。 一般化線形モデル (いっぱんかせんけいモデル、英:Generalized linear model、GLM)は、正規分布以外の分布を扱えるように線形回帰モデルを拡張したモデル。 なるほど!たしかに、これまで「【…

【Rによるデータサイエンス】主成分分析 ケーススタディ

「【Rによるデータサイエンス】主成分分析」の続き。 理論的な背景を理解したので、書籍に記載のある丘本円周の例を手を動かして実践してみる。1.丘本演習の円周データをtempに作成する。 temp<-c( 50, 57, 74, 94, 112, 128, 140, 147, 150, 147, 140, 12…

【Rによるデータサイエンス】主成分分析

主成分分析について、本には次のように記載がある。 主成分分析(PCA:Principa Component Analysis)は、多くの変数により記述された量的データの変数間の相関を排除し、できるだけ少ない情報の損失で、少数この無相関である合成変数に縮約して、分析を行う…

時系列データ分析の本を読んでの整理1

読んだ本は、これ。現場ですぐ使える時系列データ分析 ~データサイエンティストのための基礎知識~作者: 横内大介,青木義充出版社/メーカー: 技術評論社発売日: 2014/02/18メディア: 単行本(ソフトカバー)この商品を含むブログ (6件) を見るslideshareにメ…

Rでのテストツール 〜 RUnit の紹介ページを見つけたのでメモ

RUnitについて、紹介されていたのでメモ。 Tokyor14 - R言語でユニットテスト from Yohei Sato RWikiも参考にして試してみた。 ◎前提の設定 1.作成したテストコードのファイル名は「TestSample.R」、保存フォルダは「C:\bin\R\test」とした。 2.ワーキン…

Rでのプロキシ設定

社内ネットワークから、Rのパッケージをインストールしようとしたが、R側でプロキシの設定をしていなかったため、パッケージインストールに失敗したのでメモ。 【解決方法】 Rを起動する際に使用するショートカットを右クリックして起動オプションに「--inte…