Rによるデータサイエンス

【Rによるデータサイエンス】アソシエーション分析

アソシエーション分析とは。。。 トランザクションデータから頻出するアイテムの組み合わせの規則を漏れ無く抽出し、その中から興味深い結果を探し出すこと。 アソシエーション分析を行う際には、「トランザクションデータから頻出するアイテムの組み合わせ…

【Rによるデータサイエンス】集団学習

【定義】 集団学習とは。。。 集団学習(ensemble learning、アンサンブル学習)は、決して精度が高くない複数の結果を統合・組み合わせ、精度を向上させる機械学習方法である。 複数結果の統合・組み合わせの方法としては。。。 No 解くべき問題 複数結果の統…

【Rによるデータサイエンス】サポートベクターマシン(SVM)

【定義】 サポートベクターマシンとは。。。 サポートベクターマシン(SVM:Support Vector Machine)は、分類と回帰問題を主としたデータ解析方法である。 SVMは、高次元の分類問題が得意。また、SVMは線形分離が可能な高次元の仮想空間で、線形的なアプロー…

【Rによるデータサイエンス】カーネル法

【定義】 カーネル(kernel)法とは。。。 カーネル関数を使用してデータを表現しなおす方法。 なぜ、表現しなおすかって? 例えば、非線形的なデータ構造を線形構造に変換することができれば、線形的なデータ解析手法(線形マシン)で非線形データを扱う事が…

【Rによるデータサイエンス】樹木モデル

【定義】 樹木モデルとは。。。 非線形回帰分析、非線形判別分析の1つの方法である。 回帰問題では回帰木(regression tree)、分類問題では分類木(classification tree)あるいは決定木(decision tree)と呼ばれている。 これだけでは抽象的すぎて、分からない…

【Rによるデータサイエンス】樹木モデル(続き) 〜 多変量回帰木

「Rによるデータサイエンス】樹木モデル(続き) 〜 回帰木」では回帰木のケーススタディを実施した。 今回は多変量回帰木のケーススタディを行う。 なお、多変量回帰とは、目的変数が複数である回帰分析のことを呼ぶ。◎使用するデータ パッケージmvpartに同…

【Rによるデータサイエンス】樹木モデル(続き) 〜 回帰木

「【Rによるデータサイエンス】樹木モデル」の続き。 回帰木のケーススタディについて勉強する。◎使用するデータ 車のスピードと停止距離を表すcarsデータを使用する。 speed dist 1 4 2 2 4 10 3 7 4 4 7 22 5 8 16 1.回帰木の作成 目的変数を距離(dist)…

【Rによるデータサイエンス】非線形判別分析 〜 多数決による判別分析 〜 k最近傍法(k最近隣法,k-NN法)

「【Rによるデータサイエンス】非線形判別分析」では、線形判別分析の欠点を簡単に紹介して、非線形判別分析の判別関数による分析について勉強した。今回は、多数決による判別分析の方法として、k最近隣法を勉強する。【定義】 k最近隣法とは。。。 k最近隣…

【Rによるデータサイエンス】非線形判別分析

「【Rによるデータサイエンス】線形判別分析」と「【Rによるデータサイエンス】線形判別分析 〜 結果の検証」で線形判別分析について勉強してきた。線形判別分析は、等分散の制約条件*1があることと、大量の変数には向いていない短所がある。そこで次に非線…

【Rによるデータサイエンス】線形判別分析 〜 結果の検証

「【Rによるデータサイエンス】線形判別分析」では、線形判別分析がどのような分析手法なのかを簡単に勉強した。今回は、線形判別分析を実施する上での制約と結果の確認方法について勉強する。◎線形判別分析の制約 線形判別分析は、複数の群にデータを分類し…

【Rによるデータサイエンス】線形判別分析

◎本題に入る前に1 余談・・・。 最近、徐々に内容が難しくなってきていて、自分の予備知識の足りなさを痛感している。ただ、今回の「Rによるデータサイエンス」の初読の目的は「やった感+写経による学習+概要を把握すること」なので、わからないことがあ…

【Rによるデータサイエンス】非線形回帰分析 〜 平滑化回帰

■平滑化回帰 人口データを作成する。 > x1<-seq(-10,10,0.1) > y1=50*sin(x1)+x1^2+10*rnorm(length(x1),0,1) > plot(x1,y1) データy1を目的変数、x1を説明変数とした非線形回帰モデルを考える。◎多項式回帰モデル 多項式回帰モデルで近似できないかを考える…

【Rによるデータサイエンス】非線形回帰分析 〜 一般化線形モデル

一般化線形モデルとは・・・。 wikipediaから引用したものが次。 一般化線形モデル (いっぱんかせんけいモデル、英:Generalized linear model、GLM)は、正規分布以外の分布を扱えるように線形回帰モデルを拡張したモデル。 なるほど!たしかに、これまで「【…

【Rによるデータサイエンス】非線形回帰分析 〜 多項式回帰

前回「【Rによるデータサイエンス】非線形回帰分析 〜 ロジスティック回帰」では非線形回帰分析の方法の1つとしてロジスティック回帰について勉強した。今回は2つ目の方法「多項式回帰」について勉強する。次のようにして作成した人工データを使用する。 > x…

【Rによるデータサイエンス】非線形回帰分析 〜 ロジスティック回帰

非線形回帰分析とは。。。 線形回帰分析以外のことらしいw。 まぁそこは深く突っ込む気はないので、その程度に捉えておく。さて、いきなりケーススタディ。◎ロジスティック回帰 カラーテレビの普及率のデータを打ち込む。 > 年度<-c(1966:1984) > 普及率<-c…

【Rによるデータサイエンス】線形回帰分析 〜 変数・モデルの選択

回帰モデルの推定は、回帰係数を求めることだが、求めた回帰モデルの決定係数が悪かったり、残差分析の結果が悪い場合は適切なモデルとはいえない。そのため、変数を入れ替えながら回帰モデルを構築し、より当てはまりが良いモデルを選択する。それでは、良…

【Rによるデータサイエンス】線形回帰分析 〜 重回帰分析における相互作用

「【Rによるデータサイエンス】線形回帰分析 〜 重回帰分析」で重回帰分析について簡単に勉強した。そこでは、説明変数の間の関連性は考えずに、目的変数と説明変数間の相関関係のみを用いた。 ところが、説明変数同士にも相関関係が有る場合もあるだろう。…

【Rによるデータサイエンス】非線形回帰分析 〜 加法モデル

◎定義 加法回帰モデル(additive regression model)とは。。。 ・線形回帰モデルおよび関数nlsによる非線形回帰モデルは、加法モデルの特殊なケースと考えられる。 ・が全て線形関数の場合は、線形回帰モデルとなる。一般化線形モデルを加法モデル化したとき…

【Rによるデータサイエンス】線形回帰分析 〜 線形単回帰分析

【定義】 回帰分析とは。。。 回帰分析とは、説明変数を用いて、目的変数を説明する統計モデルをデータから求めるデータ分析の方法。 回帰分析には2種類あり、 直線関係でモデル化する回帰分析を線形回帰分析と呼ぶ。 非線形関係でモデル化する回帰分析を非…

【Rによるデータサイエンス】自己組織化マップ(SOM)

【定義】 自己組織化マップとは。。。 ニューラルネットワークの1種で、目的変数を持たない教師なし学習アルゴリズムのこと。 高次元データを2次元平面上へ非線形射影するデータ解析手法。 ニューラルネットワークとは。。。 Wikipediaによると次のようにあ…

【Rによるデータサイエンス】クラスター分析(つづき) 〜 非階層的クラスター分析

「【Rによるデータサイエンス】クラスター分析」では、クラスター分析の定義から入り、階層的クラスター分析のケーススタディまで行った。 今回は、階層的クラスター分析が適さない場合に使用する、非階層的クラスター分析についてメモする。 まず、階層的ク…

【Rによるデータサイエンス】線形回帰分析 〜 重回帰分析

前回は線形回帰分析のうち、線形単回帰分析について勉強した。今回は、重回帰分析について勉強する。 重回帰分析とは、説明変数が複数である回帰分析のこと。 次のように表現できることを想定する。 回帰分析で求める回帰式は次。 説明変数のデータをX、目的…

【Rによるデータサイエンス】クラスター分析

【定義】 クラスター分析とは。。。 ざっくり言うと次のようになる。 クラスター分析とは、データのパターンが似ている個体を同じグループにまとめる分析方法である。 簡単そう! でも、データのパターンの定量的定義はどうするの?とか、パターンの違いはど…

【Rによるデータサイエンス】多次元尺度法(つづき) 非軽量MDS

「【Rによるデータサイエンス】多次元尺度法」の続き。前回は、多次元尺度法とは何かから初めて、計量MDSまで練習した。 今回は、計量MDSについてメモする。非計量MDSは、距離の性質を満たさない類似性データも視野に入れ、計量MDSを発展させたもの。 非計量…

【Rによるデータサイエンス】多次元尺度法

【定義】 多次元尺度法とは。 多次元尺度法(MDS:Multi-Dimensional Scaling)は、個体間の親近性データを2次元あるいは3次元空間に、類似したものを近く、そうでないものを遠くに配置する方法である。 ここでイキナリ分からない。 親近性データとは・・・。…

Rによるデータサイエンス】対応分析

【定義】 対応分析とは。 分割表において行の項目と列の項目の相関が最大になるように、行と列の双方を並び替え、関連性が強いもの(あるいはパターンが似ているもの)同士が近似になるような値を取るように処理を行う方法。 【具体例を使用した練習】1.パ…

Rによるデータサイエンス】因子分析

【定義】 因子分析の定義は、次のように書かれている。 変数の間の相関関係から共通因子を求めること 「観測データ=独自因子+共通因子」と分解できることを前提とし、観測データを最もうまく表現する独自因子と共通因子を求めることを因子分析と呼ぶと、理…

【Rによるデータサイエンス】主成分分析 ケーススタディ

「【Rによるデータサイエンス】主成分分析」の続き。 理論的な背景を理解したので、書籍に記載のある丘本円周の例を手を動かして実践してみる。1.丘本演習の円周データをtempに作成する。 temp<-c( 50, 57, 74, 94, 112, 128, 140, 147, 150, 147, 140, 12…

【Rによるデータサイエンス】主成分分析

主成分分析について、本には次のように記載がある。 主成分分析(PCA:Principa Component Analysis)は、多くの変数により記述された量的データの変数間の相関を排除し、できるだけ少ない情報の損失で、少数この無相関である合成変数に縮約して、分析を行う…

【Rによるデータサイエンス】行・列処理のためのapply関数

本題の前に1つ間違ったことをメモ。 「【Rによるデータサイエンス】第2章 データの入出力と編集 データファイル読み込み」にて使用したread.csvとread.table。その時は、違いが分かっていなかったけど、今回初めて知った違いがあった。read.tableを使用して…