2014-01-01から1年間の記事一覧

【R】RでJリーグのクラスター分析

今回の目的は、クラスター分析の練習をしながら、Rの使い方に慣れること。 統計的な意味は皆無と考えている。 これは、10年前のデータを考えても、10年前のチーム構成(メンバー、監督など)は現在のチーム構成とは全く異なるので参考にならない、分析したと…

【R】データから特定の条件を満たすデータを抽出する 〜 subset関数

> head(j2Data) Date Time Home Home_Score Away Away_Score Result 1 2007/3月3日(土) 14:00 Ftokyo 2 hiroshima 4 2 2 2007/3月3日(土) 14:00 yokohamaM 1 kouhu 0 1 3 2007/3月3日(土) 14:00 ooita 1 niigata 1 0 4 2007/3月3日(土) 15:00 kawasaki 1 kas…

【R】ファイルへの出力

R

分析結果をCSVに出力するなどして、Excelで分析したい場合などに使うだろう。結論から述べると、次のようにwrite.tableを使用して実現できる。 > tableRes<-table(j2Data$Home,j2Data$Result) > write.table(tableRes,"output.csv") 元データは次のようなデ…

【R】ワークスペースのロード

R

仕事が忙しくて全然ブログを更新していない。 大したことでなくてもいいから、更新しようと思ったので、ワークスペースのロードについてメモしておく。結論から述べると、ワークスペースのロードは「load」コマンドで実施することができる。前回作業した変数…

【Java】ExecutorService

「ExecutorService の使い方」を参考に使用してみた。まずは、スレッドプール内に1つのスレッドを作成して実行してみる。 Executors.newFixedThreadPool(1);として指定する。 package practice; import java.util.concurrent.ExecutorService; import java.u…

【Perl】【JavaScript】Perlのローカル変数宣言myとlocalについて

最近、Perlコードを読まなければならなくて、苦戦しているw。これまで使ってこなかった言語だから。 さて、その中で、myという変数宣言があった。これはたしかローカル変数の宣言の際に使用したはず。記憶がおぼろげだったのでぐぐってみた。Perl入門の16章…

【Excel】特定のセルまでを選択する、右から左への縦書を左から右へ変更する

1.特定のセルまでを選択する Shiftキーを押しながら、選択開始セルを選択し、選択終了セルを選択するとよい。2.右から左への縦書を左から右へ変更する 横書きの場合は可能だが、縦書の場合は不可能なようだ。 横書きの場合は、セルの選択→右クリック→セ…

【POI】poiでExcelから数値データを読み取ろうとした際に、java.lang.IllegalStateException: Cannot get a text value from a numeric cell

poiを使ってExcelから文字列を読み込んで、javaで加工しようとした際に例外発生。 Exception in thread "main" java.lang.IllegalStateException: Cannot get a text value from a numeric cell at org.apache.poi.hssf.usermodel.HSSFCell.typeMismatch(HSS…

【R】年平均のデータを使った練習

R

気象庁が公開している年平均の気温をRを使ってプロットしてみる。 > aveTemp_1984_2014<-read.csv("aveData1984_2014.csv") > aveTemp_2009_2014<-aveTemp_1984_2014[9133:10958,] > yTemp<-aveTemp_2009_2014$averageTamparature > plot(yTemp) > lines(smo…

【R】ワークスペースのロード

R

RStudioをインストールしたら、RStudioをインストールする前のワークスペースではなくなっている。 そのワークスペースを使うには、.RDataをロードする。 > load("C:/dev/R/.RData")

【Rによるデータサイエンス】アソシエーション分析

アソシエーション分析とは。。。 トランザクションデータから頻出するアイテムの組み合わせの規則を漏れ無く抽出し、その中から興味深い結果を探し出すこと。 アソシエーション分析を行う際には、「トランザクションデータから頻出するアイテムの組み合わせ…

【Rによるデータサイエンス】集団学習

【定義】 集団学習とは。。。 集団学習(ensemble learning、アンサンブル学習)は、決して精度が高くない複数の結果を統合・組み合わせ、精度を向上させる機械学習方法である。 複数結果の統合・組み合わせの方法としては。。。 No 解くべき問題 複数結果の統…

【これなら分かる最適化数学】第1章 数学的準備に登場する定理たち

これなら分かる最適化数学―基礎原理から計算手法まで作者: 金谷健一出版社/メーカー: 共立出版発売日: 2005/09/01メディア: 単行本購入: 29人 クリック: 424回この商品を含むブログ (42件) を見るこの本を読んでいる。易しい例題が豊富なので比較的スラスラ…

【Rによるデータサイエンス】サポートベクターマシン(SVM)

【定義】 サポートベクターマシンとは。。。 サポートベクターマシン(SVM:Support Vector Machine)は、分類と回帰問題を主としたデータ解析方法である。 SVMは、高次元の分類問題が得意。また、SVMは線形分離が可能な高次元の仮想空間で、線形的なアプロー…

【Rによるデータサイエンス】カーネル法

【定義】 カーネル(kernel)法とは。。。 カーネル関数を使用してデータを表現しなおす方法。 なぜ、表現しなおすかって? 例えば、非線形的なデータ構造を線形構造に変換することができれば、線形的なデータ解析手法(線形マシン)で非線形データを扱う事が…

【R】ヒストグラムの上に中央値と平均を追加する

R

データはこれ。 > A [1] 15 13 11 11 10 9 8 8 6 6 4 3 3 3 1 6 5 4 2 2 ヒストグラムを描く。 > hist(A) これに中央値と平均の線を追加して描く。 まずは中央値を追加する(赤線)。 > abline(v=median(A), lty=1,col=2,lwd=3) 次に平均値を追加する(青線…

【R】初心者の自分が知らなかったRの仕様

R

脈絡なく想定外だったRの仕様をメモしておく。 間違っている場合もあるかもしれないので、詳細は各自確認してください。・外部ファイルを読み込むと、「数値」は「数値型」になるが「文字」は「因子型(カテゴリ)」に自動変換されるため、「文字」を「文字…

【Rによるデータサイエンス】樹木モデル

【定義】 樹木モデルとは。。。 非線形回帰分析、非線形判別分析の1つの方法である。 回帰問題では回帰木(regression tree)、分類問題では分類木(classification tree)あるいは決定木(decision tree)と呼ばれている。 これだけでは抽象的すぎて、分からない…

【Rによるデータサイエンス】樹木モデル(続き) 〜 多変量回帰木

「Rによるデータサイエンス】樹木モデル(続き) 〜 回帰木」では回帰木のケーススタディを実施した。 今回は多変量回帰木のケーススタディを行う。 なお、多変量回帰とは、目的変数が複数である回帰分析のことを呼ぶ。◎使用するデータ パッケージmvpartに同…

【Rによるデータサイエンス】樹木モデル(続き) 〜 回帰木

「【Rによるデータサイエンス】樹木モデル」の続き。 回帰木のケーススタディについて勉強する。◎使用するデータ 車のスピードと停止距離を表すcarsデータを使用する。 speed dist 1 4 2 2 4 10 3 7 4 4 7 22 5 8 16 1.回帰木の作成 目的変数を距離(dist)…

【統計学入門】データのバラツキの大きさを測る各種指標

データのバラツキを測る指標を次にまとめる。なお、「データのバラツキを測る」というのは、中心値や代表値を基準として、各種データがそこからどの程度離れているのかを調べるということ。 タイトル バラツキを測る指標名 内容 偏差と分散 偏差 各データと…

【統計学入門】平均、分散、標本分散、不偏分散、標準偏差、標準誤差

【基本的な言葉の定義の確認】◎代表値 代表値とは分布を代表する値。 ◎平均値 代表値の1つ。普段から慣れ親しんでいる平均。 ◎中央値 その値より小さな観測値と大きな観測値の個数が等しくなるような値。 ◎偏差 各観測値と平均との隔たりのこと。どれだけ平…

【統計学入門】統計的検定と有意確率

【定義】 仮説検定とは。。。 「仮説検定」とは、統計的仮説の「有意性」の検定である。 仮設の下で我々が期待するものと、観測した結果との違いを、これらの差が単に「偶然」によって起こったものか否かという見地から、確率の基準で評価する。 母集団につ…

【Rによるデータサイエンス】非線形判別分析 〜 多数決による判別分析 〜 k最近傍法(k最近隣法,k-NN法)

「【Rによるデータサイエンス】非線形判別分析」では、線形判別分析の欠点を簡単に紹介して、非線形判別分析の判別関数による分析について勉強した。今回は、多数決による判別分析の方法として、k最近隣法を勉強する。【定義】 k最近隣法とは。。。 k最近隣…

【Rによるデータサイエンス】非線形判別分析

「【Rによるデータサイエンス】線形判別分析」と「【Rによるデータサイエンス】線形判別分析 〜 結果の検証」で線形判別分析について勉強してきた。線形判別分析は、等分散の制約条件*1があることと、大量の変数には向いていない短所がある。そこで次に非線…

【Rによるデータサイエンス】線形判別分析 〜 結果の検証

「【Rによるデータサイエンス】線形判別分析」では、線形判別分析がどのような分析手法なのかを簡単に勉強した。今回は、線形判別分析を実施する上での制約と結果の確認方法について勉強する。◎線形判別分析の制約 線形判別分析は、複数の群にデータを分類し…

【Rによるデータサイエンス】線形判別分析

◎本題に入る前に1 余談・・・。 最近、徐々に内容が難しくなってきていて、自分の予備知識の足りなさを痛感している。ただ、今回の「Rによるデータサイエンス」の初読の目的は「やった感+写経による学習+概要を把握すること」なので、わからないことがあ…

【Rによるデータサイエンス】非線形回帰分析 〜 平滑化回帰

■平滑化回帰 人口データを作成する。 > x1<-seq(-10,10,0.1) > y1=50*sin(x1)+x1^2+10*rnorm(length(x1),0,1) > plot(x1,y1) データy1を目的変数、x1を説明変数とした非線形回帰モデルを考える。◎多項式回帰モデル 多項式回帰モデルで近似できないかを考える…

【Rによるデータサイエンス】非線形回帰分析 〜 一般化線形モデル

一般化線形モデルとは・・・。 wikipediaから引用したものが次。 一般化線形モデル (いっぱんかせんけいモデル、英:Generalized linear model、GLM)は、正規分布以外の分布を扱えるように線形回帰モデルを拡張したモデル。 なるほど!たしかに、これまで「【…

【R】set.seed()関数って何なのさ?

Rによるデータサイエンスを勉強していたら、頻繁に遭遇するset.seed()。 乱数生成するのに必要な理由が分からなかったけど、やっと分かった。 set.seed()は乱数種を指定する関数で、常に同じ乱数を発生させられる。もはや乱数じゃない(笑)! どういうこと…