2014-04-01から1ヶ月間の記事一覧

【Rによるデータサイエンス】クラスター分析

【定義】 クラスター分析とは。。。 ざっくり言うと次のようになる。 クラスター分析とは、データのパターンが似ている個体を同じグループにまとめる分析方法である。 簡単そう! でも、データのパターンの定量的定義はどうするの?とか、パターンの違いはど…

【Rによるデータサイエンス】多次元尺度法(つづき) 非軽量MDS

「【Rによるデータサイエンス】多次元尺度法」の続き。前回は、多次元尺度法とは何かから初めて、計量MDSまで練習した。 今回は、計量MDSについてメモする。非計量MDSは、距離の性質を満たさない類似性データも視野に入れ、計量MDSを発展させたもの。 非計量…

【Rによるデータサイエンス】多次元尺度法

【定義】 多次元尺度法とは。 多次元尺度法(MDS:Multi-Dimensional Scaling)は、個体間の親近性データを2次元あるいは3次元空間に、類似したものを近く、そうでないものを遠くに配置する方法である。 ここでイキナリ分からない。 親近性データとは・・・。…

Rによるデータサイエンス】対応分析

【定義】 対応分析とは。 分割表において行の項目と列の項目の相関が最大になるように、行と列の双方を並び替え、関連性が強いもの(あるいはパターンが似ているもの)同士が近似になるような値を取るように処理を行う方法。 【具体例を使用した練習】1.パ…

Rによるデータサイエンス】因子分析

【定義】 因子分析の定義は、次のように書かれている。 変数の間の相関関係から共通因子を求めること 「観測データ=独自因子+共通因子」と分解できることを前提とし、観測データを最もうまく表現する独自因子と共通因子を求めることを因子分析と呼ぶと、理…

【Rによるデータサイエンス】主成分分析 ケーススタディ

「【Rによるデータサイエンス】主成分分析」の続き。 理論的な背景を理解したので、書籍に記載のある丘本円周の例を手を動かして実践してみる。1.丘本演習の円周データをtempに作成する。 temp<-c( 50, 57, 74, 94, 112, 128, 140, 147, 150, 147, 140, 12…

スクリプトによるIE自動操作

IEを起動して、必要事項を入力するといったルーチン作業が面倒なので、スクリプトを作成すべくいくつか検証。以前作成した、GoogleMap上で位置情報の付与されたtweetを検索するアプリでは、地名と検索範囲を入力して検索するので、「地名の入力」、「半径の…

JavaからRを呼び出す 〜 RServer、REngineの使用

◎前提 Rがインストールされていること。◎手順 基本的には、ここに書かれていることとホボ同じ。 ただ、ライブラリが更新されていることと、ソースをインポートしている所をjar参照にした点がことなる。1.Rserve のインストール 下記コマンドをRで実行。 in…

AtlassianのJIRAをインストールする

構成管理+CIは、SVN+Jenkinsで実施していたりするわけだが、諸事情によりAtlassianのJIRAを使用することになった。 商用製品を使うことは(自宅で検証もしづらいので)避けたいが、今回は仕方ない。トライアル版をインストールしてみた。1.インストール …

【Rによるデータサイエンス】主成分分析

主成分分析について、本には次のように記載がある。 主成分分析(PCA:Principa Component Analysis)は、多くの変数により記述された量的データの変数間の相関を排除し、できるだけ少ない情報の損失で、少数この無相関である合成変数に縮約して、分析を行う…

【Rによるデータサイエンス】行・列処理のためのapply関数

本題の前に1つ間違ったことをメモ。 「【Rによるデータサイエンス】第2章 データの入出力と編集 データファイル読み込み」にて使用したread.csvとread.table。その時は、違いが分かっていなかったけど、今回初めて知った違いがあった。read.tableを使用して…

Perlを使う3 〜 基本(続編) DB連携

XAMPPのperlのバージョンが古いので、active perlをインストールして使用。1.準備 MySQLにテスト用のDBおよびテーブルの作成。 mysql> show databases; +--------------------+ | Database | +--------------------+ | information_schema | | cdcol | | m…

Perlを使う3 〜 基本(続編) ファイル操作

ファイル読み書きをいくつか。 #ファイルオープン open(IN, "input.csv"); #データを@dataという配列に格納 @data = <IN>; #ファイルクローズ close(IN); foreach(@data){ #print; } #読み書き両用モード open(FH, "+>> input.csv"); print FH "DEF"; close(FH);</in>…

Perlを使う2 〜 基本(続編)

目的はPerlを学ぶことではないが、途中過程として必要なので、基本の続き。。。 ◎Hash変数 #Hash %hashVal= ("key1" => "value1", "key2" => "value2"); print "\n"; print "$hashVal{'key1'}\n"; 全てのキーと値を取得(順不同) #Hash %hashVal = ("key1" …

【Rによるデータサイエンス】データの可視化

◎棒グラフ まずは、サンプルのVADeathsの棒グラフ化。 > barplot(VADeaths) GBPJPY240に対してbarplotを作用させる。 > barplot(GBPJPY240) 以下にエラー barplot.default(GBPJPY240) : 'height' はベクトルか行列でなければなりません とのこと・・・。 デ…

Perlを使う2 〜 基本

◎変数 $str = 'apple'; print 'これは$strです。'; これだと、$strが文字列に置き換わらなかった。 文字列をダブルクォーテーション(")で囲って変数を展開するようにする。 $str = 'apple'; print "これは$strです。"; ◎変数の後にローマ字が続く場合の書き…

Perlを使う1 〜 インストール

まずは、環境構築。 今回は、PHPも使用することになったので、XAMPPを導入する。「XAMPP Apache + MySQL + PHP + Perl」のページからダウンロードしてインストールする。クリックしていくだけ。インストールしたら起動する。 右のほうにある、shellをクリッ…

MSプロジェクトの設定

プロジェクト管理(WBS作成)のために、久しぶりにMSプロジェクトを使用しているので、メモ。たいてい、いまの職場ではExcelかMSプロジェクトを使用するが、Excelが好きな人が多いのでMSプロジェクトの使い方をすぐに忘れてしまう。。。◎カレンダーの設定(プ…

【Rによるデータサイエンス】第2章 データの入出力と編集 実行結果(標準コンソール出力)のファイルへの出力

コンソールへ出力される内容をファイルへ出力するには関数sinkを使用する。Oracleのsqlplusを知っている人ならspoolを思い浮かべれば良い。 > sink("D:/01_dev/04_DataAnalysis/FX_data/output/out.txt"); > GBPJPY240 > sink(); ちなみに、Oracleのsqlplus…

【Rによるデータサイエンス】第2章 データの入出力と編集 データの出力

「【Rによるデータサイエンス】第2章 データの入出力と編集 データファイル読み込み」で読み込んだデータを、逆にファイルに出力してみる。まずは文字型の場合。 > class(GBPJPY240Scan) [1] "character" output.txtに出力する。 > write(GBPJPY240Scan,"D:/…

【Rによるデータサイエンス】固有値方程式および特異値分解

◎固有値方程式 > A.eig<-eigen(A) > A.eig $values [1] 4.5615528 0.4384472 $vectors [,1] [,2] [1,] -0.2703230 -0.8719282 [2,] -0.9627697 0.4896337 ◎特異値分解 > D.s<-svd(A) > D.s $d [1] 4.6708301 0.4281894 $u [,1] [,2] [1,] -0.2897841 -0.9570…

【Rによるデータサイエンス】行列演算

◎行列作成 ベクトル関数cを使用してベクトルを作成し、matrix演算子を適用する。 > A<-matrix(c(1,2,1,4),2,2) > A [,1] [,2] [1,] 1 1 [2,] 2 4 ◎行列の積演算 %*%で行列の積演算を行う。 > A<-matrix(c(1,2,1,4),2,2) > A [,1] [,2] [1,] 1 1 [2,] 2 4 > D…

【Rによるデータサイエンス】外的規準とデータ解析方法

まず、外的規準とは。 Weblioから引用すると下記である。 外的基準 「外的基準」には 2 通りある。 1.各ケースがいくつかの群のうちどれに属するかが事前にわかっていて,群を表す変数にその情報が納められている。 例えば,「胃癌群」と「胃潰瘍群」のよう…

【Rによるデータサイエンス】第2章 データの入出力と編集 データファイル読み込み

◎データファイル読み込み 中小規模のデータを読み込む場合、read.table、read.csvを使用する。■read.tableの使用 > GBPJPY240<-read.table("D:/01_dev/04_DataAnalysis/FX_data/GBPJPY240.csv",header=T) > GBPJPY240 Date.Time.Open.Close.High.Low 1 2012/…

【Rによるデータサイエンス】第2章 データの入出力と編集

◎ベクトルと長さ 長さはlengthを用いる。 > sales<-c(15,20,25,10,30) > length(sales) [1] 5 ◎ベクトルのラベル 文字ベクトルを数値ベクトルの各要素のラベルとして付け加える。 > fruits<-c("なし","林檎","葡萄","桃","その他") > names(sales)<-fruits >…

【Rによるデータサイエンス】第1章 データマイニングとR言語

◎代入 > x<-c(1,2,3,4,5) > x [1] 1 2 3 4 5 ◎自作関数 関数の名前<-function(引数){ プログラム本体 } ◎パッケージ操作 ・既にインストール済みのパッケージの確認 library(); ・読み込み済みで利用可能なパッケージの確認 search(); パッケージMASSの、対…

Google Closure Compilerを使ってJavaScriptファイルを最適化してみる

そもそもClosure Compilerとは。JavaScriptをコンパイル??? 下記は、GoogleのClosure Compilerのページからの引用。 What is the Closure Compiler?The Closure Compiler is a tool for making JavaScript download and run faster. It is a true compile…

Google App Engine for Java SDKで開発をする 〜 プロジェクトの作成

1.新規→その他→Google→Webアプリケーションプロジェクトを選択する 2.必要な項目を入力して完了 ※)下図では「Google Web ツールキットを使用」にチェックがついているが、今回は不要なのでチェックを外す。 3.「App Engine requires Java 1.7 or late…

Windows ServerにPostgresSQLを導入する

NTT オープンソースソフトウェアセンタ 板垣 貴裕氏の「WindowsでPostgreSQLを使ってみよう」を参考にした。バージョンが違ったので、ここも参考にした。DBへの接続方法は、ここを参照。

Java監視ツール「ENdoSnipe5.1」を使ってみる 〜 導入編

・ENdoSnipeのセットアップ◎環境 ・Windows Server Enterprize 64bit ・JVM 1.6.0_31 ・Apache Tomcat 7.0◎ENdoSnipeのセットアップ 0.下記1,2,3を用意する。 1.Javelin_5.1.0.zip 2.endosnipe-datacollector-5.1.0.zip(※Windowsなので。Linuxの場合は、e…