II. Rの使い方入門
1. データとの対話のツールとしてのR
2.使える手法の例
3.使ってみよう
4.使える手法の例(括弧内は各分析を行うSの関数名。



1. データとの対話のツールとしてのR

 Rとは、統計解析を行う言語、パッケージ。

特徴
 S言語と互換性あり。
  簡単なプログラムミングと結果の読み方をマスターすれば、難しい公式を覚えることなく簡単に統計分析を行うことができる。
 オープンソースソフトウエア
無料で入手可能
 

以下の統計パッケージがある(この他にもGauss、Rats、Excelのアドインや別売りの多変量パッケージなどがある)。

図表 主な統計パッケージ


パッケージ名
コメント
大型
Unix
DOS
Mac
SAS  必要な統計手法はほぼ、網羅されている。
 作成したデータの再利用などが比較的簡単にできる。
 ユーザーグループが組織されており、ユーザによって開発されたプログラムも入手可能。コンジョイント分析はマクロで定義される。
 個人ではなく、企業、大学などの組織との契約で、買い取りではなく、1年契約で更新するというのが面倒。
WIN
JMP  SAS/INSIGHTの簡易版。pop-upメニューで表計算ソフト感覚で分析できる。グラフがきれいだが、因子分析など初歩的な多変量解析手法も使えないので、データの予備分析用。 コレスポンデンス分析はできる。
 学生ならば下記の本を購入するとおまけで機能限定版のJMP INがついてくる(Win版もある)。
 SAS Institute Inc.(1996),JMP IN: ver 3 for Machintosh: Statistical Discovery Software: A Student Edition of JMP,Duxbury Inc.
   
WIN
SPSS  必要な統計手法はほぼ、網羅されている。
 WIN版はpop-upメニューから分析できる。
 学生にはPC版の特別割引システムが○、一揃え30万円以上のものが6万円程度になる。
WIN
BMDP  統計パッケージプログラムの走り。いろいろと細かいルーチンが使えるらしいが、私は使ったことがない。
 
WIN
 
S オブジェクト指向の言語で簡単に記述できる。グラフィクスなどがきれいに描けるそう。最近、一部でブームになりつつある。  
WIN  
TSP  計量経済学で使われる統計モデルが中心なので、因子分析、クラスター分析などは含まれていない。
 ロジット分析、プロビット分析が簡単にできる。
 最尤推定専用のコマンドが○、最尤関数を与えるだけで(自分で微分しなくても)推定してくれるという優れた機能がある。
 パソコン版でもコマンドライン入力もしくは、バッチで処理。パソコン版のstudent TSPというのはpop-upからも使える。
DOS
SYSTAT  重回帰分析、因子分析、MDS、クラスター分析などが使え、最適化のルーチンもあるので、これで一通りの分析ができる。
 スプレッドシート型のデータエディタと統計、グラフが一体化されているので便利。
 ポップアップメニューからでもコマンド入力もできる。
 グラフもいろいろあるが、見栄えはあまりよくない。
 対話型でも、バッチでも使えるので、同じ処理をたくさんする場合には助かる。
 しかし、因子分析では因子得点を算出してくれないので困る。
     
STATISTICA  スプレッドシート型のデータエディタと統計、グラフが一体化されている。重回帰分析、クラスター分析、因子分析などができる。
 ただし、完全に対話型で、一ステップづつ分析を進めていくので、慣れた人には冗長。
 また、IDによるデータマージもできないのが困る。 
   
WIN
Lisp-stat  x-lispベースで統計手法、グラフなどのプログラムがコマンドとして定義されたパッケージ群。
 多変量解析のパッケージは見あたらないが、探索的データ解析でのグラフ化の手法に特徴がある。マトリクス演算などがプログラムできるので、自分でプログラムしたい人向け。はやりのopen sourceのフリーウエア。
 
多分○
DOS
ASP  下の本に、おまけでついてくるパッケージ。おまけの割には、いろんな分析ができるが、多変量解析としては、重回帰分析と、因子分析しかできない。
 DOS版なので、グラフもキャラクタ表示しかできない。
McClave, James T. and P. George Benson(1994),Statistics for Business and Economics 6th ed.,Prentice-Hall
   
DOS
 

 



2.分析の前提

・変数の尺度

・メトリックとノンメトリックな変数:
 測定の尺度は次の4つに分類できる。
→尺度によって可能な演算が異なる。→使える手法も限定される。
 なお、これらは次の二つに大別される。
 ノンメトリック(質的):名目尺度、順序尺度
 メトリック(量的):間隔尺度、比率尺度

図表 4つの測定尺度


分類
概要、例
可能な演算
質的データ
qualitative data
もしくはノンメトリックデータ
non-metric data
名目尺度 nominal scale 対象の分類を示すだけで、順序、間隔などの意味は持たない。
例)性別、職業
例2)下のブランドのうちあなたが買ったことがあるものを選んで下さい。
 1.ポッカ
 2.ジョージア......
頻度のカウント
最頻値 mode
序数尺度 ordinal scale 対象の順序を示すが、間隔の意味はもたない。
 例)次の缶コーヒーのブランドをどれくらい好きでしょうか?それぞれについて、好きな順位を記入して下さい。
上に加えて、
中央値 median
量的データ
quantative data
もしくはメトリックデータ
metric data
間隔尺度 interval scale  数値の違いに間隔の意味があり、差を測ることができる(2と1の差と3と2の差は同じ)。ただし、原点が固定されていない。
例1)摂氏での温度
例2)下に7種類の「缶コーヒー」のブランドが挙げてあります。それぞれのブランドに対して、あなたの好き嫌いの程度をお答えください(1非常に好き。2:好き。3:どちらともいえない。4:嫌い。5:非常に嫌い)。
・ポッカ      1  2   3  4  5
・ジョージア    1  2   3  4  5
 厳密には等間隔である保証はないが、マーケティングなどでは間隔尺度として扱われることが多い。
上に加えて、

平均 mean
分散 variance
標準偏差
standard deviation

比率尺度 retio scale  数値の違いに間隔の意味があり、差を測ることができ、原点が固定されているので、比を計算することができる。

例1)体重、人口、所得
例2)あなたは、下記のブランドをそれぞれ何回くらいのんだことがありますか?
・ポッカ     (   )回
・ジョージア   (   )回

上に加えて、

調和平均
harmonic mean
幾何平均
geometric mean

分析の目的、変数の尺度に応じて適切な手法を選択する必要がある。

 


3.使ってみよう
 

1)まずは使ってみる

Rを起動。
>
のあとにいろいろなコマンドを入れる。
 

例 下記を一行づつRのコマンドラインに入力(もしくは、下記の行をコピー&ペースト)

(以下、画面に表示される >は省略)
 
3+5-1

2/3*10
 
 

#で始まるのはコメント文。処理はされない。
#下記は平方根。

sqrt(4)
 

#のように4則演算などが可能。
 

#正規乱数を発生。
x<-rnorm(100)

#分布をヒストグラムに。
hist(x)

#サンプル数を変更してみる。
x<-rnorm(1000)
hist(x)
 

x<-rnorm(10000)
hist(x)

 



4.使える手法の例(括弧内は各分析を行うRの関数名。
 

・データフレーム名$変数名 のように指定する。
・ヘルプは
 help(コマンド名)

注)メトリック、ノンメトリックについては上記の表を参照。

  「順序尺度以上」とは「順序尺度以上の計量的な演算が可能ということ」。具体的には、順序尺度、間隔尺度、比率尺度のこと。

・データの印刷、グラフの作成など 使える変数の尺度、モデルの形
 
(印刷)出力 (データセット名のみを指定すれば出力される)
ヒストグラムの作成 hist(x)          メトリック
散布図グラフの作成 plot(x,y)          メトリック×メトリック
箱ひげ図 poxplot(x)             メトリック
幹葉図 stem(x)              メトリック

・統計分析
平均 mean(x)     メトリック
分散 var(x)       メトリック 
標準偏差 sqrt(var(x))             メトリック
 sqrt()は平方根。分散の平方根が標準偏差 
中央値 median(x)              順序尺度以上
最小値 min(x)               順序尺度以上
最大値 max(x)               順序尺度以上
平均値、4分位点(メディアン)の算出 summarize(x)  

単純集計表の作成   table(x)  ノンメトリック
クロス集計表の作成  table(x,y)    ノンメトリック×ノンメトリック
χ2検定  chisq.test(対象となる表)
 単純集計表の場合には分布の一様性についての検定
 クロス集計表の場合、行と列との独立性についての検定 となる。
Fisherのexact検定  fisher.test(対象となる表)
 

変数間の相関係数の算出 cor(x,y)        メトリック×メトリック
2つの母集団の平均の差の検定 t検定 t.test(x~y)   メトリック~ノンメトリック
3つ以上の母集団の差の検定: 分散分析 anova(x~y)   メトリック~ノンメトリック

(重)回帰分析 lm(y~x1+x2+x3)             メトリック~メトリック、ノンメトリック(ダミー変数)

・多変量解析
 library(mva)として多変量解析のライブラリをロードしておく。
因子分析       factanal()        メトリック=因子(メトリック)
主成分分析 princomp()                                     主成分=Σメトリック
階層型クラスター分析 hclust()        メトリック
非階層型クラスター分析 kmeans       メトリック
 



 
 



 
 

1 Ehrenberg,Goodhardt and Barwise(1990)"Double Jeopardy Revisited,"Journal of Marketing,Vol.54,pp.82-91(これの抄訳は濱岡訳(1994)「(論文翻訳)ブランドの二重苦:再考」『マーケティング・ジャール』1994年、,Vol.13,No.4,pp.19-29)