トップ 差分 一覧 ソース 検索 ヘルプ RSS ログイン

RpreAnalysis

予備的分析

(1)予備分析の目的 予備分析とはなにかという厳密な定義はない。ここでは、最終的な分析の前に行う分析のことを予備分析と考えている。

  • データのチェック
    • 入力ミスなどはないか?
  • データの全体像の把握
    • 平均値は?男性の割合は? など利用するデータの全体像
  • 分析の前提の確認
    • 正規分布しているか?
    • 異質なサンプルが混在していないか?
  • 仮説を発見する可能性もある。

(2)いろいろな予備分析の方法

  • 変数の尺度 ノンメトリックかメトリックか?
  • 変数の数 1つか2つか?
    • 1変数(1次元データの分析)→一つの変数の分布をみる。
    • 2変数(1次元データの分析)→二つの変数の関係をみる。
  • 方法   図表を用いるか?代表値を用いるか?
    • 代表値:分布を代表する・記述2 する値
      • 度数分布やヒストグラムは視覚的情報に頼っているが、代表値は数量的概念に依っている。
      • 多変量解析の各手法では、これらの代表値を用いて演算が行われる。

表 予備分析の方法
変数の尺度 変数の数 図表による記述 代表値による記述
メトリックな変数 1変数(1次元データの分析) ヒストグラム hist() 箱ヒゲ図 boxplot() 幹葉図 stem() 平均値 mean() 分散 var() 標準偏差sqrt(var())
2変数(2次元データの分析) 散布図 plot() 相関係数 cor() 共分散 var()
ノンメトリックな変数 1変数 単純集計表 table() ヒストグラム hist()
2変数 クロス集計表 table()
(同上)

注)カッコ内はその分析を行うための代表的なRの関数名。


 実際

# 保存してあるCOFFEEデータを読み込む# 作業ディレクトリの指定に注意

load("COFFEE.rda")
names(COFFEE)

#このデータセットに含まれる変数の記述統計

summary(COFFEE)
attach(COFFEE)

##1変数の代表値#alikbrn7 7番目のブランドへの態度 についてみてみる#7段階の間隔尺度だが、メトリックな変数として扱ってみる。#図表 #ヒストグラム

hist(alikbrn7) 

#幹葉図 ヒストグラムよりも情報が多い

stem(alikbrn7)

#ボックスプロット

boxplot(alikbrn7) 

table(alikbrn7)

#平均

mean(alikbrn7)

#分散

var(alikbrn7)

#標準偏差

sqrt(var(alikbrn7)) 

#2変数 #alikbrn7 7番目のブランドへの態度#btaste7 7番目のブランドの味への評価#散布図

plot(alikbrn7,btaste7) 

#それぞれ7,5段階で測定されているので、複数の点が重なってしまう。jitterを入れると誤差を足してくれるので、複数の点として表示される。

plot(jitter(alikbrn7),jitter(btaste7))

#一部を取り出してplotに入れると 含まれる変数について一括プロット

dat<-COFFEE[,c( "cgdscen7", "cgdmusc7", "cgdnart7", "alikecm7", "agoodcm7", "btaste7",  "bfraver7", "bdesign7", "alikbrn7", "agdbrn7" , "apurprb7")]
plot(dat)

#y~x1+x2+...のように指定すると  一枚づつプロット。

plot(alikbrn7~cgdscen7+cgdmusc7+cgdnart7+alikecm7+bdesign7+agdbrn7)

#集計表

table(btaste7,alikbrn7)

#相関係数

cor(alikbrn7,btaste7)

#共分散

var(alikbrn7,btaste7) 

課題 3番目のブランドについて上と同様のことをしてみる。