(1)予備分析の目的 予備分析とはなにかという厳密な定義はない。ここでは、最終的な分析の前に行う分析のことを予備分析と考えている。
(2)いろいろな予備分析の方法
表 予備分析の方法
変数の尺度 | 変数の数 | 図表による記述 | 代表値による記述 |
---|---|---|---|
メトリックな変数 | 1変数(1次元データの分析) | ヒストグラム hist() 箱ヒゲ図 boxplot() 幹葉図 stem() | 平均値 mean() 分散 var() 標準偏差sqrt(var()) |
2変数(2次元データの分析) | 散布図 plot() | 相関係数 cor() 共分散 var() | |
ノンメトリックな変数 | 1変数 | 単純集計表 table() ヒストグラム hist() | |
2変数 | クロス集計表 table() |
注)カッコ内はその分析を行うための代表的なRの関数名。
# 保存してあるCOFFEEデータを読み込む# 作業ディレクトリの指定に注意
load("COFFEE.rda") names(COFFEE)
#このデータセットに含まれる変数の記述統計
summary(COFFEE)
attach(COFFEE)
##1変数の代表値#alikbrn7 7番目のブランドへの態度 についてみてみる#7段階の間隔尺度だが、メトリックな変数として扱ってみる。#図表 #ヒストグラム
hist(alikbrn7)
#幹葉図 ヒストグラムよりも情報が多い
stem(alikbrn7)
#ボックスプロット
boxplot(alikbrn7)
table(alikbrn7)
#平均
mean(alikbrn7)
#分散
var(alikbrn7)
#標準偏差
sqrt(var(alikbrn7))
#2変数 #alikbrn7 7番目のブランドへの態度#btaste7 7番目のブランドの味への評価#散布図
plot(alikbrn7,btaste7)
#それぞれ7,5段階で測定されているので、複数の点が重なってしまう。jitterを入れると誤差を足してくれるので、複数の点として表示される。
plot(jitter(alikbrn7),jitter(btaste7))
#一部を取り出してplotに入れると 含まれる変数について一括プロット
dat<-COFFEE[,c( "cgdscen7", "cgdmusc7", "cgdnart7", "alikecm7", "agoodcm7", "btaste7", "bfraver7", "bdesign7", "alikbrn7", "agdbrn7" , "apurprb7")] plot(dat)
#y~x1+x2+...のように指定すると 一枚づつプロット。
plot(alikbrn7~cgdscen7+cgdmusc7+cgdnart7+alikecm7+bdesign7+agdbrn7)
#集計表
table(btaste7,alikbrn7)
#相関係数
cor(alikbrn7,btaste7)
#共分散
var(alikbrn7,btaste7)
課題 3番目のブランドについて上と同様のことをしてみる。