!予備的分析 (1)予備分析の目的 予備分析とはなにかという厳密な定義はない。ここでは、最終的な分析の前に行う分析のことを予備分析と考えている。 *データのチェック **入力ミスなどはないか? *データの全体像の把握 **平均値は?男性の割合は? など利用するデータの全体像 *分析の前提の確認 **正規分布しているか? **異質なサンプルが混在していないか? *仮説を発見する可能性もある。 (2)いろいろな予備分析の方法 *変数の尺度 ノンメトリックかメトリックか? *変数の数 1つか2つか? **1変数(1次元データの分析)→一つの変数の分布をみる。 **2変数(1次元データの分析)→二つの変数の関係をみる。 *方法   図表を用いるか?代表値を用いるか? **代表値:分布を代表する・記述2 する値 ***度数分布やヒストグラムは視覚的情報に頼っているが、代表値は数量的概念に依っている。 ***多変量解析の各手法では、これらの代表値を用いて演算が行われる。 表 予備分析の方法 ,変数の尺度,変数の数,図表による記述, 代表値による記述 ,メトリックな変数,1変数(1次元データの分析),ヒストグラム hist() 箱ヒゲ図 boxplot() 幹葉図 stem(),平均値 mean() 分散 var() 標準偏差sqrt(var()) ,,2変数(2次元データの分析),散布図 plot() ,相関係数 cor() 共分散 var() ,ノンメトリックな変数 ,1変数, 単純集計表 table() ヒストグラム hist() ,,2変数,クロス集計表 table(), (同上) 注)カッコ内はその分析を行うための代表的なRの関数名。 ---- !!実際 # 保存してあるCOFFEEデータを読み込む # 作業ディレクトリの指定に注意 load("COFFEE.rda") names(COFFEE) #このデータセットに含まれる変数の記述統計 summary(COFFEE) attach(COFFEE) ##1変数の代表値 #alikbrn7 7番目のブランドへの態度 についてみてみる #7段階の間隔尺度だが、メトリックな変数として扱ってみる。 #図表 #ヒストグラム hist(alikbrn7) #幹葉図 ヒストグラムよりも情報が多い stem(alikbrn7) #ボックスプロット boxplot(alikbrn7) table(alikbrn7) #平均 mean(alikbrn7) #分散 var(alikbrn7) #標準偏差 sqrt(var(alikbrn7)) #2変数 #alikbrn7 7番目のブランドへの態度 #btaste7 7番目のブランドの味への評価 #散布図 plot(alikbrn7,btaste7) #それぞれ7,5段階で測定されているので、複数の点が重なってしまう。jitterを入れると誤差を足してくれるので、複数の点として表示される。 plot(jitter(alikbrn7),jitter(btaste7)) #一部を取り出してplotに入れると 含まれる変数について一括プロット dat<-COFFEE[,c( "cgdscen7", "cgdmusc7", "cgdnart7", "alikecm7", "agoodcm7", "btaste7", "bfraver7", "bdesign7", "alikbrn7", "agdbrn7" , "apurprb7")] plot(dat) #y~x1+x2+...のように指定すると  一枚づつプロット。 plot(alikbrn7~cgdscen7+cgdmusc7+cgdnart7+alikecm7+bdesign7+agdbrn7) #集計表 table(btaste7,alikbrn7) #相関係数 cor(alikbrn7,btaste7) #共分散 var(alikbrn7,btaste7) 課題 3番目のブランドについて上と同様のことをしてみる。