データとの対話
目次
データ処理のプロセス(プリント参照)
予備的分析(プリント参照)
1)一つの変数の分布を見る
ensfrq.sas ノンメトリックデータについての単純集計表の作成
enshst.sas 評定尺度質問についてのヒストグラムの作成
ensunvr.sas 評定尺度質問について詳細な記述統計を計算する。
2)二つの変数の関連性をみる
プロットと相関係数
ensplot.sas 広告への好意を縦軸、その他の反応を横軸にとってプロットしてみる。
enscorr.sas 広告への反応の全項目について相関係数を算出する。
使うSASプロシジャ、コマンド
次回提出の課題(プリント参照)
- 注)SASからのアウトプットだけではなく、なぜその変数に注目したのか、分析の結果から何がわかったかを記述すること(冗長なのは不要。簡潔に。)。
使うSASプロシジャ、コマンド
proc frq data=データセット名;
- 頻度分布表、クロス集計表を作成する。
- data=でデータセットを指定しなければ、直近に作成されたデータセットが用いられる。
- tableで集計する変数名を指定する。
- proc freq data=.....;table x; xの頻度分布表を作成する。
- proc freq data=.....;table x*y; xとyのクロス集計表を作成する。
- proc freq data=.....;table (x1 x2 x3)*(y1 y2 y3)のように指定することもできる。
- ノンメトリックな変数について集計する。
- chisq exactオプションでクロス集計表の列、行の独立性を検定することもできる。
- proc freq data=.....;table x*y /chisq exact;カイ2乗検定、フィッシャーのexact検定を行う。
- フィッシャーのexact検定:カイ2乗検定は度数が5以下のセルの割合が多くなると信頼性が低くなる。このような場合はフィッシャーのexact検定を用いた方がよい。
proc chart data=データセット名;
- 横向きのヒストグラムを作成する。
- data=でデータセットを指定しなければ、直近に作成されたデータセットが用いられる。
- hBAR で集計する変数名を指定する。
- proc chart data=.....;hbar x; xのヒストグラムを作成する。
- proc chart data=.....;hbar x y z ;のように指定することもできる。
- メトリックな変数について集計する。
- hbar の代わりにbarとすると縦方向のヒストグラムを作成する。
- proc univariate data=データセット名 オプション;
var 変数名
- 詳細な記述統計を算出する。
- data=でデータセットを指定しなければ、直近に作成されたデータセットが用いられる。
- var で集計する変数名を指定する。
- proc univariate data=..... normal plot; var x; xの詳細な記述統計を算出する。
- normal オプション:正規性を検定する。
- plotオプション:正規プロットを出力する。
- メトリックな変数について集計する。
- proc plot data=データセット名 ;
plot 変数名1*変数名2/オプション;
- 変数名1*変数名2のグラフを作成する。
- data=でデータセットを指定しなければ、直近に作成されたデータセットが用いられる。
- plot で集計する変数名を指定する。
- proc univariate data=..... normal plot; var x; xの詳細な記述統計を算出する。
- normal オプション:正規性を検定する。
- plotオプション:正規プロットを出力する。
- メトリックな変数について集計する。
注)proc chartはこの他にもいろんなグラフが描ける。
注)proc plot; proc chartはテキストキャラクタでグラフが出力される。
proc gplot; proc gchartとするとグラフィックでグラフが出力される。
proc corr data=データセット名 オプション;
var 変数名 with 変数名 ;
- 変数名1*変数名2の相関行列を作成する。
- data=でデータセットを指定しなければ、直近に作成されたデータセットが用いられる。
- var で集計する変数名を指定する。
- proc corr data=..... nomiss noprob ; var x y z; x y zの相関行列を算出する。
- nomiss オプション:すべての変数について欠損値がないサンプルだけを用いて算出する(これを指定しない場合、2変数の組み合わせ毎に欠損値がないサンプルを用いて算出される。→サンプル数も出力される)。
- noprob オプション:相関係数が0であるという仮説を検定したときのp値。
- var x1 x2 y1 y2 ;と指定すると次のように相関係数が出力される(すべての変数の組み合わせについて算出される)。
- 注)corr(x1,x2)はx1とx2の相関係数という意味。
- x1 x2 x3 x4
- x1 corr(x1,x1) corr(x1,x2) corr(x1,x3) corr(x1,x4)
- x2 corr(x2,x1) corr(x2,x2) corr(x2,x3) corr(x2,x4)
- x3 corr(x3,x1) corr(x3,x2) corr(x3,x3) corr(x3,x4)
- x4 corr(x4,x1) corr(x4,x2) corr(x4,x3) corr(x4,x4)
- var x1 x2 with x3 x4;と指定すると次のように相関係数が出力される(x1,x2を行、x3,x4を列方向として組み合わされる変数間の相関係数のみを出力する)。
- x1 x2
- x3 corr(x3,x1) corr(x3,x2)
- x4 corr(x4,x1) corr(x4,x2)
- メトリックな変数について集計する。
コマンド
by 変数名
- 変数毎に計算する。
- 例)proc corr data=.....; var x y; by z;
- 例)proc means data=.....; var x y; by z;
- byで指定するのは通常はノンメトリックな変数。
where 条件文
- 条件を満たすサンプルに限定して計算する。
- 例)proc corr data=.....; var x y; where z>100;
- zが100よりも大きいオブザベーションに限定して相関係数を算出する。
- 例)proc means data=.....; var x y; where x<10;
- xが10よりも小さいサンプルに限定して記述統計を算出する。
目次へ