お知らせ
グループ番号 学籍番号 学年 クラス 漢字氏名
1 49613348 3 A 角田督
1 49605382 3 T 加藤浩子
2 49619423 3 C 宮崎恵美
2 49607955 3 J 近藤美恵
3 49521859 4 V 横尾陽道
4 49609142 3 J 四ケ所武
4 49602727 3 Q 臼井由季
5 49607078 3 Q 慶野智子
5 49621751 3 K 山本真由美
5 49610071 3 L 新村祐子
6 49605809 3 G 亀山弘光
6 49619646 3 H 宮本陽一郎
6 49601356 3 O 石橋成滋
7 49603960 3 G 岡弘幸
7 49622035 3 T 吉田英一郎
7 49520462 3 U 守屋慶一
8 49608044 3 C 五島陽
9 49617020 3 B 福地鉄平
10 49618930 3 G 三澤一信
11 49514989 3 L 中村行孝
12 49605627 3 F 鹿野和宏
13 49610814 3 M 鈴木雄次
13 49605746 3 Q 上村和弘
13 49616943 3 H 福嶋正人
14 49611756 3 H 高橋舞
14 49618102 3 T 本間利通
15 49621028 3 U 山口剛
提出無し 49618892 3 F 三井田裕介
提出無し 49608320 3 G 酒井正
提出無し 49404410 3 I 小西晃
提出無し 49612657 3 M 田中寿幸
提出無し 49600574 3 P 荒木郷玄
提出無し 49609729 3 P 清水義了
提出無し 49601083 3 T 石川卓也
提出無し 49510783 3 V 巣鴨功次
提出無し 49509406 4 B 笹川彰人
提出無し 49300456 4 P 飯田隆
提出無し 49406265 4 Q 仙内和彦
本日の講義の内容
仮説検定の考え方
仮説検定については、東大教養学部統計学教室編『統計学入門』東大出版会,ch.12を参照。
プリントp.47も参照。
クロス集計表の独立性の検定の場合
検定される仮説:行と列は独立
この仮説に基づいて検定用統計量を算出。
この検定用統計量は自由度が(行の数-1)×(列の数-1)のχ2分布に従う。
いろいろな検定があるが、最終的にはp値をみる(プリントpp.63も参照。)。
p値
仮説が正しいとしたときに、観察された現象が生じる(上で計算したような検定用統計量が算出される)確率。
有意水準
有意significantか否か→誤差の範囲か、誤差の範囲を超えるなにか意味のあるものか?
p値が小さい
→仮説が正しいとしたときに、観察された現象が生じる(上で計算したような検定用統計量が算出される)確率が低い。
→希にしか生じないことが生じている。
→仮説か観測(データ)のどちらかに問題がある。
→せっかく集めたデータを疑っては意味がない。
→仮説の方を疑う。
→仮説を棄却する。
問題となるのは、どれくらいの確率ならば「希」と考えるか?
10%以下(pの値が0.05以下)ならば希と考えられることが多い。
学問分野、研究対象によって5%水準までを希と考える場合もある。
例 人間を研究対象とする心理学では5%水準をとるらしい?
p値が0.01以下の場合:有意水準1%で仮説を棄却する。
p値が0.05以下の場合:有意水準5%で仮説を棄却する。
p値が0.1以下の場合:有意水準10%で仮説を棄却する。
4.4 多変量解析について
LIBNAME ens "a:\ensyu\";
/* 缶コーヒーの購入頻度と属性などのクロス集計表 */
proc freq data=ens.ensdat1;
tables sex *FREQ/chisq exact;
tables RTVMF *FREQ/chisq ;
/*exact Fisherのexact検定:χ2と比べるとサンプル数に影響されにくい。
ただし、計算に時間がかかるので、セルの数が多い場合には算出しない方がよい。 */
run;
/*
一時データセットを作成して変数をまとめる
度数が5以下のセルの割合が高いときは、χ2統計量は信頼できなくなる。
対策1:Fisherのexact検定をする。
対策2:度数の少ないカテゴリをまとめてしまう(下記参照)。
*/
OPTIONS ls=80 ps=500;
LIBNAME ens "a:\ensyu\";
data newdat;
set ens.ensdat1;
if FREQ=>2 and FREQ=<4 then FREQ2=FREQ;
/*FREQの2〜4はそのまま。FREQ2に*/
if FREQ=1 then FREQ2=2;
/*FREQの1と2をまとめて2にする*/
if FREQ=5 then FREQ2=4;
/*FREQの4と5をまとめて4にする*/
if RTVMF=>2 and RTVMF=<5 then RTVMF2=RTVMF;
/*RTVMFの2〜5はそのまま。RTVMF2に*/
if RTVMF=1 then RTVMF2=2;
/*RTVMFの1と2をまとめて2にする*/
if RTVMF=6 then RTVMF2=5;
/*RTVMFの5と6をまとめて5にする*/
proc freq data=newdat;
tables RTVMF2 *FREQ2/chisq exact;
run;
参考)
FREQが5:飲まない については、「缶コーヒーを味で選ぶかどうか」といった質問には回答させていないので、飲まないというサンプルは分析から除外した方がよいでしょう。
分析からサンプルを除外するには、次のように指定します。
Proc freq data=ens.ensdat1;
table FREQ * PTASTE;
where FREQ^=5;
run;
→where FREQ^=5; というのは、FREQが5ではないサンプルに限定して分析を行えという命令です。
frecに限らず、どのプロシジャでもwhereは利用出来ます。
/* 二つの母集団の母集団平均の比較 t検定 */
OPTIONS ps=80 ls=64 nocenter;
/*nocenter オプションを指定すると、左づめにして出力される 指定しない場合にはページの真ん中に来るように左にスペースを入れて出力される*/
LIBNAME ens "i:\ENSYU_for_HDD\";
/*群毎に処理したい場合には、その群毎にサンプルを並び替えておかなければならない*/
proc sort DATA=ens.ensdat1 out=ensdat1s; by sex;
/* t検定は母集団が正規分布していることを仮定している。それを目で確かめておく。*/
proc chart DATA=ensdat1s;
hbar alikecm7/discrete midpoints=1,2,3,4,5,6,7;
by sex;
/*byで指定された変数ごとに処理を行う。 この場合はsex=1男性、2女性ごとにヒストグラムを描く byで指定された変数ごとにサンプルを並び替えておかなければエラーになる*/
/* 目だけでは不安。正規分布しているかを検定する。
univariate プロシジャ 単一のメトリックな変数について詳細な記述統計を算出する
オプションでnormalを指定すると、正規性についての検定を行う
plotを指定すると、正規プロットを描く*/
proc univariate DATA=ensdat1s normal plot;
var alikecm7;
by sex;
/*t検定する*/
proc ttest DATA=ensdat1s;
class sex;
/* 母集団の分類を示す変数名を指定
t検定の場合、2つの母集団について比較を行うので この変数のとる値も二つのみ。
2つより多い場合にはエラーとなる*/
var alikecm7; /* この変数について平均値の差を比較する*/
run;
proc univariateの出力結果(プリントp.32を参照)
SEX=1 男性の場合
Univariate Procedure
Variable=ALIKECM7
Moments
N 53 Sum Wgts 53
Mean 4.716981 Sum 250
Std Dev 1.597803 Variance 2.552975
Skewness -0.60301 Kurtosis -0.34145
USS 1312 CSS 132.7547
CV 33.87343 Std Mean 0.219475
T:Mean=0 21.4921 Pr>|T| 0.0001
Num ^= 0 53 Num > 0 53
M(Sign) 26.5 Pr>=|M| 0.0001
Sgn Rank 715.5 Pr>=|S| 0.0001
W:Normal 0.87447 Pr<W 0.0001 →正規性の検定結果
正規分布という仮説のもとで、W=0.87447となる確率は0.0001より小さい→正規分布であるという仮説は棄却される。
t検定の出力結果 正規性が棄却されているので問題があることに注意。
TTEST PROCEDURE
Variable: ALIKECM7
SEX N Mean Std Dev Std Error
--------------------------------------------------------------
1 53 4.71698113 1.59780328 0.21947516 男性のサンプル数、平均値、標準偏差、標準誤差
2 31 4.87096774 1.52188338 0.27333832 女性についても同様
平均値をみる限り、男女間での差はなさそう。また、標準偏差についても男女間では差がなさそう。
Variances T DF Prob>|T|
---------------------------------------
Unequal -0.4393 65.5 0.6619
Equal -0.4336 82.0 0.6657
For H0: Variances are equal, F' = 1.10 DF = (52,30) Prob>F' = 0.7887
→母集団の分散が等しいか否かについての検定。
t検定は母集団の分散が等しい時と等しくないときでは、用いる検定量がことなる。
この辺については高橋『経営統計入門』東大出版会、
母集団の分散が等しいか否かはF検定によって、検定する。
この場合、分散が等しいという仮説は棄却されない。Prob>F' = 0.7887
よって、Equalの行の結果をみる。
ここでは、二つの母集団の平均値が等しいと仮定した場合に、t値=-0.4336となる確率は0.6657。
→よって10%水準で仮説は棄却されない。
→7番目の広告への好意は男性、女性で有意差がない。
/* 3つ以上の母集団の母集団平均の比較 1元配置分散分析 */
OPTIONS ps=80 ls=64 nocenter;
/*nocenter オプションを指定すると、左づめにして出力される 指定しない場合にはページの真ん中に来るように左にスペースを入れて出力される*/
LIBNAME ens "a:\ENSYU\";
proc glm DATA=ens.ensdat1;
class profes; /* 母集団の分類を示す変数名を指定*/
model alikecm7=profes; /* この変数について平均値の差を比較する*/
means profes;/* 母集団ごとに平均値、標準偏差を算出する。*/
means profes/tukey; /*母集団ごとに平均値を算出し、すべての母集団間での平均値を比較。tukey検定する*/
run;
出力結果の読み方
General Linear Models Procedure
Class Level Information
Class Levels Values
PROFES 6 1 2 3 4 5 7 分類用変数(classで指定)のとる値(1 2 3 4 5 7の6通りの値をとる)
Number of observations in data set = 84 サンプル数
SAS システム 09:42 Monday, May 4, 1998 225
General Linear Models Procedure
Dependent Variable: ALIKECM7 従属変数:model文の左辺の変数
Source DF Sum of Squares F Value Pr > F
Model 5 22.95893353 1.99 0.0889
Error 78 179.74344743 検定にはF検定を用いる。F値と検定の結果のp値が示されている。0.1以下なのですべての母集団の平均が等しいという仮説は10%水準で棄却される。
Corrected Total 83 202.70238095
R-Square C.V. ALIKECM7 Mean
0.113264 31.79905 4.77380952
Source DF Type I SS F Value Pr > F
PROFES 5 22.95893353 1.99 0.0889
Source DF Type III SS F Value Pr > F
PROFES 5 22.95893353 1.99 0.0889
SAS システム 09:42 Monday, May 4, 1998 226
General Linear Models Procedure
Level of -----------ALIKECM7----------
PROFES N Mean SD
1 1 5.00000000 . means profes コマンドを指定したことによって出力される
2 23 4.86956522 1.48643404 母集団毎のサンプル数、平均値、標準偏差
3 3 4.33333333 1.15470054
4 47 4.89361702 1.56363627
5 8 4.75000000 1.48804762
7 2 1.50000000 0.70710678 ざっと見ても、この標本集団の平均値は低い(サンプル数が2しかないので注意が必要)。
SAS システム 09:42 Monday, May 4, 1998 227
General Linear Models Procedure means profes/tukey; コマンドを指定したことによって出力される。
TUKEY のスチューデント範囲 (HSD) 検定 - 変数 : ALIKECM7
NOTE: この検定法はタイプ I の実験(全体)誤差率を
調整しています.
アルファ = 0.05 信頼 = 0.95 DF= 78 MSE=2.304403
臨界値 : スチューデント化範囲 = 4.132
0.05 レベル で有意な比較は '***' で示しています.
同時 同時
下側 平均 上側
PROFES 信頼 の 信頼
比較 限界 差 限界
1 - 4 -4.3759 0.1064 4.5886 1番目の母集団と4番目の母集団の平均値を比較。*がついていないので有意ではない(以下同様)。
1 - 2 -4.4003 0.1304 4.6611
1 - 5 -4.4544 0.2500 4.9544
1 - 3 -4.4548 0.6667 5.7881
1 - 7 -1.9321 3.5000 8.9321
4 - 1 -4.5886 -0.1064 4.3759
4 - 2 -1.1046 0.0241 1.1527
4 - 5 -1.5527 0.1436 1.8400
4 - 3 -2.0809 0.5603 3.2015
4 - 7 0.1913 3.3936 6.5959 *** *がついているので、PROFESが4の母集団と7の母集団には有意差がある。
2 - 1 -4.6611 -0.1304 4.4003
2 - 4 -1.1527 -0.0241 1.1046
2 - 5 -1.7010 0.1196 1.9401
2 - 3 -2.1864 0.5362 3.2588
2 - 7 0.0998 3.3696 6.6393 ***
5 - 1 -4.9544 -0.2500 4.4544
5 - 4 -1.8400 -0.1436 1.5527
5 - 2 -1.9401 -0.1196 1.7010
5 - 3 -2.5861 0.4167 3.4194
5 - 7 -0.2564 3.2500 6.7564
3 - 1 -5.7881 -0.6667 4.4548
3 - 4 -3.2015 -0.5603 2.0809
3 - 2 -3.2588 -0.5362 2.1864
3 - 5 -3.4194 -0.4167 2.5861
3 - 7 -1.2155 2.8333 6.8822
7 - 1 -8.9321 -3.5000 1.9321
7 - 4 -6.5959 -3.3936 -0.1913 ***
7 - 2 -6.6393 -3.3696 -0.0998 ***
7 - 5 -6.7564 -3.2500 0.2564
7 - 3 -6.8822 -2.8333 1.2155