データとの対話　

お知らせ

次回

中間報告　
最終報告としてまとめたいことを3分以内で発表+質疑応答3分。（レポートも作成＆提出）。

1番目のグループから順番に。

提出レポートをみると、次のようにグループ編成されているようです。確認して下さい。

今後、グループの編成替えをしてもよい。編成替えをした場合には、そのことが分かるようにレポートに明示して下さい。

グループ番号　学籍番号　学年　クラス　漢字氏名

1　49613348　3　A　角田督

1　49605382　3　T　加藤浩子

2　49619423　3　C　宮崎恵美

2　49607955　3　J　近藤美恵

3　49521859　4　V　横尾陽道

4　49609142　3　J　四ケ所武

4　49602727　3　Q　臼井由季

5　49607078　3　Q　慶野智子

5　49621751　3　K　山本真由美

5　49610071　3　L　新村祐子

6　49605809　3　G　亀山弘光

6　49619646　3　H　宮本陽一郎

6　49601356　3　O　石橋成滋

7　49603960　3　G　岡弘幸

7　49622035　3　T　吉田英一郎

7　49520462　3　U　守屋慶一

8　49608044　3　C　五島陽

9　49617020　3　B　福地鉄平

10　49618930　3　G　三澤一信

11　49514989　3　L　中村行孝

12　49605627　3　F　鹿野和宏

13　49610814　3　M　鈴木雄次

13　49605746　3　Q　上村和弘

13　49616943　3　H　福嶋正人

14　49611756　3　H　高橋舞

14　49618102　3　T　本間利通

15　49621028　3　U　山口剛

提出無し　49618892　3　F　三井田裕介

提出無し　49608320　3　G　酒井正

提出無し　49404410　3　I　小西晃

提出無し　49612657　3　M　田中寿幸

提出無し　49600574　3　P　荒木郷玄

提出無し　49609729　3　P　清水義了

提出無し　49601083　3　T　石川卓也

提出無し　49510783　3　V　巣鴨功次

提出無し　49509406　4　B　笹川彰人

提出無し　49300456　4　P　飯田隆

提出無し　49406265　4　Q　仙内和彦

本日の講義の内容

4.3　データ分析の基礎

変数間での関連性の有無を検定する

ノンメトリックな変数間の場合→クロス集計表

クロス集計表の行と列の独立性の検定　χ2検定

enscrss.sas　プログラムについてはプリントp.42参照
理論についてはプリントp.48参照

検定される仮説　行と列は独立

本日のホームページも参照

メトリックな変数間の場合→相関分析

相関係数の求めかた（検定結果の読み方）

enscorr.sas　プログラムについてはプリントp.44参照
理論についてはプリントp.36参照

検定される仮説　変数1と変数2との母集団での相関係数は0
統計検定量
t=r√(n-2)/√(1-r*r)が自由度n-2のt分布に従う。

n:サンプル数、r：標本相関係数

メトリックな変数について母集団の平均値を比較する

2つの母集団の母集団平均の比較　t検定

例　男性と女性で、7番目の広告への好意（7段階の評定尺度質問）は異なるか？
プログラムについては本日のホームページを参照

検定される仮説　母集団1の平均μ1と母集団2の平均μ2は等しい。

μ1=μ2

3つ以上の母集団の母集団平均の比較　（1元配置）分散分析

例　7番目の広告の視聴回数によって、7番目の広告への好意（7段階の評定尺度質問）は異なるか？
プログラムについては本日のホームページを参照
理論についてはプリントp.49-51参照

検定される仮説　母集団1の平均μ1、母集団2の平均μ2、...集団kの平均μkは等しい。

μ1=μ2=μ3=....=μk

仮説検定の考え方

　仮説検定については、東大教養学部統計学教室編『統計学入門』東大出版会,ch.12を参照。

　プリントp.47も参照。

クロス集計表の独立性の検定の場合

　検定される仮説：行と列は独立

　この仮説に基づいて検定用統計量を算出。

　この検定用統計量は自由度が(行の数-1)×(列の数-1)のχ2分布に従う。

　いろいろな検定があるが、最終的にはp値をみる（プリントpp.63も参照。）。

p値

仮説が正しいとしたときに、観察された現象が生じる（上で計算したような検定用統計量が算出される）確率。

有意水準

有意significantか否か→誤差の範囲か、誤差の範囲を超えるなにか意味のあるものか？

　p値が小さい

→仮説が正しいとしたときに、観察された現象が生じる（上で計算したような検定用統計量が算出される）確率が低い。

　→希にしか生じないことが生じている。

　→仮説か観測（データ）のどちらかに問題がある。

　→せっかく集めたデータを疑っては意味がない。

　→仮説の方を疑う。

　→仮説を棄却する。

　問題となるのは、どれくらいの確率ならば「希」と考えるか？

　　10％以下（pの値が0.05以下）ならば希と考えられることが多い。

　　学問分野、研究対象によって5%水準までを希と考える場合もある。

　　　例　　人間を研究対象とする心理学では5%水準をとるらしい？

　　p値が0.01以下の場合：有意水準1％で仮説を棄却する。

　　p値が0.05以下の場合：有意水準5％で仮説を棄却する。

　　p値が0.1以下の場合：有意水準10％で仮説を棄却する。

4.4　多変量解析について

/* クロス集計表の独立性の検定 */

OPTIONS ls=80 ps=500;

LIBNAME ens "a:\ensyu\";

/* 缶コーヒーの購入頻度と属性などのクロス集計表 */

proc freq data=ens.ensdat1;

tables sex *FREQ/chisq exact;

tables RTVMF *FREQ/chisq ;

/*exact 　Fisherのexact検定：χ2と比べるとサンプル数に影響されにくい。

ただし、計算に時間がかかるので、セルの数が多い場合には算出しない方がよい。 */

run;

一時データセットを作成して変数をまとめる

度数が5以下のセルの割合が高いときは、χ2統計量は信頼できなくなる。

　対策1：Fisherのexact検定をする。

　対策2：度数の少ないカテゴリをまとめてしまう（下記参照）。

OPTIONS ls=80 ps=500;

LIBNAME ens "a:\ensyu\";

data newdat;

set ens.ensdat1;

if FREQ=>2 and FREQ=<4 then FREQ2=FREQ;

/*FREQの2～4はそのまま。FREQ2に*/

if FREQ=1 then FREQ2=2;

/*FREQの1と2をまとめて2にする*/

if FREQ=5 then FREQ2=4;

/*FREQの4と5をまとめて4にする*/

if RTVMF=>2 and RTVMF=<5 then RTVMF2=RTVMF;

/*RTVMFの2～5はそのまま。RTVMF2に*/

if RTVMF=1 then RTVMF2=2;

/*RTVMFの1と2をまとめて2にする*/

if RTVMF=6 then RTVMF2=5;

/*RTVMFの5と6をまとめて5にする*/

proc freq data=newdat;

tables RTVMF2 *FREQ2/chisq exact;

run;

参考）

　FREQが5：飲まない　については、「缶コーヒーを味で選ぶかどうか」といった質問には回答させていないので、飲まないというサンプルは分析から除外した方がよいでしょう。

分析からサンプルを除外するには、次のように指定します。

Proc freq data=ens.ensdat1;

table FREQ * PTASTE;

where FREQ^=5;

run;

→where FREQ^=5; 　というのは、FREQが5ではないサンプルに限定して分析を行えという命令です。

　frecに限らず、どのプロシジャでもwhereは利用出来ます。

2つの母集団の母集団平均の比較　t検定

/* 二つの母集団の母集団平均の比較　t検定 */

OPTIONS ps=80 ls=64 nocenter;

/*nocenter オプションを指定すると、左づめにして出力される指定しない場合にはページの真ん中に来るように左にスペースを入れて出力される*/

LIBNAME ens "i:\ENSYU_for_HDD\";

/*群毎に処理したい場合には、その群毎にサンプルを並び替えておかなければならない*/

proc sort DATA=ens.ensdat1 out=ensdat1s; by sex;

/* t検定は母集団が正規分布していることを仮定している。それを目で確かめておく。*/

proc chart DATA=ensdat1s;

hbar alikecm7/discrete midpoints=1,2,3,4,5,6,7;

by sex;

/*byで指定された変数ごとに処理を行う。この場合はsex=1男性、2女性ごとにヒストグラムを描く byで指定された変数ごとにサンプルを並び替えておかなければエラーになる*/

/* 目だけでは不安。正規分布しているかを検定する。　

　　univariate プロシジャ　単一のメトリックな変数について詳細な記述統計を算出する　

　　オプションでnormalを指定すると、正規性についての検定を行う　　　　　　

　　　plotを指定すると、正規プロットを描く*/

proc univariate DATA=ensdat1s normal plot;

var alikecm7;

by sex;

/*t検定する*/

proc ttest DATA=ensdat1s;

class sex;

/* 母集団の分類を示す変数名を指定　

t検定の場合、2つの母集団について比較を行うのでこの変数のとる値も二つのみ。

2つより多い場合にはエラーとなる*/

var alikecm7; /*　この変数について平均値の差を比較する*/

run;

proc　　univariateの出力結果（プリントp.32を参照）

SEX=1　　男性の場合 Univariate Procedure Variable=ALIKECM7 Moments N 53 　　　　　　　Sum Wgts 53 Mean 4.716981 　　　Sum 250 Std Dev 1.597803 　Variance 2.552975 Skewness -0.60301 　Kurtosis -0.34145 USS 1312 　　　　　　CSS 132.7547 CV 33.87343 　　　　Std Mean 0.219475 T:Mean=0 21.4921 　　Pr>|T| 0.0001 Num ^= 0 53 　　　　Num > 0 53 M(Sign) 26.5 　　　　Pr>=|M| 0.0001 Sgn Rank 715.5 　　　Pr>=|S| 0.0001 W:Normal 0.87447 　　Pr<W 0.0001　　　→正規性の検定結果

正規分布という仮説のもとで、W=0.87447となる確率は0.0001より小さい→正規分布であるという仮説は棄却される。

t検定の出力結果　　　正規性が棄却されているので問題があることに注意。

TTEST PROCEDURE

Variable: ALIKECM7

SEX N Mean Std Dev Std Error

--------------------------------------------------------------

1 53 4.71698113 1.59780328 0.21947516 　　　　男性のサンプル数、平均値、標準偏差、標準誤差

2 31 4.87096774 1.52188338 0.27333832　　　　　女性についても同様

　　平均値をみる限り、男女間での差はなさそう。また、標準偏差についても男女間では差がなさそう。

Variances T DF Prob>|T|

---------------------------------------

Unequal -0.4393 65.5 0.6619

Equal -0.4336 82.0 0.6657

For H0: Variances are equal, F' = 1.10 DF = (52,30) Prob>F' = 0.7887

　　→母集団の分散が等しいか否かについての検定。

　t検定は母集団の分散が等しい時と等しくないときでは、用いる検定量がことなる。

　　この辺については高橋『経営統計入門』東大出版会、

　　母集団の分散が等しいか否かはF検定によって、検定する。

　　この場合、分散が等しいという仮説は棄却されない。Prob>F' = 0.7887

　よって、Equalの行の結果をみる。

　ここでは、二つの母集団の平均値が等しいと仮定した場合に、t値=-0.4336となる確率は0.6657。

→よって10%水準で仮説は棄却されない。

→7番目の広告への好意は男性、女性で有意差がない。

3つ以上の母集団の母集団平均の比較　（1元配置）分散分析

/* 3つ以上の母集団の母集団平均の比較　1元配置分散分析 */

OPTIONS ps=80 ls=64 nocenter;

/*nocenter オプションを指定すると、左づめにして出力される指定しない場合にはページの真ん中に来るように左にスペースを入れて出力される*/

LIBNAME ens "a:\ENSYU\";

proc glm DATA=ens.ensdat1;

class profes; /* 母集団の分類を示す変数名を指定*/

model alikecm7=profes; /*　この変数について平均値の差を比較する*/

means profes;/*　母集団ごとに平均値、標準偏差を算出する。*/

means profes/tukey; /*母集団ごとに平均値を算出し、すべての母集団間での平均値を比較。tukey検定する*/

run;

出力結果の読み方

General Linear Models Procedure

Class Level Information

Class Levels Values

PROFES 6 1 2 3 4 5 7 　　　　分類用変数（classで指定）のとる値（1 2 3 4 5 7の6通りの値をとる）

Number of observations in data set = 84 　　サンプル数

SAS システム 09:42 Monday, May 4, 1998 225

General Linear Models Procedure

Dependent Variable: ALIKECM7 　　　　従属変数：model文の左辺の変数

Source 　DF 　　Sum of Squares 　　F Value 　　Pr > F

Model 　5 　　22.95893353 　　　　1.99 　　　　0.0889

Error 　78 　179.74344743 　　　　　検定にはF検定を用いる。F値と検定の結果のp値が示されている。0.1以下なのですべての母集団の平均が等しいという仮説は10%水準で棄却される。

Corrected Total 83 202.70238095

R-Square C.V. ALIKECM7 Mean

0.113264 31.79905 4.77380952

Source DF Type I SS F Value Pr > F

PROFES 5 22.95893353 1.99 0.0889

Source DF Type III SS F Value Pr > F

PROFES 5 22.95893353 1.99 0.0889

SAS システム 09:42 Monday, May 4, 1998 226

General Linear Models Procedure

Level of -----------ALIKECM7----------

PROFES N Mean SD 　　　　　　　　　

1 1 5.00000000 . 　　　　　　　means profes コマンドを指定したことによって出力される

2 23 4.86956522 1.48643404 　　母集団毎のサンプル数、平均値、標準偏差

3 3 4.33333333 1.15470054

4 47 4.89361702 1.56363627

5 8 4.75000000 1.48804762

7 2 1.50000000 0.70710678 　　　ざっと見ても、この標本集団の平均値は低い（サンプル数が2しかないので注意が必要）。

SAS システム 09:42 Monday, May 4, 1998 227

General Linear Models Procedure 　　　　　　　　　　means profes/tukey; コマンドを指定したことによって出力される。

TUKEY のスチューデント範囲 (HSD) 検定 - 変数 : ALIKECM7

NOTE: この検定法はタイプ I の実験（全体）誤差率を

調整しています．

アルファ = 0.05 信頼 = 0.95 DF= 78 MSE=2.304403

臨界値 : スチューデント化範囲 = 4.132

0.05 レベルで有意な比較は '***' で示しています．

同時同時

下側平均上側

PROFES 信頼の信頼

比較限界差限界

1 - 4 -4.3759 0.1064 4.5886 　　　　　　　1番目の母集団と4番目の母集団の平均値を比較。*がついていないので有意ではない（以下同様）。

1 - 2 -4.4003 0.1304 4.6611

1 - 5 -4.4544 0.2500 4.9544

1 - 3 -4.4548 0.6667 5.7881

1 - 7 -1.9321 3.5000 8.9321

4 - 1 -4.5886 -0.1064 4.3759

4 - 2 -1.1046 0.0241 1.1527

4 - 5 -1.5527 0.1436 1.8400

4 - 3 -2.0809 0.5603 3.2015

4 - 7 0.1913 3.3936 6.5959 ***　　　　　　*がついているので、PROFESが4の母集団と7の母集団には有意差がある。

2 - 1 -4.6611 -0.1304 4.4003

2 - 4 -1.1527 -0.0241 1.1046

2 - 5 -1.7010 0.1196 1.9401

2 - 3 -2.1864 0.5362 3.2588

2 - 7 0.0998 3.3696 6.6393 ***

5 - 1 -4.9544 -0.2500 4.4544

5 - 4 -1.8400 -0.1436 1.5527

5 - 2 -1.9401 -0.1196 1.7010

5 - 3 -2.5861 0.4167 3.4194

5 - 7 -0.2564 3.2500 6.7564

3 - 1 -5.7881 -0.6667 4.4548

3 - 4 -3.2015 -0.5603 2.0809

3 - 2 -3.2588 -0.5362 2.1864

3 - 5 -3.4194 -0.4167 2.5861

3 - 7 -1.2155 2.8333 6.8822

7 - 1 -8.9321 -3.5000 1.9321

7 - 4 -6.5959 -3.3936 -0.1913 ***

7 - 2 -6.6393 -3.3696 -0.0998 ***

7 - 5 -6.7564 -3.2500 0.2564

7 - 3 -6.8822 -2.8333 1.2155