• データとの対話 


  • お知らせ


    提出レポートをみると、次のようにグループ編成されているようです。確認して下さい。

    今後、グループの編成替えをしてもよい。編成替えをした場合には、そのことが分かるようにレポートに明示して下さい。

    グループ番号 学籍番号 学年 クラス 漢字氏名


    本日の講義の内容


  • 4.3 データ分析の基礎
  • 変数間での関連性の有無を検定する
  • メトリックな変数について母集団の平均値を比較する

  • 仮説検定の考え方

     仮説検定については、東大教養学部統計学教室編『統計学入門』東大出版会,ch.12を参照。

     プリントp.47も参照。

    クロス集計表の独立性の検定の場合

     検定される仮説:行と列は独立

     この仮説に基づいて検定用統計量を算出。

     この検定用統計量は自由度が(行の数-1)×(列の数-1)のχ2分布に従う。

     いろいろな検定があるが、最終的にはp値をみる(プリントpp.63も参照。)。

    p値

    有意水準

    有意significantか否か→誤差の範囲か、誤差の範囲を超えるなにか意味のあるものか?

     p値が小さい

    →仮説が正しいとしたときに、観察された現象が生じる(上で計算したような検定用統計量が算出される)確率が低い。

     →希にしか生じないことが生じている。

     →仮説か観測(データ)のどちらかに問題がある。

     →せっかく集めたデータを疑っては意味がない。

     →仮説の方を疑う。

     →仮説を棄却する。

     問題となるのは、どれくらいの確率ならば「希」と考えるか?

      10%以下(pの値が0.05以下)ならば希と考えられることが多い。

      学問分野、研究対象によって5%水準までを希と考える場合もある。

       例  人間を研究対象とする心理学では5%水準をとるらしい?

     

      p値が0.01以下の場合:有意水準1%で仮説を棄却する。

      p値が0.05以下の場合:有意水準5%で仮説を棄却する。

      p値が0.1以下の場合:有意水準10%で仮説を棄却する。


    4.4 多変量解析について


    /* クロス集計表の独立性の検定 */



    OPTIONS ls=80 ps=500;

    LIBNAME ens "a:\ensyu\";

    /* 缶コーヒーの購入頻度と属性などのクロス集計表 */

    proc freq data=ens.ensdat1;

    /*exact  Fisherのexact検定:χ2と比べるとサンプル数に影響されにくい。

    ただし、計算に時間がかかるので、セルの数が多い場合には算出しない方がよい。 */

    run;


    /*

    一時データセットを作成して変数をまとめる

    度数が5以下のセルの割合が高いときは、χ2統計量は信頼できなくなる。

     対策1:Fisherのexact検定をする。

     対策2:度数の少ないカテゴリをまとめてしまう(下記参照)。

    */

    OPTIONS ls=80 ps=500;

    LIBNAME ens "a:\ensyu\";

    data newdat;

    set ens.ensdat1;

    proc freq data=newdat;

    run;

    参考)

     FREQが5:飲まない については、「缶コーヒーを味で選ぶかどうか」といった質問には回答させていないので、飲まないというサンプルは分析から除外した方がよいでしょう。

    分析からサンプルを除外するには、次のように指定します。

    Proc freq data=ens.ensdat1;

    run;

    →where FREQ^=5;  というのは、FREQが5ではないサンプルに限定して分析を行えという命令です。

     frecに限らず、どのプロシジャでもwhereは利用出来ます。


    2つの母集団の母集団平均の比較 t検定

    /* 二つの母集団の母集団平均の比較 t検定 */

    OPTIONS ps=80 ls=64 nocenter;

    /*nocenter オプションを指定すると、左づめにして出力される 指定しない場合にはページの真ん中に来るように左にスペースを入れて出力される*/

    LIBNAME ens "i:\ENSYU_for_HDD\";

    /*群毎に処理したい場合には、その群毎にサンプルを並び替えておかなければならない*/

    proc sort DATA=ens.ensdat1 out=ensdat1s; by sex;

    /* t検定は母集団が正規分布していることを仮定している。それを目で確かめておく。*/

    proc chart DATA=ensdat1s;

    hbar alikecm7/discrete midpoints=1,2,3,4,5,6,7;

    by sex;

    /*byで指定された変数ごとに処理を行う。 この場合はsex=1男性、2女性ごとにヒストグラムを描く byで指定された変数ごとにサンプルを並び替えておかなければエラーになる*/

    /* 目だけでは不安。正規分布しているかを検定する。  

      univariate プロシジャ  単一のメトリックな変数について詳細な記述統計を算出する  

      オプションでnormalを指定すると、正規性についての検定を行う       

       plotを指定すると、正規プロットを描く*/

    proc univariate DATA=ensdat1s normal plot;

    /*t検定する*/

    proc ttest DATA=ensdat1s;

    class sex;

    /* 母集団の分類を示す変数名を指定 

    t検定の場合、2つの母集団について比較を行うので この変数のとる値も二つのみ。

    2つより多い場合にはエラーとなる*/

    var alikecm7; /* この変数について平均値の差を比較する*/

    run;


    proc  univariateの出力結果(プリントp.32を参照)

    SEX=1  男性の場合
    Univariate Procedure
    Variable=ALIKECM7
    Moments
    N 53        Sum Wgts 53
    Mean 4.716981    Sum 250
    Std Dev 1.597803  Variance 2.552975
    Skewness -0.60301  Kurtosis -0.34145
    USS 1312       CSS 132.7547
    CV 33.87343     Std Mean 0.219475
    T:Mean=0 21.4921   Pr>|T| 0.0001
    Num ^= 0 53     Num > 0 53
    M(Sign) 26.5     Pr>=|M| 0.0001
    Sgn Rank 715.5    Pr>=|S| 0.0001
    W:Normal 0.87447   Pr<W 0.0001   
    →正規性の検定結果

      正規分布という仮説のもとで、W=0.87447となる確率は0.0001より小さい→正規分布であるという仮説は棄却される。

    t検定の出力結果   正規性が棄却されているので問題があることに注意。


    TTEST PROCEDURE

    Variable: ALIKECM7

    SEX N Mean Std Dev Std Error

    --------------------------------------------------------------

    1 53 4.71698113 1.59780328 0.21947516     男性のサンプル数、平均値、標準偏差、標準誤差

    2 31 4.87096774 1.52188338 0.27333832     女性についても同様

      平均値をみる限り、男女間での差はなさそう。また、標準偏差についても男女間では差がなさそう。

    Variances T DF Prob>|T|

    ---------------------------------------

    Unequal -0.4393 65.5 0.6619

    Equal -0.4336 82.0 0.6657

    For H0: Variances are equal, F' = 1.10 DF = (52,30) Prob>F' = 0.7887

      →母集団の分散が等しいか否かについての検定。

     t検定は母集団の分散が等しい時と等しくないときでは、用いる検定量がことなる。

      この辺については高橋『経営統計入門』東大出版会、

      母集団の分散が等しいか否かはF検定によって、検定する。

      この場合、分散が等しいという仮説は棄却されない。Prob>F' = 0.7887

     よって、Equalの行の結果をみる。

     ここでは、二つの母集団の平均値が等しいと仮定した場合に、t値=-0.4336となる確率は0.6657。

    →よって10%水準で仮説は棄却されない。

    →7番目の広告への好意は男性、女性で有意差がない。


    3つ以上の母集団の母集団平均の比較 (1元配置)分散分析

    /* 3つ以上の母集団の母集団平均の比較 1元配置分散分析 */

    OPTIONS ps=80 ls=64 nocenter;

    /*nocenter オプションを指定すると、左づめにして出力される 指定しない場合にはページの真ん中に来るように左にスペースを入れて出力される*/

    LIBNAME ens "a:\ENSYU\";

    proc glm DATA=ens.ensdat1;

    run;


    出力結果の読み方

    General Linear Models Procedure

    Class Level Information

    Class Levels Values

    PROFES 6 1 2 3 4 5 7     分類用変数(classで指定)のとる値(1 2 3 4 5 7の6通りの値をとる)

    Number of observations in data set = 84   サンプル数

    SAS システム 09:42 Monday, May 4, 1998 225

    General Linear Models Procedure

    Dependent Variable: ALIKECM7     従属変数:model文の左辺の変数

    Source  DF   Sum of Squares   F Value   Pr > F

    Model  5   22.95893353     1.99     0.0889

    Error  78  179.74344743      検定にはF検定を用いる。F値と検定の結果のp値が示されている。0.1以下なのですべての母集団の平均が等しいという仮説は10%水準で棄却される。

    Corrected Total 83 202.70238095

    R-Square C.V. ALIKECM7 Mean

    0.113264 31.79905 4.77380952

    Source DF Type I SS F Value Pr > F

    PROFES 5 22.95893353 1.99 0.0889

    Source DF Type III SS F Value Pr > F

    PROFES 5 22.95893353 1.99 0.0889

    SAS システム 09:42 Monday, May 4, 1998 226

    General Linear Models Procedure

    Level of -----------ALIKECM7----------

    PROFES N Mean SD          

    1 1 5.00000000 .        means profes コマンドを指定したことによって出力される

    2 23 4.86956522 1.48643404   母集団毎のサンプル数、平均値、標準偏差

    3 3 4.33333333 1.15470054

    4 47 4.89361702 1.56363627

    5 8 4.75000000 1.48804762

    7 2 1.50000000 0.70710678    ざっと見ても、この標本集団の平均値は低い(サンプル数が2しかないので注意が必要)

    SAS システム 09:42 Monday, May 4, 1998 227

    General Linear Models Procedure           means profes/tukey; コマンドを指定したことによって出力される。

    TUKEY のスチューデント範囲 (HSD) 検定 - 変数 : ALIKECM7

    NOTE: この検定法はタイプ I の実験(全体)誤差率を

    調整しています.

    アルファ = 0.05 信頼 = 0.95 DF= 78 MSE=2.304403

    臨界値 : スチューデント化範囲 = 4.132

    0.05 レベル で有意な比較は '***' で示しています.

    同時 同時

    下側 平均 上側

    PROFES 信頼 の 信頼

    比較 限界 差 限界

    1 - 4 -4.3759 0.1064 4.5886        1番目の母集団と4番目の母集団の平均値を比較。*がついていないので有意ではない(以下同様)。

    1 - 2 -4.4003 0.1304 4.6611

    1 - 5 -4.4544 0.2500 4.9544

    1 - 3 -4.4548 0.6667 5.7881

    1 - 7 -1.9321 3.5000 8.9321

    4 - 1 -4.5886 -0.1064 4.3759

    4 - 2 -1.1046 0.0241 1.1527

    4 - 5 -1.5527 0.1436 1.8400

    4 - 3 -2.0809 0.5603 3.2015

    4 - 7 0.1913 3.3936 6.5959 ***      *がついているので、PROFESが4の母集団と7の母集団には有意差がある。

    2 - 1 -4.6611 -0.1304 4.4003

    2 - 4 -1.1527 -0.0241 1.1046

    2 - 5 -1.7010 0.1196 1.9401

    2 - 3 -2.1864 0.5362 3.2588

    2 - 7 0.0998 3.3696 6.6393 ***

    5 - 1 -4.9544 -0.2500 4.4544

    5 - 4 -1.8400 -0.1436 1.5527

    5 - 2 -1.9401 -0.1196 1.7010

    5 - 3 -2.5861 0.4167 3.4194

    5 - 7 -0.2564 3.2500 6.7564

    3 - 1 -5.7881 -0.6667 4.4548

    3 - 4 -3.2015 -0.5603 2.0809

    3 - 2 -3.2588 -0.5362 2.1864

    3 - 5 -3.4194 -0.4167 2.5861

    3 - 7 -1.2155 2.8333 6.8822

    7 - 1 -8.9321 -3.5000 1.9321

    7 - 4 -6.5959 -3.3936 -0.1913 ***

    7 - 2 -6.6393 -3.3696 -0.0998 ***

    7 - 5 -6.7564 -3.2500 0.2564

    7 - 3 -6.8822 -2.8333 1.2155