I.データとの対話のプロセス
1.いろいろなデータ
財務データ
経済統計
消費者に対するアンケートデータ など
1)データの使い方
(1)事実を記述する。
(2)仮説を検定する。
(3)仮説を発見する。
(1)事実を記述するデータ
・アンケートを行って日米の経営の特徴を比較した例。
日本の方が長期志向であるといった仮説は設定されていないが、市場環境、組織構造、組織革
新などの点を比較するという点については、先行研究の理論的枠組みを参照している。
出所)加護野、野中、榊原、奥村(1993),「日米企業の戦略と組織」,(伊丹、加護野、伊藤編『リーディングス 日本の企業システム 第2巻』),p.107-144
・消費者に対する意識調査を定期的に行った結果:時間と共に価値観が変化していることがよみとれる。
出所)渡部久哲(1994),「消費者行動と価値観の変化」,(飽戸弘編著『消費行動の社会心理学』福村書店),p.152-172
(2)仮説を検証するためのデータ
仮説を設定して、それを検証(検定)するためのデータを収集、分析する。
・継続的取引の規定要因についての仮説の検証例
注)ENJO=β0+β1SIGEN+β2HENDO+β3ZAIKO+β4KOUKOKU
ENJO:仕入先へ指導を行っている企業の割合
SIGEN:研修×給与=関係特殊的資源の重要性
HENDO:受容の不確実性
ZAIKO:在庫調整の容易さ=商品回転率/(流動資産/総資産)
KOUKOKU:広告支出/売上=ブランドロイヤリテイ
出所)成生達彦、鳥居昭夫(1996),「流通における継続的取引関係」,(伊藤秀史編『日本の企業システム』東京大学出版会),p.183-214
図表 ブランドの二重苦の例(1988年の1年間のデータを集計)
a)ケチャップ
b)ヨーグルト
注)ヨーグルトについてはブランドは35あるが、上位5位までの結果のみ示す。
出所)富永純一(1993)「日本におけるブランドの二重苦について」東京大学大学院経済学研究科mimeo.
2.データとの対話のプロセス
→この講義「(数字)データ」との対話
数字データ
・もともと数字で表現されている。
人口、体重、経済成長率 .....
・数字で表現されていないデータを数字で表現する。→ダミー変数化することなどによって可能となる場合もある。
職業、学歴....
これらの数字データをどう扱うか?
1)データとの対話の「プロセス」
図表 データとの対話の「プロセス」
○理論的枠組み・仮説の重要性
例1 アインシュタインの相対性理論と恒星の視差角度の観測
相対性理論によると、重力によって空間がゆがむと予測される。それを確認するために、太陽の重力による恒星からの光のずれを測定した。そのずれの角度は、極めて微小であり、測定しようと思わなければ測定できないものであった。
例2「眼は、それが探し求めているもの以外は見ることができない。探し求めているものは、もともと心の中にあったものである(フランスの警察の科学的犯罪捜査法学校のスローガン)」[村上陽一郎(1974:1986),『近代科学を超えて』,日本経済新聞社(講談社学術文庫に収録、1986年,p.32)]
→インプリケーション
見ようと思ったものしか見えない
→理論的枠組み・仮説(自分たちが何を見たいのか・知りたいのかを明確にすることが必要)は重要
・仮説をもつことのメリット:無駄、的外れな分析をする必要がなくなる。
この授業では、前節の(1)(2)のデータの使い方を学ぶ。
・そうすることのデメリット: 仮説についてのデータしかみえなくなる?
新しい発見がされにくくなる?
理論的な枠組み(仮説として規定される場合もある)
自分たちが何を見たいのか・知りたいのかを明確にするためには?
分析対象とする現象、それを扱う学問分野の知識を身につけておくことが必要。
→各自で身につけることが必要(この講義のメインテーマではない)。
↓ ↑
データの収集、解釈、分析手法・モデル:この講義でのテーマ
図表 データとの対話の具体的プロセスの一例(アンケート調査の場合)
2)データとの対話のツールとしてのSAS
・以下の統計パッケージがある(この他にもGauss、Rats、Excelのアドインや別売りの多変量パッケージなどがある)。
図表 主な統計パッケージ
SASとはStatistical Analysis Systemのことで、統計解析を行う言語、パッケージ。
簡単なプログラムミングと結果の読み方をマスターすれば、難しい公式を覚えることなく簡単に統計分析を行うことができる。
使える手法の例(括弧内は各分析を行うSASのプロシジャ名(下線は講義で紹介するプロシジャ)。
・データの印刷、グラフの作成など 使える変数の尺度、モデルの形
データセットの(印刷)出力(proc print)
ヒストグラムの作成(proc chart) メトリック
散布図グラフの作成(proc plot) メトリック×メトリック
・統計分析
平均値、標準偏差などの記述統計の算出(proc means) メトリック
詳細な記述統計の算出(proc univariate) メトリック
頻度分布表、クロス集計表の作成、検定(proc freq) ノンメトリック×ノンメトリック
変数間の相関係数の算出(proc corr) メトリック×メトリック
2つの母集団の平均の差の検定 t検定(proc ttest) メトリック=ノンメトリック
3つ以上の母集団の差の検定分散分析(proc glm) メトリック=ノンメトリック
(重)回帰分析(proc reg) メトリック=メトリック、ノンメトリック
因子分析(proc factor) メトリック=因子(メトリック)
主成分分析(proc princomp) 主成分=Σメトリック
階層型クラスター分析(proc cluster) メトリック
樹形図の出力(proc tree) 階層型クラスター分析の結果を利用。
非階層型クラスター分析(proc fastclus) メトリック
注)メトリックとノンメトリックな変数:変数の尺度
測定の尺度は次の4つに分類できる。
ノンメトリック(質的):名目尺度、順序尺度
メトリック(量的):間隔尺度、比率尺度
→尺度によって可能な演算が異なる。→使える手法も限定される。
○SASの特徴
・ソフト自体の使いやすさ
簡単なプログラムを書けば高度な計算をしてくれる。
・出力結果の再利用のしやすさ。
計算した結果をファイルとして保存できるので、再利用が楽。
・網羅されている手法の豊富さ
計量経済学系でよく用いられている手法だけではなくて、クロス集計などの手法も網羅している。
行列演算プログラム言語proc imlもあるので、必要ならば自分でプログラムすることができる。
・ユーザーの多さ
周囲に質問できる人がたくさんいると質問できて楽。また、どこに行っても使えることを意味する。
・ソフト自体の信頼性
数多くのユーザーがいるということは、広く信頼できるパッケージであることを示している。
・適切なガイドブックの多さ
ソフトはマニュアルを読んだだけではわからない。入門から高度なものまで使い方を示したガイド本があると使いやすくなる。SASの次の二つがわかりやすい。
市川伸一、大橋靖雄、岸本敦司、浜田知久馬,(1994),『SASによるデータ解析入門 第2版』,東京大学出版会
高橋伸夫(1992),『経営統計入門 SASによる組織分析入門』,東大出版会
○まずは使ってみよう
・SASの起動
デスクトップにSASへのショートカットがある場合には、それをクリック(ショートカットを作っておくと楽)。
ショートカットがない場合には、「スタート」→「プログラム」→「SASフォルダ」→「SAS」を選ぶとSASが起動する。
SASを起動すると、次のような画面が現れる。重なっている場合もあるが、3つのウインドウによって構成されている(この他にもウインドウはあるが、よく使うのは3つ)。
・Program editorウインドウ:プログラムを書き込むウインドウ。
・Logウインドウ:計算過程でのSASからのメッセージなどが出力される。
・outputウインドウ:計算結果が出力される。
自分がどのウインドウにいるか見失った場合、メニューの「ウィンドウ」を選ぶと、各ウインドウに移動できる。
図表 SASのウインドウ
・プログラム
利用する「CMについてのアンケート」データおよび演習用プログラムファイルは、データとの対話演習用データホームページにある。
http://www.fbc.keio.ac.jp/~hamaoka/ENSYU/index.html
ブラウザで上記のホームページに移行し、一番上にある「ens0.sas」をクリックして下さい。 ブラウザの画面にプログラムが現れます(ブラウザで拡張子「.sas」のヘルパーアプリケーションとしてSASが指定されている場合には、SASが起動します。IEではそうなっていることが多いようです。この授業ではNetscape Navigatorの利用を勧めます)。
ブラウザに表示されたプログラムを、SASのプログラムウインドウにコピーして下さい。
・プログラムの実行
「ローカル」→「サブミット」で実行され、outputウインドウに結果が出力される(画面の上側中央の人の走っているマークを押しても実行されます) 。
図表 プログラム:ens0.sas
注)/* */内はコメント文なので必要ない。
図表 SASからの出力
→面倒な公式を憶えたり、手計算をしなくても簡単に分析してくれる。
ただし、どの変数にどのような処理をさせるかを指定し、結果を解釈するのは自分。
→処理をさせるためのプログラミング、変数の測定尺度と処理方法、処理結果の読み方などをマスターしていないと正しく対話できない。
図表 4つの測定尺度
分析の目的、変数の尺度に応じて適切な手法を選択する必要がある。
・3変数以上のデータの分析
二つのクロス集計表
性別クロス:男性よりも女性の方が番組を見ている割合が高い。
年齢別クロス:35歳以上よりも、35歳未満の方が番組を見ている割合が高い。
35歳未満の男性がよく番組をみている?
→3重クロス集計表
35歳未満の男性については、見ている割合は低い。
見ている割合が高いのは、35歳以上の男性、35歳未満の女性。
出所)飽戸弘(1987),『社会調査ハンドブック』,日本経済新聞社,p.93
→いろいろな変数を考えることが必要。
→多変量解析の必要性。
・変量 variate 複数の変数の線形結合。
a1X1+a2X2+....
X確率変数→xj Xの j番目の観測値(データ)
・いろいろな多変量解析手法
分析の目的による分類
いろいろな多変量解析手法があるが、それらは大まかに次の二つに大別される。
(1)基準変数解析(dependence analysis)
外的な基準変数(従属変数、被説明変数)があり、これと独立変数(説明変数)との関連を分析する。
ある変数Yを別の変数Xによって説明する。 Y=aX
→関連性(因果関係、相関)の分析に使われる。
(2)相互依存変数解析(interdependence analysis)外的な基準変数がない
外的な基準変数がなく、相互の変数の関連性を分析する。
→変数や対象の分類、集約などに用いられる。
これらについて、さらに用いられるデータの尺度、用いられるデータのタイプ(類似度行列)によってそれぞれ、以下のような手法がある。→目的、変数のタイプによって適切な手法を用いることが必要。
図表 いろいろな(多変量)解析手法(基準変数解析)
→メタモデルとしての正準相関分析
正準相関分析は基準変数、説明変数とも複数ありメトリック、ノンメトリックなデータを扱えるという意味で、最も一般的な基準変数解析。
図表 いろいろな(多変量)解析手法(相互依存変数解析)
注)定式化については、Hair et al.(1995),Multivariate Data Analysis with Readings 4th ed.,Prentice Hall: NJ,p.21を参照した。
1 Ehrenberg,Goodhardt and Barwise(1990)"Double Jeopardy Revisited,"Journal of Marketing,Vol.54,pp.82-91(これの抄訳は濱岡訳(1994)「(論文翻訳)ブランドの二重苦:再考」『マーケティング・ジャール』1994年、,Vol.13,No.4,pp.19-29)