情報処理3(データとの対話)
1205日分講義への意見・質問
クラスター分析する変数間で数字のオーダーがえらく違う場合には基準化します。
例 人口(人) 預金残高(円)
地域1 12000 10000000000
地域2 13000 20000000000
このような場合、
二つの地域の(グラフ上の)距離^2=(120000-130000)^2+(10000000000-20000000000)^2
となり、距離はほとんど預金残高によって決まってしまいます。
これは預金残高の数字のオーダーの違いによります。
→平均0で分散(標準偏差)を1に基準化すると、このような問題を回避することができます。
なお、講義で使っているようなアンケートのように、単位がそれほど違わない変数でクラスター分析する場合でも、基準化されることが多いようです。
Q: クラスタ分析はマーケティングでの消費者特性の把握以外にも、企業や経営者などの分析、与信判断のために使用するようなこともできるのでしょうか
→企業の業績や行動の特徴を表す変数を用いてクラスター分析すれば、それらの変数の類似性に基づいてクラスターに分けていくことができます。
また、消費者の意識や年収などを入力してクラスター分析して、どのクラスタについては貸し倒れした人の割合が高いかを分析することも可能です。しかし、与信については、貸し倒れした/しないという外的な(ノンメトリックな)基準変数があるので、今回簡単に結果の読み方だけを教えた「判別分析」の方が、より直接的な結果が得られます。
過去のデータを用いて、貸し倒れしたひとに分類されるという判別関数(次式のようなもの)を求めておけば、新しい顧客が来たときに、その人が貸し倒れする人である確率を計算することができます。
z1=a1年収+a2年齢+a3職業+a4負債総額+.....
Q: 知らない単語が出てきて、授業の進み方も早くあまりついていけなかった。
→ これで手法やSASの使い方の紹介はおわりです。あとは復習&自主研究を楽しんで下さい。
Q: 今日は途中でディスクの容量が足りなくなったので、いろいろ試行錯誤していたら
授業がわけわかんなくなった。しかも、教室がかなり暑いので、眠くなった。
やっぱり、授業の理解ができないときは後味悪いですね。 次回がんばります。とはいうものの、次回はオープンゼミなので休ませていただきます。
Q: 今日も教室が暑かったです。何とか温度管理ができないでしょうか? 課題が多いので単位が心配です。こんな私でも大丈夫でしょうか?
→グループの相棒はちゃんとやってますか?手分けして一緒にやると楽なのでは?
空調はoffにしてあったのですが、あとは窓を開けてもらうしか、薄着になってもらうしかないですね。
Q: エラーが出てもoutputは出力され、それに騙されてスゴクはまりました。ハード側の問題だとは・・・・。今までも結構あのエラーに悩まされていたんですけど。やっと解決出来ました。完成しなくて提出していない2つの課題は、次回提出致します。もっと早く気付けば良かった。
Q: 最終報告が近いので、頑張ります。仮説を変えたので、来週までには不明瞭な点を明確にしたいと思います
→分からないことがあったら早めにきいて下さい。
Q: 先週あたりから理解できてきました。理解できるととても面白いです。今までのも時間をかけてゆっくりと考えていきたいので何度か再提出させてください。ご迷惑をかけますが、よろしくお願いします。それから、今日の課題を忘れてきてしまったのですが、プリントの上のほうに日にちと時間がありますので見てください。今回は、結構早目に終えることができたのです。
Q: 今までの総まとめというかんじで頭を整理しながら課題に取り組みたいと思います
Q: もうちょっと考えます。ラ・キンタはとりあえずやってみます。
→そうして下さい。