データとの対話　SASの使い方について

PC-SAS入門

0.SASとは？
1.SASを使う前提
2.SASの使い方
3.SASプログラミング入門
4.SASコマンド
5.主なプロシジャ（講義で紹介するもの）
付録1　データの読み込み
付録2　表計算ソフトからのデータの読み込みかた
付録2.1　ファイルからではなくcardsコマンドでSASプログラム中にデータを書き込む場合。
付録3　自分用のFDを忘れてしまったとき
付録4　ダミー変数の作り方

演習用データ＆プログラムについて

変数名リスト

0.SASとは？

　SASとはStatistical Analysis Systemのことで、統計解析を行う言語、パッケージ。

　簡単なプログラム方法をマスターすれば、難しい数式を覚えることなく簡単に統計分析を行うことができる。

　使える手法の例(括弧内は各分析を行うSASのプロシジャ名（太字は講義で紹介するプロシジャ）。

データの印刷、グラフの作成など

データセットの（印刷）出力（proc print）
ヒストグラムの作成（proc chart）　　　　　　　　　ノンメトリック
散布図グラフの作成（proc plot）　　　　　　　　　メトリック×メトリック

統計分析

平均値、標準偏差などの記述統計の算出（proc means）メトリック
詳細な記述統計の算出（proc univariate）　　　　　メトリック
頻度分布表、クロス集計表の作成、検定(proc freq)　ノンメトリック×ノンメトリック

変数間の相関係数の算出（proc corr）　　　　　　　メトリック×メトリック
2変数の平均の差の検定（proc ttest）
分散分析（proc glm）　　　　　　　　　　　　　　　メトリック=ノンメトリック
（重）回帰分析（proc reg）　　　　　　　　　　　　メトリック=メトリック、ノンメトリック
因子分析（proc factor）　　　　　　　　　　　　　メトリック
主成分分析（proc princomp）
階層型クラスター分析（proc cluster）　　　　　　　　メトリック

階層型クラスター分析の結果の樹形図の出力(proc tree)

非階層型クラスター分析（proc fastclus）　　　　　メトリック

　注）簡単に計算してくれますが、その結果を解釈してはくれません。解釈するのは自分自身なのです。

・SASについての参考文献

　市川伸一、大橋靖雄、岸本敦司、浜田知久馬,(1994),『SASによるデータ解析入門　第2版』,東京大学出版会
　高橋伸夫(1992),『経営統計入門　　SASによる組織分析入門』,東大出版会

1.SASを使う前提

1)使うデータとそのファイル

　「CMについてのアンケート」データファイルは、「f:hamaokadd]の中のensdat1（こう表示されているが実際はensdat1.txt）。

　皆さんは残念ながら、ハードディスクを一時的にしか利用できないので、処理速度や容量の問題があるかも知れませんが、フロッピーディスクにデータを保存し、それを利用してもらいます。

2)演習用データを保存するディレクトリの作成

　自分のフロッピーを入れる。

　「マイコンピューター」を開き、自分のフロッピー(A:)を選ぶ。

　「ファイル」「新しいフォルダの作成」

　「ensyu」と入力して、ディレクトリを作成する。

3)データファイルのコピー

　「f:hamaokadd]の中のensdat1（こう表示されているが実際はensdat1.txt）を、自分のフロッピーのensyuに入れる。

　演習で使うSASのプログラムは「f:hamaokadd]の中にあります(演習用データ＆プログラムについて参照)。

目次へ

2.SASの使い方

1)SASの構成

SASには次の3つのウインドウがあります（この他にもあるが、よく使うのは3つ）。

図表　SASのウインドウ

Program editorウインドウ	プログラムを書き込むウインドウ。
ＬＯＧウインドウ	計算過程でのSASからのメッセージなどが出力される。
outputウインドウ	計算結果が出力される。

注）自分がどのウインドウにいるか見失った場合「ウィンドウ」を選ぶと、各ウインドウに移動できる。

2)プログラムの実行

　基本的には、次の手順で実行させる。

　Program editorウインドウにプログラムを書き込み/読み込み

　→必要ならば修正

　→実行

(1)プログラムの読み込み

Program editorに移動。

「ファイル」「オープン」

「f:hamaokadd」の中から「ensread1」を選ぶ。

（注）自分で直接Program editorにプログラムを書き込むこともできる。

(2)プログラムの実行

　Program editorウインドウにいることを確認。

「ローカル」「サブミット」で実行される。

（注）「サブミット」すると、Program editorウインドウはクリアされる。プログラムを修正した場合にはファイルの保存を忘れないように。　

(3)実行結果のみかた

・logウインドウ

　sasシステムからのメッセージが出力される。

　自分のプログラムは黒字、sasからのメッセージのうち単なる報告は青、警告、エラーは赤字で出力される。

・outputウインドウ

　うまく行けば（エラーが出なければ）計算結果が出力される。

・Program editorウインドウ

　クリアされている。

（注）連続して実行すると、各ウインドウには前の出力に続けて結果が出力される。

　　　まめに「編集」「テキスト消去」を実行しましょう。

目次へ

参考）

ウインドウの出力はカット、コピーなどできるので、そのままワープロなどに貼り付けて、レポートを作成することができる。

各ウインドウの出力を画面ではなく、ファイルに出力することもできる（プログラムensread1を参照）。

参考）sas／insight

sasデータセット形式になっていると、sas／insightで対話型の分析を行うことができます。

「グローバル」「対話式データ解析」で起動。

「SAS/INSIGHTオープンウインドウ」

sasが作ったデータセットが見える。

ensdat1というデータセットを選ぶと、ワークシート形式で表示される。

ただし、この状態ではすべての変数が間隔尺度となっている。

名義尺度は名義尺度に変更しておくと、あとの分析が楽になる。

sasが尺度に応じた適切な手法を選んでくれる。

プロット、回帰分析、主成分分析までならば、 SAS/INSIGHTの中でできます。予備分析には大いに威力を発揮するでしょう。

この講義では、これ以上紹介しません。

目次へ

3.SASプログラミング入門

1)プログラムの構成(要素)

SASステートメント

sasに処理をさせるための命令文。

例　
input　　データの読み込み
if 条件文　then　実行文　　→条件を満たしたときにだけ実行させる。

SASデータセット

SAS独自のフォーマットで作成されるデータファイルのこと。

永久データセット

SASを終了させても永久に保存される。

一時データセット

一時的につくられるデータセットでSASを終了させると消去される。

DATAステップ

SASデータセットの作成、編集(オブザベーションや変数の削除、データセットの結合など)を行う。

PROCステップ

データの処理を行わせる。

２）文法

変数名

　変数名は英数字で8文字以内。変数名の先頭の文字は英字（大文字、小文字は区別されない）。

　C言語のように変数を宣言しておく必要はない。

　ただし、文字列変数の場合には、読み込みのときに、その変数が文字変数であることを指定しておく必要がある。

　例　xという数値変数を読み込む場合。

　　　input x ;

　例　xという文字列変数を読み込む場合。

　　　input x $;

　　　→xの後に「スペース$」を入れておく。

ファイル名、変数名、コマンドなどの、大文字、小文字は区別しない

（unix版ではファイル名は区別する？）。

一つの文はセミコロン「;」で区切る。

一行に複数の文を書くこともできる。
初心者は、ここでエラーを出ことが多いので要注意。

プロシジャ単位で実行される。

次のプロシジャに移行するまで前のプロシジャは実行されない。

プログラム例1 :data aaaa, proc xxxxは実行されるが、proc yyyyは実行されない。

data aaaa;
proc xxxx;
proc yyyy;

プログラム例2 :data aaaa,proc xxxx、proc yyyyとも実行される。

data aaaa;
proc xxxx;
proc yyyy;
run;プログラムの文末にはrun;　を必ず入れる。

「/*　　*/」はコメント文であり、実行されない。

オプションの指定方法

　プロシジャによって異なりますが、オプションの指定は次の二カ所で行います（斜体部）。

　詳細はプロシジャによって異なるのでマニュアルを参照。

　proc **** data=入力データセット名　out= 出力データセット名;

　　varなど/計算やプロットのオプション;

入力データセットの指定

　どのデータセットについて処理させるかdata=で指定することができる。指定しなければ、直近に作成されたデータセットを処理する（下の例はproc printの例だが、他のプロシジャでも同様）。

例　データセットを指定した例。

例2　データセットを指定しない例。

　　data aaa;

　　.....

　　data bbb;

　　.....

　　proc print data=aaa;

　　run;

データセットaaa,bbbを作成した。

data=aaaが指定されているので、aaaが印刷される。

data aaa;

　　.....

data bbb;

　　.....

　　proc print ;

　　run;

dataで指定されていないので、直前に作成されたbbbが印刷される。

目次へ

4.SASコマンド

講義で使うもののみ。

DATA データセット名

　指定された名前のデータセットを作成する。

　例）data kenssdt;

　　　kenssdtという一時データセットを作成。　

　例）data md.kenssdt;

　　　mdというsasデータ・ライブラリの下に、kenssdtという永久データセットを作成。

LIBNAME sasライブラリ名　Windowsのディレクト名;

　sasデータライブラリとWindowsのファイルとの関係を指定する。

データセットが、一時的か永久かは、sasライブラリ名が指定されているかいないかによって判定される。

　　　・永久データセットについては、aaa.bbbbのようにデータセット名を指定する。

　　　　　「sasライブラリ名.データセット名」という形式になる。

　　　　　　→（sasライブラリ名とデータセット名との間をピリオドで区切る）

　　　　sasライブラリ名とWindowsのファイルとを対応づけるのが「LIBNAME」コマンド

　　　　　　例）LIBNAME md "a:\mydata\"; 　

　　　　　　　mdで始まる永久データセットはa:\mydata\の下にあること（保存すること）を指定する。

　　　・一時データセットの場合には、ライブラリ名の指定は不要。

INFILE Windowsファイル名　delimiter=デリミタの種類 ;

　データを読み込むファイルを指定する。

　　　　　　　例）INFILE 'a:\mydata\kendat.prn' delimiter=' ' ;

　　　　　　　　　a:\mydata\kendat.prnから読み込むことを指定。

　　　　　　　　　デリミタは「」=スペースである。

by　変数名

変数毎に計算することを指定。

例）zの値毎に相関係数を算出する。

proc corr data=.....;

var x y;

by z;

例）zの値毎に記述統計を算出する。

proc means data=.....;

var x y;

by z;

byで指定するのは通常はノンメトリックな変数。

where 条件文

条件を満たすサンプルに限定して計算する。

例）zが100よりも大きいオブザベーションに限定して相関係数を算出する。

proc corr data=.....;

var x y;

where z>100;

例）xが10よりも小さいサンプルに限定して記述統計を算出する。

proc means data=.....;

var x y;

where x<10;

目次へ

5.主なプロシジャ（講義で紹介するもの。アルファベット順）

proc cluster data=入力データセット名オプション;

var 変数名;

階層型のクラスタ分析を行う。
メトリックな変数に適用。

varで分析する変数を指定。
例）x1～x5の変数をもちいて階層型クラスタ分析。

proc cluster DATA=.... outtree=treeout method=ward;

var x1 x2 x3 x4 x5;

id smpno;

/* 階層型を表す樹系図を出力 */

proc tree data=treeout;

id smpno;

run;

outtree=　樹形図用のデータを出力するデータセット名を指定。

ここではtreeoutというデータセットに出力。

method=　クラスターの結合方法を指定。

ここではward法;

id 　　樹形図用を描くときにサンプルのIDとして使う変数を指定。

ここではsmpnoという変数を利用。

サンプル数が多いと計算量が多くなって、エラーになる場合もある。そのような場合は非階層型のクラスタ分析proc fastclusをする。

プログラム例　プログラムからの出力例

目次へ

proc chart data=入力データセット名;

hBAR 変数名　/オプション;

横向きのヒストグラムを作成する。

data=でデータセットを指定しなければ、直近に作成されたデータセットが用いられる。
hBAR で集計する変数名を指定する。
例）xのヒストグラムを作成する。

proc chart data=.....;

hbar x;

run;　　

例）次のように複数の変数を指定することもできる。

proc chart data=.....;

hbar x y z ;

run;

注）hbar の代わりにbarとすると縦方向のヒストグラムを作成する。

プログラム例　プログラムからの出力例

目次へ

proc corr data=入力データセット名　オプション;

var 変数名 with 変数名 ;

変数名1*変数名2の相関行列を作成する。

var で集計する変数名を指定する。
例）x y zの相関行列を算出する。

proc corr data=..... nomiss noprob ;

var x y z;

run;　　

nomiss オプション：すべての変数について欠損値がないサンプルだけを用いて算出する（これを指定しない場合、2変数の組み合わせ毎に欠損値がないサンプルを用いて算出される。→サンプル数も出力される）。
noprob オプション：相関係数が0であるという仮説を検定したときのp値を出力しない。

var x1 x2 y1 y2 ;と指定すると次のように相関係数が出力される（すべての変数の組み合わせについて算出される）。

注）corr(x1,x2)はx1とx2の相関係数という意味。
　　x1 　　　　x2　　　　x3　　　　x4
x1 corr(x1,x1) corr(x1,x2) corr(x1,x3) corr(x1,x4)
x2 corr(x2,x1) corr(x2,x2) corr(x2,x3) corr(x2,x4)
x3 corr(x3,x1) corr(x3,x2) corr(x3,x3) corr(x3,x4)
x4 corr(x4,x1) corr(x4,x2) corr(x4,x3) corr(x4,x4)

var x1 x2 with x3 x4;と指定すると次のように相関係数が出力される（x1,x2を行、x3,x4を列方向として組み合わされる変数間の相関係数のみを出力する）。

　　x1 　　　　x2
x3 corr(x3,x1) corr(x3,x2)
x4 corr(x4,x1) corr(x4,x2)

メトリックな変数について集計する。

プログラム例　プログラムからの出力例

目次へ

proc factor data=入力データセット名オプション;

var 変数名;

因子分析を行う。

varで分析する変数を指定。
例）x1～x5の変数を因子分析。

proc factor data=... rotate=varimax preplot plot scree nfact=3 out=cmfac;

var x1 x2 x3 x4 x5;

run;

preplot 回転前の因子負荷量をプロット
rotate=varimax 　varimax回転を実施（他にもいろんな回転方法があるが、これがもっともよく使われている）。
plot 　回転後の因子負荷量をプロット
scree スクリープロット出力
out=cmfac　因子得点を出力するデータセット名（因子得点を出力するときはnfactで因子数を指定しなければならない）。
nfact= 抽出する因子の数を指定（指定しなければ固有値が1以上の因子を取り出す）。

プログラム例　プログラムからの出力例

目次へ

proc fastclus data=入力データセット名オプション;

var 変数名;

非階層型のクラスタ分析を行う。
メトリックな変数に適用。

varで分析する変数を指定。
例）x1～x5の変数をもちいて非階層型クラスタ分析。

proc fastclus DATA=.. out=clout2 maxc=2 cluster=clindx;

var x1 x2 x3 x4 x5;

run;

out=　　各オブザベーションのクラスタ番号を出力するデータセットの名前。ここでは一時データセットclout2に出力。
maxc =　いくつに分割するかを指定。
cluster=　出力データセットでのクラスター番号が入っている変数名。一時データセットclout2に、clindxという変数名でクラスタ番号が保存される。

プログラム例　プログラムからの出力例

目次へ

proc freq data=入力データセット名;

table 行方向の変数名　*　列方向の変数名　/（検定）オプション;

頻度分布表、クロス集計表を作成する。

tableで集計する変数名を指定する。

ノンメトリックな変数について集計する。

例）xの頻度分布表を作成する。

proc freq data=.....;

table x;

run;

例）xとyのクロス集計表を作成する。

proc freq data=.....;

table x*y;

run;

例）一度に複数のクロス集計表を作成。

proc freq data=.....;

table (x1 x2 x3)*(y1 y2 y3);

run;

chisq オプションでクロス集計表の列、行の独立性を検定することもできる。

proc freq data=.....;table x*y /chisq ;カイ2乗検定を行う。
注）カイ2乗検定は度数が5以下のセルの割合が多くなると信頼性が低くなる。このような場合はフィッシャーのexact検定を用いた方がよい。

table x*y /exact;とするとフィッシャーのexact検定を行う。

→ただし、exact検定では計算量が多くなるので無限ループに入る恐れもある。

プログラム例　プログラムからの出力例

目次へ

proc glm data=入力データセット名;

class 水準を表すノンメトリックな変数名;

model 従属変数=説明変数（classで指定した変数）;

means 水準やグループを表す変数　/　平均値の差の検定方法;

行方向の変数名　*　列方向の変数名　/（検定）オプション;

一般線形モデル（分散分析、回帰分析などが含まれる）で推定を行うが、ここでは分散分析を想定。

class で水準やグループを表す変数名（ノンメトリック）を指定する。
model で推定するモデルを指定。従属変数（メトリック）=説明変数（classで指定したノンメトリックな変数）;
means で指定した変数毎の平均値を算出する。/　で指定すると平均値の差の検定を行う。検定方法としては、LSD検定、Tukey検定などがある。

例）clindxというノンメトリックな変数の値によって、yの値が異なるか否かを検定する。

proc glm data=...;

class clindx;

model y=clindx;

means clindx /tukey;

run;

meansはオプション。

プログラム例　プログラムからの出力例

目次へ

proc means data=入力データセット名;

var 変数名;

記述統計を計算する。

varで集計する変数名を指定する。

例）x, yの記述統計を算出する。

proc means data=.....;

var x y;

run;

オプションを指定しなければ、サンプル数、平均値、標準偏差、最小値、最大値が出力される。

基本的にはメトリックな変数について集計する。

プログラム例　プログラムからの出力例

目次へ

proc plot data=入力データセット名　;

plot 変数名1*変数名2/オプション;

変数名1*変数名2のグラフを作成する。
plot で集計する変数名を指定する。
例）yを縦軸、xを横軸にした散布図を作成する。

proc plot data=....;

plot y * x;

run;

注）proc plot; proc chartはテキストキャラクタでグラフが出力される。

　　proc gplot; proc gchartとするとグラフィックでグラフが出力される。

プログラム例　プログラムからの出力例

目次へ

proc print data=入力データセット名;

var 変数名;

データセットに含まれる変数を印刷。

varで印刷する変数名を指定。varで指定しなければ、データセットに含まれる変数すべてを印刷する。
例）x, yを印刷する。

proc print data=.....;

var x y;

run;

プログラム例　プログラムからの出力例

目次へ

proc reg data=入力データセット名;

model 被説明変数名=説明変数/オプション;

output out=出力オプション;

被説明変数名=説明変数の重回帰分析を行う。

modelで推定するモデルを指定。
例）y=β1x1+β2x2+β3x3+β4x4;の重回帰モデルを推定する。

proc reg data=.....;

model y1=x1 x2 x3 x4;

run;

例）y=β1x1+β2x2+β3x3+β4x4;の重回帰モデルを推定。残差分析なども行うために推定結果を出力。

proc reg data=...;

model y1=x1 x2 x3 x4;/p r stb cli ;

output out=reg_out1 p=prd r=res;

run;

p 予測値を出力。
r 残差を出力
stb 標準化された偏回帰係数を出力。
cli 予測値の信頼区間を出力。
out=reg_out1 出力されるデータセット名
p=prd 予測値をprdという変数名で出力
r=res　残差をresという変数名で出力

プログラム例1（残差分析なし）　プログラムからの出力例

プログラム例2（残差分析あり）　プログラムからの出力例

目次へ

proc tree data=入力データセット名 ;

id idとして使う変数名;

階層型のクラスタ分析プロシジャ（proc cluster）から出力されたデータセットを読み込んで樹形図を描く。

id でidとして使う変数を指定。
例）x1～x5の変数をもちいて非階層型クラスタ分析。

/* 階層型のクラスター分析 */

proc cluster DATA=ens.ensdat1l outtree=treeout method=ward;

var f_l1-f_l4;

id smpno;

/* 階層型を表す樹系図を出力 */

proc tree data=treeout;

id smpno;

run;

プログラム例　プログラムからの出力例

目次へ

proc univariate data=入力データセット名　オプション;

var 変数名

詳細な記述統計を算出する。
メトリックな変数について集計する。

data=でデータセットを指定しなければ、直近に作成されたデータセットが用いられる。
var で集計する変数名を指定する。
例）　　xの詳細な記述統計を算出する。

proc univariate data=..... normal plot;

var x;

run;

normal オプション：正規性を検定する。
plotオプション：正規プロットを出力する。

プログラム例　プログラムからの出力例

目次へ

付録1　データの読み込みかた

　自分で用意するデータの形式としては次のようなものがあるでしょう。

1)表計算ソフトで入力したデータ。

　自分で本などをみてそれをエクセルなどの表計算ソフトで入力したデータ。

　表計算ソフト独特の形式で保存されている（ファイル名*.xclなど）ので、直接SASで読み込むことはできない。

　→表計算ソフトから（自由書式の）テキストファイル形式に出力。それをSASで読み込む。

2)自由書式のテキストファイル形式で入手する。

　データとデータが、「スペース」や　「,」「タブという眼には見えない特殊文字」などで区切られているデータ（データの区切りに用いられる文字を「デリミタ」と呼ぶ）。

　例　,で区切られている。→　985,187,abc,899,156,89,3

　　　スペースで区切られている。→　985 187 abc 899 156 89 3

　このデータならば簡単に読み込める。

　ファイル名を指定して、input　変数名......;run;とする。

----

上のデータ例について、7つの変数をa～fという変数で読み込む場合。

input a b c $ d e f g;

のようにinput文を書く。

注意）変数が都道府県、人名のような「文字」の場合には、変数名の後にスペースを空けて「$」をつけておく。

3)固定書式のテキストファイル形式でデータを入手する。

　データとデータとの間に区切り記号がない。

　→データが記録される桁数が固定されている。

例　上と同じデータ

　　　985187abc899156893

　　　3　3　3　3　3　2　1←各変数の桁数。

　各変数の記録されている桁の位置を指定する。

　→変数名のあとに、「桁の開始-終了位置」を指定する。

例）input a 1-3 b 4-6 c $ 7-9 d 10-12 e 13-15 f 16-17 g 18-18;

注）フォーマット入力という指定もある。SASマニュアル参照。

→SASで読み込むときは、どの変数が、どの桁に記録されているかを指定することが必要。

目次へ

付録2　表計算ソフトからのデータの読み込みかた

　エクセル、ロータスなどの表計算ソフトで入力したデータをSASで読み込むことができます。

　ただし、表計算ソフト独特の形式のファイル（*.xclなど）を直接読み込むことはできないので、表計算ソフトで入力したファイルをテキスト形式のファイルに出力してから読み込みます。

（演習用に提供しているデータもそうやって入力したものです。）

手順は次のようになります。

　表計算ソフトで入力

→入力したものをテキスト形式で保存。

→読み込み用のSASプログラムを用意。

→読み込みプログラムをサブミット。

→出力結果を見て確認。

　以下ではエクセルを例にしますが、ロータスでも同様にできるはずです。

a:ドライブの\mydataというフォルダにkendatというデータをエクセルで作成する。

　よって、次の二つの方法のどちらかで対応して下さい。

　　(1)2.1項のcardsコマンドを使うか、

　　(2)以下の方法で、文字変数を除いて数字データだけとする（データを除くのだから、変数名も除いて下さい）。

-----------

（フォルダを作成しておくこと）

データの例

県番号　県名　　　人口（1000人）　　スーパー売上高（100万円/月）

　1　　　茨城　　　2894　　　　　　42727

　2　　　栃木　　　1951　　　　　　28671

　3　　　群馬　　　.　　　　　　26672

　4　　　埼玉　　　6465　　　　　　118785

　5　　　千葉　　　5614　　　　　　93619

　6　　　東京　　　11634　　　　　174255

　7　　　神奈川　　8002　　　　　　144756

注）人口：住民基本台帳人口、92年3月末

　　スーパー売上高：商業界「日本スーパーマーケット名鑑91年」

　　群馬の人口は入手可能だが練習のため、欠損「.」とする。　　　　

1)表計算ソフトなどで上のデータを次のように入力する。

変数名は適当に自分の好きなようにつけてよいが、ここでは次のように。

------------

県番号　県名　　　人口（1000人）　　スーパー売上高（100万円/月）

kenno　kenname　　popltn 　　　　　suprsal

1 　　　茨城　　　2894　　　　　　42727

2　　　　略

------------

データを入力。

欠損はピリオド「.」を入力。

入力したら保存する（自分のフロッピーに）。

2)テキスト形式で保存

　SASでデータを読み込むためには、テキスト形式に保存しなければならない。

注）次の条件を満たしておくことが必要［大橋ら(1994),p.28］。

　各データは1個以上の空白で分離されていること。

　必要な小数点はデータ内に含まれていること。

　データの欠損値はピリオド「.」としておくこと。

注）自由書式では、文字データは半角8文字（8バイト）=全角4文字までしか読み込めません。

　より長い全角文字列を読みたい場合には、固定書式としてください。

→エクセルで新しいワークシートを開き、上のデータのうち、データの部分のみ（変数名の部分は含まない）をコピーしてテキスト形式で保存する。

　注）保存のとき「ファイル形式」でテキスト（スペース区切り）を選ぶとテキスト形式で保存される。

　→保存するファイル名はkendat.prnとする。

3)sasによる読み込み＆永久データセットの作成

　次のsasプログラムをsasのprogram editorに入力（この画面からコピーできるはず）。

　サブミットしてみる（斜線は自分たちのデータによって変更が必要な部分）。

LIBNAME md "a:\mydata\";

/*a:\mydata\の下にkenssdtという名前の永久データセットを作成する。*/

DATA md.kenssdt;

INFILE 'a:\mydata\kendat.prn' delimiter=' ' ;

/* delimiter=でデリミタ（データの区切のための文字）を指定する。

　この場合はスペース（空白）*/

input kenno kenname $ popltn suprsal;

/*県名は文字変数なので、変数名の後に$をつける*/

proc means data=md.kenssdt;

/*入力ミスがないか確認のため記述統計を算出。

　変数名を指定していないのでデータセットに含まれる

　すべての変数（文字変数を除く）について計算される。*/

proc print data=md.kenssdt;

/*入力ミスがないか確認のためデータを印刷。

　変数名を指定していないのでデータセットに含まれる

　すべての変数が印刷される。*/

run;

注)漢字データの読み込みがうまく行かない場合は、文字データを漢字ではなくローマ字にしてみる（例　東京→tokyoなど）。

ローマ字ならば読み込める場合には、double-byte character sets (DBCS)オプションがインストールされていないと考えられます。→システムの管理者に相談して下さい。

目次へ

付録2.1　ファイルからではなくcardsコマンドでSASプログラム中にデータを書き込む場合。

　sasのcardsコマンドを使ってデータをプログラムの中に書き込むこんで、それを読み込むことができます。

下の例を参照（自分のフロッピーに保存するにはどうすればよいかは自分で考えてみて下さい）

LIBNAME md "a:\mydata\";

/*a:\mydata\の下にkenssdtという名前の永久データセットを作成する。*/

DATA md.kenssdt;

input kenno kenname $ popltn suprsal;

/*県名は文字変数なので、変数名の後に$をつける*/

/*データはsas画面に直接入力しても、エクセルからコピーしてきてもよいはず*/

/*cardsコマンドのあとにデータを入力しておく。*/

cards;

1 茨城 2894 42727

2 栃木 1951 28671

3 群馬 . 26672

4 埼玉 6465 118785

5 千葉 5614 93619

6 東京 11634 174255

7 神奈川 8002 144756

;

/*データの終わりのセミコロンを忘れないように*/

proc means data=kenssdt;

proc print data=kenssdt;

run;

目次へ

a-2具体例

付録3　フロッピーを忘れた場合

　一時的にデータセットを作成して分析するプログラムも用意してあります。

　　「f:hamaokadd]の中の「runable」というディレクトリの下に入っているプログラムを利用して下さい（プログラム名は同じ）。

　ただし、CMデータについての永久データセットが作成されていないので、sasを起動したら、まずensread1を実行して、永久データセットを作成してください。

　意識しなくても、実行してエラーがなければ、自分の「saswork」の下に、このデータセットが作成されます。

　この場合、フォルダSAS611の下の「saswork」というフォルダに、一時的に作成されたデータが格納される。

　sasを終了したら、これらのファイルは消去される。

目次へ

付録4　ダミー変数の作り方

　ノンメトリックな変数を回帰分析の説明変数とする場合には、それをダミー変数に変換することが必要です。

　マルチプルアンサー（○はいくつでも）の名目尺度の場合には、その選択肢が選ばれたときに1、そうでないときに0となるようにコード化されることが多いので、それをそのままダミー変数として使うことができます。

　これに対して、シングルアンサー（○はひとつだけ）の場合には、1.男性、2.女性の1、2という数字を0、1のダミー変数に変換する必要があります。

　選択肢がn個ある場合にはn-1個のダミー変数を定義する必要があります（n個定義してしまうと、行列がランク落ちしてしまう）。

詳しくはプログラムを参照して下さい

プログラムの実行結果（「無職」はいないので、全サンプルについて0となっているのでエラーが出ている）

目次へ