Rintro2 - Hamaoka@fbc.keio.ac.jp's home page

データセットに慣れる

#Rには多くのデータフレームが用意されている｡これらを使ってデータセット､変数の扱いになじむ｡

data()

#と入力するとデータの一覧が出力される｡#ここではswissというデータを使ってみる｡

data(swiss)

#データを見てみる(データフレーム名や変数名をタイプすると､それが表示される)

swiss

#編集も可能｡

edit(swiss)

#データセットに含まれる記述統計を算出

summary(swiss)

このデータフレームに入っている変数名をみてみる｡

names(swiss)

#データセットに含まれる変数を使いたい場合､

#データセット名の後に$変数名とすると､その変数のみを利用可能｡

swiss$Agriculture
swiss$Fertility

#参考)変数名のみを指定するとエラーになる｡

Fertility

#ただしattach()コマンドでデータセットを宣言しておくと､変数名を直接利用可能｡

attach(swiss)
Fertility

#演算も可能

Agriculture*Fertility
Agriculture-Fertility

sqrt(Agriculture)

#含まれている変数を一括して散布図に｡

plot(swiss)
cor(swiss) #相関係数

#特定の二つの変数を散布図に

plot(Agriculture,Fertility)

#このデータでは行に州の名前が付けられている｡

rownames(swiss)

#上のグラフにどの州か､ラベルをつける｡

text(Agriculture,Fertility,rownames(swiss))

#ヒストグラム

hist(Agriculture)
hist(Fertility)

#データセットからの一部取り出し｡

#データセットは行列と同様､[行番号(サンプル番号),列番号(変数番号)] のように要素を指定できる｡

#1行目めのサンプルを出力

swiss[1,]

#2列めの変数を出力

swiss[,2]

#連続する数は : で指定できる｡#4から10番目のサンプルについて3から5列めの変数を出力｡

swiss[4:10,3:5]

#不連続な場合､c()で指定する｡

swiss[c(1,4:10),c(1,3:5)]

#マイナスをつけると､その要素を除去する｡

swiss[-1,]      #一行目を除去
swiss[,-c(1,3:5)]      #一列めと3から5列目の変数を除去

#条件文を入れると､それを満たすもののみを取り出せる｡

swiss[Fertility>80,]
swiss[Catholic <70,]
swiss[Fertility>80 & Catholic <70,]

#別のデータセットに入れる｡

dum<- swiss[Fertility>80 & Catholic <70,]
dum

課題

1)Infant.Mortalityが最大､最小なのはどの州か?
2)Catholicのヒストグラムhist()を描く｡
3)Agricultureが70%以上､Infant.Mortalityが20%以上の州のデータを取り出してデータセットdumに入れる｡
4)Agricultureが70%以上､Infant.Mortalityが20%以上の州について､変数Agriculture､Infant.Mortalityのみを取り出してデータセットdum2に入れる｡