トップ 差分 一覧 ソース 検索 ヘルプ RSS ログイン

Rintro2

 データセットに慣れる

#Rには多くのデータフレームが用意されている。これらを使ってデータセット、変数の扱いになじむ。

data()

#と入力するとデータの一覧が出力される。#ここではswissというデータを使ってみる。

data(swiss)

#データを見てみる(データフレーム名や変数名をタイプすると、それが表示される)

swiss

#編集も可能。

edit(swiss)

#データセットに含まれる記述統計を算出

summary(swiss)

このデータフレームに入っている変数名をみてみる。

names(swiss)

#データセットに含まれる変数を使いたい場合、

#データセット名の後に$変数名とすると、その変数のみを利用可能。

swiss$Agriculture
swiss$Fertility

#参考)変数名のみを指定するとエラーになる。

Fertility

#ただしattach()コマンドでデータセットを宣言しておくと、変数名を直接利用可能。

attach(swiss)
Fertility

#演算も可能

Agriculture*Fertility
Agriculture-Fertility
sqrt(Agriculture)

#含まれている変数を一括して散布図に。

plot(swiss)
cor(swiss) #相関係数

#特定の二つの変数を散布図に

plot(Agriculture,Fertility)

#このデータでは行に州の名前が付けられている。

rownames(swiss)

#上のグラフにどの州か、ラベルをつける。

text(Agriculture,Fertility,rownames(swiss))

#ヒストグラム

hist(Agriculture)
hist(Fertility)

#データセットからの一部取り出し。

#データセットは行列と同様、[行番号(サンプル番号),列番号(変数番号)] のように要素を指定できる。

#1行目めのサンプルを出力

swiss[1,]

#2列めの変数を出力

swiss[,2]

#連続する数は : で指定できる。#4から10番目のサンプルについて3から5列めの変数を出力。

swiss[4:10,3:5]

#不連続な場合、c()で指定する。

swiss[c(1,4:10),c(1,3:5)]

#マイナスをつけると、その要素を除去する。

swiss[-1,]      #一行目を除去
swiss[,-c(1,3:5)]      #一列めと3から5列目の変数を除去

#条件文を入れると、それを満たすもののみを取り出せる。

swiss[Fertility>80,]
swiss[Catholic <70,]
swiss[Fertility>80 & Catholic <70,]

#別のデータセットに入れる。

dum<- swiss[Fertility>80 & Catholic <70,]
dum

課題

1)Infant.Mortalityが最大、最小なのはどの州か?
2)Catholicのヒストグラムhist()を描く。
3)Agricultureが70%以上、Infant.Mortalityが20%以上の州のデータを取り出してデータセットdumに入れる。
4)Agricultureが70%以上、Infant.Mortalityが20%以上の州について、変数Agriculture、Infant.Mortalityのみを取り出してデータセットdum2に入れる。