#Rには多くのデータフレームが用意されている。これらを使ってデータセット、変数の扱いになじむ。
data()
#と入力するとデータの一覧が出力される。#ここではswissというデータを使ってみる。
data(swiss)
#データを見てみる(データフレーム名や変数名をタイプすると、それが表示される)
swiss
#編集も可能。
edit(swiss)
#データセットに含まれる記述統計を算出
summary(swiss)
このデータフレームに入っている変数名をみてみる。
names(swiss)
#データセットに含まれる変数を使いたい場合、
#データセット名の後に$変数名とすると、その変数のみを利用可能。
swiss$Agriculture swiss$Fertility
#参考)変数名のみを指定するとエラーになる。
Fertility
#ただしattach()コマンドでデータセットを宣言しておくと、変数名を直接利用可能。
attach(swiss) Fertility
#演算も可能
Agriculture*Fertility Agriculture-Fertility
sqrt(Agriculture)
#含まれている変数を一括して散布図に。
plot(swiss) cor(swiss) #相関係数
#特定の二つの変数を散布図に
plot(Agriculture,Fertility)
#このデータでは行に州の名前が付けられている。
rownames(swiss)
#上のグラフにどの州か、ラベルをつける。
text(Agriculture,Fertility,rownames(swiss))
#ヒストグラム
hist(Agriculture) hist(Fertility)
#データセットは行列と同様、[行番号(サンプル番号),列番号(変数番号)] のように要素を指定できる。
#1行目めのサンプルを出力
swiss[1,]
#2列めの変数を出力
swiss[,2]
#連続する数は : で指定できる。#4から10番目のサンプルについて3から5列めの変数を出力。
swiss[4:10,3:5]
#不連続な場合、c()で指定する。
swiss[c(1,4:10),c(1,3:5)]
#マイナスをつけると、その要素を除去する。
swiss[-1,] #一行目を除去 swiss[,-c(1,3:5)] #一列めと3から5列目の変数を除去
#条件文を入れると、それを満たすもののみを取り出せる。
swiss[Fertility>80,] swiss[Catholic <70,] swiss[Fertility>80 & Catholic <70,]
#別のデータセットに入れる。
dum<- swiss[Fertility>80 & Catholic <70,] dum
1)Infant.Mortalityが最大、最小なのはどの州か? 2)Catholicのヒストグラムhist()を描く。 3)Agricultureが70%以上、Infant.Mortalityが20%以上の州のデータを取り出してデータセットdumに入れる。 4)Agricultureが70%以上、Infant.Mortalityが20%以上の州について、変数Agriculture、Infant.Mortalityのみを取り出してデータセットdum2に入れる。