!!データセットに慣れる #Rには多くのデータフレームが用意されている。これらを使ってデータセット、変数の扱いになじむ。 data() #と入力するとデータの一覧が出力される。 #ここではswissというデータを使ってみる。 data(swiss) #データを見てみる(データフレーム名や変数名をタイプすると、それが表示される) swiss #編集も可能。 edit(swiss) #データセットに含まれる記述統計を算出 summary(swiss) このデータフレームに入っている変数名をみてみる。 names(swiss) #データセットに含まれる変数を使いたい場合、 #データセット名の後に$変数名とすると、その変数のみを利用可能。 swiss$Agriculture swiss$Fertility #参考)変数名のみを指定するとエラーになる。 Fertility #ただしattach()コマンドでデータセットを宣言しておくと、変数名を直接利用可能。 attach(swiss) Fertility #演算も可能 Agriculture*Fertility Agriculture-Fertility sqrt(Agriculture) #含まれている変数を一括して散布図に。 plot(swiss) cor(swiss) #相関係数 #特定の二つの変数を散布図に plot(Agriculture,Fertility) #このデータでは行に州の名前が付けられている。 rownames(swiss) #上のグラフにどの州か、ラベルをつける。 text(Agriculture,Fertility,rownames(swiss)) #ヒストグラム hist(Agriculture) hist(Fertility) !#データセットからの一部取り出し。 #データセットは行列と同様、[行番号(サンプル番号),列番号(変数番号)] のように要素を指定できる。 #1行目めのサンプルを出力 swiss[1,] #2列めの変数を出力 swiss[,2] #連続する数は : で指定できる。 #4から10番目のサンプルについて3から5列めの変数を出力。 swiss[4:10,3:5] #不連続な場合、c()で指定する。 swiss[c(1,4:10),c(1,3:5)] #マイナスをつけると、その要素を除去する。 swiss[-1,] #一行目を除去 swiss[,-c(1,3:5)] #一列めと3から5列目の変数を除去 #条件文を入れると、それを満たすもののみを取り出せる。 swiss[Fertility>80,] swiss[Catholic <70,] swiss[Fertility>80 & Catholic <70,] #別のデータセットに入れる。 dum<- swiss[Fertility>80 & Catholic <70,] dum !課題 1)Infant.Mortalityが最大、最小なのはどの州か? 2)Catholicのヒストグラムhist()を描く。 3)Agricultureが70%以上、Infant.Mortalityが20%以上の州のデータを取り出してデータセットdumに入れる。 4)Agricultureが70%以上、Infant.Mortalityが20%以上の州について、変数Agriculture、Infant.Mortalityのみを取り出してデータセットdum2に入れる。