トップ 差分 一覧 ソース 検索 ヘルプ RSS ログイン

Rintro2.1

 データになじむ→一気に回帰分析まで

#Rには多くのデータフレームが用意されている。これらを使ってデータセット、変数の扱いになじむ。

data()

#と入力するとデータの一覧が出力される。#ここではswissというデータを使ってみる。

data(swiss)

#データを見てみる(データフレーム名や変数名をタイプすると、それが表示される)

swiss

#編集も可能。

edit(swiss)

#データセットに含まれる記述統計を算出

summary(swiss)

このデータフレームに入っている変数名をみてみる。

names(swiss)

#データセットに含まれる変数を使いたい場合、

#データセット名の後に$変数名とすると、その変数のみを利用可能。

swiss$Agriculture
swiss$Fertility

#参考)変数名のみを指定するとエラーになる。

Fertility

#ただしattach()コマンドでデータセットを宣言しておくと、変数名を直接利用可能。

attach(swiss)
Fertility

#演算も可能

Agriculture*Fertility
Agriculture-Fertility
sqrt(Agriculture)

#含まれている変数を一括して散布図に。

plot(swiss)
cor(swiss) #相関係数

#特定の二つの変数を散布図に

plot(Agriculture,Fertility)

#このデータでは行に州の名前が付けられている。

rownames(swiss)

#上のグラフにどの州か、ラベルをつける。

text(Agriculture,Fertility,rownames(swiss))

#ヒストグラム

hist(Agriculture)
hist(Fertility)
# Q 宗教と教育はFertilityにどのような影響を与えるか?(注:説明の簡略化のため因果関係として説明するが、実際に因果関係を同定することは、特に一時点のデータでは困難もしくは不可能なので「相関」と考えた方がよい。)
#回帰分析の実行
summary(res1<-lm(Fertility~ Education,data=swiss))

#結果

Call:
lm(formula = Fertility ~ Education, data = swiss)
Residuals:
  Min     1Q Median     3Q    Max 
-17.04  -6.71  -1.01   9.53  19.69 
Coefficients:
           Estimate Std. Error t value Pr(>|t|)    
(Intercept)   79.610      2.104   37.84  < 2e-16 ***
Education     -0.862      0.145   -5.95  3.7e-07 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 
Residual standard error: 9.45 on 45 degrees of freedom
Multiple R-squared: 0.441,	Adjusted R-squared: 0.428 
F-statistic: 35.4 on 1 and 45 DF,  p-value: 3.66e-07

 

summary(res2<-lm(Fertility~ Catholic,data=swiss))  #別の変数で
Call:
lm(formula = Fertility ~ Catholic, data = swiss)
Residuals:
   Min     1Q Median     3Q    Max 
-35.31  -4.06   0.51   6.85  16.68 
 Coefficients:
           Estimate Std. Error t value Pr(>|t|)    
(Intercept)  64.4283     2.3051   27.95   <2e-16 ***
Catholic      0.1389     0.0396    3.51    0.001 ** 
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 
Residual standard error: 11.2 on 45 degrees of freedom
Multiple R-squared: 0.215,	Adjusted R-squared: 0.198 
F-statistic: 12.3 on 1 and 45 DF,  p-value: 0.00103 
summary(res12<-lm(Fertility~ Education+Catholic,data=swiss))  #二つの変数で
Call:
lm(formula = Fertility ~ Education + Catholic, data = swiss)
Residuals:
   Min     1Q Median     3Q    Max 
-15.04  -6.58  -1.43   6.12  14.32  
Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  74.2337     2.3520   31.56  < 2e-16 ***
Education    -0.7883     0.1293   -6.10  2.4e-07 ***
Catholic      0.1109     0.0298    3.72  0.00056 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 
Residual standard error: 8.33 on 44 degrees of freedom
Multiple R-squared: 0.575,	Adjusted R-squared: 0.555 
F-statistic: 29.7 on 2 and 44 DF,  p-value: 6.85e-09
Q  Agriculture はFertilityにどのような影響を与えると考えるか?それを回帰分析によって確認(検定)してみる。
Q 教育と宗教にはどのような関係があると考えられるか? それを回帰分析によって確認(検定)してみる。
#別のデータ
library(MASS)
data(Boston)
Q1 このデータの説明、helpをみて各変数の意味を理解する。
Q2 このデータの記述統計を算出してみる。
Q3 データについてヒストグラム、散布図などを描いてみる。どのような特徴がみられるか?
Q4 なにが不動産の価値 medvを規定するのかを考え、回帰分析によって検定してみる。
#別のデータ
library(car)
#インストールしていない場合はインターネットに接続した状態で下記を実行してインストールする。
install.packages("car")
data(Salaries)
Q1 このデータの説明、helpをみて各変数の意味を理解する。
Q2 このデータの記述統計を算出してみる。
Q3 質的データについて 集計表を作成してみる。
例 table(データセット名$変数名)
Q4 データについてヒストグラム、散布図などを描いてみる。どのような特徴がみられるか?
Q5 なにが給与を規定するのかを考え、回帰分析によって検定してみる。