'R'에 해당되는 글 12건
- 2019.02.24 :: 시계열분석 example
- 2019.02.21 :: 주성분 분석
- 2019.02.21 :: 다차원척도법
- 2019.02.18 :: 다변량분석 - 상관분석
- 2019.02.17 :: step 함수를 이용한 전진선택법 적용 example
- 2019.02.17 :: 다중선형분석 example 2
- 2019.02.17 :: 다중선형회귀 example
- 2019.02.12 :: 단순회귀분석
- 2019.02.10 :: 이상값 검색
- 2019.02.10 :: 결측값처리
> Nile # 1871 ~ 1970년도까지 아스완댐에서 측정한 나일강의 연간 유입량에 관한 시계열 데이터
Time Series:
Start = 1871
End = 1970
Frequency = 1
[1] 1120 1160 963 1210 1160 1160 813 1230 1370 1140 995 935 1110 994 1020 960 1180 799 958 1140 1100 1210 1150
[24] 1250 1260 1220 1030 1100 774 840 874 694 940 833 701 916 692 1020 1050 969 831 726 456 824 702 1120
[47] 1100 832 764 821 768 845 864 862 698 845 744 796 1040 759 781 865 845 944 984 897 822 1010 771
[70] 676 649 846 812 742 801 1040 860 874 848 890 744 749 838 1050 918 986 797 923 975 815 1020 906
[93] 901 1170 912 746 919 718 714 740
> ldeaths # 1974 ~ 1979년도까지 영국 내의 월별 페질환 사망자에 관한 시계열 데이터, mdeath 남성사망, fdeath 여성사망
Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec
1974 3035 2552 2704 2554 2014 1655 1721 1524 1596 2074 2199 2512
1975 2933 2889 2938 2497 1870 1726 1607 1545 1396 1787 2076 2837
1976 2787 3891 3179 2011 1636 1580 1489 1300 1356 1653 2013 2823
1977 3102 2294 2385 2444 1748 1554 1498 1361 1346 1564 1640 2293
1978 2815 3137 2679 1969 1870 1633 1529 1366 1357 1570 1535 2491
1979 3084 2605 2573 2143 1693 1504 1461 1354 1333 1492 1781 1915
> plot(Nile)
> plot(ldeaths)
>
> #분해시계열
> ldeaths.decompose <- decompose(ldeaths)
> ldeaths.decompose$seasonal
Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov
1974 873.7514 896.3347 687.5431 156.5847 -284.4819 -440.0236 -519.4236 -669.8736 -678.2236 -354.3069 -185.2069
1975 873.7514 896.3347 687.5431 156.5847 -284.4819 -440.0236 -519.4236 -669.8736 -678.2236 -354.3069 -185.2069
1976 873.7514 896.3347 687.5431 156.5847 -284.4819 -440.0236 -519.4236 -669.8736 -678.2236 -354.3069 -185.2069
1977 873.7514 896.3347 687.5431 156.5847 -284.4819 -440.0236 -519.4236 -669.8736 -678.2236 -354.3069 -185.2069
1978 873.7514 896.3347 687.5431 156.5847 -284.4819 -440.0236 -519.4236 -669.8736 -678.2236 -354.3069 -185.2069
1979 873.7514 896.3347 687.5431 156.5847 -284.4819 -440.0236 -519.4236 -669.8736 -678.2236 -354.3069 -185.2069
Dec
1974 517.3264
1975 517.3264
1976 517.3264
1977 517.3264
1978 517.3264
1979 517.3264
> plot(ldeaths.decompose)
>
> #원 시계열 자료에서 계절요인을 제거한 후 plot
> ldeaths.decompose.adj <- ldeaths - ldeaths.decompose$seasonal
> plot(ldeaths.decompose.adj)
>
> # ARIMA 모형
> # 1번차분
> Nile.diff1 <- diff(Nile, differences = 1)
> # 2번 차분
> Nile.diff2 <- diff(Nile, differences = 2)
> plot(Nile.diff2)
'R' 카테고리의 다른 글
주성분 분석 (0) | 2019.02.21 |
---|---|
다차원척도법 (0) | 2019.02.21 |
다변량분석 - 상관분석 (0) | 2019.02.18 |
step 함수를 이용한 전진선택법 적용 example (0) | 2019.02.17 |
다중선형분석 example 2 (0) | 2019.02.17 |
주성분 분석(Principal Component Analysis, PCA)은 상관관계가 있는 고차원 자료를 자료의 변동을 최대한 보존하는 저차원 자료로 변환시키는 방법으로, 자료의 차원을 축약시키는데 주로 사용
# 주성분 분석
library(datasets)
data("USArrests")
# 주성분분석 함수 princomp
# cor=T의 의미 : 주성분분석을 공분산행렬이 아닌 상관계수 행렬을 사용하여 수행하도록 한다
fit <- princomp(USArrests, cor=T)
# 첫번째 변수가 전체의 약 62%를 설명, 3번째까지 하면 약 96%를 설명한다고 해석
summary(fit)
# Y1 = 0.536Muder + 0.583Assault + 0.278UrbanPop + 0.543Rape
# Y2 = 0.418Muder + 0.188Assault -0.873UrbanPop - 0.167Rape
loadings(fit)
plot(fit, type='l')
fit$scores
biplot(fit)
'R' 카테고리의 다른 글
시계열분석 example (0) | 2019.02.24 |
---|---|
다차원척도법 (0) | 2019.02.21 |
다변량분석 - 상관분석 (0) | 2019.02.18 |
step 함수를 이용한 전진선택법 적용 example (0) | 2019.02.17 |
다중선형분석 example 2 (0) | 2019.02.17 |
다차원 척도법(Multidimenstional Scaling, MDS)
- 여러 대상 간의 거리가 주어져 있을 때, 대상들을 동일한 상대적 거리를 가진 실수공간의 점들로 배치시키는 방법
- 주로 자료들의 상대적 관계를 이해하는 시각화 방법의 근간으로 주로 사용
> data("eurodist")
> loc<-cmdscale(eurodist)
> loc
[,1] [,2]
Athens 2290.274680 1798.80293
Barcelona -825.382790 546.81148
Brussels 59.183341 -367.08135
Calais -82.845973 -429.91466
Cherbourg -352.499435 -290.90843
Cologne 293.689633 -405.31194
Copenhagen 681.931545 -1108.64478
Geneva -9.423364 240.40600
Gibraltar -2048.449113 642.45854
Hamburg 561.108970 -773.36929
Hook of Holland 164.921799 -549.36704
Lisbon -1935.040811 49.12514
Lyons -226.423236 187.08779
Madrid -1423.353697 305.87513
Marseilles -299.498710 388.80726
Milan 260.878046 416.67381
Munich 587.675679 81.18224
Paris -156.836257 -211.13911
Rome 709.413282 1109.36665
Stockholm 839.445911 -1836.79055
Vienna 911.230500 205.93020
> x <- loc[,1]
> y<-loc[,2]
> plot(x,y,type='n', main='eurodist')
> text(x,y,rownames(loc), cex=0.8)
> abline(v=0,h=0)
'R' 카테고리의 다른 글
시계열분석 example (0) | 2019.02.24 |
---|---|
주성분 분석 (0) | 2019.02.21 |
다변량분석 - 상관분석 (0) | 2019.02.18 |
step 함수를 이용한 전진선택법 적용 example (0) | 2019.02.17 |
다중선형분석 example 2 (0) | 2019.02.17 |
상관분석(Correlation Analysis)
- 데이터 안의 두 변수 간의 관계를 알아보기 위해서 수행
상관계수(Correlation coefficient)
> install.packages("Hmisc")
> library(Hmisc)
> data("mtcars")
> head(mtcars)
mpg cyl disp hp drat wt qsec vs am gear carb
Mazda RX4 21.0 6 160 110 3.90 2.620 16.46 0 1 4 4
Mazda RX4 Wag 21.0 6 160 110 3.90 2.875 17.02 0 1 4 4
Datsun 710 22.8 4 108 93 3.85 2.320 18.61 1 1 4 1
Hornet 4 Drive 21.4 6 258 110 3.08 3.215 19.44 1 0 3 1
Hornet Sportabout 18.7 8 360 175 3.15 3.440 17.02 0 0 3 2
Valiant 18.1 6 225 105 2.76 3.460 20.22 1 0 3 1
> drat <- mtcars$drat
> disp <- mtcars$disp
> plot(drat,disp)
> cor(drat,disp)
[1] -0.7102139
- 피어슨 상관계수(Pearson correlation) : 등간척도 이상으로 측정되는 두 변수들 간의 상관관계 측정
> #피어슨 상관계수
> rcorr(as.matrix(mtcars), type='pearson')
mpg cyl disp hp drat wt qsec vs am gear carb
mpg 1.00 -0.85 -0.85 -0.78 0.68 -0.87 0.42 0.66 0.60 0.48 -0.55
cyl -0.85 1.00 0.90 0.83 -0.70 0.78 -0.59 -0.81 -0.52 -0.49 0.53
disp -0.85 0.90 1.00 0.79 -0.71 0.89 -0.43 -0.71 -0.59 -0.56 0.39
hp -0.78 0.83 0.79 1.00 -0.45 0.66 -0.71 -0.72 -0.24 -0.13 0.75
drat 0.68 -0.70 -0.71 -0.45 1.00 -0.71 0.09 0.44 0.71 0.70 -0.09
wt -0.87 0.78 0.89 0.66 -0.71 1.00 -0.17 -0.55 -0.69 -0.58 0.43
qsec 0.42 -0.59 -0.43 -0.71 0.09 -0.17 1.00 0.74 -0.23 -0.21 -0.66
vs 0.66 -0.81 -0.71 -0.72 0.44 -0.55 0.74 1.00 0.17 0.21 -0.57
am 0.60 -0.52 -0.59 -0.24 0.71 -0.69 -0.23 0.17 1.00 0.79 0.06
gear 0.48 -0.49 -0.56 -0.13 0.70 -0.58 -0.21 0.21 0.79 1.00 0.27
carb -0.55 0.53 0.39 0.75 -0.09 0.43 -0.66 -0.57 0.06 0.27 1.00
n= 32
각 상관계수의 유의확률을 포함. carb와 am의 p-값이 0.7545로 두 변수는 유의하지 않음
P
mpg cyl disp hp drat wt qsec vs am gear carb
mpg 0.0000 0.0000 0.0000 0.0000 0.0000 0.0171 0.0000 0.0003 0.0054 0.0011
cyl 0.0000 0.0000 0.0000 0.0000 0.0000 0.0004 0.0000 0.0022 0.0042 0.0019
disp 0.0000 0.0000 0.0000 0.0000 0.0000 0.0131 0.0000 0.0004 0.0010 0.0253
hp 0.0000 0.0000 0.0000 0.0100 0.0000 0.0000 0.0000 0.1798 0.4930 0.0000
drat 0.0000 0.0000 0.0000 0.0100 0.0000 0.6196 0.0117 0.0000 0.0000 0.6212
wt 0.0000 0.0000 0.0000 0.0000 0.0000 0.3389 0.0010 0.0000 0.0005 0.0146
qsec 0.0171 0.0004 0.0131 0.0000 0.6196 0.3389 0.0000 0.2057 0.2425 0.0000
vs 0.0000 0.0000 0.0000 0.0000 0.0117 0.0010 0.0000 0.3570 0.2579 0.0007
am 0.0003 0.0022 0.0004 0.1798 0.0000 0.0000 0.2057 0.3570 0.0000 0.7545
gear 0.0054 0.0042 0.0010 0.4930 0.0000 0.0005 0.2425 0.2579 0.0000 0.1290
carb 0.0011 0.0019 0.0253 0.0000 0.6212 0.0146 0.0000 0.0007 0.7545 0.1290
- 스피어만 상관계수(Spearman correlation) : 서열척도인 두 변수들의 상관관계를 측정
> #스피어만 상관계수
> rcorr(as.matrix(mtcars), type='spearman')
mpg cyl disp hp drat wt qsec vs am gear carb
mpg 1.00 -0.91 -0.91 -0.89 0.65 -0.89 0.47 0.71 0.56 0.54 -0.66
cyl -0.91 1.00 0.93 0.90 -0.68 0.86 -0.57 -0.81 -0.52 -0.56 0.58
disp -0.91 0.93 1.00 0.85 -0.68 0.90 -0.46 -0.72 -0.62 -0.59 0.54
hp -0.89 0.90 0.85 1.00 -0.52 0.77 -0.67 -0.75 -0.36 -0.33 0.73
drat 0.65 -0.68 -0.68 -0.52 1.00 -0.75 0.09 0.45 0.69 0.74 -0.13
wt -0.89 0.86 0.90 0.77 -0.75 1.00 -0.23 -0.59 -0.74 -0.68 0.50
qsec 0.47 -0.57 -0.46 -0.67 0.09 -0.23 1.00 0.79 -0.20 -0.15 -0.66
vs 0.71 -0.81 -0.72 -0.75 0.45 -0.59 0.79 1.00 0.17 0.28 -0.63
am 0.56 -0.52 -0.62 -0.36 0.69 -0.74 -0.20 0.17 1.00 0.81 -0.06
gear 0.54 -0.56 -0.59 -0.33 0.74 -0.68 -0.15 0.28 0.81 1.00 0.11
carb -0.66 0.58 0.54 0.73 -0.13 0.50 -0.66 -0.63 -0.06 0.11 1.00
n= 32
P
mpg cyl disp hp drat wt qsec vs am gear carb
mpg 0.0000 0.0000 0.0000 0.0000 0.0000 0.0071 0.0000 0.0008 0.0013 0.0000
cyl 0.0000 0.0000 0.0000 0.0000 0.0000 0.0006 0.0000 0.0022 0.0008 0.0005
disp 0.0000 0.0000 0.0000 0.0000 0.0000 0.0081 0.0000 0.0001 0.0003 0.0014
hp 0.0000 0.0000 0.0000 0.0023 0.0000 0.0000 0.0000 0.0416 0.0639 0.0000
drat 0.0000 0.0000 0.0000 0.0023 0.0000 0.6170 0.0102 0.0000 0.0000 0.4947
wt 0.0000 0.0000 0.0000 0.0000 0.0000 0.2148 0.0004 0.0000 0.0000 0.0036
qsec 0.0071 0.0006 0.0081 0.0000 0.6170 0.2148 0.0000 0.2644 0.4182 0.0000
vs 0.0000 0.0000 0.0000 0.0000 0.0102 0.0004 0.0000 0.3570 0.1170 0.0000
am 0.0008 0.0022 0.0001 0.0416 0.0000 0.0000 0.2644 0.3570 0.0000 0.7264
gear 0.0013 0.0008 0.0003 0.0639 0.0000 0.0000 0.4182 0.1170 0.0000 0.5312
carb 0.0000 0.0005 0.0014 0.0000 0.4947 0.0036 0.0000 0.0000 0.7264 0.5312
'R' 카테고리의 다른 글
주성분 분석 (0) | 2019.02.21 |
---|---|
다차원척도법 (0) | 2019.02.21 |
step 함수를 이용한 전진선택법 적용 example (0) | 2019.02.17 |
다중선형분석 example 2 (0) | 2019.02.17 |
다중선형회귀 example (0) | 2019.02.17 |
> library(MASS)
> data(hills)
> head(hills)
dist climb time
Greenmantle 2.5 650 16.083
Carnethy 6.0 2500 48.350
Craig Dunain 6.0 900 33.650
Ben Rha 7.5 800 45.600
Ben Lomond 8.0 3070 62.267
Goatfell 8.0 2866 73.217
> step(lm(time~1, hills), scope=list(lower=~1, upper=~dist+climb), direction="forward")
Start: AIC=274.88
time ~ 1
Df Sum of Sq RSS AIC
+ dist 1 71997 13142 211.49
+ climb 1 55205 29934 240.30
<none> 85138 274.88
Step: AIC=211.49
time ~ dist
Df Sum of Sq RSS AIC
+ climb 1 6249.7 6891.9 190.90
<none> 13141.6 211.49
Step: AIC=190.9
time ~ dist + climb
Call:
lm(formula = time ~ dist + climb, data = hills)
Coefficients:
(Intercept) dist climb
-8.99204 6.21796 0.01105
'R' 카테고리의 다른 글
다차원척도법 (0) | 2019.02.21 |
---|---|
다변량분석 - 상관분석 (0) | 2019.02.18 |
다중선형분석 example 2 (0) | 2019.02.17 |
다중선형회귀 example (0) | 2019.02.17 |
단순회귀분석 (0) | 2019.02.12 |
> x <- c(1,2,3,4,5,6,7,8,9)
> y <- c(5,3,2,3,4,6,10,12,18)
> df1 <- data.frame(x,y)
> plot(df1)
> x2 <- x^2
> m <- lm(y~x, data=df1)
> m
Call:
lm(formula = y ~ x, data = df1)
Coefficients:
(Intercept) x
-1.167 1.633
> summary(m)
Call:
lm(formula = y ~ x, data = df1)
Residuals:
Min 1Q Median 3Q Max
-3.0000 -2.3667 -0.2667 0.9000 4.5333
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.1667 2.2296 -0.523 0.61694
x 1.6333 0.3962 4.122 0.00445 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 3.069 on 7 degrees of freedom
Multiple R-squared: 0.7083, Adjusted R-squared: 0.6666
F-statistic: 16.99 on 1 and 7 DF, p-value: 0.004446
>
> df2 <- cbind(x2,df1)
> lm(y~x+x2,data=df2)
Call:
lm(formula = y ~ x + x2, data = df2)
Coefficients:
(Intercept) x x2
7.1667 -2.9121 0.4545
> summary(lm(y~x+x2,data=df2))
Call:
lm(formula = y ~ x + x2, data = df2)
Residuals:
Min 1Q Median 3Q Max
-0.9606 -0.1606 0.0303 0.2242 0.9455
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 7.16667 0.78728 9.103 9.87e-05 ***
x -2.91212 0.36149 -8.056 0.000196 ***
x2 0.45455 0.03526 12.893 1.34e-05 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.6187 on 6 degrees of freedom
Multiple R-squared: 0.9898, Adjusted R-squared: 0.9864
F-statistic: 292.2 on 2 and 6 DF, p-value: 1.05e-06
'R' 카테고리의 다른 글
다변량분석 - 상관분석 (0) | 2019.02.18 |
---|---|
step 함수를 이용한 전진선택법 적용 example (0) | 2019.02.17 |
다중선형회귀 example (0) | 2019.02.17 |
단순회귀분석 (0) | 2019.02.12 |
이상값 검색 (0) | 2019.02.10 |
> set.seed(2)
> u <- runif(10,0,11)
> v <- runif(10,11,20)
> w <- runif(10,1,30)
> y = 3+0.1*u+2*v -3*w + rnorm(10,0,0.1)
> dfrm = data.frame(y,u,v,w)
> dfrm
y u v w
1 -25.6647952 2.033705 15.97407 20.195064
2 -6.5562326 7.726114 13.15005 12.238937
3 -36.4858791 6.306590 17.84462 25.269786
4 12.4472764 1.848571 12.62738 5.364542
5 0.1638434 10.382233 14.64754 11.070895
6 -3.9124946 10.378225 18.68194 15.174424
7 26.6127780 1.420749 19.78759 5.328159
8 -3.9238295 9.167937 13.03243 11.354815
9 -53.0331805 5.148204 15.00328 28.916677
10 12.4387413 6.049821 11.67481 4.838788
> m <- lm(y~u+v+w)
> m
Call:
lm(formula = y ~ u + v + w)
Coefficients:
(Intercept) u v w
3.0417 0.1232 1.9890 -2.9978
> summary(m)
Call:
lm(formula = y ~ u + v + w)
Residuals:
Min 1Q Median 3Q Max
-0.188562 -0.058632 -0.002013 0.080024 0.143757
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 3.041653 0.264808 11.486 2.62e-05 ***
u 0.123173 0.012841 9.592 7.34e-05 ***
v 1.989017 0.016586 119.923 2.27e-11 ***
w -2.997816 0.005421 -552.981 2.36e-15 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.1303 on 6 degrees of freedom
Multiple R-squared: 1, Adjusted R-squared: 1
F-statistic: 1.038e+05 on 3 and 6 DF, p-value: 1.564e-14
y = 3.0417 + 0.1232u + 1.9890 - 2.9978w
'R' 카테고리의 다른 글
step 함수를 이용한 전진선택법 적용 example (0) | 2019.02.17 |
---|---|
다중선형분석 example 2 (0) | 2019.02.17 |
단순회귀분석 (0) | 2019.02.12 |
이상값 검색 (0) | 2019.02.10 |
결측값처리 (0) | 2019.02.10 |
단순선형회귀모형이 종속변수의 변동을 설명하는데 충분하지 않다면,
두 개 이상의 독립변수를 사용하여 종속변수의 변화를 설명하는
다중회귀분석(중회귀분석)을 실시할 수 있다.
모형의 검증
모형이 통계적으로 유의한가? -> F통계량확인. 유의수준 5%이하에서 p value가 0.05보다 작으면 유의
회귀계수들이 유의미한가? -> 해당 계수의 t통계량과 p value 또는 이들의 신뢰구간을 확인
모형의 설명력은? -> 결정계수, R square 값이 1에 가까울 수록 높은 설명력
모형이 데이터를 잘 적합하고 있는가? -> 잔차를 그래프로 그리고 회귀진단
데이터가 다음의 가정을 만족하는가?
- 선형성 : 독립변수의 변화에 따라 종속변수도 일정크기로 변화
- 독립성 : 잔차와 독립변수의 값이 관련돼 있지 않음
- 등분산성 : 독립변수의 모든 값에 대해 오차들의 분산이 일정
- 비상관성 : 관측치들의 잔차들끼리 상관이 없어야 함
- 정상성 : 잔차항이 정규분포를 이루어야 함
# 단순선형회귀분석 example
set.seed(2)
x <- runif(10,0,11)
y=2+3*x+rnorm(10,0,0.2)
dfrm=data.frame(x,y)
dfrm
lm(y~x, data=dfrm)
Call:
lm(formula = y ~ x, data = dfrm)
Coefficients:
(Intercept) x
2.213 2.979
# y=2.213 + 2.979x
'R' 카테고리의 다른 글
다중선형분석 example 2 (0) | 2019.02.17 |
---|---|
다중선형회귀 example (0) | 2019.02.17 |
이상값 검색 (0) | 2019.02.10 |
결측값처리 (0) | 2019.02.10 |
[package]data.table - data.frame과의 차이점 (0) | 2019.02.10 |
평균으로부터 k*표준편차만큼 떨어져 있는 값들을 이상값으로 판단하고 일반적으로 k=3으로 한다.
> #보통 summary를 통해 Q1, Q3을 보고 1차 판단
> x=rnorm(100) #표준정규분포를 따르는 난수 100개 생성
> boxplot(x)
> library(outliers)
Warning message:
패키지 ‘outliers’는 R 버전 3.5.2에서 작성되었습니다
> set.seed(1234)
> y=rnorm(100)
> library(outliers)
> set.seed(1234)
> y=rnorm(100)
> outlier(y)
[1] 2.548991
> outlier(y,opposite = T)
[1] -2.345698
> dim(y) = c(20,5)
> outlier(y)
[1] 2.415835 1.102298 1.647817 2.548991 2.121117
> outlier(y,opposite = T)
[1] -2.345698 -2.180040 -1.806031 -1.390701 -1.372302
> boxplot(y)
'R' 카테고리의 다른 글
다중선형회귀 example (0) | 2019.02.17 |
---|---|
단순회귀분석 (0) | 2019.02.12 |
결측값처리 (0) | 2019.02.10 |
[package]data.table - data.frame과의 차이점 (0) | 2019.02.10 |
[package]data.table - 기본 사용법 (0) | 2019.02.10 |
> #결측값처리
> y <- c(1,2,3,NA)
> mean(y)
[1] NA
> mean(y,na.rm=T)
[1] 2
na.rm을 많이 사용
> install.packages("Amelia")
> library(Amelia)
> data("freetrade")
> # 일반적인 처리방법은 삭제, 하지만 문제가 생길 수 있으니
> # 변수들간의 관계를 이용해 imputation을 하는 효율적인 방법을 이용
> a.out <- amelia(freetrade, m=5, ts='year', cs='country')
-- Imputation 1 --
1 2 3 4 5
-- Imputation 2 --
1 2 3 4 5 6 7 8 9
-- Imputation 3 --
1 2 3 4 5 6 7 8
-- Imputation 4 --
1 2 3 4 5 6 7
-- Imputation 5 --
1 2 3 4 5 6 7 8 9 10
> missmap(a.out) #결측값 처리 전의 그래프
> freetrade$tariff <- a.out$imputations[[5]]$tariff
> missmap(freetrade) #결측값을 처리 후 그래프
'R' 카테고리의 다른 글
다중선형회귀 example (0) | 2019.02.17 |
---|---|
단순회귀분석 (0) | 2019.02.12 |
이상값 검색 (0) | 2019.02.10 |
[package]data.table - data.frame과의 차이점 (0) | 2019.02.10 |
[package]data.table - 기본 사용법 (0) | 2019.02.10 |