'R'에 해당되는 글 12건

  1. 2019.02.24 :: 시계열분석 example
  2. 2019.02.21 :: 주성분 분석
  3. 2019.02.21 :: 다차원척도법
  4. 2019.02.18 :: 다변량분석 - 상관분석
  5. 2019.02.17 :: step 함수를 이용한 전진선택법 적용 example
  6. 2019.02.17 :: 다중선형분석 example 2
  7. 2019.02.17 :: 다중선형회귀 example
  8. 2019.02.12 :: 단순회귀분석
  9. 2019.02.10 :: 이상값 검색
  10. 2019.02.10 :: 결측값처리
R 2019. 2. 24. 11:37

> Nile # 1871 ~ 1970년도까지 아스완댐에서 측정한 나일강의 연간 유입량에 관한 시계열 데이터

Time Series:

Start = 1871 

End = 1970 

Frequency = 1 

  [1] 1120 1160  963 1210 1160 1160  813 1230 1370 1140  995  935 1110  994 1020  960 1180  799  958 1140 1100 1210 1150

 [24] 1250 1260 1220 1030 1100  774  840  874  694  940  833  701  916  692 1020 1050  969  831  726  456  824  702 1120

 [47] 1100  832  764  821  768  845  864  862  698  845  744  796 1040  759  781  865  845  944  984  897  822 1010  771

 [70]  676  649  846  812  742  801 1040  860  874  848  890  744  749  838 1050  918  986  797  923  975  815 1020  906

 [93]  901 1170  912  746  919  718  714  740

> ldeaths # 1974 ~ 1979년도까지 영국 내의 월별 페질환 사망자에 관한 시계열 데이터, mdeath 남성사망, fdeath 여성사망

      Jan  Feb  Mar  Apr  May  Jun  Jul  Aug  Sep  Oct  Nov  Dec

1974 3035 2552 2704 2554 2014 1655 1721 1524 1596 2074 2199 2512

1975 2933 2889 2938 2497 1870 1726 1607 1545 1396 1787 2076 2837

1976 2787 3891 3179 2011 1636 1580 1489 1300 1356 1653 2013 2823

1977 3102 2294 2385 2444 1748 1554 1498 1361 1346 1564 1640 2293

1978 2815 3137 2679 1969 1870 1633 1529 1366 1357 1570 1535 2491

1979 3084 2605 2573 2143 1693 1504 1461 1354 1333 1492 1781 1915

> plot(Nile)

> plot(ldeaths)

> #분해시계열

> ldeaths.decompose <- decompose(ldeaths)

> ldeaths.decompose$seasonal

           Jan       Feb       Mar       Apr       May       Jun       Jul       Aug       Sep       Oct       Nov

1974  873.7514  896.3347  687.5431  156.5847 -284.4819 -440.0236 -519.4236 -669.8736 -678.2236 -354.3069 -185.2069

1975  873.7514  896.3347  687.5431  156.5847 -284.4819 -440.0236 -519.4236 -669.8736 -678.2236 -354.3069 -185.2069

1976  873.7514  896.3347  687.5431  156.5847 -284.4819 -440.0236 -519.4236 -669.8736 -678.2236 -354.3069 -185.2069

1977  873.7514  896.3347  687.5431  156.5847 -284.4819 -440.0236 -519.4236 -669.8736 -678.2236 -354.3069 -185.2069

1978  873.7514  896.3347  687.5431  156.5847 -284.4819 -440.0236 -519.4236 -669.8736 -678.2236 -354.3069 -185.2069

1979  873.7514  896.3347  687.5431  156.5847 -284.4819 -440.0236 -519.4236 -669.8736 -678.2236 -354.3069 -185.2069

           Dec

1974  517.3264

1975  517.3264

1976  517.3264

1977  517.3264

1978  517.3264

1979  517.3264

> plot(ldeaths.decompose)

> #원 시계열 자료에서 계절요인을 제거한 후 plot

> ldeaths.decompose.adj <- ldeaths - ldeaths.decompose$seasonal

> plot(ldeaths.decompose.adj)

> # ARIMA 모형

> # 1번차분

> Nile.diff1 <- diff(Nile, differences = 1)

> # 2번 차분

> Nile.diff2 <- diff(Nile, differences = 2)

> plot(Nile.diff2)


'R' 카테고리의 다른 글

주성분 분석  (0) 2019.02.21
다차원척도법  (0) 2019.02.21
다변량분석 - 상관분석  (0) 2019.02.18
step 함수를 이용한 전진선택법 적용 example  (0) 2019.02.17
다중선형분석 example 2  (0) 2019.02.17
posted by 초코렛과자
:
R 2019. 2. 21. 22:08

주성분 분석(Principal Component Analysis, PCA)은 상관관계가 있는 고차원 자료를 자료의 변동을 최대한 보존하는 저차원 자료로 변환시키는 방법으로, 자료의 차원을 축약시키는데 주로 사용


# 주성분 분석

library(datasets)

data("USArrests")

# 주성분분석 함수 princomp

# cor=T의 의미 : 주성분분석을 공분산행렬이 아닌 상관계수 행렬을 사용하여 수행하도록 한다

fit <- princomp(USArrests, cor=T)


# 첫번째 변수가 전체의 약 62%를 설명, 3번째까지 하면 약 96%를 설명한다고 해석

summary(fit)


# Y1 = 0.536Muder + 0.583Assault + 0.278UrbanPop + 0.543Rape

# Y2 = 0.418Muder + 0.188Assault -0.873UrbanPop - 0.167Rape

loadings(fit)


plot(fit, type='l')

fit$scores

biplot(fit)


'R' 카테고리의 다른 글

시계열분석 example  (0) 2019.02.24
다차원척도법  (0) 2019.02.21
다변량분석 - 상관분석  (0) 2019.02.18
step 함수를 이용한 전진선택법 적용 example  (0) 2019.02.17
다중선형분석 example 2  (0) 2019.02.17
posted by 초코렛과자
:
R 2019. 2. 21. 21:49

다차원 척도법(Multidimenstional Scaling, MDS)

- 여러 대상 간의 거리가 주어져 있을 때, 대상들을 동일한 상대적 거리를 가진 실수공간의 점들로 배치시키는 방법

- 주로 자료들의 상대적 관계를 이해하는 시각화 방법의 근간으로 주로 사용


> data("eurodist")

> loc<-cmdscale(eurodist)

> loc

                        [,1]        [,2]

Athens           2290.274680  1798.80293

Barcelona        -825.382790   546.81148

Brussels           59.183341  -367.08135

Calais            -82.845973  -429.91466

Cherbourg        -352.499435  -290.90843

Cologne           293.689633  -405.31194

Copenhagen        681.931545 -1108.64478

Geneva             -9.423364   240.40600

Gibraltar       -2048.449113   642.45854

Hamburg           561.108970  -773.36929

Hook of Holland   164.921799  -549.36704

Lisbon          -1935.040811    49.12514

Lyons            -226.423236   187.08779

Madrid          -1423.353697   305.87513

Marseilles       -299.498710   388.80726

Milan             260.878046   416.67381

Munich            587.675679    81.18224

Paris            -156.836257  -211.13911

Rome              709.413282  1109.36665

Stockholm         839.445911 -1836.79055

Vienna            911.230500   205.93020

> x <- loc[,1]

> y<-loc[,2]

> plot(x,y,type='n', main='eurodist')

> text(x,y,rownames(loc), cex=0.8)

> abline(v=0,h=0)


'R' 카테고리의 다른 글

시계열분석 example  (0) 2019.02.24
주성분 분석  (0) 2019.02.21
다변량분석 - 상관분석  (0) 2019.02.18
step 함수를 이용한 전진선택법 적용 example  (0) 2019.02.17
다중선형분석 example 2  (0) 2019.02.17
posted by 초코렛과자
:
R 2019. 2. 18. 21:41

상관분석(Correlation Analysis)

- 데이터 안의 두 변수 간의 관계를 알아보기 위해서 수행


상관계수(Correlation coefficient)


> install.packages("Hmisc")

> library(Hmisc)

> data("mtcars")

> head(mtcars)

                   mpg cyl disp  hp drat    wt  qsec vs am gear carb

Mazda RX4         21.0   6  160 110 3.90 2.620 16.46  0  1    4    4

Mazda RX4 Wag     21.0   6  160 110 3.90 2.875 17.02  0  1    4    4

Datsun 710        22.8   4  108  93 3.85 2.320 18.61  1  1    4    1

Hornet 4 Drive    21.4   6  258 110 3.08 3.215 19.44  1  0    3    1

Hornet Sportabout 18.7   8  360 175 3.15 3.440 17.02  0  0    3    2

Valiant           18.1   6  225 105 2.76 3.460 20.22  1  0    3    1

> drat <- mtcars$drat

> disp <- mtcars$disp

> plot(drat,disp)

> cor(drat,disp)

[1] -0.7102139


- 피어슨 상관계수(Pearson correlation) : 등간척도 이상으로 측정되는 두 변수들 간의 상관관계 측정


> #피어슨 상관계수

> rcorr(as.matrix(mtcars), type='pearson')

       mpg   cyl  disp    hp  drat    wt  qsec    vs    am  gear  carb

mpg   1.00 -0.85 -0.85 -0.78  0.68 -0.87  0.42  0.66  0.60  0.48 -0.55

cyl  -0.85  1.00  0.90  0.83 -0.70  0.78 -0.59 -0.81 -0.52 -0.49  0.53

disp -0.85  0.90  1.00  0.79 -0.71  0.89 -0.43 -0.71 -0.59 -0.56  0.39

hp   -0.78  0.83  0.79  1.00 -0.45  0.66 -0.71 -0.72 -0.24 -0.13  0.75

drat  0.68 -0.70 -0.71 -0.45  1.00 -0.71  0.09  0.44  0.71  0.70 -0.09

wt   -0.87  0.78  0.89  0.66 -0.71  1.00 -0.17 -0.55 -0.69 -0.58  0.43

qsec  0.42 -0.59 -0.43 -0.71  0.09 -0.17  1.00  0.74 -0.23 -0.21 -0.66

vs    0.66 -0.81 -0.71 -0.72  0.44 -0.55  0.74  1.00  0.17  0.21 -0.57

am    0.60 -0.52 -0.59 -0.24  0.71 -0.69 -0.23  0.17  1.00  0.79  0.06

gear  0.48 -0.49 -0.56 -0.13  0.70 -0.58 -0.21  0.21  0.79  1.00  0.27

carb -0.55  0.53  0.39  0.75 -0.09  0.43 -0.66 -0.57  0.06  0.27  1.00


n= 32 


각 상관계수의 유의확률을 포함. carb와 am의 p-값이 0.7545로 두 변수는 유의하지 않음

P

     mpg    cyl    disp   hp     drat   wt     qsec   vs     am     gear   carb  

mpg         0.0000 0.0000 0.0000 0.0000 0.0000 0.0171 0.0000 0.0003 0.0054 0.0011

cyl  0.0000        0.0000 0.0000 0.0000 0.0000 0.0004 0.0000 0.0022 0.0042 0.0019

disp 0.0000 0.0000        0.0000 0.0000 0.0000 0.0131 0.0000 0.0004 0.0010 0.0253

hp   0.0000 0.0000 0.0000        0.0100 0.0000 0.0000 0.0000 0.1798 0.4930 0.0000

drat 0.0000 0.0000 0.0000 0.0100        0.0000 0.6196 0.0117 0.0000 0.0000 0.6212

wt   0.0000 0.0000 0.0000 0.0000 0.0000        0.3389 0.0010 0.0000 0.0005 0.0146

qsec 0.0171 0.0004 0.0131 0.0000 0.6196 0.3389        0.0000 0.2057 0.2425 0.0000

vs   0.0000 0.0000 0.0000 0.0000 0.0117 0.0010 0.0000        0.3570 0.2579 0.0007

am   0.0003 0.0022 0.0004 0.1798 0.0000 0.0000 0.2057 0.3570        0.0000 0.7545

gear 0.0054 0.0042 0.0010 0.4930 0.0000 0.0005 0.2425 0.2579 0.0000        0.1290

carb 0.0011 0.0019 0.0253 0.0000 0.6212 0.0146 0.0000 0.0007 0.7545 0.1290   


- 스피어만 상관계수(Spearman correlation) : 서열척도인 두 변수들의 상관관계를 측정


> #스피어만 상관계수

> rcorr(as.matrix(mtcars), type='spearman')

       mpg   cyl  disp    hp  drat    wt  qsec    vs    am  gear  carb

mpg   1.00 -0.91 -0.91 -0.89  0.65 -0.89  0.47  0.71  0.56  0.54 -0.66

cyl  -0.91  1.00  0.93  0.90 -0.68  0.86 -0.57 -0.81 -0.52 -0.56  0.58

disp -0.91  0.93  1.00  0.85 -0.68  0.90 -0.46 -0.72 -0.62 -0.59  0.54

hp   -0.89  0.90  0.85  1.00 -0.52  0.77 -0.67 -0.75 -0.36 -0.33  0.73

drat  0.65 -0.68 -0.68 -0.52  1.00 -0.75  0.09  0.45  0.69  0.74 -0.13

wt   -0.89  0.86  0.90  0.77 -0.75  1.00 -0.23 -0.59 -0.74 -0.68  0.50

qsec  0.47 -0.57 -0.46 -0.67  0.09 -0.23  1.00  0.79 -0.20 -0.15 -0.66

vs    0.71 -0.81 -0.72 -0.75  0.45 -0.59  0.79  1.00  0.17  0.28 -0.63

am    0.56 -0.52 -0.62 -0.36  0.69 -0.74 -0.20  0.17  1.00  0.81 -0.06

gear  0.54 -0.56 -0.59 -0.33  0.74 -0.68 -0.15  0.28  0.81  1.00  0.11

carb -0.66  0.58  0.54  0.73 -0.13  0.50 -0.66 -0.63 -0.06  0.11  1.00


n= 32 



P

     mpg    cyl    disp   hp     drat   wt     qsec   vs     am     gear   carb  

mpg         0.0000 0.0000 0.0000 0.0000 0.0000 0.0071 0.0000 0.0008 0.0013 0.0000

cyl  0.0000        0.0000 0.0000 0.0000 0.0000 0.0006 0.0000 0.0022 0.0008 0.0005

disp 0.0000 0.0000        0.0000 0.0000 0.0000 0.0081 0.0000 0.0001 0.0003 0.0014

hp   0.0000 0.0000 0.0000        0.0023 0.0000 0.0000 0.0000 0.0416 0.0639 0.0000

drat 0.0000 0.0000 0.0000 0.0023        0.0000 0.6170 0.0102 0.0000 0.0000 0.4947

wt   0.0000 0.0000 0.0000 0.0000 0.0000        0.2148 0.0004 0.0000 0.0000 0.0036

qsec 0.0071 0.0006 0.0081 0.0000 0.6170 0.2148        0.0000 0.2644 0.4182 0.0000

vs   0.0000 0.0000 0.0000 0.0000 0.0102 0.0004 0.0000        0.3570 0.1170 0.0000

am   0.0008 0.0022 0.0001 0.0416 0.0000 0.0000 0.2644 0.3570        0.0000 0.7264

gear 0.0013 0.0008 0.0003 0.0639 0.0000 0.0000 0.4182 0.1170 0.0000        0.5312

carb 0.0000 0.0005 0.0014 0.0000 0.4947 0.0036 0.0000 0.0000 0.7264 0.5312


'R' 카테고리의 다른 글

주성분 분석  (0) 2019.02.21
다차원척도법  (0) 2019.02.21
step 함수를 이용한 전진선택법 적용 example  (0) 2019.02.17
다중선형분석 example 2  (0) 2019.02.17
다중선형회귀 example  (0) 2019.02.17
posted by 초코렛과자
:
R 2019. 2. 17. 22:05

> library(MASS)

> data(hills)

> head(hills)

             dist climb   time

Greenmantle   2.5   650 16.083

Carnethy      6.0  2500 48.350

Craig Dunain  6.0   900 33.650

Ben Rha       7.5   800 45.600

Ben Lomond    8.0  3070 62.267

Goatfell      8.0  2866 73.217

> step(lm(time~1, hills), scope=list(lower=~1, upper=~dist+climb), direction="forward")

Start:  AIC=274.88

time ~ 1


        Df Sum of Sq   RSS    AIC

+ dist   1     71997 13142 211.49

+ climb  1     55205 29934 240.30

<none>               85138 274.88


Step:  AIC=211.49

time ~ dist


        Df Sum of Sq     RSS    AIC

+ climb  1    6249.7  6891.9 190.90

<none>               13141.6 211.49


Step:  AIC=190.9

time ~ dist + climb



Call:

lm(formula = time ~ dist + climb, data = hills)


Coefficients:

(Intercept)         dist        climb  

   -8.99204      6.21796      0.01105



'R' 카테고리의 다른 글

다차원척도법  (0) 2019.02.21
다변량분석 - 상관분석  (0) 2019.02.18
다중선형분석 example 2  (0) 2019.02.17
다중선형회귀 example  (0) 2019.02.17
단순회귀분석  (0) 2019.02.12
posted by 초코렛과자
:
R 2019. 2. 17. 19:24

> x <- c(1,2,3,4,5,6,7,8,9)

> y <- c(5,3,2,3,4,6,10,12,18)

> df1 <- data.frame(x,y)

> plot(df1)

> x2 <- x^2

> m <- lm(y~x, data=df1)

> m


Call:

lm(formula = y ~ x, data = df1)


Coefficients:

(Intercept)            x  

     -1.167        1.633  


> summary(m)


Call:

lm(formula = y ~ x, data = df1)


Residuals:

    Min      1Q  Median      3Q     Max 

-3.0000 -2.3667 -0.2667  0.9000  4.5333 


Coefficients:

            Estimate Std. Error t value Pr(>|t|)   

(Intercept)  -1.1667     2.2296  -0.523  0.61694   

x             1.6333     0.3962   4.122  0.00445 **

---

Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1


Residual standard error: 3.069 on 7 degrees of freedom

Multiple R-squared:  0.7083, Adjusted R-squared:  0.6666 

F-statistic: 16.99 on 1 and 7 DF,  p-value: 0.004446


> df2 <- cbind(x2,df1)

> lm(y~x+x2,data=df2)


Call:

lm(formula = y ~ x + x2, data = df2)


Coefficients:

(Intercept)            x           x2  

     7.1667      -2.9121       0.4545  


> summary(lm(y~x+x2,data=df2))


Call:

lm(formula = y ~ x + x2, data = df2)


Residuals:

    Min      1Q  Median      3Q     Max 

-0.9606 -0.1606  0.0303  0.2242  0.9455 


Coefficients:

            Estimate Std. Error t value Pr(>|t|)    

(Intercept)  7.16667    0.78728   9.103 9.87e-05 ***

x           -2.91212    0.36149  -8.056 0.000196 ***

x2           0.45455    0.03526  12.893 1.34e-05 ***

---

Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1


Residual standard error: 0.6187 on 6 degrees of freedom

Multiple R-squared:  0.9898, Adjusted R-squared:  0.9864 

F-statistic: 292.2 on 2 and 6 DF,  p-value: 1.05e-06



'R' 카테고리의 다른 글

다변량분석 - 상관분석  (0) 2019.02.18
step 함수를 이용한 전진선택법 적용 example  (0) 2019.02.17
다중선형회귀 example  (0) 2019.02.17
단순회귀분석  (0) 2019.02.12
이상값 검색  (0) 2019.02.10
posted by 초코렛과자
:
R 2019. 2. 17. 19:07

> set.seed(2)

> u <- runif(10,0,11)

> v <- runif(10,11,20)

> w <- runif(10,1,30)

> y = 3+0.1*u+2*v -3*w + rnorm(10,0,0.1)

> dfrm = data.frame(y,u,v,w)

> dfrm

             y         u        v         w

1  -25.6647952  2.033705 15.97407 20.195064

2   -6.5562326  7.726114 13.15005 12.238937

3  -36.4858791  6.306590 17.84462 25.269786

4   12.4472764  1.848571 12.62738  5.364542

5    0.1638434 10.382233 14.64754 11.070895

6   -3.9124946 10.378225 18.68194 15.174424

7   26.6127780  1.420749 19.78759  5.328159

8   -3.9238295  9.167937 13.03243 11.354815

9  -53.0331805  5.148204 15.00328 28.916677

10  12.4387413  6.049821 11.67481  4.838788

> m <- lm(y~u+v+w)

> m


Call:

lm(formula = y ~ u + v + w)


Coefficients:

(Intercept)            u            v            w  

     3.0417       0.1232       1.9890      -2.9978  


> summary(m)


Call:

lm(formula = y ~ u + v + w)


Residuals:

      Min        1Q    Median        3Q       Max 

-0.188562 -0.058632 -0.002013  0.080024  0.143757 


Coefficients:

             Estimate Std. Error  t value Pr(>|t|)    

(Intercept)  3.041653   0.264808   11.486 2.62e-05 ***

u            0.123173   0.012841    9.592 7.34e-05 ***

v            1.989017   0.016586  119.923 2.27e-11 ***

w           -2.997816   0.005421 -552.981 2.36e-15 ***

---

Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1


Residual standard error: 0.1303 on 6 degrees of freedom

Multiple R-squared:      1, Adjusted R-squared:      1 

F-statistic: 1.038e+05 on 3 and 6 DF,  p-value: 1.564e-14


y = 3.0417 + 0.1232u + 1.9890 - 2.9978w


'R' 카테고리의 다른 글

step 함수를 이용한 전진선택법 적용 example  (0) 2019.02.17
다중선형분석 example 2  (0) 2019.02.17
단순회귀분석  (0) 2019.02.12
이상값 검색  (0) 2019.02.10
결측값처리  (0) 2019.02.10
posted by 초코렛과자
:
R 2019. 2. 12. 21:55

단순선형회귀모형이 종속변수의 변동을 설명하는데 충분하지 않다면,

두 개 이상의 독립변수를 사용하여 종속변수의 변화를 설명하는

다중회귀분석(중회귀분석)을 실시할 수 있다.

모형의 검증

모형이 통계적으로 유의한가? -> F통계량확인. 유의수준 5%이하에서 p value가 0.05보다 작으면 유의

회귀계수들이 유의미한가? -> 해당 계수의 t통계량과 p value 또는 이들의 신뢰구간을 확인

모형의 설명력은? -> 결정계수, R square 값이 1에 가까울 수록 높은 설명력

모형이 데이터를 잘 적합하고 있는가? -> 잔차를 그래프로 그리고 회귀진단


데이터가 다음의 가정을 만족하는가?

- 선형성 : 독립변수의 변화에 따라 종속변수도 일정크기로 변화

- 독립성 : 잔차와 독립변수의 값이 관련돼 있지 않음

- 등분산성 : 독립변수의 모든 값에 대해 오차들의 분산이 일정

- 비상관성 : 관측치들의 잔차들끼리 상관이 없어야 함

- 정상성 : 잔차항이 정규분포를 이루어야 함


# 단순선형회귀분석 example

set.seed(2)

x <- runif(10,0,11)

y=2+3*x+rnorm(10,0,0.2)

dfrm=data.frame(x,y)

dfrm

lm(y~x, data=dfrm)

Call:

lm(formula = y ~ x, data = dfrm)


Coefficients:

(Intercept)            x  

      2.213        2.979  

# y=2.213 + 2.979x


'R' 카테고리의 다른 글

다중선형분석 example 2  (0) 2019.02.17
다중선형회귀 example  (0) 2019.02.17
이상값 검색  (0) 2019.02.10
결측값처리  (0) 2019.02.10
[package]data.table - data.frame과의 차이점  (0) 2019.02.10
posted by 초코렛과자
:
R 2019. 2. 10. 13:37

평균으로부터 k*표준편차만큼 떨어져 있는 값들을 이상값으로 판단하고 일반적으로 k=3으로 한다.


> #보통 summary를 통해 Q1, Q3을 보고 1차 판단

> x=rnorm(100) #표준정규분포를 따르는 난수 100개 생성

> boxplot(x)


> library(outliers)

Warning message:

패키지 ‘outliers’는 R 버전 3.5.2에서 작성되었습니다 

> set.seed(1234)

> y=rnorm(100)

> library(outliers)

> set.seed(1234)

> y=rnorm(100)

> outlier(y)

[1] 2.548991

> outlier(y,opposite = T)

[1] -2.345698

> dim(y) = c(20,5)

> outlier(y)

[1] 2.415835 1.102298 1.647817 2.548991 2.121117

> outlier(y,opposite = T)

[1] -2.345698 -2.180040 -1.806031 -1.390701 -1.372302

> boxplot(y)


'R' 카테고리의 다른 글

다중선형회귀 example  (0) 2019.02.17
단순회귀분석  (0) 2019.02.12
결측값처리  (0) 2019.02.10
[package]data.table - data.frame과의 차이점  (0) 2019.02.10
[package]data.table - 기본 사용법  (0) 2019.02.10
posted by 초코렛과자
:
R 2019. 2. 10. 13:14

> #결측값처리

> y <- c(1,2,3,NA)

> mean(y)

[1] NA

> mean(y,na.rm=T)

[1] 2

na.rm을 많이 사용


> install.packages("Amelia")

> library(Amelia)

> data("freetrade")

> # 일반적인 처리방법은 삭제, 하지만 문제가 생길 수 있으니

> # 변수들간의 관계를 이용해 imputation을 하는 효율적인 방법을 이용

> a.out <- amelia(freetrade, m=5, ts='year', cs='country')

-- Imputation 1 --


  1  2  3  4  5


-- Imputation 2 --


  1  2  3  4  5  6  7  8  9


-- Imputation 3 --


  1  2  3  4  5  6  7  8


-- Imputation 4 --


  1  2  3  4  5  6  7


-- Imputation 5 --


  1  2  3  4  5  6  7  8  9 10


> missmap(a.out) #결측값 처리 전의 그래프

> freetrade$tariff <- a.out$imputations[[5]]$tariff

> missmap(freetrade) #결측값을 처리 후 그래프


'R' 카테고리의 다른 글

다중선형회귀 example  (0) 2019.02.17
단순회귀분석  (0) 2019.02.12
이상값 검색  (0) 2019.02.10
[package]data.table - data.frame과의 차이점  (0) 2019.02.10
[package]data.table - 기본 사용법  (0) 2019.02.10
posted by 초코렛과자
: