Data 분석 2021. 1. 31. 10:50

One-Way ANOVA: 독립변수1개, 종속변수1개

Two-Way ANOVA: 독립변수2개, 종속변수1개

 

가정

독립성

정규성

등분산성

'Data 분석' 카테고리의 다른 글

[통계] ANOVA, ANCOVA  (0) 2021.01.31
[통계] SGD(Stochastic Gradient Descent)  (0) 2020.10.22
[통계] 유의수준  (0) 2020.10.19
[통계] 검정의 오류: 1종오류 2종오류  (0) 2020.10.19
[Spark] Application, Job, Task  (0) 2020.09.19
posted by 초코렛과자
:
Data 분석 2021. 1. 31. 10:47

ANOVA(Analysis of Variance): 분산분석

ANCOVA(Analysis of Covariance): 공분산분석 (분산분석 + 회귀분석), 이원분산분석(two-way ANOVA)와 비슷

 

외생변수를 공변량으로 처리한 후 각 그룹 사이의 종속변수 값에 차이가 있는지를 조사하는 방법.

여기에서 외생변수란 종속변수에 영향을 미칠 수 있으나 독립변수로 설정되지 않은 변수로서 외생변수와 종속변수 간의 상관관계가 높은 변수를 의미한다.

 

공변량의 의미는 외생변수 즉, 잡음을 통제하는 것으로 원래 비교하고 싶은 독립변수와 종속변수의 관계를 보기 위함.

 

가정

1. 독립변수(최소 2개)는 범주형

2. 종속변수와 공변량은 연속형

3. 공변량과 종속변수는 선형적으로 연관 되어야 한다.

4. 등분산성

5. 공변량과 독립변수는 교호작용이 없어야 한다.

 

 

 

 

'Data 분석' 카테고리의 다른 글

[통계]One-Way ANOVA, Two-Way ANOVA  (0) 2021.01.31
[통계] SGD(Stochastic Gradient Descent)  (0) 2020.10.22
[통계] 유의수준  (0) 2020.10.19
[통계] 검정의 오류: 1종오류 2종오류  (0) 2020.10.19
[Spark] Application, Job, Task  (0) 2020.09.19
posted by 초코렛과자
:
Data 분석 2020. 10. 22. 20:56

전체 데이터 대신 일부 데이터의 모음을 사용하여 Loss function을 계산.

계산속도는 빠를 수 있지만, 전체적으로 수렴하기까지는 시간이 오래 걸림

'Data 분석' 카테고리의 다른 글

[통계]One-Way ANOVA, Two-Way ANOVA  (0) 2021.01.31
[통계] ANOVA, ANCOVA  (0) 2021.01.31
[통계] 유의수준  (0) 2020.10.19
[통계] 검정의 오류: 1종오류 2종오류  (0) 2020.10.19
[Spark] Application, Job, Task  (0) 2020.09.19
posted by 초코렛과자
:
Data 분석 2020. 10. 19. 21:59

제 1종 오류를 범할 확률의 최대 허용 한계.

주로 0.01, 0.05, 0.1 등을 사용

'Data 분석' 카테고리의 다른 글

[통계] ANOVA, ANCOVA  (0) 2021.01.31
[통계] SGD(Stochastic Gradient Descent)  (0) 2020.10.22
[통계] 검정의 오류: 1종오류 2종오류  (0) 2020.10.19
[Spark] Application, Job, Task  (0) 2020.09.19
[통계] 시계열 - 변동요인  (0) 2020.09.19
posted by 초코렛과자
:
Data 분석 2020. 10. 19. 21:47

제 1종 오류: 귀무가설이 참인데 귀무가설을 기각하는 경우

제 2종 오류: 대립가설이 참인데 귀무가설을 기각하지 못하는 경우

 

매번 헷갈림

'Data 분석' 카테고리의 다른 글

[통계] SGD(Stochastic Gradient Descent)  (0) 2020.10.22
[통계] 유의수준  (0) 2020.10.19
[Spark] Application, Job, Task  (0) 2020.09.19
[통계] 시계열 - 변동요인  (0) 2020.09.19
[통계] 신뢰구간 , 예측구간  (0) 2020.09.19
posted by 초코렛과자
:
Data 분석 2020. 9. 19. 15:25

- 하나의 Application은 사용자 main function을 수행하는 Driver process를 포함하고 있으며, 여러 개의 Job을 생성함

- 한 Job은 Action이나 데이터 저장으로 끝남

- Task는 스케줄링의 가장 작은 단위

'Data 분석' 카테고리의 다른 글

[통계] 유의수준  (0) 2020.10.19
[통계] 검정의 오류: 1종오류 2종오류  (0) 2020.10.19
[통계] 시계열 - 변동요인  (0) 2020.09.19
[통계] 신뢰구간 , 예측구간  (0) 2020.09.19
[통계] 왜도(Skewness)  (0) 2020.09.06
posted by 초코렛과자
:
Data 분석 2020. 9. 19. 14:52

Random variation(분규칙변동)

- 어떤 규칙없이 나타나는 예측 불가능한 변동요인.

실제 시계열 자료에서 추세, 순환, 계절요인을 뺀 결과로 회귀분석의 오차에 해당

 

Seasonal variation(계절변동)

- 일정한 기간(월, 요일 분기 등)을 두고 1년 단위로 반복적으로 나타나는 변동

 

Trend variation(추세변동)

- 인구 변동, 지각 변동, 기술 변화 등에 의해 영향을 주는 장기적인 변동

 

Cylical variation(순환변동)

- 고정된 주기없이 상승이나 하락을 보이는 순환 성분의 변동.

순환의 평균길이는 계절변동의 길이보다 길다(2~10년)

'Data 분석' 카테고리의 다른 글

[통계] 검정의 오류: 1종오류 2종오류  (0) 2020.10.19
[Spark] Application, Job, Task  (0) 2020.09.19
[통계] 신뢰구간 , 예측구간  (0) 2020.09.19
[통계] 왜도(Skewness)  (0) 2020.09.06
코호트 분석(Cohort Analysis) 란?  (0) 2020.07.21
posted by 초코렛과자
:
Data 분석 2020. 9. 19. 14:34

신뢰구간: 주어진 x값에 대한 y평균값의 구간 추정치

예측구간: 주어진 x값에 대한 개별 y값의 구간 추정치

'Data 분석' 카테고리의 다른 글

[Spark] Application, Job, Task  (0) 2020.09.19
[통계] 시계열 - 변동요인  (0) 2020.09.19
[통계] 왜도(Skewness)  (0) 2020.09.06
코호트 분석(Cohort Analysis) 란?  (0) 2020.07.21
[데이콘] 스타2 게임 데이터 분석대회  (0) 2020.04.06
posted by 초코렛과자
:
Data 분석 2020. 9. 6. 19:15

Positive(+) Distribution
Negative(-) Distribution

posted by 초코렛과자
:
Data 분석 2020. 7. 21. 20:52

코호트 분석. 분명 들어본 것 같았는데 전혀 기억이 나지 않았다. 

검색을 해서 내용을 보니 그때서야 조금 기억이 났다. 

확실히 현재 업무에서는 잘 사용하는 용어가 아니다 보니 낯설긴 하다.

이번 기회에 잘 알아 두도록 해야겠다.

 

코호트: 특정 기간에 특정의 경험을 공유한 사람들의 집합

코호트 분석: 특정 기간에 특정한 경험을 공유한 집단 간의 행동패턴을 비교/분석

(https://en.wikipedia.org/wiki/Cohort_analysis)

 

그룹화해서 분석을 한다는 내용같은데 코호트라는 단어가 들어가니 굉장히 생소하다.

 

그렇다면 코호트 분석을 하는 이유는? 

비즈니스 인사이트를 얻기 위해서 라고한다.

한 블로그에서 쇼핑몰에 대한 예시를 들어놓았는데,

방문자 수는 증가하는데 매출이 감소하는 현상이 발생한 경우,

이에 대한 해석을 코호트분석을 통해 할 수 있다는 것이다.

 

다음에 조금 더 자세한 예시를 찾아서 적어보아야겠다.

posted by 초코렛과자
: