통계

2024. 1. 24. 19:01부트캠프

ML vs Stats

 

통계에는 여러 가정이 필요하다. 

 

가정검토

Remedy

normality : QQplot으로 확인

소표본(n<=50)일때 유용

문제가 발생할 때 일반적으로 log-transformation 과 outlier 제거 가 사용됨

 

independency

일반적으로 DW검정을 통해 진단 - 연속적인 양 positive 혹은 음 negative 의 잔차가 얼마나 많이 발생하는지를 검사 

잔차 Residual 에 대한 시계열 Time-series 모델링으로 해결할 수 있음

 

Equal variance

집단별로 분산이 같다. 일반적으로 바틀렛으로 검정

Skew를 잡아줌으로써 교정하는 경우가 많음: log-transformation

 

Welch-t test

t-검정에서는 굳이 이분산성을 해결하지않고, 이분산에도 잘 작동하는 모델을 사용하기도 함: Welch T-test

 

Log변환의 효과

독립변수 X의 값에따라 Y의 값에 변동이 있다면, X값의 변화에 따라 Y값에 분산이 달라지는 것은 굉장히 일반적

 

사후검정

Post-hoc

가장 많이 쓰는건 Tucky

 

Regression 과 R2

중요한것은 beta1

y= 종속변수

x= 설명변수

beta1 = 회귀계수 (기울기) 

beta0= 회귀계수 (절편)

 

t^2=F

beta1에 대한 t-검정은,F검정으로 치환할 수 있음

 

SST= SSE+SSR

R2 = SSR/SST = 1- SSE/SST

전체 모형에서 회귀선으로 설명할 수 있는 정도

설명변수로 반응변수를 설명할 수 있는 부분

 

X가 증가하면 R2는 무조건오름 -> adjust R2로 제어해야함.

베이스가 R2 평균으로 찍어버린다. 

R2가 1 -> 다맞췃다

R2가 음수 -> 평균으로 찍는거보다 못맞춤. 수학적으로는 다 양수이나 머신러닝에서는 음수가 가능-> 이경우는 코딩 실수나 overfitting

 

Inference

통계에서 inference와 머신러닝에서 inference는 다름. 

 

Recommend system 

유저가 좋아할만한 아이템 추천 -> 유저가 과거에 뭘 좋아했는지 '정의'

explicit -> 명시적, 별점 5점 

implicit -> 클릭, 비디오 봄

보통 implicit feedback 사용

 

회귀 : 숫자를 맞추는 것

분류 : 카테고리를 맞추는것(o/x 등)

linear regression

 

 

 

 

'부트캠프' 카테고리의 다른 글

ML project : Home Credit - Credit Risk Model Stability  (0) 2024.02.22
ML  (0) 2024.02.02
EDA  (1) 2024.01.12
3회차 학습일지  (0) 2023.12.29
2일차  (0) 2023.12.12