2024. 1. 24. 19:01ㆍ부트캠프
ML vs Stats
통계에는 여러 가정이 필요하다.
가정검토
Remedy
normality : QQplot으로 확인
소표본(n<=50)일때 유용
문제가 발생할 때 일반적으로 log-transformation 과 outlier 제거 가 사용됨
independency
일반적으로 DW검정을 통해 진단 - 연속적인 양 positive 혹은 음 negative 의 잔차가 얼마나 많이 발생하는지를 검사
잔차 Residual 에 대한 시계열 Time-series 모델링으로 해결할 수 있음
Equal variance
집단별로 분산이 같다. 일반적으로 바틀렛으로 검정
Skew를 잡아줌으로써 교정하는 경우가 많음: log-transformation
Welch-t test
t-검정에서는 굳이 이분산성을 해결하지않고, 이분산에도 잘 작동하는 모델을 사용하기도 함: Welch T-test
Log변환의 효과
독립변수 X의 값에따라 Y의 값에 변동이 있다면, X값의 변화에 따라 Y값에 분산이 달라지는 것은 굉장히 일반적
사후검정
Post-hoc
가장 많이 쓰는건 Tucky
Regression 과 R2
중요한것은 beta1
y= 종속변수
x= 설명변수
beta1 = 회귀계수 (기울기)
beta0= 회귀계수 (절편)
t^2=F
beta1에 대한 t-검정은,F검정으로 치환할 수 있음
SST= SSE+SSR
R2 = SSR/SST = 1- SSE/SST
전체 모형에서 회귀선으로 설명할 수 있는 정도
설명변수로 반응변수를 설명할 수 있는 부분
X가 증가하면 R2는 무조건오름 -> adjust R2로 제어해야함.
베이스가 R2 평균으로 찍어버린다.
R2가 1 -> 다맞췃다
R2가 음수 -> 평균으로 찍는거보다 못맞춤. 수학적으로는 다 양수이나 머신러닝에서는 음수가 가능-> 이경우는 코딩 실수나 overfitting
Inference
통계에서 inference와 머신러닝에서 inference는 다름.
Recommend system
유저가 좋아할만한 아이템 추천 -> 유저가 과거에 뭘 좋아했는지 '정의'
explicit -> 명시적, 별점 5점
implicit -> 클릭, 비디오 봄
보통 implicit feedback 사용
회귀 : 숫자를 맞추는 것
분류 : 카테고리를 맞추는것(o/x 등)
linear regression