부트캠프(15)
-
자체경진대회-regression
1. Abstract Goal of the Competition 아파트 정보와 버스,지하철 데이터를 이용하여 주택가격예측, 평가지표 RMSE Timeline March 20, 2024 - Start Date April 2, 2024 - Final submission deadline Description of the workEDA, feature engineering, 외부데이터 이용, 모델링, 성능개선 2. Process : Competition Model 처음 제공된 베이스라인 코드를 이용. 이후 EDA 와 feature engineering 후 성능이 개선된 버전을 팀의 베이스라인 코드로 이용. 3. Process : Issues 결측치에 대한 처리, 성능 개선에 의미가 없는 데이터를 걸러내는 작업,..
2024.04.03 -
첫번째 그룹스터디 세미나 및 회고
우리의 첫번째 목표는 느리더라도 완주하기 였다. 매주 진행하는 미션을 해결하는데 건너뛰지 말고 다 해보고 가자는 것이다. 사실 미션 수행을 하면서 강의와 연관이 많이 되어있는것을 느꼈다. 강의로 들은 내용을 리마인드 하면서 미션을 수행할 수 있었다. 모델링도 직접 해보고 성능을 높일 수 있는 방법을 더 찾아보고싶었다. 딥러닝 모델에서 레이어를 더 쌓아도 성능이 개선이 안되는경우가 있다. 더 공부를 해야겠다. 강의 실습 코드를 필사하고 나서 느낀점은.. 와 내가 이걸 언제쯤 이렇게 짤 수 있을까였다. 더 해야겠지... wandb도 처음 알게되었다. MLOps에 관심이 있는데 강력한 MLOps툴이라고 설명 들으니 더 잘 사용하고싶어진다. 맥북에 내장되어있는 gpu를 사용하는 방법도 이번에 알게 되었다. nv..
2024.03.15 -
ML project : Home Credit - Credit Risk Model Stability
이번 프로젝트로 캐글에서 진행중인 home credit- credit risk model stability competition에 참가하였다. 이때는 몰랐다. 벽을 심하게 느낄줄 대회 경험이 없었고, 실제 대회에 참가해 보는거 만으로도 얻어갈 수 있는게 많을거같아 참여하였다. 팀원은 나 포함 5명이다. 다들 열심히하시고 잘하신다. 나도 더 열심히 하게되는거같다. 우선 제출하는 평가 기준을 살펴보았다. gini=2∗AUC−1 stability metric=𝑚𝑒𝑎𝑛(𝑔𝑖𝑛𝑖)+88.0⋅𝑚𝑖𝑛(0,𝑎)−0.5⋅𝑠𝑡𝑑(residuals) 최종적으로 stability metric을 구해야했다. 이게 지금은 문제가 많아 submit이 막히고 계산식도 바뀔거라고한다. 먼저 데이터를 살펴보았다. 이렇게 많은 데이터를 ..
2024.02.22 -
ML
Linear Regression feature 와 target 사이의 관계를 선형 모델로 찾자 given X,y find f f를 어떻게 정의하느냐 -> 모델을 어떤걸 사용하느냐 지금 있는 데이터를 linear한 형태로 보고싶다. X,y 가 linear한 관계 x -> 해결 : 모델을 바꿔야함 X,y 가 '이상적'으로는 linear 였는데 관측과정에서 오염 -> 처음엔 이걸로 먼저 출발 즉 y != w1x1 + w2x2 + b w1,w2,b를 조절해서 linear한 형태로 나타내야함. L이 최소가 되는 (0에 가까워지는). L 은 (실제값-예측값)^2을 다 더한것 . Loss function 분류(classification)와 회귀(regression) 차이 묻는 질문도 굉장히 많이나옴 분류(classi..
2024.02.02 -
통계
ML vs Stats 통계에는 여러 가정이 필요하다. 가정검토 Remedy normality : QQplot으로 확인 소표본(n adjust R2로 제어해야함. 베이스가 R2 평균으로 찍어버린다. R2가 1 -> 다맞췃다 R2가 음수 -> 평균으로 찍는거보다 못맞춤. 수학적으로는 다 양수이나 머신러닝에서는 음수가 가능-> 이경우는 코딩 실수나 overfitting Inference 통계에서 inference와 머신러닝에서 inference는 다름. Recommend system 유저가 좋아할만한 아이템 추천 -> 유저가 과거에 뭘 좋아했는지 '정의' explicit -> 명시적, 별점 5점 implicit -> 클릭, 비디오 봄 보통 implicit feedback 사용 회귀 : 숫자를 맞추는 것 분류 ..
2024.01.24 -
EDA
EDA 실시간 강의를 열심히 들었다. 저번 2학기때 Business analytics 수업에서 진행했던 프로젝트가 있어 EDA가 낯설지는 않았다. 하지만 시각화를 하는 코딩 자체는 쉽지만 막상 작성하려고 하면 어려움이 있었고, 내가 보고싶은 그래프를 만드는 능력이 조금 부족했던거 같다. 이번 강의를 통해서 이러한 부분에서 발전했으면 좋겠다. Numpy 2005년에 만들어졌으며, 100% 오픈소스입니다. 최적화된 C code로 구현되어 있어 엄청나게 좋은 성능을 보입니다. 파이썬과 다르게 수치 연산의 안정성이 보장되어 있습니다. (numerical stable) N차원 실수값 연산에 최적화되어 있습니다. == N개의 실수로 이루어진 벡터 연산에 최적 화되어 있습니다. Numpy를 사용해야 하는 이유 1. ..
2024.01.12