전체 글(22)
-
자체경진대회-regression
1. Abstract Goal of the Competition 아파트 정보와 버스,지하철 데이터를 이용하여 주택가격예측, 평가지표 RMSE Timeline March 20, 2024 - Start Date April 2, 2024 - Final submission deadline Description of the workEDA, feature engineering, 외부데이터 이용, 모델링, 성능개선 2. Process : Competition Model 처음 제공된 베이스라인 코드를 이용. 이후 EDA 와 feature engineering 후 성능이 개선된 버전을 팀의 베이스라인 코드로 이용. 3. Process : Issues 결측치에 대한 처리, 성능 개선에 의미가 없는 데이터를 걸러내는 작업,..
2024.04.03 -
첫번째 그룹스터디 세미나 및 회고
우리의 첫번째 목표는 느리더라도 완주하기 였다. 매주 진행하는 미션을 해결하는데 건너뛰지 말고 다 해보고 가자는 것이다. 사실 미션 수행을 하면서 강의와 연관이 많이 되어있는것을 느꼈다. 강의로 들은 내용을 리마인드 하면서 미션을 수행할 수 있었다. 모델링도 직접 해보고 성능을 높일 수 있는 방법을 더 찾아보고싶었다. 딥러닝 모델에서 레이어를 더 쌓아도 성능이 개선이 안되는경우가 있다. 더 공부를 해야겠다. 강의 실습 코드를 필사하고 나서 느낀점은.. 와 내가 이걸 언제쯤 이렇게 짤 수 있을까였다. 더 해야겠지... wandb도 처음 알게되었다. MLOps에 관심이 있는데 강력한 MLOps툴이라고 설명 들으니 더 잘 사용하고싶어진다. 맥북에 내장되어있는 gpu를 사용하는 방법도 이번에 알게 되었다. nv..
2024.03.15 -
ML project : Home Credit - Credit Risk Model Stability
이번 프로젝트로 캐글에서 진행중인 home credit- credit risk model stability competition에 참가하였다. 이때는 몰랐다. 벽을 심하게 느낄줄 대회 경험이 없었고, 실제 대회에 참가해 보는거 만으로도 얻어갈 수 있는게 많을거같아 참여하였다. 팀원은 나 포함 5명이다. 다들 열심히하시고 잘하신다. 나도 더 열심히 하게되는거같다. 우선 제출하는 평가 기준을 살펴보았다. gini=2∗AUC−1 stability metric=𝑚𝑒𝑎𝑛(𝑔𝑖𝑛𝑖)+88.0⋅𝑚𝑖𝑛(0,𝑎)−0.5⋅𝑠𝑡𝑑(residuals) 최종적으로 stability metric을 구해야했다. 이게 지금은 문제가 많아 submit이 막히고 계산식도 바뀔거라고한다. 먼저 데이터를 살펴보았다. 이렇게 많은 데이터를 ..
2024.02.22 -
자료구조,알고리즘,코딩테스트
완전탐색, 그래프( dfs,bfs) , 문자열, 백트랙킹,dp, 해시테이블 코딩테스트의 목적 문제 해결 능력 : 문제이해, 접근방법(자료구조&알고리즘 이론), 코드 설계(시간 복잡도) 구현 능력: 프로그래밍 능력 암시적그래프 bfs로 최단경로 구하는게 빠름 우선순위큐가 요새 자주나옴. 카카오 코테는 문자열 자주나옴.
2024.02.16 -
ML
Linear Regression feature 와 target 사이의 관계를 선형 모델로 찾자 given X,y find f f를 어떻게 정의하느냐 -> 모델을 어떤걸 사용하느냐 지금 있는 데이터를 linear한 형태로 보고싶다. X,y 가 linear한 관계 x -> 해결 : 모델을 바꿔야함 X,y 가 '이상적'으로는 linear 였는데 관측과정에서 오염 -> 처음엔 이걸로 먼저 출발 즉 y != w1x1 + w2x2 + b w1,w2,b를 조절해서 linear한 형태로 나타내야함. L이 최소가 되는 (0에 가까워지는). L 은 (실제값-예측값)^2을 다 더한것 . Loss function 분류(classification)와 회귀(regression) 차이 묻는 질문도 굉장히 많이나옴 분류(classi..
2024.02.02 -
통계
ML vs Stats 통계에는 여러 가정이 필요하다. 가정검토 Remedy normality : QQplot으로 확인 소표본(n adjust R2로 제어해야함. 베이스가 R2 평균으로 찍어버린다. R2가 1 -> 다맞췃다 R2가 음수 -> 평균으로 찍는거보다 못맞춤. 수학적으로는 다 양수이나 머신러닝에서는 음수가 가능-> 이경우는 코딩 실수나 overfitting Inference 통계에서 inference와 머신러닝에서 inference는 다름. Recommend system 유저가 좋아할만한 아이템 추천 -> 유저가 과거에 뭘 좋아했는지 '정의' explicit -> 명시적, 별점 5점 implicit -> 클릭, 비디오 봄 보통 implicit feedback 사용 회귀 : 숫자를 맞추는 것 분류 ..
2024.01.24