google machine learning bootcamp - gemma sprint

2024. 10. 3. 22:27부트캠프

구글 부캠을 참여하면서 마지막 프로젝트인 gemma sprint를 하게 되었다.

 

프로젝트 주제 : gemma모델을 논문요약 데이터로 파인튜닝 하기

혼자서 해보는 프로젝트였다. 파인튜닝을 처음 해보는 것이였고,  dataset 라이브러리를 사용하는 것이 아닌 외부에서 데이터를 다운받아 사용하였다. 확실히 데이터가 깔끔하게 잘 정리되어 있어서 전처리 하는데 큰 어려움은 없었다. 만약 데이터의 질이 좋지 않았다면 프로젝트를 진행하지 못하고 데이터만 처리하는데 시간을 다 쏟았을 것 같다. 아직도 하이퍼파라미터 조정을 어떤식으로 해야할지 모르겠다. 학습을 여러번 해보고 결과물을 보고 조정을 해야할거 같은데 학습이 오래걸리고 그럴만한 환경이...  인터넷을 뒤져 다른사람이 해놓은 하이퍼파라미터를 그대로 사용하긴 하였지만(이게 제일 믿을만 했다) 내 마음대로 아무 논리 없이 막 설정했다면 성능이 더 안좋았을 것 같다. gpu도 없어 코랩 프로 결제후 모든 컴퓨팅 용량을 다쓰며 17시간 학습시켰다. (한 60달러정도) 그래도 좋은 투자였다고 생각한다. 

 

train code : https://colab.research.google.com/drive/1z8ER-AfVcccDXFWsRzuD-m2LxTAjuaTR

inference code : https://colab.research.google.com/drive/1XzwA1fbfc3QttLHCrhVHBPDZIiL2a_wB

'부트캠프' 카테고리의 다른 글

NLP 경진대회 report  (0) 2024.05.31
NLP 경진대회  (0) 2024.05.31
자체경진대회-classification  (0) 2024.04.29
CV advanced  (0) 2024.04.29
CV basic  (0) 2024.04.05