NLP 경진대회

2024. 5. 31. 22:18부트캠프

실제 일상생활에서 가능한 다양한 시나리오 multi-turn 대화를 바탕으로 생성 요약문을 만들어보는 대회

대화 스타일은 구어체이고 요약문은 구어체가 아닌 문어체였다. 이 부분을 잘 다뤄야 할 것 같다. 대화 도메인은 다양하게 있었고, train 데이터는 12456개 valid 는 499, test도 499개였다.

 

대화는 번역체의 느낌이 많이 강했다. 

nlp를 처음 접해보니 어려움이 많았고 얻어가는 것도 많은 대회였다.

잘 pre-train 된 모델을 사용하는거 밖에 하지 못한 아쉬움이 있다. fine-tunning을 해보고 싶었지만 아는게 없어 하지 못했다. 다음에 해보고 싶다. (주어진 train 데이터로 모델을 학습 시키는게 fine-tunning인가..?)

 

이번 대회에서 한거는 다양한 모델 적용해보는거밖에 없는거같다.. 성능 개선을 하기 위해선 데이터를 더 다뤄보던가 하이퍼 파라미터 수정을 하던가 해봐야하는데... 모델 하나 돌리는데도 몇시간 걸리고,, 데이터 증강도 진짜 오래 걸렸는데 성능적으로 개선이 안되더라... 방향을 잘 잡는게 중요하다고 다시한번 깨닫게 되었다..

'부트캠프' 카테고리의 다른 글

google machine learning bootcamp - gemma sprint  (3) 2024.10.03
NLP 경진대회 report  (0) 2024.05.31
자체경진대회-classification  (0) 2024.04.29
CV advanced  (0) 2024.04.29
CV basic  (0) 2024.04.05