작품개요
수많은 단어 변칙이 존재하는 유튜브 댓글 데이터를 이용하여 Out Of Vocabulary(OOV) 문제를 해결하고, 이진 감정 분류의 성능을 개선하고자 한다. 문장 벡터화 과정에서 일반적으로 사용되는 파이썬 라이브러리인 Keras Tokenizer 대신에 Neural Machine Translation에서 주로 사용되는 SentencePiece를 적용하여 감정 분류 모델의 성능을 비교 분석한다. 그 결과 SentencePiece는 전처리 작업을 최소화할 수 있고 단어 사전의 크기가 제한적이어도 OOV를 효과적으로 처리한다는 사실을 알게 되었다.