새소식

자연어처리 분야 글로벌 최고 학회 ‘EMNLP’에서 논문 3편 발표

카카오엔터프라이즈가 자연어처리(NLP) 분야 글로벌 최고 학회 ‘EMNLP’에서 총 3편의 논문을 발표했습니다.

1) LittleBird: Efficient Faster & Longer Transformer for Question Answering

BERT를 비롯한 일반적인 Transformer 모델들은 긴 입력을 처리하는 데에 매우 비효율적인 구조를 가지고 있습니다. 이로 인해 긴 문서에 대한 질의응답'(Long Document Question Answering)을 처리하는 데에 한계가 있는데요.

이 논문에서는 이러한 문제를 극복하기 위해 카카오엔터프라이즈가 개발한 LittleBird 모델에 대해 다룹니다. LittleBird는 BigBird, ALiBi, LUNA 등의 최신 모델의 장점을 융합하여 긴 입력에 대한 처리속도는 높이되, 정확도는 잃지 않는 새로운 모델입니다. 이 모델을 활용하여 긴 문서에 대한 한국어 질의응답 데이터셋인 KorQuAD2.0에서 1위를 달성하는 성과도 거둔 바 있습니다.

? 자세히 보기

2) Normalizing Mutual Information for Robust Adaptive Training for Translation

기계번역에서 번역문의 유창성과 타당성 두 가지 기준을 충족하는 것은 여전히 매우 어려운 문제입니다. 본 논문에서는 이 기준을 충족시키기 위해 각 데이터마다 다른 가중치를 적용해 학습시키는 방식에서 새로운 정규화(Normalization)된 가중치 메트릭을 제안하였습니다. Normalized Pointwise Mutual Information (NPMI) 방식은 출발어의 언어모델도 추가적으로 함께 사용하여 출발-도착 문장 사이의 joint likelihood를 예측합니다. 원문과 번역문 모두 같이 발생할 확률이 높으면 더 믿을 수 있는 데이터로 봅니다. 즉 이 데이터로 모델을 학습시 더 높은 가중치를 목적함수에 부여합니다. 또한 스코어를 정규화시켜 학습을 안정화시켜 번역 성능 향상에 도움을 줍니다.

? 자세히 보기

3) APEACH: Attacking Pejorative Expressions with Analysis on Crowd-Generated Hate Speech Evaluation Datasets

온라인 상에 문제시 되고 있는 혐오성 표현과 관련된 연구 성과를 다룬 논문입니다. 불특정 다수의 유저로부터 혐오성 발화분류 데이터셋을 생성하는 방법론을 제안하였습니다. 아울러 한국어 기반 평가 데이터셋을 공개함으로써 언어모델의 치팅 문제에서 자유롭고 프라이버시와 윤리이슈를 경감시키는 평가셋을 만드는 방법을 새롭게 제시하였습니다.

? 자세히 보기

앞으로도 카카오엔터프라이즈는 고도화된 AI 기술 연구사례를 지속적으로 공유하고, 더욱 발전된 서비스의 모습으로 선순환시킬 예정입니다. 많은 관심과 성원 부탁드립니다.