새소식

세계 최대 음성 및 신호처리 학회 INTERSPEECH서 논문 4건 발표

카카오엔터프라이즈가 세계 최대 음성 및 신호처리 학회 INTERSPEECH에서 총 4건의 논문을 발표합니다. 특히 이번 INTERSPEECH 2022는 9월 18일부터 22일까지 인천 송도에서 오프라인 개최될 예정으로, 국내외 학계 및 AI 개발자, IT 기업들의 많은 관심과 주목을 받고 있습니다. 카카오엔터프라이즈는 이번 INTERSPEECH 2022에 ‘플래티넘’ 스폰서로 참여하여 음성 및 자연어처리 분야 최신 기술을 선보이고 연구 성과를 공유하는 데 힘쓸 예정입니다.

1) JETS: Jointly Training FastSpeech2 and HiFi-GAN for End to End Text to Speech

기존 Neural TTS 개발 과정에서는 2개의 모델(acoustic feature generator, neural vocoder)을 각각 학습한 뒤 파인튜닝을 거쳐야 하는 등 복잡한 과정이 수반되었습니다. 본 논문에서는 이러한 학습 파이프라인을 E2E-TTS 모델로 단순화하는 방법론을 새롭게 제안하였습니다. 실제 이를 적용한 결과, 기존 방법 대비 향상된 합성 품질을 확인할 수 있었습니다.

자세히 보기

2) Automatic Pronunciation Assessment using Self-Supervised Speech Representation Learning

본 논문은 비원어민 영어 학습자들의 영어 발음을 점수화하여 평가할 수 있는 방법을 다루고 있습니다. wav2vec 2.0이나 HuBERT 구조 기반의 Self-Supervised Learning 기법을 사용하여 영어 발음과 관련된 효율적인 특징들을 추출하고, 점수를 평가할 수 있는 알고리즘을 새롭게 제안하였습니다.

? 자세히 보기

3) Generalizing RNN-Transducer to Out-Domain Audio via Sparse Self-Attention Layers

이 논문에서는 실제 서비스 환경에서 중요하게 다뤄지는 도메인 불일치 환경에서의 성능 개선을 위한 방법론을 제안하였습니다. 최신 인코더 구조인 컨포머(conformer)는 대체로 좋은 성능을 보이지만, 도메인이 불일치하는 긴 발화의 경우 높은 딜리션(deletion) 에러로 성능이 저하되는 문제가 있습니다. 이를 개선하기 위해 sparse self-attention 레이어를 제안하였고, 그 결과 기존 구조 대비 향상된 인식 성능을 확인할 수 있었습니다.

자세히 보기

4) The Emotion is Not One-hot Encoding: Learning with Grayscale Label for Emotion Recognition in Conversation

스몰톡 챗봇 연구 과정에서 사용자 발화 또는 AI가 생성한 발화 상의 감정값을 인식하게 되면 보다 상황에 적절한 답변을 생성할 수 있습니다. 일반적으로 감정인식을 위해 사용되는 one-hot encoding 방식은 발화에 포함된 여러 감정값을 인식하기 어려워, 실제 발화 감정과는 차이가 날 수 밖에 없는 한계가 있습니다. 본 논문에서는 좀 더 현실에 가까운 감정값을 학습하기 위해, 자동으로 one-hot encoding을 grayscale label(soft-label)로 매핑하여 다양한 감정 분포를 학습할 수 있는 방법론을 제안하였습니다.

자세히 보기

카카오엔터프라이즈는 고도화된 AI 기술 연구사례를 지속적으로 공유하고, 더욱 발전된 서비스의 모습으로 선순환시킬 예정입니다. 많은 관심과 성원 부탁드립니다.