라인, 음성 신호처리 학회 ‘ICASSP 2023’서 논문 8편 채택

산업·IT 입력 2023-04-14 14:39:48 윤혜림 기자 0개

페이스북 공유하기 트위터 공유하기 카카오톡 공유하기 네이버 블로그 공유하기

음성 인식 및 음성 합성 연구 성과 우수성 인정

채택 논문 8편 중 6편 라인이 주저자로 작성

생성 음성 및 육성 음성의 멜 스펙트로그램. [사진=라인]

[서울경제TV=윤혜림기자] 라인이 세계 최대 규모의 음성·음향·신호처리 학술대회인 ICASSP 2023에서 논문 8편이 채택되었다고 14일 밝혔다.


올해로 48회차를 맞이하는 ICASSP(International Conference on Acoustics, Speech, and Signal Processing)는 국제전기전자협회 신호처리학회(IEEE Signal Processing Society)가 주최하는 음성·음향·신호처리 분야 내 세계 최대 규모의 국제학회이다.


채택된 논문 8편 중 6편은 라인이 주저자로, 해당 학회에 채택된 라인이 주저자인 논문 수는 지난해 3편에서 두 배 늘어나는 성과를 거두었다. 2편은 다른 저자와 공동 집필한 논문이며, 모두 학회 개최 기간인 6월 4일부터 10일 중 발표된다.


이번 ICASSP 2023에서 채택된 논문4에는 감정 음성 합성 시 텍스트에서 음성 파형으로 변환하는 과정에서 음성 피치 정보(음성 높이)를 이용하는 엔드투엔드(End-to-End) 모델에 관한 제안이 소개되었다. 기존 모델은 보다 풍부한 표현을 필요로 하는 감정 음성 합성 시 자연스러운 음성을 합성하기 어려운 사례가 많았으나, 변환 과정을 단일 모델로 수행하는 엔드투엔드(End-to-End) 모델은 양질의 음성을 생성할 수 있다.


제안 방법에서는 감정 음성 합성 시 보다 중요한 피치 정보를 양(陽)으로 모델링했다. 이를 통해 생성 음성의 피치 정보를 보다 정확하게 표현할 수 있게 되어, 기존 방법으로는 생성이 어려웠던 피치가 극단적으로 높거나 낮은 발화에서도 보다 자연스럽고 안정된 결과를 얻을 수 있음을 입증했다.

 

또한, 논문5에서는 다수의 화자가 혼재된 음성을 분리하는 음원 분리 시 이미지 생성에도 활용되는 확산 모델을 이용하는 방식이 채택되었다. 머신러닝을 이용하는 기존의 음원 분리는 교사 데이터의 음성 분리도를 극대화하는 식별 모델을 이용하는 방식이 주류였으나, 분리도가 높은 음성이라도 인간이 듣기에는 부자연스러운 경우가 종종 있었다.


제안 방법에서는 이미지 생성에도 활용되는 생성 모델 중 하나인 확산 모델을 음원 분리에 활용함으로써 자연스러운 음성 생성을 실현했다. 확산 모델을 활용한 결과, 분리음의 왜곡이 줄어들어 인간의 지각 능력에 기반한 음성 품질 평가 지표(DNSMOS)에서 기존 방법을 상회했다.


라인은 AI 기술을 활용해 새로운 서비스를 창출하는 동시에 AI 기술 연구 개발 활동에도 적극 투자하고 있다. 특히 음성 처리 분야에서는 음성 인식 및 음성 합성 기술을 중심으로 여러 저명한 학회에서 영향력 있는 연구 성과를 발표한 바 있다.


라인은 앞으로도 AI 기술 기초 연구를 적극 추진해 기존 서비스의 품질 향상은 물론 새로운 기능과 서비스 창출에 노력을 기울일 예정이다./grace_rim@sedaily.com

[ⓒ 서울경제TV(www.sentv.co.kr), 무단 전재 및 재배포 금지]

기자 전체보기

기자 프로필 사진

윤혜림 기자 산업1부

grace_rim@sedaily.com 02) 3153-2610

이 기자의 기사를 구독하시려면 구독 신청 버튼을 눌러주세요.

페이스북 공유하기 트위터 공유하기 카카오톡 공유하기 네이버 블로그 공유하기




0/250

0/250