회원들이 가장 많이 본 디자인 뉴스
기술 트렌드
페이스북 아이콘 트위터 아이콘 카카오 아이콘 인쇄 아이콘

'돌아가신 할머니 목소리로 말하는' 아마존 알렉사, 음성복제 기술의 서막

 

지난 6월 21일부터 24일까지 아마존의 re:MARS 컨퍼런스가 라스베이거스에서 열렸다. 머신러닝과 자동화, 로봇공학, 우주를 주제로 한 아마존의 연구성과를 발표하는 이 자리에서 놀라움과 탄성, 우려와 두려움을 동시에 자아낸 분야는 단연 음성 복제 기술이었다. 아마존의 인공지능 음성비서인 알렉사가 돌아가신 할머니의 음성으로 손자에게 책을 읽어주는 모습을 시연한 것인데, 인간의 감성을 가진 기술을 구현하겠다는 취지와는 달리, 딥페이크 음성이 오남용이나 범죄에 악용될 소지가 있다고 걱정하는 목소리가 많다.

 

그럼에도 불구하고 미국의 경제전문매체 Fast Company는 2022년 8월 8일 자 기사에서 ‘돌아가신 할머니’의 목소리로 말하는 알렉사는 음성복제 기술의 서막에 불과하다면서, 진짜 같은 복제 음성은 생각보다 훨씬 가까이 왔다고 관련 내용을 자세히 전했다.

디지털 제품 및 서비스와 말로 상호작용하는 일이 보편화되면서, 기업들은 브랜드를 대표할 고유한 음성을 갖기를 원하고 소비자는 사람처럼 자연스럽게 말하는 기술을 기대한다. 구글의 음성비서가 사람을 흉내 내서 말하는 모습이 지나치게 사실적이라는 일부의 비판과는 별개로, 인간의 감성을 가진 기술에 대한 요구는 인공지능에 기반한 음성변환기술(TTS: text to speech)의 혁신과 투자로 이어졌다고 기사는 적고 있다. 구글 학술검색 결과, 2021년 이래 발표된 음성합성을 주제로 한 연구논문은 2만 건이 넘는다고 한다. 또, 전 세계적인 TTS 시장 규모는 2028년 70억 달러(약 9조 원)에 이를 것으로 글로벌 시장조사업체 Emergen Research는 전망한다.

 

현재 TTS의 주로 활용처는 디지털 비서와 챗봇이다. 그러나 게임과 미디어, 개인 통신 등에서 앞으로 그 쓰임새를 예측해 보는 일은 어렵지 않다. 가상 자아에 자신의 음성을 부여하거나 문자메시지를 본인의 음성으로 읽어 주는 일, 현장에 없거나 고인이 된 배우의 목소리를 재현하는 일 등은 몇몇 사례에 불과하다. 더구나 메타버스는 기술과 상호작용하는 방식을 바꿔 놓고 있다.

 

Amazon Alexa Echo

이미지출처: 아마존

 

알렉스의 할머니 음성 재현에 사용된 기술은 폴란드 그단스크에 위치한 아마존의 TTS 연구소에서 개발되었다. 놀라운 것은 1분짜리 오디오 샘플을 가지고 할머니의 음성을 소환해냈다는 사실이다. 개발된 시스템은 1차로 텍스트를 일반적인 말소리(generic speech)로 변환한 다음, 1분 분량의 오디오 샘플을 가지고 훈련한 ‘보이스 필터’를 통해 음성이나 억양, 강세 등에서 타겟 스피커와 유사하게 들리도록 조정한다. 하지만 적은 데이터를 가지고 특정인의 말하는 습관까지 온전히 흉내 내는 일은 아직 불가능하다.

 

아마존은 새로운 음성복제 기술을 언제 공개할지는 밝히지 않은 상태다. 그러나 짧은 녹음 데이터만을 가지고도 입력된 모든 텍스트를 그럴싸한 복제 음성으로 재현할 수 있다면 답보상태에 빠진 스마트 스피커 시장을 되살릴 수 있을지 모른다. 리서치 전문업체 Omdia에 따르면, 미국 스마트 스피커 출하량은 2020년에 비해 지난해 거의 30% 줄었고, 아마존 알렉사의 경우, 하락률이 51%에 이른다.

 

거대 테크기업들이 TTS 기술에 계속해서 투자하고 있는 만큼, 한 가지만은 확실하다. 지금 당신이 듣고 있는 목소리가 진짜 사람 목소리인지, 사람이 만든 알고리즘의 것인지 점점 더 구별하기 힘들어질 것이다.

 

자료출처: Amazon's "dead grandma" Alexa is just the start for voice cloning (fastcompany.com)

 

 


목록 버튼 이전 버튼 다음 버튼
최초 3개의 게시물은 임시로 내용 조회가 가능하며, 이후 로그인이 필요합니다. ( 임시조회 게시글 수: )