(서울=NSP통신) 김정태 기자 = 다음카카오(공동대표 최세훈, 이석우)가 자사의 한국어 음성 처리, 멀티미디어 검색, 대용량 데이터 처리 기술을 집약, 멀티미디어 데이터를 이용한 음성 합성기를 선보였다.

미디어다음 JTBC 뉴스룸 앵커브리핑에서는 JTBC 뉴스룸 앵커 손석희가 직접 작성한 댓글을 실제 목소리와 말투 그대로 반영된 생생한 음성으로 들려준다.

매번 댓글을 작성할 때마다 해당 문장을 녹음하는 것이 아니라 작성된 댓글을 손석희 앵커의 음성으로 자동 합성하는 다음카카오의 기술이 반영된 결과다.

이번 시도는 통제된 녹음 환경을 거치지 않고 이미 온라인에 공개된 지난 1년간의 JTBC 뉴스룸 영상에서 데이터를 추출한 것이 특징이다.

손석희 앵커가 참여한 JTBC뉴스룸의 하루 평균 방송 시간을 1시간이라고 볼 때, 1년 간 약 300시간의 영상에서 여러 과정을 거쳐 확보된 최종 10시간 분량의 음성 데이터를 통해 손석희 앵커의 음색과 말투를 학습한 것.

합성된 음성의 자연스러운 정도를 누구나 이해할 수 있도록 전국민적인 인지도를 지닌 앵커 손석희를 첫 번째 대상으로 정했다.

‘멀티미디어 데이터 검색 기술’을 이용해 온라인 상의 JTBC 뉴스룸 영상들을 수집하고 한 데 모인 ‘대용량 데이터를 분산 처리 기술’로 정리한 후 ‘화자 인식 기술’을 이용, 여러 출연진들 중 손석희 앵커의 음성만을 골라냈다.

음성 합성기 개발을 위해서는 음성과 그에 상응하는 문장이 모두 있어야 하기 때문에, 선별된 음성을 문자로 변환하는 ‘음성 인식 기술’을 적용해 내용을 파악했다.

이 중 잡음이 섞이거나 음색이 불분명한 데이터들은 ‘자동 검증 기술’을 통해 걸러냈다. 이렇게 만들어진 데이터를 ‘통계적 음성 합성 기술’에 적용, 손석희 음성의 음향 및 운율 특징을 자동으로 학습한 음성 합성기로 완성됐다.

다음카카오는 앵커브리핑을 시작으로 특정인의 음성을 활용한 서비스들을 만들어내는 한편 다양한 기술들을 유기적으로 통합 및 자동화하며 기술과 환경의 한계를 넘는 혁신적 시도를 지속할 계획이다.

NSP통신/NSP TV 김정태 기자, ihunter@nspna.com
저작권자ⓒ 한국의 경제뉴스통신사 NSP통신·NSP TV. 무단전재-재배포 금지.