본문 바로가기

  • 과학기술정보
  • 과학기술 핫 뉴스

과학기술 핫 뉴스

목소리도 문서처럼 편집할 수 있다

학교로 찾아가는 진로 컨설팅 상세
작성일 2017-05-17
첨부파일
목소리도 문서처럼 편집할 수 있다
   
음성 복제해 넣었다 뺐다 할 수 있어


소리를 문서처럼 편집할 수 있는 기술이 개발됐다. 16일 ‘사이언스 데일리’에 따르면 프린스턴대학 연구팀이 개발한 ‘보코(VoCo)’란 소프트웨어는 문서를 교정하듯이 녹음된 사람의 발언 내용을 고쳐나가면서 내용을 보완해나갈 수 있다.

컴퓨터공학과 아담 핑클스타인(Adam Finkelstein) 교수는 “‘보코’를 활용할 경우 어떤 내용의 소리이든지 다양한 음질로 합성하는 것은 물론 자동으로 교정해나갈 수 있는 새로운 알고리듬의 실용적 기술”이라고 말했다.

세계적으로 소리를 교정할 수 있는 편집 기술이 개발되기는 이번이 처음이다. 이 기술 개발에는 프린스턴대학 외에도 아도비 어도비 리서치(Adobe Research)의 연구진이 공동 참여했다. 연구자금은 벤처펀드사인 ‘프로젝트 X 펀드’에서 담당했다.







컴퓨터에서 문서를 편집하듯이 사람의 목소리를 복제하거나 제작해 넣었다 뺐다 할 수 있는 기술이 개발됐다. 영상을 편집할 수 있는 포토샵처럼 음향 분야에서도 큰 영향을 미칠 것으로 예상된다. ⓒdrinktank.org.au


소리를 지우거나 덧붙이면서 재편집

연구논문은 국제학술지 ‘ACM 트랜잭션즈 온 그래픽스’(ACM Transactions on Graphics)에 7월호에 비디오 영상과 함께 게재됐다. ‘보코’의 유저 인터페이스를 설명하고 있는 영상을 보면 기존의 오디오 편집 시스템과 유사한 모습을 보이고 있다.

팟캐스트 프로그램인 ‘오더시티(Audacity)’, 애플의 음악편집 프로그램인 ‘개러지밴드(GarageBand)’ 등은 소리의 진동 모양을 시간 차이로 나누어 표시하는 파형(waveform)을 보며 소리를 지우거나 덧붙이면서 재편집한다.

‘보코’ 역시 소리를 파형으로 시각화해 필요한 부분을 손질하기 때문에 외형적으로 큰 차이를 발견하기 힘들다. 다른 점은 편집 내용이다. 다른 프로그램들을 보면 잘못된 내용을 발견했을 때 그 부분을 떼어내고 어색한 부분을 감수해야 했다.

심한 경우 삭제된 부분을 다른 내용으로 채워 넣거나, 더 심할 경우 녹음을 새로 해야 했는데 이런 과정으로 인해 방송, 영화 등 소리를 다루는 음향 편집자들이 고충을 토로해왔다. 문제가 될 수 있는 내용을 찾아내기도 힘들지만 그 내용을 보완하기도 매우 힘들었다.

그러나 ‘보코’의 경우 소리 속에 들어있는 파형을 보면서 수정·보완하는 것은 물론 복제가 가능하며, 또한 다른 소리로 변형시키거나 새로운 담화 내용을 만들어낼 수 있는 등 다양한 방식으로 소리 재편집이 가능하다.

이에 따라 어떤 내레이션을 수정해야 할 경우 필요한 부분을 떼어내 다른 내용을 집어넣은 후 수정된 부분을 자연스러운 톤으로 조정해 마치 현장에서 그런 발언이 있었던 것처럼 담화 내용을 확대해나갈 수 있다.

다른 강도와 억양의 소리 창출 가능해


핑클스타인 교수는 “이 과정이 컴퓨터 자판을 두들기는 것처럼 자연스럽게 이루어진다”고 말했다. 컴퓨터를 가지고 문서를 편집하다 오자나 잘못된 문장을 고쳐나가듯이 자판을 치면서 내레이션을 수정할 수 있다는 설명이다.

이 기술이 가능했던 것은 음소(音素, phonemes)라 불리는 사람의 말소리를 자유자재로 조절해 변형시킬 수 있는 최적화 알고리듬을 개발했기 때문이다. 예민한 소리분석 과정을 통해 음소를 분석하고, 그 파형을 수정·보완해나갈 수 있다.

같은 사람이라도 발언 상황에 따라 톤이 다르고 억양 역시 다를 수 있다. ‘보코’는 이 다른 점을 파악하는 것이 가능하다. ‘보코’는 단어, 혹은 문장마다 다른 파형을 파악한 후 필요한 부분을 삭제·보완해나갈 수 있다.

기존 소리에 또 다른 파형을 첨가해 완전히 다른 강도와 억양을 지닌 소리로 변형시켜나갈 수도 있다. 소리를 보완한 후 발언자의 마음에 들지 않을 수 있다. 이를 위해 여러 가지 유형의 발언을 편집한 후 발언자의 선택을 구할 수 있다.

관계자들은 ‘보코’를 적용할 경우 영화, 비디오 등 소리를 다루는 분야에 큰 영향을 미칠 것으로 보고 있다. 인공지능, 로봇처럼 사람들과 대화를 필요로 하는 분야에서도 이 소리 재편집을 기술이 필요할 것으로 보인다.

특히 내려받기를 통해 방송 내용을 시청할 수 있는 팟캐스트(Pod cast) 같은 프로그램에서는 ‘보코’와 같은 기술을 절실히 요청하고 있었다. 이 기술을 통해 내용을 보완하는 것은 물론 잘못된 발언으로 인한 사고를 미연에 방지할 수 있을 것으로 보인다.

가짜뉴스와 범죄 발생 가능성 우려

머신러닝 전문가인 어도비 리서치의 진제위(Zeyu Jin) 연구원은 “이 소리 재편집 기술이 광범위한 분야에서 사용이 가능할 것”이라고 말했다. “특히 사고로 인해 말을 못하게 된 환자들을 위해 소리를 재생할 수 있는 장치를 개발할 수 있다”고 말했다.

머신러닝 기술을 활용할 수도 있다고 말했다. 신경퇴행성 질환에 걸린 환자가 입과 혀의 근육을 잘 움직이지 못할 경우 눈꺼풀의 움직임을 통해 그 사람이 말하고 싶은 내용을 파악해 소리를 재생시킬 수 있다고 설명했다.

긍정적인 측면도 있지만 부정적인 측면도 상존하고 있다. ‘보코’를 통해 소리를 마음대로 조작할 경우 어떤 말이 기계음이 아닌지 분간이 힘들어 조작된 말소리가 진짜인 것처럼 위장하는 범죄 사례가 빈번하게 발생할 것으로 보인다.​

심한 경우 출연자나 성우 없이도 음성 조작이 가능해 배우나 성우의 역할이 그만큼 줄어들 가능성도 매우 큰 것으로 우려되고 있다. ‘보코’ 개발을 시작할 때부터 제기돼온 논란이다. 핑클스타인 교수도 이를 인정하고 있다.

‘사이언스 데일리’와의 인터뷰를 통해 “이 프로그램을 어떻게 사용해야 하는지에 대해 논란이 있을 것”이라고 말했다. “그러나 과거 포토샵(Adobe Photoshop)의 사례처럼 이런 유형의 논란은 항상 있어 왔다”고 말했다.

“포토샵으로 인해 가짜뉴스도 범람하고 있지만 영상 분야 전반에 기여한 점 역시 매우 크다”며 소리 재편집 기술인 ‘보코’ 역시 유사한 과정을 거칠 것이라고 내다봤다. 포토샵처럼 이 기술이 상용화될 수 있을지 관심이 집중되고 있다.


이강봉 객원기자 aacc409@naver.com
저작권자 2017.05.16 ⓒ ScienceTimes