애플 Home Pod을 통해 본 음성 주도 시대


기계 학습 기술의 발전에 따라 그 간 답보상태의 음성 인식 성공률이 크게 높아졌다. 이에 따라 B2C 제품의 사용자 인터페이스로 음성을 사용하는 것이 확산되고 있다. 사용자는 그 간 복잡한 리모컨이나 앱에서 제공하는 IFTTT ( If This Then That ) 방식으로 제품을 직접 제어해야 만 했다. 음성 인터페이스는 이러한 기존의  문제를 해결해 준다.  또한 비즈니스적으로도 음성 인식 스피커 시장은 크다. 가트너의 의하면 2020년까지 인공지능 스피커 시장 규모를 20억 달러(약 2조 2,740억 원)에 달할 것으로 예상하고 있다.


음성 인터페이스 주도 ( Voice First ) 시대가 도래하고 있다.


  • 음성 인터페이스 시대를 주도하기 위한 업체들의 경쟁도 치열하다. 

  • MS는 5월 8일 인공지능 음성비서  코타나를 탑재한 하만 카돈 인보크(Harman Kardon Invoke)를  선보였고 3분기 상용 판매될 예정이다. 

  • 애플은 6월 7일 HomePod를 선보이고 올해 12월 공식 판매한다.  

  • 라인은 6월 15일  네이버의 AI 플랫폼인 클로바(Clova)를 탑재한  웨이브(WAVE)를 시연하고, 올 가을 출시한다고 발표했다.  

  • 알리바바는 6월 30일 AI 스피커를 출시할 것이라고 발표했다.  

  • 삼성전자도 빅스비를 지원하는  스피커를 선보일 예정이다(WSJ , 7월 4일) 음성 스피커 분야를 리드하고 있는 아마존은 터치 스크린을 장착한 고급형 에코 스피커를 출시할  예정이다.


현재 아마존 에코는 180달러, Echo Dot의 49.95달러, Google Home은 129달러, 라인 Wave는 1만 5,000엔(선행 모델은 1만 엔),  애플 HomePod은 349달러에 판매된다. 대부분의 업체들은 초기에 사용자를 확보하고 시장의 주도권을 잡기 위해 저가전략을 구사하고 있다. 그러나 애플은 HomePod의  가격을 349달러로 책정하고 경쟁자와 다른 전략을 펼치고 있다. 과연  어떤 value가 있는지 꼼꼼히 살펴보자. 


우수한 품질의 음향 스피커  


HomePod은  애플의 첫 번째 원거리 음성지원 기기이다.  Apple의 자체 오디오 기술과 AI 소프트웨어를 통해 어떤 위치에서나 풍부한 하이파이(High Fidelity, Hi-Fi) 사운드를 들을 수 있다.  또한 고출력 우퍼(woofer)와 맞춤형 앰프, 20mm 진동 막을 사용하여 깊고 풍부한 저음을 다양한 형태로 재생할 수 있다.  


HomePod은 인공지능 기반의 제어 알고리즘을 통해 음악을 지속적으로 분석하고 조절함으로써 부드럽고 왜곡 없는 최상의 저음을 구현했다. 그리고 7개의 고음 스피커인 빔 포밍 트위터가 장착되어 아주 좁은 빔으로도 정확한 음향을 찾아내어 생생하며 안정적인 360도 서라운드 오디오 효과를 낼 수 있다. 또한 어떤 장소에 설치하여 어떤 위치에서 감상하더라도 주위 공간 곳곳에 빔을 쏘아 트위터를 통한 몰입적인 환경을 만들 수 있다고 한다. 아이튠 등을 통해 얻은 사운드에 관한 경험과 기술을 적용한 우수한 Wifi 스피커 임은 분명해 보인다.  


HomePod 구성 요소 및 내부 구조 - 출처:AppleHomePod 구성 요소 및 내부 구조 - 출처:Apple


HomePod 구성 요소 및 내부 구조 - 출처:Apple


HomePod에서 가장 가치 있는 혁신은 음악 스트리밍 기술이다. 


HomePod은 주방보다는 거실이나 방 안에 설치하는 게 좋다. Amazon의 Echo는 주방에 최적화된 형태로 출시되었으며 최근 출시된 Echo Show도 터치스크린과 카메라 등이 추가되어 더욱 주방에 적합하다.                           


주방에 최적화된 아마존 Echo Show주방에 최적화된 아마존 Echo Show


주방에 최적화된 아마존 Echo Show



고성능 Apple A8칩을 사용하여 버퍼링 속도를 업계 최고 수준으로 높였다. 이를 통해  우퍼의 강력한 음향 효과를 실시간으로 바로 표현하고 음악 스트리밍 시 끊김 현상이 발생하지 않는다  필자도 거실에 음성인식 스피커를 사용 중이다. 거실에서 사용 시 가장 짜증 나는 순간이 TV 등에서 나오는 소리에 반응하는 것이다. HomePod은  6개의 원거리장 빔 포밍 마이크를 사용한 반향 소거 기술을 통해 음악 재생 중 울림이나 주위의 소음 속에서도 사용자의 목소리를 구별하여 이 문제를 해결한다.


거실에 최적화된 HomePod



HomePod은 AirPlay 2로 제어되는데, AirPlay 2 네트워크는 여러 개의 스피커 장치를 추가할 수 있도록 설계되었다. AirPlay 2는 같은 공간 안에 2대의 HomePod을 설치할 경우 각각의 사운드를 분리하여 보다 폭넓은 스테레오 효과를 낼 수 있는 강력한 기능을 제공한다.  


주요 특성은 다음과 같다. 


  • Apple자체 A8 칩 탑재

  • 은색(SpaceGrey) 또는 흰색 색상의 부드러운 메쉬 형태

  • 고출력 우퍼

  • 저주파 측정형 마이크 내장으로 저음 자동 조절

  • 원거리장 빔 포밍 방식의 마이크 6개 내장

  • 혼형태의 빔 포밍 트위터 7개에 각각 맞춤형 앰프 연결

  • 터치 감지 방식의 LEDWaveform 표시 및 제어 기능  


규격: 높이 6.8인치 (172 mm) , 넓이 5.6인치 (142 mm) 

무게:  5.5파운드 (2.5 kg)   



암호화 및 익명화를 통한 개인 정보를 보호하는 유일한 제품


“Hey Siri”라는 호출 명령을 내리면 HomePod 위쪽 LED Waveform표시 화면의 불빛이 켜지며 시스템의 음성인식 기능이 작동 중임을 알려 준다. 이후 녹음된 음성은 클라우드 인식 및 의미 추출을 위해 암호화 및 익명화된다. 그에 따른 사운드 파일은 사용자의 요청에 따라 생성된다. 필자의 실험 결과 HomePod은 기능 호출 명령어 인식률이 가장 높은 혁신적인 기술을 사용하고 있는 것으로 나타났다. 


HomePod과 Siri에서 이루어지는 이 같은 익명화 기능은 앞으로 중요한 역할을 할 것으로 생각된다. Apple은 HomePod의 음성 인식 기능이 “Hey Siri”라는 음성 명령을 내릴 때에만 이루어지며 이때 LEDWaveform이 작동한다는 점을 강조하고 있다.  각 명령어에 암호화 및 익명화 처리가 이루어진다는 점을 명시한 것으로는 HomePod 가 유일하다. 또한 Apple에 따르면, Siri를 통해 사용자 명령의 의미 추출이 이루어진 후 오디오 및 그에 따른 데이터는 삭제된다.  



Siri를 통한 다양한 비서 기능을 제공하고 있다. 


Music (음악),  News (뉴스),  Unit Conversions (단위 변환), Messages (메시지) , Reminders (일정 알림), Podcasts (팟캐스트), Alarms & Timers (알람 및 타이머) , Translation (번역) , Stocks (주식), General knowledge (상식),  Weather (날씨) ,  Trafic & Nearby (교통 및 주변 상황),  Sports (스포츠),  Home (홈) (앱 목록) 


감성 인터페이스 


HomePod의  아날로그 사용자 경험을 제공한다.  기기 위쪽에는 사용자가 하는 말을 할 때마다 LED 파형이 표시되어 Siri가 작동 중이라는 사실을 알려준다. 별로 특별할 게 없는 듯하나 직접 사용해 보면 사용자는 이러한 반응에 따라 기기가 실제로 자신의 말을 듣고 있다는 느낌을 받게 되며, 따라서 일부러 큰 소리를 내지 않고 좀 더 자연스러운 말투를 사용하게 된다.


작동중인 시리작동중인 시리

작동중인 시리




음악으로 차별화를 이루다. 


Apple의 발표 내용에 따르면 HomePod은 음악 분야의 전문가로서 Siri의 이미지를 부각할 예정이다. Apple은 음악에 중점을 둔 Siri를 Musicologist라 부르고 있다. 여기에는 Apple Music 확장 버전을 비롯해  타 음악 플랫폼들도 추가될 예정이다. 초기 음악에 집중하는 것은  HomePod을 인기 음악 재생 시스템으로 만들기 위한 계획이자 이를 통해 Apple Musi의 사용자 층을 확대하고 여러 경쟁 서비스들을 견제하려는 전략이기도 하다. 또한 기존 아이튠 등 음악 컨텐트 사업의 강화이기도 하다.  


음성 커머스 기능은 아직 보이지 않는다. 


현재 수준의 음성 커머스에 대해서는 냉정히 생각해 볼 것들이 많다.  지난 7월 5일 경제전문지 블룸버그에 재미난 기사가 실렸다. "아마존의 AI 스피커 에코가 특별 할인 쇼핑정보를 제공했지만 사용자들은 이를 이용하지 않았다. 여전히 소비자들은 마우스로 클릭하는 쇼핑을 선호하고 있다"라는 기사이다. 


또한 딜 뉴스닷컴은 "음성인식 쇼핑에 있어 가장 큰 문제는 목소리 크기나 억양 같은 것이 아니라 소비자에게 쇼핑에 필요한 정보를 PC쇼핑에 비해 현저하게 적다는 것이다"라고 한다.  이러한 소비자의 반응은 현재 음성인식 스피커가 가전제품을 제어하거나 음악 스트리밍 등에는 유용하나 쇼핑처럼 의사결정에 많은 정보가 필요한 서비스에는 아직 부족하다는 것이다.  


현재 아마존은  Echo로 구매 시 할인 행사를 하는 등 지속해서 음성 커머스 경험 확산을 하고 있다 또한 라인 웨이브도 음성 커머스를 강화할 예정이다. 이에 반해 애플은 아직 음성 커머스는 제공지 않고 있다. 음성 커머스로 초밥 구매 판단을 위해 보다 풍부한 정보를 어떻게 제공할 것인지 고민이 필요하다. 가령, 음성 구매 요청 시 관련 정보를 자동으로 등록된 사용자의 모바일폰 Push 해주는 것 등이 필요하다.  


음성 앱 플랫폼의 출시는? 


사용자들이 원하는 다양한 음성 기능을 자체적으로 제공하는 것은 불가능하다. 가장 효율적인 해결 방법은 음성 스피커용 앱 스토어 플랫폼을 만드는  것이다. 현재 아마존과 구글, 마이크로소프트는 음성 앱 플랫폼을 제공하고 있다.   지난 7월 4일 IT 전문매체 테크크런치의 기사에 의하면  현재 아마존  알렉사(Alexa)의 ‘스킬’은 1만 5000개를 돌파했다고 한다. 스킬은 알렉사에 쓰이는 ‘음성 응용프로그램’을 말한다.  구글의 AI 스피커 ‘구글 홈’은 6월 30일 기준 378개의 음성 응용 프로그램을 갖췄고 마이크로소프트의 음성 AI 비서 ‘코타나’는 현재 65개이다. 


아마존 Echo



아직 애플의 음성 앱 플랫폼 소식은 들리지 않는다. 그러나 기존의 앱 스토어에 추가되거나 별도로 제공되거나 어떤 형태이든 새로운 전략을 갖고 등장할 것은 분명하다. 아마 그 제공 시점은 HomePod의 확산 속도에 달려있을 것이다.  



음성 인터페이스 시대의 미래 


올해 미국에서 인공지능 음성 스피커를 쓰는 활성 이용자 수는 3억 5600만 명에 이를 것으로 예상된다. 이는 2016년과 비교하면 활성 사용자 수가 2배 이상 늘어날 것이라는 시장조사기관 이마케터의 조사 발표가 지난 5월 있었다.  이 조사는 단순히 음성 인식 스피커 시장 성장만을 의미하는 것이 아니라 기존 텍스트나 그래픽 중심의 사용자 인터페이스가 음성 인터페이스로 전환되고 있다는 것을 의미한다. 


이제 음성 인터페이스가 지원되지 않는 B2C 제품은 소비자의 외면을 받을 것이다. 이를 해결하기 위해서는 B2C 제품을 기획할 때부터  음성 인터페이스와 새로운 사용자 경험을 고려해야 한다. 이때 어떤 음성 인식 플랫폼을 쓸 것인지 크게 고민할 필요는 없다. 왜냐하면 다양한 버티컬 음성 앱 플랫폼이 출현할 것이기 때문에 적합한 것을 선택하여 사용하면 된다.  사용자는 하나의 스피커만을 쓰지 않을 것이다. 거실에는 애플이나 삼성전자의, 주방에는 아마존이나 MS의 스피커를, 아이들 방에는 아이들의 교육을 도와줄 스피커를 쓰는 것이 더 자연스럽다. 



Posted by 박재현