[진정한 ‘핸즈 프리’ 시대 오나] 음성제어 기기·서비스 봇물

인공지능 비서, 사물인터넷, e커머스로 확대 … 정확도·사생활 침해 등 과제 산적

아마존·구글·애플·삼성 등 유통·소프트웨어·IT제조 각 분야의 글로벌 기업이 음성제어 기기와 서비스를 쏟아 내고 있다. 국내 대기업들도 독자 서비스 개발에 열을 올리고 있다. 통신 3사는 음성인식 기술을 탑재한 스피커형 제품으로 승부수를 띄웠고, 네이버·카카오 등 IT 업체도 관련 서비스 출시를 예고했다. 음성제어 서비스가 차세대 모바일 전장으로 급속히 떠오르고 있다.

음성제어 서비스 시장이 급팽창하고 있다. 2011년 애플은 아이폰에 ‘시리’를 탑재하면서 이 시장으로 시선을 돌렸다. 글로벌 유통기업 아마존은 ‘에코’라는 스피커에 ‘알렉사’라는 인공지능(AI) 서비스를 탑재해 스마트홈 사업으로 영역을 넓혔다. 이에 뒤질세라 구글도 가정용 스피커와 스마트폰을 통해 AI 서비스를 구동하는 ‘구글 어시스턴트’를 내놨다. 국내서도 SK텔레콤(누구)과 네이버(아미카)가 이 시장에 진출했다. 삼성전자는 음성인식 기반 AI 서비스 ‘빅스비’를 자사 스마트폰에 탑재하고 적극적인 마케팅에 나섰다.

스피커에 말만 하면 조명·가전이 ‘척척’

음성제어 서비스는 디지털 기기가 사용자의 말을 이해해 관련 작업을 실행하는 기술이다. 음성인식·머신러닝·자연어분석·AI 등의 첨단 기술과 결합해 사용자가 원하는 복잡한 기능을 수행한다. 지금은 손으로 놀려 데스크톱이나 스마트 기기에서 정보를 찾고 서비스를 요청하지만, 이 모든 활동을 목소리로 대체할 수 있다는 얘기다. 지시만 하면 대신 실행해주는 비서 같다고 해서 관련 소프트웨어를 두고 ‘AI 비서’라고 부르기도 한다.

최근의 트렌드는 손 안의 스마트폰 AI 비서를 넘어 사물인터넷(IoT)을 활용해 목소리로 여러 기기를 제어하는 ‘홈 어시스턴트(Home Assistant)’다. 음성인식이 가능한 스피커에 명령어를 말하면 AI가 이를 판단하고 사물인터넷으로 연결된 조명·TV·에어컨 같은 각종 전기·전자 제품을 작동시키는 것이다. 이에 따라 사람의 말을 인식할 AI스피커 시장도 빠르게 성장하고 있다. 이름과 모양은 스피커지만 사실상 사람의 말을 인식하는 ‘마이크’ 장치다. AI 스피커 전문가인 베르너 괴르츠 가트너 책임연구원은 “AI 스피커 시장 규모가 2020년까지 약 2조 1000억원 규모로 커질 전망”이라며 “3년 안에 100가구 중 3곳이 거실에서 AI 스피커를 사용하고 있을 것”이라고 내다봤다.

현재 글로벌 음성제어 서비스 시장에서 가장 두각을 나타내고 있는 건 아마존이다. 아마존은 2014년 11월 음성제어 스피커 에코를 출시했다. 스피커 형태로 나온 음성제어 전용 제품은 에코가 처음이다. 원통형의 스피커에 마이크와 스피커가 내장돼 있어 음성으로 명령하면 내용이 AI가 있는 클라우드에 전달되고, AI 코어가 명령을 파악한 후 동작을 수행하거나 적절한 답변을 준다. 미국과 영국에서 180달러에 출시돼 지금까지 500만대 이상 판매됐다. 최근에는 음성인식 성능을 개선하고 내장 스피커를 제거해 소형으로 제작한 ‘아마존 도트’와 외부 전원 없이 사용할 수 있어 휴대성을 강조한 ‘아마존 탭’도 출시했다.

애플도 폐쇄성 버리고 개발 소스 공개

아마존은 현재 7000개가 넘는 제조 업체를 파트너로 확보하고 있다. 아마존의 알렉사와 에코로 작동시킬 수 있는 스마트 기기가 그만큼 많다는 얘기다. 아마존이 알렉사의 사용 범위를 넓히기 위해 제조 업체에 소프트웨어 개발도구(SDK)을 공개한 결과다. LG전자·하이얼 등 가전 업체와 스마트폰 업체인 화웨이, 완성차 업체인 폴크스바겐·포드·현대차 등이 알렉사를 적용한 기기를 선보였다. 스마트폰·가전·자동차 등 하드웨어 제조기업뿐 아니라 서비스 기업도 알렉사를 활용하기 시작했다. 커피 프랜차이즈 스타벅스는 알렉사를 자사 스마트폰 애플리케이션(앱)에 시험 적용한다. 앱을 켜고 매장 점원에게 주문하듯 말하면 자동으로 커피 주문이 들어가는 방식이다.

구글 또한 가정용 음성인식 IoT 플랫폼 ‘구글 홈’ 확산에 적극적이다. 구글은 지난해 10월 음성제어 서비스 ‘구글 어시스턴트’를 선보였다. 아마존 에코와 마찬가지로 항아리 모양의 스피커를 통해 가전기기 자동화, 질의응답 등의 작업을 수행한다. 구글 어시스턴트는 자사가 보유한 검색기능과 AI기술, 다양한 언어 지원 등이 강점이다. 이를 기반으로 날씨·교통·금융·경기결과 등 다양한 질문에 대한 답변이 가능하다. 사용자의 과거 명령 기록이나 다른 사용자의 질문 패턴 데이터가 쌓여 있어, 이를 학습하는 AI가 사용자가 원하는 질문에 가까운 답을 줄 수 있다. 구글 캘린더, 크롬캐스트, 유튜브 같은 기존 구글 서비스와 연동해 사용하기 쉽다. 가전 영역에서는 LG전자 등과의 동맹으로 구글 어시스턴트의 영향력을 확장하는 중이다.

‘시리’와 ‘애플 홈’ 앱으로 무장한 애플의 음성제어 플랫폼 ‘홈킷’이 다크호스로 등장할 가능성도 있다. 애플은 2011년 아이폰4S 출시와 함께 음성인식 기반의 가상비서인 시리를 공개했다. 출시 초기에는 인식률이 낮아 활용도가 높지 않았다. 하지만 시간이 지날수록 시리의 인식률은 향상됐다. 최근에는 기존의 폐쇄적인 운영시스템(OS) 운용 방침도 버렸다. 시리의 소프트웨어 개발도구를 공개하고 누구나 시리 기반 음성지원 기기를 개발할 수 있도록 했다. 이와 함께 iOS 10으로 업그레이드하면서 이 기기들의 허브 역할을 하는 홈 앱을 아이폰 등에 기본으로 탑재했다. 이를 활용해 애플 홈킷을 지원하는 기기를 통합 제어할 수 있다.

애플은 최근 별도의 음성제어 스피커도 출시했다. 애플은 지난 6월 ‘세계개발자회의(WWDC) 2017’에서 음성제어용 스피커 ‘홈팟(HomePod)’을 공개했다. 홈팟을 통해 기존에 아이폰으로 했던 것과 같이 날씨·뉴스·교통상황·쇼핑정보·스케줄·알람정보 등을 전달하고 음성으로 메시지를 보낼 수 있다. 기타 홈킷과 연동된 기기도 조작할 수 있다. 가장 주목되는 기능은 애플이 서비스하고 있는 ‘애플뮤직’을 아이폰뿐만 아니라 가정에서도 사용할 수 있게 된다는 것이다. 유료 회원이라면 가정에서 원하는 곡을 추천받거나 원하는 곡을 틀도록 명령할 수 있다. 아마존 에코와 구글 어시스턴트 역시 디지털 음원 서비스 스포티파이, 튠인, 판도라, 유튜브뮤직 등의 서비스를 제공하지만, 애플뮤직의 사용자가 흘러간다는 점에서 다른 서비스에 비해 영향력이 클 것으로 보인다.

국내 기업은 한국어 자연어 처리 강점

국내에서도 통신·IT 업체 간 음성제어 기기 시장의 경쟁이 치열하다. 국내 업체의 경우 한국어 인식에 초점을 맞추는 만큼 국내 소비자 입장에서 활용도가 더 높을 수 있다. SK텔레콤은 독자 개발한 자연어 처리엔진을 기반으로 지난해 9월 국내 최초로 홈 어시스턴트 ‘누구’를 출시했다. 홈 IoT 기능과 함께 멜론과 연계한 음악 서비스, 날씨 확인, 일정 관리 기능 등을 제공한다. SK텔레콤 관계자는 “콘텐트와 금융 분야, 온·오프라인 연계(O2O) 업체와의 주문배달, 오프라인 유통 업체와의 제휴를 통해 실제 활용할 수 있는 서비스를 늘려나갈 계획”이라고 말했다. 개발자용 소프트웨어 개발도구와 응용프로그래밍 인터페이스(API)도 연내에 공개해 더 많은 개발 업체가 누구를 활용한 프로그램을 만들 수 있게 한다는 방침이다. KT도 올해 초 스피커형 셋톱박스 ‘기가지니’를 내놨다. 음성으로 내린 명령을 TV 화면으로 보여주는 방식으로 다른 음성인식 스피커와 차별화를 꾀했다. 삼성전자는 내년 초 열릴 ‘CES 2018’에서 빅스비가 적용된 스피커를 공개할 예정이다. 빅스비가 현재 갤럭시8 사용자를 통해 새로운 상황과 맥락을 학습하고 있어 내년 초 공개될 삼성 AI 스피커는 한층 강화된 음성인식과 가족 구성원별 개인 계정 기능을 갖출 것으로 보인다.

네이버도 지난해 음성제어 서비스인 ‘아미카’를 개발했다. 네이버는 일본 메신저 자회사인 라인과 함께 글로벌 시장에 출시할 계획이다. 날씨나 일정, 버스 도착시간을 알려주고 출근할 때 듣기 좋은 노래 등을 추천하고 음식 주문이나 호텔 예약도 가능하다. 국내 검색 플랫폼 기반과 한국어 자연어 처리라는 강점을 무기로 국내 홈 어시스턴트 시장에서 큰 영향력을 보일 것으로 예상된다. 네이버 역시 아미카의 API를 공개해 다양한 파트너들과 아미카를 활용한 서비스를 선보일 계획이다. 특히 삼성의 사물인터넷 플랫폼 ‘아틱’에 아미카를 탑재해 시너지 효과를 노리고 있다. 카카오도 발걸음이 바빠졌다. 임지훈 카카오 대표는 지난 5월 1분기 실적발표 컨퍼런스콜에서 “카카오는 세상의 모든 것을 연결하고 있고, 사람에게 가장 익숙한 인터페이스인 음성으로 내가 원하는 모든 것을 할 수 있게 될 것”이라며 “7월에 음성으로 동작하는 인공지능 앱을 출시하고, 3분기에는 인공지능 스피커를 출시할 것”이라고 밝혔었다.

음성제어 서비스는 각종 기기를 제어하는 것뿐 아니라, 전자상거래에까지 스며들어 주문과 결제, 상품 추천까지 영역을 넓힐 것으로 보인다. 디지털 기기와 대화하듯이 쇼핑하고 포털사이트에서는 개인 맞춤형 상품을 검색할 수 있도록 한다는 것이다. 유통업 기반인 아마존의 에코는 이미 관련 기능을 탑재했다. 에코에 사용자가 “A브랜드 칫솔 4개 주문해줘”라고 명령만 내리면 데이터베이스(DB)에서 상품을 검색해 “4개들이 상품이 16.91달러인데 결제할까요?”라고 되묻는다. 사용자가 다시 음성 명령을 내리면 아마존 계정을 통해 결제가 이뤄지고 등록된 주소로 상품이 배송되는 식이다. 아마존은 최근 7인치 화면과 카메라가 달린 스피커인 ‘에코쇼’를 선보였다. 에코쇼는 사용자가 쇼핑할 때 화면을 통해 상품을 확인할 수 있도록 도와준다. 스피커에 카메라 기능만 추가 탑재한 ‘에코룩’은 자신의 패션 스타일을 저장하고 다른 이로부터 조언을 받고자 할 때 활용할 수 있는 기기다.

음성제어, AI·빅데이터 토대로 재도약

KT의 ‘기가지니 아파트’ 플랫폼이 적용된 AI 아파트는 음성을 인식해 집 안팎을 제어한다. / 사진:KT

SK텔레콤 누구는 자회사인 SK플래닛이 운영하는 커머스 서비스 ‘11번가’의 쇼핑 DB를 활용했다. 아직까지 기능이 제한적이지만 사용자는 ‘오늘의 추천 상품’과 ‘이번주 추천 도서’ 등의 정보를 음성으로 안내받고 결제까지 할 수 있다. SK텔레콤은 CU를 운영하는 BGF 리테일과 협력해 편의점에도 AI 스피커를 보급할 예정이다. KT는 기가지니에 배달음식 주문 등을 시작으로 쇼핑 기능을 추가하고 있다. 올해 3분기 출시를 목표로 AI 스피커를 준비 중인 네이버와 카카오 역시 커머스 기능을 기기에 넣을 예정이다. 네이버의 쇼핑 검색 도구인 ‘네이버쇼핑’과 카카오의 카카오톡 ‘주문하기’ 및 ‘장보기’ 서비스 등을 각 사의 음성제어 시스템에 접목될 것으로 전망된다. 삼성전자는 빅스비에 커머스 기능을 추가할 계획이다. 빅스비의 이미지 인식 기능인 ‘비전’으로 물건을 찍으면 온라인 판매처와 가격, 유사 상품 등을 검색해 알려준다. IT 업계는 빅스비의 이미지를 통한 상품 검색 기능이 최종적으로는 커머스 사업으로 이어질 것으로 보고 있다.

자동차·건설사·금융권도 음성인식 기술 활용에 나서고 있다. 현대·기아차는 카카오의 AI 플랫폼인 ‘카카오 I(아이)’의 음성 인식을 활용한 ‘서버형 음성인식’ 기술 개발을 완료하고, 9월 출시 예정인 제네시스 G70에 처음 적용한다고 밝혔다. 음성인식 버튼을 누른 후 ‘길안내+상호’를 말하는 것만으로 목적지를 검색할 수 있다. 이번 AI 음성인식 적용은 내비게이션 서비스에 한해 이뤄지지만 두 회사의 협력 범위가 확대될 가능성도 있다. 차량에서 휴대전화 없이 인터넷 음원을 이용하거나 카카오톡을 주고받는 것도 가능해질 수 있다는 얘기다. 건설사들은 통신사와 협력해 엘리베이터·전등·가스밸브 등을 음성인식으로 제어하는 ‘홈 오토메이션’ 서비스를 신축 아파트·오피스텔에 적용하기 시작했다. 금융권에서도 AI 음성인식 서비스를 속속 도입하고 있다. 우리은행은 지난 3월 음성명령만으로 계좌 조회나 이체를 할 수 있는 AI 음성인식 서비스인 ‘소리(SORi)’를 출시했고, 신한은행도 ‘신한S뱅크 미니 플러스’를 내놨다.

이런 추세라면 음성제어 서비스는 앞으로 웨어러블 디바이스, 자율주행·지능형자동차, 로봇 등과 결합할 가능성이 크다. 기기 판매나 광고 연계 등 새로운 가치가 창출된다는 얘기다. 송지환 소프트웨어정책연구소 선임연구원은 “홈 어시스턴트 시장은 스마트 홈뿐만 아니라 스마트 빌딩, 스마트 시티, 커넥티드 카, 웨어러블 기기 등 전반적인 IoT 시장까지 활성화시킬 것”이라고 전망했다. 의료 서비스도 함께 발전할 것으로 기대되는 분야다. 유재흥 소프트웨어정책연구소 선임연구원은 “음성인식 소프트웨어는 의료용 로봇이나 개인 의료보조 기기 제어, 언어장애·감정·신체상태 같은 개인 건강상태 분석 솔루션으로 글로벌 시장 진출 잠재력 보유하고 있다”고 분석했다.

음성제어는 이렇게 여러 분야에서 각광받고 있지만 정작 신기술은 아니다. 역사적으로는 1952년 미국 통신업체 AT&T의 벨 연구소가 단일 음성으로 말하는 숫자를 인식하는 ‘오드리’를 개발하면서 시작됐다. 이후 미국을 필두로 영국·일본 등의 연구소들이 사람의 말을 인식하는 전용 하드웨어 개발에 적극적으로 나서면서 발전했다. 1990년 낱말 단위 인식과 표현이 가능한 최초의 소비자용 음성인식 제품 ‘드래곤 딕테이트’가 출시되면서 상용화가 임박했다며 떠들썩해지기도 했다. 당시 “앞으로 10년 내에 컴퓨터에서 키보드가 사라지고 대신 마이크가 필수 부품이 될 것”이라는 전망도 나왔다. 그러나 음성제어의 확산은 기대에 못 미쳤다. 일단 음성인식이 정확성이 높지 않았다. 제대로 알아듣지 못하는 음성인식 기기는 조롱의 대상만 됐다. 키보드 사용 습관도 걸림돌이 됐다. 데스크톱은 고정된 환경에서 사용됐기 때문에 굳이 키보드 대신 말로 제어할 필요성이 적었다는 분석이다.

소비자의 불안감 떨치게 해야

찬밥 신세에 머물던 음성제어가 최근 들어 다시 주목을 받는 이유는 관련 기술이 발전하고 디지털 기기 사용 환경이 바뀌었기 때문이다. 무엇보다 AI와 빅데이터 기술 수준의 향상이 큰 영향을 미쳤다. 기계가 사람의 말을 알아듣는 과정은 두 단계로 나뉜다. 첫째, 발음을 알아듣고 이를 받아쓸 수 있는 음성인식 기술, 그리고 이 말이 무슨 뜻인지를 분석하는 자연어 인식 기술이다. 첫 단계인 음성인식 기술은 최근 5년 사이 크게 발전했다. AI와 빅데이터를 통해 기계가 스스로 학습하는 ‘딥러닝’ 기술이 보편화된 덕이다. 또 모바일 시대로 오면서 고정된 자리에서의 키보드 사용이 줄었다. 스마트 기기를 손에 들고 다니는 만큼 손 외의 다른 제어 방법에 대한 욕구가 커진 점도 작용했다.

아직 음성제어 기술이 완벽하지는 않다. 특히 정확도는 한계로 지적되는 부분이다. 음성인식의 두 번째 단계인 자연어 처리 과정에서 아직 넘어야 할 산이 높다. 사람이 한 말을 똑바로 알아 들었다 하더라도 어떤 상황에서 어떤 뉘앙스로 그 말을 했는지 맥락을 파악하는 건 아직 기계에게 쉽지 않다는 얘기다. 이를 제대로 인식하지 못해 명령을 제대로 수행하지 못하는 경우가 비일비재하다. 음성인식과 마찬가지로 자연어 처리를 위한 해결책도 기계가 스스로 학습을 통해 진화하게 하는 것이다. 그러나 이는 반대로 말하면 그만큼 많은 시행착오와 시간이 필요하다는 뜻이기도 하다. 전문가들은 이 때문에 음성제어가 ‘승자독식’의 시장이 될 가능성이 크다고 예상한다. 사용자 수와 데이터량의 선순환을 구축하는 1등 기업만 파이를 점점 더 키울 것이란 얘기다. 관련 기업들이 가격 할인 등을 통해 음성인식 기기의 보급에 힘쓰는 것도 이 때문이다.

목소리와 소음 구분 문제도 풀어야 한다. 음성제어 서비스는 주변 소음이 큰 곳에서는 정확도가 떨어진다. 그만큼 차 안이나 방 안 같은 한정된 곳 외에서는 활용도가 떨어진다는 지적이다. 사용자의 목소리를 구분하는 기술도 개선이 필요하다. 현재도 사람마다 다른 성문을 구분하는 기능을 탑재한 기기들이 있지만 역시 정확도가 높지 않다. TV 속 목소리와 실제 사람 목소리를 구분하지 못하는 사례도 비일비재하다. 이 때문에 일부 전문가들은 음성제어 기술은 아직 시장의 판도를 바꾸기는 어렵고 지금 시점에서는 마케팅 포인트로 봐야 한다고 지적하기도 한다. 소비자의 불안감도 넘어야 할 산이다. 가령 목소리만으로 주문과 결제가 가능해진다 하더라도 사용자가 시각으로 확인하는 게 제한된 과정을 신뢰할 수 있는지 문제다. 특히 음성인식 기술의 정확도가 충분한 신뢰를 확보하지 않은 상태에서는 이런 불안감은 음성제어 기기 확산의 제한 요소가 될 수밖에 없다. 또 사용자가 좀 더 많은 정보를 활용해야 서비스가 활성화되는 구조이기 때문에 개인정보 사용 확대에 따른 사생활 침해 문제가 발생할 개연성이 높다. 최근 나오는 AI 스피커 제품들이 이를 감안해 사생활 보호 기능을 탑재하고 있지만, 결과적으로 이는 기기 활용과 데이터 수집에 걸림돌이 된다. 조환규 부산대 컴퓨터공학과 교수는 “음성 기기가 성공을 거두려면 소비자의 필요나 욕구를 얼마나 만족시킬 수 있느냐가 중요하다”며 “대중은 의외로 기기를 사용하는 데 보수적이기 때문에 불완전한 기능을 보완하고, 편리성을 제고하는 게 성공의 관건이 될 것”이라고 말했다.

ⓒ이코노미스트(https://economist.co.kr) '내일을 위한 경제뉴스 이코노미스트' 무단 전재 및 재배포 금지