#1. AI 보이스 에이전트에 대한 우리의 견해
이제 전화통화의 패러다임을 새롭게 바꿀 시간이 왔습니다. 생성형 AI 덕분에 앞으로는 누구도 불필요한 전화를 할 필요가 없어질 것입니다. 사람들은 자신에게 진정한 가치가 있을 때만 통화에 시간을 투자하게 될 것입니다.
기업 입장에서 이러한 변화는 여러 이점을 가져올 수 있습니다: (1) 직원들의 통화 시간 감소와 인건비 절감, (2) 더 많은 수익 창출을 위한 자원 재배치 가능성, 그리고 (3) 더욱 규정을 준수하고 일관된 고객 경험을 통한 리스크 감소가 그것입니다.
소비자들에게는 보이스 에이전트가 실제 사람을 찾거나 비용을 지불할 필요 없이 사람 수준의 서비스를 이용할 수 있는 길을 열어줍니다. 현재는 상담사, 코치, 말벗 등의 서비스가 포함되지만, 미래에는 음성을 중심으로 한 훨씬 더 다양한 경험으로 확장될 가능성이 큽니다. 다른 소비자 소프트웨어와 마찬가지로, 이 분야의 '승자'를 예측하기는 어렵습니다! 전화통화는 세상과 연결되는 API이며, AI는 이를 한 단계 더 발전시키고 있습니다.
우리가 기회를 보는 곳
우리는 인프라 플레이어, 소비자 인터페이스, 기업용 에이전트 등 각 레이어마다 엄청난 기회가 있다고 봅니다. B2C 및 B2B 보이스 에이전트에 관해서는 가장 유망한 신규 제품들에 대한 몇 가지 가설을 갖고 있습니다.
이 분야에서 개발 중이시라면 omoore@a16z.com과 anish@a16z.com으로 연락해 주세요.
스택: 보이스 에이전트는 어떻게 구축하나요?
보이스 에이전트는 어떻게 구축될까요? GPT-4o 같은 새로운 멀티모달 모델들은 하나의 모델을 통해 여러 레이어를 동시에 작동시킴으로써 스택 구조를 변화시킬 수 있습니다. 이는 지연 시간과 비용을 줄이고, 더 자연스러운 대화형 인터페이스를 구현할 수 있게 해줍니다. 많은 에이전트들이 기존 구성 스택으로는 진정한 인간 수준의 품질에 도달하지 못했기 때문입니다.
보이스 에이전트가 작동하려면 사람의 음성을 인식하고(ASR), 이 입력을 LLM으로 처리해 출력을 만든 다음, 다시 사람에게 말하는(TTS) 과정이 필요합니다. 일부 회사나 접근법에서는 LLM 또는 여러 LLM이 대화 흐름과 감정 표현을 담당합니다. 또 다른 경우에는 감정을 추가하고 중단을 관리하는 등의 별도 엔진이 있습니다. "풀스택" 음성 서비스 제공업체는 이 모든 기능을 한 곳에서 제공합니다.
소비자(B2C) 및 기업(B2B) 앱은 이 스택 위에서 운영됩니다. 서드파티를 사용하더라도, 앱은 일반적으로 맞춤형 LLM을 연결하며, 이는 대화 엔진 역할도 함께 수행합니다.
풀스택 vs. 자체 조립
보이스 에이전트 창업자들은 풀스택 플랫폼(예: Retell, Vapi, Bland)을 활용하거나 스택을 직접 구축하는 방식 중 하나를 선택할 수 있습니다. 이런 결정을 내릴 때는 몇 가지 핵심 고려사항이 있습니다:
현재 각 스택 레벨별로 선두 기업들이 있습니다. 이것이 시장의 모든 것을 담은 지도는 아니지만, 보이스 에이전트 창업자들이 가장 자주 언급하는 이름들을 보여줍니다. 멀티모달 모델의 등장에 따라 이 스택 구조는 앞으로 크게 변화할 것으로 예상됩니다.
보이스 에이전트 인프라 회사를 개발 중이시라면, 저희 팀의 Jennifer Li(jli@a16z.com)와 Yoko Li(yli@a16z.com)에게 연락해 주세요.
B2B 에이전트: 우리의 견해
우리는 지금 1.0 AI 보이스(단순 전화 트리) → 2.0 AI 보이스(LLM 기반)으로 진화하는 과도기에 있습니다. 2.0 기업들은 최근 6개월 사이에 등장하기 시작했습니다. 1.0 기업들이 현재로서는 더 정확할 수 있지만, 2.0 접근 방식은 장기적으로 훨씬 더 확장성이 높고 정확해질 것입니다.
모든 종류의 기업용 보이스 에이전트에 적용되는 단일 수평적 모델이나 플랫폼은 존재하기 어려울 것입니다. 각 산업 분야마다 중요한 차이점들이 있기 때문입니다: (1) 통화 유형, 어조, 구조, (2) 시스템 통합 및 프로세스, 그리고 (3) 시장 진출 전략과 "킬러 기능"이 그것입니다.
이는 UI에 대해 명확한 관점을 가진 수직적 에이전트들이 폭발적으로 증가할 것임을 의미합니다. 이를 위해서는 해당 분야에 대한 깊은 전문 지식이나 강한 관심을 가진 창업 팀이 필요합니다. 인건비는 많은 기업의 최대 비용 항목이기 때문에, 이 문제를 "제대로 해결하는" 기업들에게는 큰 시장 기회(TAM)가 열려 있습니다.
가장 단기적인 기회는 전화 예약에 크게 의존하고, 심각한 인력 부족을 겪고 있으며, 통화 복잡성이 낮은 산업에 있을 것입니다. 에이전트가 더 정교해짐에 따라 점차 더 복잡한 통화도 처리할 수 있게 될 것입니다.
B2B 보이스 에이전트 분야에서는 세 가지 주요 기술 흐름이 관찰되었습니다:
많은 보이스 에이전트 기업들이 특정 산업(예: 자동차 서비스)이나 특정 유형의 작업(예: 예약 일정)에 특화된 수직적 접근법을 취하고 있습니다. 여기에는 몇 가지 이유가 있습니다:
- 실행의 복잡성: AI에 통화를 맡기기 위한 품질 기준이 높습니다. 대화 흐름(및 고객 측의 백엔드 프로세스)이 빠르게 복잡해지거나 세분화될 수 있기 때문입니다. 이러한 수직 분야의 "예외 상황"을 처리할 수 있도록 설계된 기업들이 성공 가능성이 더 높습니다(예: 일반 모델이 혼동할 수 있는 업계 특화 용어).
- 규제 및 인증 요건: 일부 보이스 에이전트 기업들은 특별한 규제나 필수 인증에 직면합니다. 의료 분야(예: HIPAA 규정 준수)가 대표적인 예이지만, 국가 수준의 AI 콜드 콜링 규제가 있는 영업과 같은 분야에서도 이러한 문제가 대두되고 있습니다.
- 시스템 통합 문제: 일부 카테고리에서 사용자 경험(기업과 소비자 모두)을 완벽하게 구현하려면 다양한 시스템 통합이 필요할 수 있습니다. 특정 사용 사례를 위해 개발하는 것이 아니라면 구축할 가치가 없는 특수 통합이 필요한 경우도 있습니다.
- 다른 소프트웨어로의 진입점: 음성은 예약, 갱신, 견적 등 핵심 고객 활동에 자연스러운 진입점이 됩니다. 특히 고객층이 여전히 주로 오프라인으로 운영되는 경우, 이는 해당 기업들을 위한 더 넓은 수직적 SaaS 플랫폼으로 확장되는 시작점이 될 수 있습니다.
B2B 에이전트: 우리가 기회를 보는 곳
LLM 기반 — 하지만 반드시 출시 첫날부터 100% 자동화되지는 않습니다.
AI 보이스 에이전트의 "이상적인 형태"는 기존의 대화형 음성 응답(IVR)이나 전화 트리 방식이 아닌, 완전히 LLM이 주도하는 대화가 될 것입니다. 그러나 LLM이 모든 과정에서 100% 신뢰할 수 있는 것은 아니기 때문에, 민감하거나 규모가 큰 거래에서는 (일시적으로라도) "인간의 개입"이 필요할 가능성이 높습니다. 이것이 바로 산업별 특화 워크플로우가 특히 중요한 이유인데, 이를 통해 예외 사례를 줄이면서 인간의 개입을 최소화하고 성공률을 높일 수 있기 때문입니다.
맞춤형 모델 튜닝 vs. LLM 프롬프팅 접근법.
B2B 보이스 에이전트는 일반 LLM만으로는 충분하지 않은 특수한(또는 산업 특화된) 대화를 다룰 수 있어야 합니다. 많은 회사들은 고객별 모델을 튜닝하고(수백 또는 수천 개의 데이터 포인트 활용) 이를 전사적 기본 모델로 확장해 나갈 가능성이 높습니다. 이러한 맞춤 튜닝은 기업 고객을 위해 계속 이어질 수도 있습니다. 참고로, 일부 회사들은 특정 사용 사례에 맞게 "일반" 모델(모든 고객에게 적용될)을 튜닝한 다음, 고객별로 프롬프트를 조정하는 방식을 취하기도 합니다.
도메인 전문성을 갖춘 기술 팀.
복잡성을 고려할 때, 고품질 B2B 보이스 에이전트를 구축하고 확장하는 데 AI 관련 경험이 도움이 됩니다 — 필수는 아니더라도 말입니다. 하지만 제품을 어떻게 패키징하고 해당 산업에 진출할지 이해하는 것이 동등하게 중요합니다 — 이를 위해 도메인 전문 지식이나 강한 관심이 필요합니다. 기업용 보이스 에이전트를 만들고 출시하는 데 AI 박사 학위가 꼭 필요한 것은 아닙니다!
통합과 생태계에 대한 명확한 시각.
앞서 언급한 것처럼, 각 산업 분야의 구매자들은 구매를 결정하기 전에 보고 싶어하는 특정 기능이나 시스템 통합 요소들이 있습니다. 사실, 이것이 바로 제품에 대한 평가를 단순히 "유용한" 수준에서 "획기적인" 수준으로 끌어올리는 결정적 요소가 될 수 있습니다. 이것이 특정 산업에 초점을 맞추고 시작하는 것이 합리적인 또 다른 이유입니다.
"엔터프라이즈급" 또는 강력한 제품 주도 성장(PLG) 전략.
상위 기업/공급자에 상당한 수익이 집중된 산업의 경우, 보이스 에이전트 회사들은 대기업부터 시작하여 결국 셀프 서비스 제품으로 중소기업 시장으로 "확산"될 수 있습니다. 중소기업 고객들은 이 분야의 솔루션을 간절히 원하며 다양한 옵션을 시험해볼 의향이 있습니다 — 다만 스타트업이 모델을 기업 수준으로 튜닝하는 데 필요한 규모나 품질의 데이터를 제공하지 못할 수도 있습니다.
B2C 에이전트: 우리의 견해
B2B 영역에서 보이스 에이전트는 주로 기존의 전화 통화를 대체하여 특정 업무를 완수합니다. 반면, 소비자 에이전트의 경우는 사용자가 지속적인 참여를 선택해야 하는데, 음성이 항상 편리한 상호작용 방식이 아니기 때문에 어려움이 있습니다. 이는 제품의 품질 기준이 "더 높아야 한다"는 의미입니다.
소비자 보이스 에이전트의 가장 명확하고 즉각적인 활용은 비용이 많이 들거나 접근하기 어려운 인간 서비스를 AI로 대체하는 것입니다. 여기에는 심리 상담, 코칭, 개인 교습 등이 포함됩니다 — 즉, 원격으로 진행할 수 있는 모든 대화 기반 서비스가 해당됩니다.
하지만 우리는 B2C 보이스 에이전트의 진정한 혁신이 아직 실현되지 않았다고 생각합니다! 우리는 보이스의 힘을 활용해 이전에는 존재하지 않았던 새로운 형태의 "대화"를 가능하게 하는 제품을 찾고 있습니다. 이는 기존 서비스의 형태를 완전히 재구성하거나 완전히 새로운 서비스를 창조할 수 있는 가능성을 의미합니다.
사용자 경험을 정교하게 구현한 제품들의 경우, 보이스 에이전트는 소프트웨어가 지금까지 달성하지 못했던 수준으로 소비자의 참여를 이끌어낼 기회를 제공합니다 — 진정한 인간적 연결을 구현하는 것이죠. 이는 에이전트 자체가 제품이 되거나, 또는 더 광범위한 제품 내에서 하나의 상호작용 방식으로 구현될 수 있습니다.
B2C 에이전트: 진화
지금까지 주요 소비자 AI 보이스 에이전트는 ChatGPT Voice와 Inflection의 Pi 앱과 같은 대기업에서 나온 것들입니다. 소비자 보이스 서비스가 더 느리게 등장한 데는 몇 가지 이유가 있습니다:
- 대기업들은 이미 소비자 유통 채널과 정확도, 응답 속도 등에서 최고 수준의 모델을 보유하고 있습니다. 보이스 서비스는 대규모로 제공하기가 쉽지 않습니다. 특히 GPT-4o의 최근 출시를 고려하면 더욱 그렇습니다.
- B2B 보이스 에이전트는 기존 프로세스에 AI를 "접목"하는 방식인 반면, B2C 보이스 에이전트는 사용자가 새로운 행동 방식을 받아들여야 합니다. 이는 채택 속도가 더 느리거나 더 매력적인 제품이 필요함을 의미합니다.
- 소비자들은 시리(Siri)와 같은 제품 경험으로 인해 보이스 AI에 대해 부정적인 인식을 갖게 되었고, 새로운 보이스 앱을 시도하려는 동기가 강하지 않습니다.
- 범용 AI 제품들은 이미 튜터링, 대화 상대 등 보이스 AI의 기본적인 사용 사례를 어느 정도 충족시키고 있습니다. B2C 보이스 스타트업들은 이제 ChatGPT, Pi 등이 다루지 않는 특화된 사용 사례나 독특한 경험을 만들기 시작하는 단계입니다.
B2C 에이전트: 우리가 기회를 보는 곳
보이스가 왜 필요한지에 대한 명확한 관점.
우리는 음성이 제품에 어떤 고유한 가치를 더하는지에 대해 확실한 견해를 가진 제품과 창업자들에 주목하고 있습니다 — 단순히 "음성을 위한 음성"이 아닌 것들입니다. 많은 경우에 보이스 인터페이스는 정보를 소비하고 추출하는 데 텍스트보다 불편하기 때문에 오히려 부정적인 효과를 가져올 수 있습니다.
실시간 보이스의 필요성에 대한 명확한 견해.
보이스 자체도 활용하기 어렵지만, 실시간 보이스는 더욱 어렵습니다(비동기식 음성 메시지와 비교했을 때). 우리는 왜 자신들의 제품이 실시간 대화를 중심으로 구축되어야 하는지에 대한 분명한 비전을 가진 창업자들에 관심이 있습니다 — 예를 들어 인간과 같은 동반자 경험이나 실전 연습 환경 등을 위한 것일 수 있습니다.
AI 이전의 제품을 단순 모방하지 않는 접근법.
우리는 성공적인 제품이 단순히 기존의 인간 대 인간 대화에서 사람을 AI 보이스 에이전트로 대체하는 직접적인 변환이 아닐 것이라고 생각합니다. 첫째, 그런 기준에 도달하기 어렵습니다. 더 중요한 것은, AI를 활용해 동일한 가치를 더 효율적이고 즐거운 방식으로 제공할 기회가 있다는 점입니다.
모델 품질만으로 승자가 결정되지 않는 수직화된 접근법.
주요 일반 소비자 AI 제품(ChatGPT, Pi, Claude)은 이미 고품질 보이스 모드를 갖추고 있습니다. 이들은 다양한 유형의 대화와 상호작용에 의미 있게 참여할 수 있습니다. 또한 자체 모델과 스택을 운영하기 때문에 단기적으로는 응답 속도와 대화 흐름 측면에서 우위를 점할 가능성이 높습니다.
우리는 특정 유형의 대화에 특화된 모델을 개발하거나, 보이스 에이전트 경험에 더 풍부한 맥락과 가치를 제공하는 UI를 구축함으로써 스타트업이 성공하는 모습을 보고 싶습니다 — 예를 들어, 시간에 따른 진행 상황 추적이나 독특한 방식으로 대화나 경험을 이끌어가는 기능 등이 그것입니다.
AI 보이스 에이전트를 개발하고 계시다면, omoore@a16z.com과 anish@a16z.com으로 연락해 주세요 — 여러분의 이야기를 듣고 싶습니다.
#2. AI 보이스 에이전트: 2025 업데이트
음성은 AI 기업들에게 가장 강력한 혁신 포인트 중 하나입니다. 음성은 사람들이 가장 자주 사용하고 정보를 가장 많이 담을 수 있는 소통 방식으로, AI 기술 덕분에 처음으로 "프로그래밍이 가능한" 영역이 되었습니다.
기업 입장에서 AI는 인간 노동력을 기술로 직접 대체합니다. 더 저렴하고, 빠르며, 안정적이고 — 때로는 인간보다 더 뛰어난 성능을 보입니다. 보이스 에이전트는 기업이 질문에 답변하고, 일정을 잡고, 구매를 완료하기 위해 24시간 고객과 소통할 수 있게 해줍니다. 고객의 가용 시간과 기업의 업무 시간이 더 이상 일치할 필요가 없습니다(서부 시간 오후 3시 이후에 동부 은행에 전화해 본 적 있으신가요?); 보이스 에이전트를 통해 모든 기업은 항상 서비스를 제공할 수 있습니다.
소비자 측면에서는, 음성이 사람들이 AI와 상호작용하는 첫 번째 — 그리고 아마도 주된 — 방식이 될 것이라고 생각합니다. 이런 상호작용은 언제든지 대화할 수 있는 친구나 코치의 형태가 될 수도 있고, 이전에는 접근하기 어려웠던 언어 학습과 같은 서비스를 누구나 이용할 수 있게 하는 형태로 나타날 수도 있습니다.
우리는 이제 AI 보이스 기술이 인프라 단계에서 응용 단계로 전환되고 있음을 목격하고 있습니다. 모델이 발전함에 따라, 음성은 그 자체로 제품이 아닌 새로운 가능성의 시작점이 될 것입니다. 우리는 음성을 시작점으로 삼아 더 넓은 플랫폼을 구축하는 스타트업들에 주목하고 있습니다.
AI와 음성에 관한 우리의 이전 연구:
안녕, AI: AI 보이스 에이전트에 대한 우리의 견해 (Olivia Moore, Anish Acharya)
AI 보이스 면접관 (Olivia Moore, Seema Amble)
AI 필기 (Olivia Moore, Anish Acharya)
AI 보이스 분야의 최신 동향은?
2024년은 AI 보이스 기술에 있어 획기적인 한 해였습니다. 우리가 마지막 AI 보이스 업데이트를 발표한 이후...
모델 개발의 진전으로 인프라 "스택"이 간소화되어 지연 시간이 줄어들고 성능이 향상된 보이스 에이전트가 등장했습니다. 이러한 개선은 주로 지난 6개월 동안 새로운 대화 모델들의 등장과 함께 이루어졌습니다.
이런 대화 모델들은 점점 더 저렴해지고 있습니다. 2024년 12월, OpenAI는 GPT-4o 실시간 API의 입력 가격을 60% 낮추어 백만 토큰당 40달러로, 출력 가격은 87.5% 낮추어 백만 토큰당 2.50달러로 책정했습니다. GPT-4o 미니도 이제 실시간으로 이용할 수 있게 되었습니다.
AI 에이전트는 현재 어디에 있나요?
보이스 에이전트 시장은 2024년 하반기에 폭발적으로 성장했습니다. 주목할 만한 데이터로, Cartesia에 따르면 가장 최근 YC 배치에서 음성 기술을 활용하는 기업들이 전체의 22%를 차지했습니다.
보이스 에이전트는 점차 더 광범위한 수평적 솔루션이나 멀티 모달 제품의 주요 기능으로 통합되고 있습니다.
2024년에는 대화형 보이스 스택의 여러 레이어에서 기업들이 투자 유치와 시장 견인력을 모두 확보하는 모습을 볼 수 있었습니다:
- ElevenLabs와 Cartesia와 같은 기반 모델 기업
- Vapi와 Bland와 같은 수평적 플랫폼
- HappyRobot과 Wayfaster와 같은 수직화된(산업 특화) 플랫폼
특히 대기업의 경우, 인간 통화 응대에서 AI 통화 응대로 한번에 완전히 전환하는 경우는 거의 없었습니다. 창업자들은 대신 고객 통화의 일부분만 먼저 처리하는 "진입점" 전략을 찾고 있습니다. 이러한 접근법은 시간이 지남에 따라 더 많은 통화 유형과 업무 흐름을 처리하도록 확장될 수 있습니다. 우리가 관찰한 진입점 사례들은 다음과 같습니다:
시장 진화: 자금 조달
집중 산업 분야: 핵심 시장
보이스 에이전트가 가장 자연스럽게 도입되는 초기 분야는 주로 콜센터/BPO(비즈니스 프로세스 아웃소싱) 지출이 높은 산업입니다. 통화 응대가 사내 직원의 일상 업무 중 일부에 불과한 경우: (1) 직원들이 전적으로 통화 업무만 담당하는 것이 아니라면 문제점/수익성이 충분히 크지 않습니다; 그리고 (2) 결과나 비용 절감을 수치화하고 "비즈니스 케이스를 만드는" 것이 어렵습니다.
각 주요 산업 분야(금융 서비스, B2C, B2B, 정부, 의료)는 자체 기록 시스템을 갖고 있는 것처럼 자체 핵심 서비스 제공업체를 갖게 될 가능성이 높습니다. 다음 분야에서 활발한 창업 활동이 있을 것으로 예상합니다(이 분야에서 개발 중이시라면 연락주세요!):
- 금융 서비스 – 예를 들어 채무 추심
- 보험 – 고객 응대 및 내부 업무 모두
- 정부
- 고객 지원 서비스 – 전문 지식이 필요한 복잡한 고객 서비스 통화(IT 헬프데스크 등) 포함
"콜센터 분야" 외에도, 주로 고임금 직종을 대상으로 하는 코칭이나 교육 사례에서 AI 보이스 에이전트에 대한 지불 의사를 확인했습니다. 이러한 산업에서 현실적인 보이스 에이전트는 실질적으로 "시뮬레이터" 역할을 하여 업무 성과를 크게 향상시킬 수 있습니다. 이는 인력 비용(영업 코치 등)이나 덜 효과적인 소프트웨어를 대체할 수 있습니다.
초기 단계 창업자들이 어느 분야에서 활동하고 있는지 파악하기 위해 YC 기업들을 살펴보았습니다.
2020년 이후, 90개의 보이스 에이전트 기업이 등장했습니다. 이는 새로운 코호트마다 증가하는 추세로, 이 중 10개는 아직 완전히 공개되지 않은 W25 클래스에 속합니다. 2023년 이전 코호트에서는 대부분의 보이스 에이전트 기업들이 지난 1년 동안 이 분야로 전환한 경우입니다.
YC 창업자들이 개발하는 보이스 에이전트는 주로 B2B(약 69%)와 의료(약 18%) 사용 사례에 집중되어 있으며, 그 다음으로 소비자(약 13%) 분야가 있습니다. B2B 내에서 가장 흔한 하위 산업은 핀테크(16.9%)와 운영 - 주로 고객 지원(12.4%)입니다.
의료 분야에서는 보이스 에이전트가 환자 응대(프론트 오피스) 또는 백오피스(약국, 보험 등) 업무를 대상으로 하며, 일반 의학(11.2%), 치과(3.4%), 수의학(2.2%), 물리 치료(1.1%)에 초점을 맞추고 있습니다.
a16z 보이스 에이전트 투자 포트폴리오
이들은 a16z의 포트폴리오 기업들입니다. a16z에서 이루어진 전체 투자 리스트는 여기에서 확인할 수 있습니다.
보이스 에이전트 마켓 맵
AI 보이스에서 우리가 찾는 것은?
케이스 스터디: AI 보이스 인터뷰어
직무 면접은 복잡성(인간과 전체 면접 진행)과 민감성(후보자 경험의 질 유지) 측면에서 보이스 에이전트의 분명하지 않은 초기 활용 사례처럼 보일 수 있습니다. 그러나 여러 스타트업에서 주목할 만한 초기 성과를 확인했습니다 — 다음은 고객들로부터 얻은 몇 가지 인사이트입니다:
이 문제는 특히 인력 채용 업계(43개 상장 에이전시, 연간 6,500억 달러 매출)에서 두드러집니다 — 대량 채용이 필요하고, 낮거나 중간 수준의 기술 역할(초기 스타트업의 뛰어난 엔지니어급은 아님)을 채우는 경우입니다. AI 면접은 초기 선별 통화뿐만 아니라 더 많은 채용 프로세스를 쉽게 대체할 수 있습니다. 그 이유는 다음과 같습니다:
- 지원자들은 AI와의 면접을 포함한 "추가적인 절차"에 더 기꺼이 참여합니다.
- 고객은 추천한 후보자 수나 최종 고용주가 채용한 인원 수에 따라 수익을 얻습니다 — 더 많은 지원자를 처리할 수 있다면 더 많은 후보자를 보내거나 더 적합한 후보자를 선별해 보낼 수 있어 유리합니다.
"현재 우리가 보내는 후보자 중 약 90%가 [고용주와의] 1차 면접에 통과하고, 75-80%는 최종 면접까지 가게 됩니다. [AI 보이스 면접]을 도입하기 전에는 이 비율이 절반 정도에 불과했습니다."
포춘 100대 기업을 위한 인력 채용 에이전시
많은 AI 면접 제품들이 이미 인간 채용 담당자와 동등하거나 그 이상의 성능을 보여주고 있으며, 여기에는 몇 가지 이유가 있습니다:
- 지원자들이 즉시 또는 원하는 시간에 면접을 볼 수 있습니다
- 평가가 일관적이며, 평가 기준이 바뀌더라도 고객이 과거 면접 데이터를 다시 분석할 수 있습니다
- 언어나 억양으로 인한 소통 문제가 양쪽 모두에 없습니다
- AI는 종종 일반 채용 담당자보다 기술적이거나 직무 특화된 답변을 더 정확하게 평가할 수 있습니다
"면접 지원자들은 인간 면접관과는 달리 AI와 더 쉽게 신뢰 관계를 형성하기 시작합니다. 채용 담당자는 지원자가 설명하는 전문적인 내용을 이해할 만한 경험이 부족할 수 있습니다. 반면 AI는 다양한 정보를 바탕으로 더 지능적이고 매력적인 대화를 이끌어낼 수 있습니다."
연간 수익 2억 달러의 인력 채용 에이전시
2025년 AI 보이스에 관한 질문들
가격 책정 - 어떤 가격 모델이 선호될 것인가?
많은 기업들이 초기에는 분당 요금제를 채택했지만, 모델 비용이 하락하면서 이러한 접근 방식은 점점 더 도전을 받고 있습니다 — 일부 고객들은 이미 이러한 비용 감소를 인지하기 시작했습니다. 앞으로 선호될 가격 모델은 어떤 형태일까요? 기본 플랫폼 요금과 사용량 기반 요금의 조합이 될 가능성이 높습니다. 어떤 경우에 구현 비용을 청구하거나 최소 사용량 조건을 설정하는 것이 합리적일까요?
다양한 소통 채널 확장 - 기업들은 얼마나 빨리 통화 외 영역으로 확장해야 할까?
어떤 기업이나 산업도 통화에만 의존하지 않습니다 — 이메일, 웹 채팅, 문자 등이 중요한 소통 채널입니다. 기업들은 얼마나 빠르게 음성 통화를 넘어 다른 소통 방식으로 확장해야 할까요? 하나의 업무 흐름을 처음부터 끝까지 완벽하게 처리하는 것이 좋을까요, 아니면 모든 통화를 먼저 처리하는 것이 나을까요?
최종 목표 - 기존 시스템을 대체할 수 있을까?
많은 보이스 에이전트들은 자신의 분야에서 xMS(기록 시스템 소프트웨어)를 대체하는 궁극적인 비전을 제시합니다. 어떤 분야에서 이것이 실제로 가능하거나 가능성이 있을까요? 많은 기업들이 이미 기존 시스템보다 통화 처리에 더 많은 비용을 지출하고 있다면, 이것이 중요한 문제일까요?
산업 전문가 vs. 기술 전문가 팀 - 누구에게 유리한가?
우리가 본 초기 보이스 에이전트의 많은 경우는 해당 분야로 이끌린 후 산업/시장에 대해 배우기 위해 노력한 기술력 높은 팀들에서 나왔습니다. 기술적 장벽이 낮아짐에 따라, 기술 전문성은 적지만 산업 전문 지식이 더 풍부한 팀들이 시장 진출 측면에서 유리해질까요? 이러한 양상은 산업 분야마다 어떻게 다르게 나타날까요?
수평적 vs. 수직적 접근법 - 어디에 어떤 접근이 적합한가?
일부 분야에서는 기업들이 특정 시장이나 사용 사례를 위해 만들어진 제품을 도입하는 대신, 더 범용적인 제품을 사용하여 에이전트를 직접 구축하려 할 수 있습니다. 어떤 산업이나 기업 규모에서 이것이 가장 합리적일까요? 산업 특화 제품들은 여러 분야에 걸쳐 운영되는 기업들(단일 공급업체와 협력함으로써 이점을 얻을 수 있는)에게 어떻게 가치를 제공할 수 있을까요?
감성적 측면 - 보이스 에이전트가 고객 관계를 개선할 수 있을까?
많은 경우, AI 보이스 에이전트는 이미 감정적 측면에서 인간보다 더 나은 성능을 보여줄 수 있습니다. 더 집중력 있게 경청하고, 더 공감적이며 인내심이 있고, (이론상으로는) 무제한의 시간을 투자할 수 있습니다. 이러한 특성이 특히 가치 있는 분야들이 있으며, 보이스 에이전트는 기업이 고객과 더 깊은 관계를 구축하는 데 도움을 줄 수 있습니다 — 그러나 이 가능성은 아직 충분히 활용되지 않고 있습니다. 우리는 창업자들이 이에 적합한 산업 분야에서 이 주제를 중심으로 어떻게 혁신을 이룰지 기대하고 있습니다.
본 콘텐츠는 2024년 5월 29일, 2025년 1월 29일에 작성된 a16z의 "Hi, AI: Our Thesis on AI Voice Agents", AI Voice Agents: 2025 Update" 콘텐츠를 번역한 것입니다.
저는 전문 번역가가 아니기 때문에 오역이 있을 수 있습니다. 또한 본 글은 원저작자의 요청에 따라 불시에 삭제될 수 있습니다. 감사합니다.
의견을 남겨주세요