#1. AI 보이스 에이전트에 대한 우리의 견해
이제 전화통화의 패러다임을 새롭게 바꿀 시간이 왔습니다. 생성형 AI 덕분에 앞으로는 누구도 불필요한 전화를 할 필요가 없어질 것입니다. 사람들은 자신에게 진정한 가치가 있을 때만 통화에 시간을 투자하게 될 것입니다.
기업 입장에서 이러한 변화는 여러 이점을 가져올 수 있습니다: (1) 직원들의 통화 시간 감소와 인건비 절감, (2) 더 많은 수익 창출을 위한 자원 재배치 가능성, 그리고 (3) 더욱 규정을 준수하고 일관된 고객 경험을 통한 리스크 감소가 그것입니다.
소비자들에게는 보이스 에이전트가 실제 사람을 찾거나 비용을 지불할 필요 없이 사람 수준의 서비스를 이용할 수 있는 길을 열어줍니다. 현재는 상담사, 코치, 말벗 등의 서비스가 포함되지만, 미래에는 음성을 중심으로 한 훨씬 더 다양한 경험으로 확장될 가능성이 큽니다. 다른 소비자 소프트웨어와 마찬가지로, 이 분야의 '승자'를 예측하기는 어렵습니다! 전화통화는 세상과 연결되는 API이며, AI는 이를 한 단계 더 발전시키고 있습니다.
우리가 기회를 보는 곳
우리는 인프라 플레이어, 소비자 인터페이스, 기업용 에이전트 등 각 레이어마다 엄청난 기회가 있다고 봅니다. B2C 및 B2B 보이스 에이전트에 관해서는 가장 유망한 신규 제품들에 대한 몇 가지 가설을 갖고 있습니다.
이 분야에서 개발 중이시라면 omoore@a16z.com과 anish@a16z.com으로 연락해 주세요.
스택: 보이스 에이전트는 어떻게 구축하나요?
보이스 에이전트는 어떻게 구축될까요? GPT-4o 같은 새로운 멀티모달 모델들은 하나의 모델을 통해 여러 레이어를 동시에 작동시킴으로써 스택 구조를 변화시킬 수 있습니다. 이는 지연 시간과 비용을 줄이고, 더 자연스러운 대화형 인터페이스를 구현할 수 있게 해줍니다. 많은 에이전트들이 기존 구성 스택으로는 진정한 인간 수준의 품질에 도달하지 못했기 때문입니다.
보이스 에이전트가 작동하려면 사람의 음성을 인식하고(ASR), 이 입력을 LLM으로 처리해 출력을 만든 다음, 다시 사람에게 말하는(TTS) 과정이 필요합니다. 일부 회사나 접근법에서는 LLM 또는 여러 LLM이 대화 흐름과 감정 표현을 담당합니다. 또 다른 경우에는 감정을 추가하고 중단을 관리하는 등의 별도 엔진이 있습니다. "풀스택" 음성 서비스 제공업체는 이 모든 기능을 한 곳에서 제공합니다.
소비자(B2C) 및 기업(B2B) 앱은 이 스택 위에서 운영됩니다. 서드파티를 사용하더라도, 앱은 일반적으로 맞춤형 LLM을 연결하며, 이는 대화 엔진 역할도 함께 수행합니다.
풀스택 vs. 자체 조립
보이스 에이전트 창업자들은 풀스택 플랫폼(예: Retell, Vapi, Bland)을 활용하거나 스택을 직접 구축하는 방식 중 하나를 선택할 수 있습니다. 이런 결정을 내릴 때는 몇 가지 핵심 고려사항이 있습니다:
의견을 남겨주세요