🧐 Summary
1️⃣ 음성인식(STT) 모델은 표준어 중심으로 학습되어 사투리를 잘 처리하지 못하지만, 파인튜닝, 합성 데이터, 멀티언어 모델 등으로 점차 개선되고 있어요.
2️⃣ 감정 인식 연구는 음성, 텍스트, 표정 등을 동시에 해석하는 멀티모달 접근으로 발전하고 있으며, 이는 더 자연스러운 커뮤니케이션을 가능하게 합니다.
3️⃣ 하지만 데이터 확보, 편견, 프라이버시 등 새로운 과제가 뒤따르기에, 기술이 사람들에게 편안하게 다가갈 수 있도록 배려하는 디자인이 필요합니다.
안녕하세요, 구독자님. 혹시 구독자님의 고향은 어디이신가요?저는 경상도에서 태어났는데요, 얼마 전 부산 출신 아빠가 챗지피티랑 음성 대화를 하시는 걸 보다가 가족 모두 크게 웃은 적이 있었어요. 챗지피티가 계속 반말을 한다며 아빠가 “니 계속 말 놔라”라고 하셨는데, 이건 경상도에서는 “너 한 번만 더 말 놓으면 가만 안 둔다”라는 강한 경고의 뜻이에요. 그런데 챗지피티는 이 말을 곧이곧대로 받아들여 “응 앞으로도 편하게 말할게”라고 답한 거죠. 아빠의 의도를 이해한 엄마와 저는 빵 터졌지만, 서울 사람인 제 남편은 전혀 맥락을 못 잡고 웃지도 못했습니다. 챗지피티도 마찬가지였겠죠.
많은 생성형 AI들이 화자의 컨텍스트를 이해하고 더 풍부하게 반응하려 노력하고 있지만, 사투리와 억양에 대해서는 아직 갈 길이 멉니다. 오늘은 이 주제를 확장해, 생성형 AI 서비스들이 사람의 언어에 담긴 감정을 어떻게 이해하려 하고, 또 더 잘 이해하기 위해 어떤 시도를 하고 있는지 살펴볼게요.
혹시, 이 네 가지를 구분하신다면 당신은 진정한 경상도!!
사투리 음성 인식의 도전과 기술적 시도
음성인식의 기본은 음성을 텍스트로 변환하는 거에요. 한마디로 받아쓰기를 해서 그 글자 데이터를 활용하는거죠. 그런데 대부분의 음성인식(STT, Speech-to-text)은 대부분 표준어 위주로 학습되어 있어, 지역 사투리나 강한 악센트가 섞이면 그 ‘받아쓰기’의 성능이 크게 떨어질 수 있어요. 실제로 오픈AI의 Whisper 모델도 학습에 쓰인 데이터와 다른 방언이 등장하자 오디오 인식 오류율(WER, Word Error Rate)이 크게 높아졌다는 보고도 있어요[1]. 이를 해결하기 위해 어떤 접근법들이 사용되는지 알아볼게요.
- 방언 데이터로 파인튜닝: 미리 학습된 음성인식 모델에 추가로 지역 방언 음성 데이터를 더 학습시키는 방법이에요. 앞에서 언급한 Whisper와 같은 대형 모델도 스코틀랜드 억양 데이터로 추가 학습(fine-tuning)했더니, 해당 억양의 인식 정확도가 눈에 띄게 올라갔다고 해요[1]. 그런데 특정 사투리에 맞춰 튜닝하면 다른 환경에서는 또 성능이 떨어지는 트레이드오프도 관찰되었습니다[1].
- 도메인/방언 적응(Domain Adaptation with Synthetic data): Meta에서는 실제 음성 없이도 모델을 원하는 분야로 적응시키는 DAS라는 기법을 내놓았어요[2]. 큰 언어 모델(LLM)을 활용해 특정 도메인(또는 방언)에 관련된 텍스트를 생성하고, 이를 TTS로 음성 합성하여 가짜 음성 데이터를 만드는건데요, 이렇게 만든 합성 음성으로 Whisper 모델을 미세조정한 결과, 음악/날씨/스포츠 등 목표 분야에서 음성인식 오류율을 10~17%p 낮출 수 있었습니다[2].
- 합성 데이터 증강: 위의 사례처럼 TTS로 방언 음성을 만들어내거나, 또는 기존 표준어 음성에 노이즈/톤 변환을 주어 방언처럼 들리게 데이터를 변형하는 시도도 있어요. 이러한 데이터 증강 기법은 방언 데이터가 부족할 때 모델 학습에 도움을 줄 수 있지만 자연스러운 억양의 모든 뉘앙스를 담기 어렵다는 한계가 있죠[2].
이런 노력 덕분에 사투리 인식 성능도 점차 개선되고 있어요. 오픈소스 Whisper 모델을 지역 방언에 맞게 튜닝한 연구에서는, 일부 방언 단어(예: 스코틀랜드 방언의 “aye(네)”, “dinnae(안 해)”)등 기본 모델이 놓치던 것을 튜닝 모델은 제대로 받아쓰는 경우가 포착되었어요[1]. 또한 구글은 100개가 넘는 언어를 한꺼번에 인식하는 거대 음성 모델 USM을 공개했는데, 약 12만 시간에 해당하는 유튜브 다국어 음성 데이터셋을 학습해 저자원 언어까지 음성인식 성능을 크게 끌어올렸다고 해요[3]. USM은 이전까지 제대로 인식되지 않던 73개 언어의 유튜브 영상 자막에서 오류율 30% 미만을 달성했는데, 구글에 따르면 기존 공개된 어떤 모델도 이 모든 언어를 성공적으로 처리하지 못했다고 합니다[3]. 이렇게 대용량 멀티언어 모델과 방언 적응 기법의 발전으로, AI가 다양한 억양을 이해하는 능력은 지금도 점차 발전하고 있어요.
억양과 감정을 이해하려는 AI의 진화
사람은 대화할 때 말의 내용뿐 아니라 목소리의 억양으로 감정을 읽죠. 같은 ‘네’ 라는 말이라도, 신난 목소리의 “네!”와 시큰둥한 목소리의 “네…”는 전혀 다른 뉘앙스잖아요. 이렇게 억양이 담는 감정과 의미를 파악하는 일은 AI에게 또 다른 도전이었습니다. 텍스트만 보고 대화를 이해하는 기존 언어모델로는 화자의 속마음을 알기 어려우니까요.
그래서 최근 AI 연구에서는 멀티모달 감정 인식이 주목받고 있습니다. 음성(목소리 톤), 텍스트(말의 내용), 영상(표정이나 제스처) 등을 한꺼번에 인식해 AI가 종합적으로 감정을 추론하는 거에요. 사람이 상대와 대화할 때 귀로 목소리를 듣고 눈으로 표정을 보며 분위기를 파악하듯이, AI도 여러 감각을 동시에 활용한다고 볼 수 있겠죠[4].
멀티모달 감정 인식은 보통 이렇게 구성됩니다[5] :
개별 모달 인코더: 음성은 음성대로, 텍스트는 텍스트대로, 영상은 영상대로 각각 특징을 추출
특징 융합(Fusion): 추출된 정보를 합쳐서 더 정교한 해석. (예: 목소리는 평온하지만 표정은 불안하다면 “긴장”으로 판단)
감정 분류기: 최종적으로 행복, 분노 같은 감정 라벨을 붙이거나, “즐거움 0.8, 불안 0.1”처럼 수치화
한 연구에서는 멀티모달로 구성한 감정인식 시스템이 단일 모달(음성만 또는 얼굴만 등) 대비 월등히 높은 85% 정확도를 달성했다고 했는데[6], 이는 여러 단서를 동시에 보는 접근의 장점을 보여줍니다.
하지만 단점과 한계도 존재합니다[7]. 이렇게 여러 데이터를 동시에 수집해야 하니 비용과 노력이 배로 들고, 학습을 위해 필요한 음성과 표정 영상이 정확히 동기화된 대규모 데이터를 찾기도 쉽지 않아요. 또 사람마다 감정 표현 방식이 달라서, 라벨링(이 표정은 행복, 이 목소리는 분노 등 정답을 표시하는 작업이에요)에도 편차가 생길 수 있습니다. 여러 모달 정보를 합치는 AI 구조도 복잡해서, 자칫 잘못하면 한쪽 신호에 집중하느라 오히려 오류가 늘어날 수도 있구요. 즉, 멀티모달로 인해 데이터 정합성과 모델 복잡도라는 새로운 난제가 등장하는거죠.
그럼에도 불구하고 AI가 사람의 숨은 감정을 이해하려는 시도는 계속되고 있고, 점차 발전하고 있어요.
학습을 위한 데이터셋과 연구 동향
사투리와 감정 인식 기술 발전을 위해서는 양질의 데이터셋이 필수겠죠? 이번 뉴스레터를 쓰면서 저 개인적으로 이 부분이 제일 궁금했어요. 사투리를 공부하려면 사투리를 많이 들어야 하는데, AI는 어떻게 그걸 학습할 수 있는걸까요? 먼저 연구자들이 사용할 수 있게 공개된 멀티모달 데이터셋 몇 가지를 살펴볼게요.
- IEMOCAP (영어): USC가 공개한 12시간 규모 감정 대화 데이터셋. 배우들이 대본을 연기하며 음성·표정·자막을 동시에 기록했어요[8].
- MSP-Podcast (영어): UT Dallas에서 팟캐스트를 기반으로 만든 대규모 자연 발화 감정 데이터셋. 수백 시간 분량이며, 여러 감정 범주와 연속 척도 라벨을 포함합니다[9].
- KEMDy (한국어): ETRI가 공개한 한국어 대화 데이터셋. 음성, 영상, 텍스트뿐 아니라 심박·피부 전도도 같은 생체신호까지 함께 제공돼요[10].
이렇게 멀티모달 데이터셋은 공개된 것들이 꽤 있어요. 하지만 사투리, 즉 방언 음성 데이터는 그리 쉽게 접근할 수는 없나봐요. 이를 위해 방언 음성 데이터를 모으는 대표적인 방법은 다음과 같습니다. 첫째, 해당 지역 사람들을 직접 모아 녹음하고 전사(텍스트 변환) 작업을 거치는 크라우드 소싱 방식이에요. 정확한 라벨을 확보할 수 있지만 시간과 비용이 많이 들겠죠. 둘째, 온라인 영상/라디오 등에서 방언이 쓰인 음성을 추출하고 자막으로 활용하는 방법이 있는데, 이 역시 자동화된 자막의 오류나 저작권 이슈 등의 한계가 있어요. 셋째, 앞서 소개한 것처럼 TTS 합성으로 방언체 음성을 만들어내는 방식이 있는데, 이는 방언 억양 모델이 따로 필요하고 자연스러움이 떨어질 수 있다는 단점이 있습니다. 마지막으로, 최근 제안되는 방법은 비지도 학습(Unsupervised Learning)을 활용한 접근입니다. 사투리를 학습하기 위해서는 각 사투리에 대응하는 표준어 라벨링이 있어야 하는데요, 라벨링 없는 데이터셋을 통해 스스로 학습하는 방법이에요.
파인튜닝 등 새로운 기법들을 통해 모델 자체의 성능이 강화됨과 동시에 데이터셋을 합성해서 만들어내는 기술과 또 라벨링되지 않은 데이터를 이용해 스스로 학습하는 기술이 함께 발전하고 있으니 이런 것들이 모이면 앞으로 점차 멀티모달 및 사투리 인식이 개선될 것 같아요.
실제 기업들의 적용 사례
앞에서 언급한 기술들은 이미 우리 주변 여러 제품과 서비스에 적용되고 있어요.
구글의 경우 앞서 언급한 USM 모델을 자사 유튜브 자막 생성이나 클라우드 STT API에 활용해, 잘 안 들리던 다양한 억양의 음성도 제법 정확히 받아적게 되었어요[3].
아마존의 음성비서 알렉사는 사용자의 말 내용뿐 아니라 말투의 톤까지 분석하여, 사용자가 화난 것 같으면 사과한다거나 대답을 조심스럽게 바꾸는 기능이 도입되었습니다[11]. 실제로 알렉사 팀은 사용자가 짜증난 목소리로 말하면 이를 감지해 “죄송하다”고 말하게 하거나 알렉사 역시 감정이 실린 어조로 말하게 하는 등 다양한 실험을 진행하고 있다고 해요.
메타는 다양한 언어와 감정 이해 기술을 메신저나 VR 등에 접목시키고 있습니다. 전 세계 페이스북 사용자들이 업로드하는 동영상 자막을 자동 생성하거나, 영상 통화에서 실시간 자막/통역을 제공하는 데 방금 이야기한 대형 멀티언어 모델이 활용되고 있어요. 또 VR 아바타가 실제 이용자의 얼굴 표정을 그대로 본떠 실시간으로 변화하는 기술도 선보였는데, 여기에는 표정 인식 기술이 그 핵심이 되었죠. 여기서 더 발전해 온라인 대화에서 혐오나 분노 표현을 감지해 내거나, 반대로 정서적으로 민감한 게시물에 부드럽게 대응하는 등의 콘텐츠 조율에도 감정 인식 AI를 연구 적용 중입니다.
또 Hume AI 같은 업체들은 기업 고객을 상대로 감정 인식 솔루션을 제공하고 있어요. 콜센터 음성 AI에 Hume의 API를 연결하면, 고객 목소리의 숨은 감정을 분석해 응대 품질을 높이거나 상담사에게 실시간 피드백을 주는 것이 가능해요. 또한 감정 기반 음성 합성도 흥미로운 분야인데요. 감정을 이해하는 것을 넘어, AI가 감정을 표현하는 목소리를 내도록 하는거죠. 이런 기술을 활용하면 게임 캐릭터나 내비게이션 음성이 대화 상황에 맞게 톤을 바꾸는 것도 가능해질 것으로 보입니다.
마지막으로 디지털 멘탈 케어 분야에서도 감정 인식 음성이 응용되고 있어요. 지난번에 AI 동반자에 대한 뉴스레터 읽으셨나요? 이렇게 AI 동반자 혹은 AI 상담자가 사용자의 목소리에서 우울한 기색을 느끼면 좀 더 공감하는 톤으로 답변하거나, 필요한 경우 전문가에게 연결해주는거죠.
이처럼 사투리 음성인식, 감정 기반 대화 등은 구글, 아마존, 메타뿐만 아니라 수많은 스타트업과 산업 현장에서 실용 단계로 접어들고 있습니다.
AI가 사람의 사투리와 감정까지 이해하게 된다면 우리의 사용자 경험은 어떻게 달라질까요? 아마도 지금보다 훨씬 자연스러운 대화가 가능해질 거에요. 지역 억양이 심한 어르신도 기계와 편히 대화하고, AI 비서는 내 속상한 기분도 눈치채 위로해줄 수 있겠죠.
하지만 해결해야 할 과제들도 있습니다. 사용자 몰래 감정을 캐치하는 것이 프라이버시 침해는 아닐지, AI가 감정을 잘못 이해해 엉뚱한 대응을 하면 오히려 혼란을 주진 않을지 등 윤리적, 디자인적 고민이 따릅니다.
저는 지금 체코 프라하에 살고 있는데요, 체코에서는 사람들과 헤어질 때 “Na shledanou.”(나슐레다노우)라는 말을 써요. 그런데 이 말이 길다보니 보통 “Nashle”(나슐레)라고 줄여서 말한답니다. 저는 프라하에서 체코어를 배웠다보니 이 말이 익숙해서 늘 이 줄임말을 쓰는데요, 최근 친구에게 듣기로는 이 줄임말이 ‘프라하 사투리’라고 해요. 체코 남부지방에서는 이 말을 쓰지 않는다는거에요. 그래서 남부지역 사람들이 이 말을 들으면 ‘어머, 저 친구는 깍쟁이 프라하 사람이군!’ 이렇게 생각할 수 있다고 하네요. 여기서도 ‘서울 깍쟁이’처럼 프라하 사람들은 조금 깍쟁이라는 인식이 있거든요. 이렇게 사투리는 화자의 출생 혹은 생활 지역을 드러내며 그 사람에 대한 편견을 더해주기도 합니다. 우리도 ‘전라도 사투리’ 혹은 ‘경상도 사투리’를 들었을 때 그 지역색을 그 사람에게 덧칠해 생각해보게 되잖아요.
오늘 뉴스레터를 쓰면서 어쩌면 AI는 이런 사투리를 알아듣지 못하면서 나에 대한 편견도 없는게 아닐까, 그래서 더 솔직하고 투명한 대답을 해주는게 아닐까 하는 생각도 해보았습니다. 기술이 발전하면 할수록 디자이너와 개발자들은 “어떻게 하면 이 기술을 사람들에게 이롭게, 그리고 편안하게 다가가도록 할까?”를 깊이 고민하게 돼죠. 사투리와 감정까지 이해하는 똑똑한 AI가 등장했을 때 우리가 장점만 취할 수 있게 하려면 그 반대 지점인 단점에 대해서도 고민하는 시간이 필요할 것 같아요.
그럼 편견없는 한 주 보내시길 바라며, 다음주에 또 새로운 이야기로 만나요!
[inspire X 오픈카톡방]
https://open.kakao.com/o/gBHmseah
Reference
[1] Torgbi, M., Clayman, A., Speight, J. J., & Madabushi, H. T. (2025). Adapting Whisper for regional dialects: Enhancing public services for vulnerable populations in the United Kingdom. arXiv. https://arxiv.org/abs/2501.08502
[2] Tran, M., Pang, Y., Paul, D., Pandey, L., Jiang, K., Guo, J., Li, K., Zhang, S., Zhang, X., & Lei, X. (2025). A domain adaptation framework for speech recognition systems with only synthetic data (DAS). arXiv. https://arxiv.org/abs/2501.12501
[3] Alford, A. (2023, May 16). Google’s Universal Speech Model performs speech recognition on hundreds of languages. InfoQ. https://www.infoq.com/news/2023/05/universal-speech-model/
[4] Kansari, A. (2024, October 17). How Hume AI is training algorithms to truly understand human emotions. Medium. https://medium.com/@pbzbhzxk/how-hume-ai-is-training-algorithms-to-truly-understand-human-emotions-d9002f4963a4
[5] V7 Labs. (n.d.). Multimodal deep learning: Definition, examples, applications. V7 Labs. https://www.v7labs.com/blog/multimodal-deep-learning-guide
[6] Zhang, J., Yin, Z., Chen, P., & Nichele, S. (2020). Advances in multimodal emotion recognition based on brain and physiological signals. International Journal of Cognitive Informatics and Natural Intelligence, 14(1), 1–26. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7600724/
[7] Li, H., Wang, Z., & Xu, Y. (2024). A multimodal emotion recognition method based on multiple fusion strategies. Proceedings of the 2024 International Conference on Multimedia Retrieval. ACM. https://doi.org/10.1145/3638682.3638698
[8] Aditya3107. (2021). IEMOCAP emotion recognition from IEMOCAP datasets [GitHub repository]. GitHub. https://github.com/Aditya3107/IEMOCAP_EMOTION_Recognition
[9] Autrainer. (2023). MSP-Podcast emotion classification model (big4-w2v2-l-emo) [Model repository]. Hugging Face. https://huggingface.co/autrainer/msp-podcast-emo-class-big4-w2v2-l-emo/commit/b1ddeace36da5bdbcf410922f722c157168d912a
[10] ETRI. (2020). KEMDy20: Korean multimodal emotion dialogue dataset. ETRI AI Nanum. https://nanum.etri.re.kr/share/kjnoh2/KEMDy20?lang=En_us
[11] Gershgorn, D. (2019, November 14). Here’s how Amazon Alexa will recognize when you’re frustrated. OneZero. https://onezero.medium.com/heres-how-amazon-alexa-will-recognize-when-you-re-frustrated-a9e31751daf7
의견을 남겨주세요