🧐 Summary
1️⃣ 심층 인터뷰(IDI)의 경우 제한적인 주제는 5~6명, 포괄적인 주제는 최소 12명의 인터뷰가 효과적입니다.
2️⃣ 포커스 그룹 인터뷰(FGD)의 경우 2~3개의 그룹으로 80% 이상, 3~6개의 그룹으로 90% 이상의 주제를 도출할 수 있습니다.
3️⃣ 연구 주제와 대상의 특성에 따라 IDI와 FGD의 샘플 크기를 유연하게 설정해야 합니다.
안녕하세요 구독자님, 새해 잘 맞이하고 계신가요?
지난 주 올해의 첫 뉴스레터에서 말씀드렸듯이 올해는 저희가 사용자 리서치에 대한 글을 집중적으로 써보려 해요. 그 시작으로 오늘은 사용자 리서치의 적정 인원에 대해 이야기해보려 합니다. 업무하면서 시간도 없고 인터뷰 대상자 구하기도 쉽지 않은데 대체 몇 명이나 인터뷰해야 신뢰성이 있는 인터뷰라고 할 수 있는건지 궁금한 적 있으셨죠? 오늘은 다양한 사용자 리서치 중 가장 대표적인 IDI(In-depth Interview)와 FGD(Focus Group Interview)의 적정 인원에 대해 알아볼게요.
심층 인터뷰(IDI)의 적정 인원
인터뷰는 다섯 명이면 충분하다는 얘기 들어보신 적 있나요? 사용성의 거장, 제이콥 닐슨의 유명한 연구[1]에서부터 나온 이야기일거에요. 무려 1993년에 발표된 연구인데요, 사용성 테스트에서의 문제 발견 확률을 수학적 모델(포아송 프로세스)로 분석하고, 이를 바탕으로 적정 테스트 사용자 수를 도출한 연구에요. 이 연구에서는 다섯명의 사용자 인터뷰에서 전체의 약 80% 정도의 문제를 발견할 수 있다고 결론을 내렸어요. 사용성 평가에서 사용자 인터뷰 수를 점차 늘리면서 분석한 결과, 사용자가 추가될 수록 발견되는 문제의 수가 점진적으로 감소하는 것을 알 수 있었거든요.
하지만 이 논문을 자세히 읽어보면 이 연구 결과가 어떤 인터뷰에나 적용되는 것은 아니라는 것을 알 수 있으실 거에요. 이 논문에서는 사용성 평가와 휴리스틱 평가 두 가지 방법론에서의 결과를 다루고 있거든요. 사용자가 실제로 평가 대상을 사용하며 찾아내는 사용성 관련 문제점, 그리고 전문가가 평가 대상을 살펴보며 찾아내는 사용성 관련 문제점의 개수를 분석한거죠. 그런데 우리가 IDI를 할 때 꼭 사용성 평가만 하는 건 아니잖아요. 특정 사용자 그룹의 기기 사용 행태를 알고 싶다거나, 혹은 그들의 디자인 선호 트렌드를 알고 싶어서 IDI를 하기도 하죠. 그렇기에 모든 IDI는 인터뷰 대상자가 다섯 명이면 충분하다고 할 수는 없어요.
우리와 같은 궁금증을 가진 사람들이 2006년에 발표한 논문[2]이 있어요. 질적 연구에서 샘플 크기에 따른 데이터 포화(data saturation) 양상을 분석한거죠. 닐슨의 연구와 거의 유사하다고 볼 수 있는데, 여기서는 여성 60명을 대상으로 성에 대한 심층 인터뷰를 진행했어요. 닐슨의 연구에서 다뤘던 주제보다 매우 포괄적이죠? 그렇기에 더 다양한 토픽이 나왔을거에요. 이 연구에서는 전체의 약 92%가 첫 12개의 인터뷰에서 발견되었습니다. 이후의 데이터는 이미 존재하는 주제의 변형에 불과하다고 판단했어요. 이들은 인터뷰의 주요 테마는 초기에 나타나며 초기 6~12개의 인터뷰 내에서 대부분 도출되기에, 추가적인 인터뷰는 중요성을 크게 바꾸지 못한다는 결론을 내렸습니다.
이 연구에서는 상위 수준의 메타 주제만 관심있다면 인터뷰 6개도 충분하지만, 비교적 동질적인 집단의 공통된 인식과 경험을 이해하는 것이 목적이라면 12개 인터뷰를 추천했어요.
여섯 명에서 80%라면 닐슨의 다섯 명에서 80%와 비슷한 수준이죠? 결론을 내리자면 어느 정도 제한적인 주제에 대한 IDI이고, 대략적인 내용만 알고 싶다면 최소 5~6명 정도를, 조금 더 광범위한 주제를 다루고 있다면 최소 12명 정도를 인터뷰 하는 것을 추천드려요. 혹시 누군가가 "겨우 그만큼 인터뷰한걸 믿으란 말이야?" 라고 한다면 오늘 소개드린 논문을 레퍼런스로 활용하시길 바래요!
포커스 그룹 인터뷰(FGD)의 적정 인원
자 그럼 FGD는 어떨까요? 적정 IDI 인원에 대한 연구를 했던 사람이 2017년 FGD에 대한 연구[3]도 진행했어요.
한 그룹에 6~8명으로 이루어진 포커스 그룹 40개, 총 310명을 인터뷰했구요, 남성의 건강 관련 행동에 대한 내용을 다뤘습니다. 그 결과 아래와 같이 전체의 84%가 처음 세 개 그룹에서 도출된 것을 알 수 있었어요. 그렇기에 2~3개의 포커스 그룹으로 80% 이상, 3~6개의 포커스 그룹으로 90% 이상의 주제를 발견할 수 있다는 결론을 내렸습니다.
우리가 일반적으로 포커스 그룹은 한 그룹당 여섯명 정도로 구성하니 이 연구 결과를 그대로 적용할 수 있겠죠?
하지만 오늘 설명드린 연구들의 기본 가정은 ‘동질한 집단’을 대상으로 하는 연구일 때라는 점이에요. 당연한 이야기지만 남녀 성별 차이가 큰 주제에 대해서 남녀 총 12명을 인터뷰하는게 아니라, 건강 관리 앱을 하루 10회 이상 사용하는 사람들 12명을 대상으로 그들의 건강 관리 방법에 대해 인터뷰하는거죠. 이점 염두에 두시고 사용자 리서치 샘플 수 결정하시길 바래요.
오늘의 이야기, 앞으로 업무에 도움되시길 바라며 앞으로도 다양한 리서치 이야기 전해드릴게요. 그럼 우리는 다음 주 월요일에 만나요!
Reference
[1] Nielsen, J., & Landauer, T. K. (1993, May). A mathematical model of the finding of usability problems. In Proceedings of the INTERACT'93 and CHI'93 conference on Human factors in computing systems (pp. 206-213).
[2] Guest, G., Bunce, A., & Johnson, L. (2006). How many interviews are enough? An experiment with data saturation and variability. Field methods, 18(1), 59-82.
[3] Guest, G., Namey, E., & McKenna, K. (2017). How many focus groups are enough? Building an evidence base for nonprobability sample sizes. Field methods, 29(1), 3-22.
의견을 남겨주세요