Overview
이 논문은 머신 러닝 모델의 설명 가능성(Explainability)을 평가하는 다양한 접근 방법론과 평가 지표들을 비교하고 소개하고 있습니다. 각각의 평가 방법은 서로 다른 관점과 목표를 가지고 있습니다. 논문에 소개된 방법 중에서 Human-centered 평가를 중심으로 설명하겠습니다.
Human-Centred Evaluations
Human-centered 평가는 Application-Grounded Evaluation와 Human-Grounded Evaluation을 포함합니다. Application-Grounded Evaluation은 전문가를 대상으로실제 세계 응용 프로그램이나 특정 사용 사례에서 AI 시스템의 성능을 평가합니다. Human-Grounded Evaluation은 일반 사용자의 관점과 경험을 기반으로 AI 시스템을 평가합니다.
주관적 지표 (Subjective Metrics)
주관적 설문조사: 설명 가능한 ML 시스템(머신러닝 시스템)의 주관적 평가를 수행하기 위해 설계된 설문조사입니다. 이 설문은 사용자의 주관적인 응답을 수집하기 위해 작업 중이나 작업 이후에 진행됩니다.
- 사용자 신뢰도(User Trust): ML 시스템에 대한 사용자의 신뢰 정도를 측정합니다.
- 자신감(Confidence): 사용자가 ML 시스템의 결정에 대해 얼마나 자신감을 가지고 있는지를 평가합니다.
- 선호도(Preference): 특정 설명 방식이나 시스템 기능을 사용자가 얼마나 선호하는지를 나타냅니다.
- 만족도(Satisfaction): 사용자가 시스템의 성능에 대해 얼마나 만족하는지를 측정합니다.
- 이해도(Understanding): 사용자가 ML 시스템의 작동 방식을 얼마나 이해하는지를 평가합니다.
객관적 지표 (Objective Metrics)
작업이나 인간에 대한 객관적 정보:작업 전, 후 또는 작업 중에 수집된 객관적인 정보를 나타냅니다.
- 인간 메트릭(Human Metrics): 사용자의 생리적 및 행동적 반응을 측정합니다. 물리적 반응으로는 Galvanic Skin Response (GSR)와 Blood Volume Pulse (BVP) 등이 사용될 수 있습니다.
- 과업 시간(Task Time): 사용자가 ML 시스템과 상호 작용하는 데 소요된 시간을 나타냅니다.
- 과업 성능(Task Performance): 사용자가 ML 기반 의사 결정 작업에서 얼마나 정확하게 수행하는지를 측정합니다.
인간 중심 평가 (Human-Centred Evaluations)의 한계
- ML 설명의 품질 평가는 본질적으로 주관적인 개념입니다. 인간 중심 평가는 사용자 또는 일반 사용자와의 실험을 통해 설명의 품질을 평가하며, 신뢰 및 자신감과 같은 주관적인 측정 항목들이 설명 가능한 시스템의 평가에서 중요한 중심 역할을 합니다.
- 미해결 문제: 현재까지 인간 중심 평가에 대한 합의된 기준이 없으며, 특히 인간 실험 설계 및 사용해야 하는 주관적인 측정 항목에 대한 합의된 기준이 없어 서로 다른 평가의 품질을 비교하기 어렵습니다.
- 미래 방향: 효과적인 사용자 실험 디자인 및 설명 평가를 위한 주관적 측정 수집에 중점을 둔 인간 중심 평가의 미래 연구는 효과적인 기준을 찾는 데 집중해야 합니다.
의견을 남겨주세요