쿼중이의 데이터 사전 #3 - EDA

그게 뭔데... 그거 어떻게 하는건데

2021.02.22 | 조회 803 |
0
|

위클리 쿼리중독

쿼리중독자가 알려주는 데이터 분석 TMI

안녕하세요!

데이터 분석에 입문하면서 EDA의 목적이나 정확히 뭘 해야 하는지 막막해하는 분들이 계시더라고요.
저도 EDA를 과제로 받았을 때 뭔지도 모르고 기계적으로 시각화만 했던 기억이 있어요.😂
과거의 저와 같은 분들을 위해 오늘은 데이터 분석의 기본, EDA를 소개하겠습니다! 


Explanatory Data Analysis - 탐색적 자료 분석

EDA의 아버지 John Tukey
EDA의 아버지 John Tukey

EDA는 데이터를 다양한 각도에서 탐색하는 과정이에요.
시각화가 필수는 아니지만, 데이터의 특성을 직관적으로 파악하기에 많은 도움이 되기 때문에 함께 사용하는 경우가 많아요.

EDA는 확증적 자료 분석(Confirmatory Data Analysis)에 대응되는 개념이에요.
확증적 자료 분석은 단어 그대로 가설 검정에 무게를 둔 분석 기법인데요. 
가설을 설정하고, 데이터로 가설을 평가하는 흔히 아는 통계 분석이라고 생각하시면 돼요.  

존 튜키는 전통적인 통계학이 이러한 가설 검정 과정에 치우쳤다며 그 문제점을 보완하기 위해 EDA를 제안했어요. 
모델링이나 가설 검정으로는 데이터에 대한 이해를 충분히 다질 수 없기 때문에 EDA를 통해 데이터에 질문을 던지고 답을 찾으면서 탐구하는 과정이 필요하다는 취지였죠.  

EDA는 쓰레기 투입의 방지책으로써의 역할도 해요.

쓰레기가 들어가면 쓰레기가 나온다는 말, 한번쯤은 들어보셨을 것 같은데요.
컴퓨터에 쓰레기 입력값을 넣으면 당연히 터무니없는 결과가 나온다는 의미예요. 

데이터에 대한 검증과 분석 질문에 대한 확인 없이 무작정 돌리기만 하면 그 결과도 무용지물이겠죠.

EDA를 통한 데이터 파악을 통해 우리는 더 날카로운 질문을 던질 수 있기도 하고, 애초에 분석의 의미가 있을지 판단할 수 있어요.
EDA를 통해 데이터가 가진 문제를 확인하고, 데이터의 패턴을 파악하여 분석을 재정비할 수 있는 것이죠. 

 

EDA = 질문&해결의 반복

앞서 말했듯 EDA는 질문을 던지고, 그 답을 기반으로 새로운 질문을 던지는 과정의 연속이에요. 그 과정을 통해서 우리가 가설을 더 가다듬을 수 있죠.

EDA를 창안한 존 튜키는 EDA에 대해서 아래와 같이 말했어요.

Exploratory data analysis is an attitude, a state of flexibility, a willingness to look for those things that we believe are not there, as well as the things we believe might be there. (탐색적 데이터 분석은 우리가 존재한다고 믿는 것들은 물론이고 존재하지 않는다고 믿는 것들을 발견하려는 태도, 유연성, 그리고 자발성이다.) - John Tukey

결국 데이터에 궁금한 건 뭐든 EDA 단계에서 질문할 수 있다는 뜻이죠.
EDA에는 가설이나 모형이 없기 떄문에 어떠한 제약도 없이 수많은 질문을 할 수 있어요.
그렇지만 오히려 룰이 없기 때문에 더욱 막막한 마음이 들기도 해요.

그래도 시작점은 필요하잖아요. 
분석에 따라 세부적으론 달라지겠지만 기본적으로 살펴보는 것들을 정리해봤어요. 자주 사용되는 시각화 기법도 함께 적어뒀어요. 

  • 데이터 항목의 개수, 유형 및 결측값 확인하기
  • 시간에 따른 데이터의 변화 살펴보기 (시계열 그래프)
  • 데이터의 분포, 최대, 최소, 사분위수 및 아웃라이어 확인하기 (히스토그램, 박스 플롯)
  • 변수 간 관계 살펴보기 (산점도)

 

사실 데이터를 보자마자 좋은 질문을 생각해내기는 어려워요.
위에 적어둔 것과 같이 단순한 질문에서 시작해서 질문을 더욱 구체화해나가는 과정이 필요해요. 

분석에 앞서 데이터에 갖고 있던 예상이 맞는지 확인하는 절차도 되고, 
예상과 다르다면 그 이유를 찾기 위해 새로운 질문을 구상해도 좋아요.

예를 들어 영화 스트리밍 어플의 평점 데이터를 사용한다고 가정해볼게요. 
전체 작품 평가 횟수의 시계열 그래프를 그리고, 특정 시점에 평가 수가 상승한다면 그 원인을 파악하기 위해 구체적인 질문을 던져볼 수 있어요. 
특정 영화에 한정된 것은 아닌지 구분하여 확인해볼 수도 있구요. 

 

작은 팁을 남겨드리면,
Pandas Profiling을 사용해서 기본적인 EDA는 해결하실 수 있어요!
(참고 : pandas의 극강의 라이브러리 Pandas Profiling)

물론 EDA를 이걸로 끝내고 넘어가면 안 되겠지만, 데이터의 개요를 간단하게 파악하기에 유용하답니다. 

 

😆

점점 날씨가 따뜻해지고 있네요. 
2월의 마지막 주 잘 보내시고 다음 뉴스레터로 만나요! 

 

 

 

 

다가올 뉴스레터가 궁금하신가요?

지금 구독해서 새로운 레터를 받아보세요

✉️

이번 뉴스레터 어떠셨나요?

위클리 쿼리중독 님에게 ☕️ 커피와 ✉️ 쪽지를 보내보세요!

댓글

의견을 남겨주세요

확인
의견이 있으신가요? 제일 먼저 댓글을 달아보세요 !

© 2024 위클리 쿼리중독

쿼리중독자가 알려주는 데이터 분석 TMI

자주 묻는 질문 오류 및 기능 관련 제보

서비스 이용 문의admin@team.maily.so

메일리 (대표자: 이한결) | 사업자번호: 717-47-00705 | 서울 서초구 강남대로53길 8, 8층 11-7호

이용약관 | 개인정보처리방침 | 정기결제 이용약관 | 070-8027-2840