안녕하세요 구독자 여러분!
지난 뉴스레터에서 언급한 '수강권 나눔 이벤트'의 허들을 낮추려고 합니다 (공유가 잘 안되서 그런 건 절대 아니에요😭).
5명 이상의 친구를 초대하신 10분에게 선착순으로 [IT 회사에서 살아남기 위한 모든 개발 지식 A to Z] 강의 수강권을 드립니다.
뉴스레터 하단에 초대 링크가 있습니다. 많은 참여 부탁드릴게요 :)
이번 뉴스레터에서는 데이터 파이프라인의 마지막 과정인 데이터 분석 & 시각화에 대해 다루도록 할게요.
1. 데이터 생성
2. 데이터 수집
3. 데이터 가공
4. 데이터 분석 & 시각화
데이터 파이프라인은 대량의 데이터를 안정적으로 저장시키기 위한 기술입니다. 여러 소스들로부터 데이터를 끌어온 후(Extract), 기업의 데이터 활용 방식에 따라 변형(Transform)하여 적재된다고 말씀드렸어요. 이렇게 쌓인 데이터들을 분석 후 인사이트를 도출하는 게 마지막 과정이겠죠.
데이터 시각화
옛날에는 데이터 시각화를 돕는 프로그래밍 언어 R, SAS 등을 이용해서 데이터를 시각화했습니다(저도 학부생 시절 SAS를 배웠었죠) 하지만 데이터 시각화를 위해 프로그래밍 언어를 직접 배워야 한다는 러닝 커브가 있고 결정적으로 이쁘지 않습니다..
데이터가 중요해지면서 데이터 시각화를 편리하게 지원해주는 도구들이 많이 늘었습니다. 이때 데이터 시각화 템플릿과 분석할 수 있는 환경을 제공해주는 도구를 Business Intelligence(BI)이라고 합니다. 대표적으로 Tableau, Power BI, Google Data Studio(무료)가 있습니다.
BI를 사용하면 데이터 소스들(데이터 웨어하우스, 3rd party 데이터(페이스북 픽셀, GA, 등))을 연결시키고 템플릿을 조금만 건들면 손쉽게 데이터 분석 결과를 볼 수 있습니다. 또한 데이터를 분석할 수 있는 도구들을 제공해주며 직접 SQL문으로 분석도 가능합니다.
정말 다양한 기능들을 제공해주므로 궁금하신 분들은 한 번 사용해보시는 걸 추천드립니다. 간단한 엑셀 데이터로도 테스트할 수 있습니다.
보통 BI를 기존 데이터 소스와 연동하는 것까지 데이터 엔지니어가 책임지게 됩니다.
데이터 분석
보통 회사에서는 데이터를 분석하기 위해 다양한 도구를 활용합니다. BI 툴과 별개로 데이터 분석가가 편하게 데이터를 분석할 수 있는 분석 환경을 구축합니다. 간단한 데이터 분석은 상용화된 서비스로 해결할 수 있지만 결국엔 직접 SQL, Python 등으로 데이터를 추출해야 합니다.
이때 회사에서 데이터를 분석한다는 것은 크게 3가지로 나눌 수 있을 것 같습니다.
- 회사의 다른 팀원이 데이터 분석을 요청해서 SQL문을 이용해 분석 결과를 제공해주는 것
- 미리 정해진 방식으로 보여주기 위해 대시보드(BI 툴 등)에 시각화하는 것
- 머신러닝 & 통계학 지식을 바탕으로 모델을 만들고 데이터들을 모델에 넣어서 결과를 얻어내는 것
여기서 데이터는 서비스 핵심 데이터베이스, 빅데이터가 저장되어 있는 데이터 웨어하우스에 저장된 폭넓은 의미의 데이터를 의미합니다.
1번째는 데이터 분석가가 담당합니다. 팀원들이 쌓여있는 데이터를 분석하고 싶을 때(지난달 가장 매출이 높은 상품, A라는 상품을 산 고객들이 다음에 산 상품 등) 데이터 분석가는 데이터베이스, 데이터 웨어하우스의 데이터를 가공하고 원하는 결과 값을 얻어냅니다.
2번째 BI는 데이터 엔지니어가 관리합니다. BI는 회사에서 관리하는 데이터들을 시각화해서 보여줍니다. 이번 달 매출, 이번 달에 가장 많은 매출을 낸 상품 등을 대시보드 형태로 만들어 두면 데이터 분석가가 항상 데이터를 보여줄 필요가 없겠죠?
[참고]
1,2 번을 같이 작업할 수 있는 직군으로 Analytics Engineer, BI Engineer도 존재합니다.
3번째는 데이터 사이언티스트 혹은 머신러닝 엔지니어가 맡습니다. 이들은 데이터를 분석하는 모델을 개발합니다. 모델은 머신러닝 & 통계학 기술이 들어가며 데이터들을 넣었을 때 내부 자체 알고리즘을 거쳐서 결과 값을 반환합니다. 왓챠, 넷플릭스 같은 서비스에서 영화를 추천해주는 기술 등이 해당됩니다.
🔗유튜브, 넷플릭스, 왓챠는 어떻게 컨텐츠를 추천하는걸까?
🔗머신러닝과 딥러닝 개념 파악하기 & 요새 머신러닝 트렌드 간단 정리
이번 편을 끝으로 [IT 회사에서 데이터가 흐른다는 것] 시리즈를 마치겠습니다. 다음 아티클부터는 좀 더 쉽고 일상적인 IT 지식을 다룰 계획입니다. 이만 안녕!
의견을 남겨주세요