공지
여러분들의 의견이 궁금합니다-주간SaaS 연락처

Wix 글로벌 플랫폼의: 대규모 엔지니어링 탄력성 이야기

탄력성 높은 플랫폼을 만들기위한 노력

2025.09.02 | 조회 1.43K |
0
|
주간 SaaS의 프로필 이미지

주간 SaaS

B2B SaaS 비즈니스 모델과 멀티 테넌트 아키텍처 설계에 관한 좋은 콘텐츠를 소개합니다.

안녕하세요 주간SaaS 입니다.

AI 코딩 에이전트의 발전으로 만드는것의 문턱이 낮아진것은 분명합니다. 하지만 코딩의 결과물이 서비스가 되고 시스템이 되려면 많은 고민과 노력이 필요하고 이 영역은 아직 바이브의 영역은 아니라고 생각합니다. 그런 측면에서 오늘 소개하는 WIX의 사례와 같이 실제 현장의 경험과 통찰이 담긴 교훈이 소중합니다. 


안녕하세요, 저는 Wix에서 엔지니어링 그룹 매니저로 일하고 있는 Ben Chen입니다.

수년간 저희 팀은 세계에서 가장 크고 복잡한 분산 플랫폼 중 하나를 운영하면서 수많은 도전을 마주했습니다.

오늘은 그 과정 속에서 어떻게 트래픽 관리와 프로덕션 인프라를 새롭게 혁신했는지, 그리고 Production State와 Traffic Light라는 두 가지 핵심 시스템을 통해 위기를 기회로 바꾼 이야기를 나누고자 합니다.

전 세계 플랫폼이 직면하는 높은 리스크

클라우드와 물리적 데이터 센터가 혼재된 환경에서, 매 분 수백만 건의 요청을 처리한다고 상상해 보세요.

사용자의 클릭, 스크롤, 결제 하나하나가 정확하게 실행되어야 합니다.

다운타임은 절대 허용되지 않습니다.

이건 마치 완벽하게 타이밍을 맞춰야 하는 오케스트라 공연을 지휘하는 것과 비슷합니다. 단 하나의 실수도 전 세계 서비스의 불협화음으로 이어질 수 있죠.

규모를 키워 가면서 저희는 이런 질문들과 마주했습니다:

  • 장애가 발생했을 때, 어떻게 서비스의 탄력성을 지켜낼까?
  • 데이터 센터나 리전 간 트래픽을 끊김 없이 전환할 수 있을까?
  • 새로운 데이터 센터가 갑작스러운 트래픽을 받아낼 준비가 되어 있다는 걸 어떻게 보장할 수 있을까?

이 질문들은 쉽지 않았지만, 결국 혁신으로 이어졌습니다.

토대 마련: Production State

저희 여정은 단순하면서도 강력한 깨달음에서 시작됐습니다.

복잡한 인프라를 아우르는 하나의 진실된 출처(single source of truth)가 필요하다는 것이었습니다.

그 결과 탄생한 것이 바로 Production State, 저희 트래픽 관리 전략의 심장입니다.

  • 먼저 Grafana 알람, HTTP 엔드포인트, 스태틱 설정 등 다양한 소스에서 데이터를 수집하고 표준화하는 센서 프레임워크를 구축했습니다.
  • 센서가 제공하는 정보는 단순히 “정상(healthy)”과 “비정상(unhealthy)”라는 이진 상태로 통일되어, 노이즈를 줄이고 중요한 인사이트에만 집중할 수 있도록 했습니다.
  • 이렇게 수집된 데이터는 중앙 DB에 모여 프로덕션의 통합 상태(Unified State of Production)를 이루며, 언제든 인프라 건강 상태를 한눈에 파악할 수 있는 기준점이 됩니다.

이 위에 액션(actions)과 자동화(automations)를 쌓았습니다.

시스템 상태 변화에 따라 수동·자동으로 실행되며, 트래픽 이동 같은 주요 조치 전에 대상 환경이 준비됐는지 확인합니다.

예를 들어 특정 데이터 센터에 장애가 생겼을 때, 단순히 트래픽을 넘기지 않고, 우선 대상 센터가 정상적으로 동작할 수 있는지 검증한 뒤 전환이 이뤄집니다. 예측 가능한 시나리오들은 자동화하여 빠르고 자신 있게 대응할 수 있도록 했습니다.

이 모든 과정이 유연하고 견고한 트래픽 관리 시스템의 기초가 됐습니다. 데이터를 통합하고, 결정을 단순화하며, 대응 속도를 높여 인프라 운영 방식 자체를 바꿔놓았죠.

Traffic Light: 트래픽 전환의 지휘자

Production State가 기반을 다지자, 이제 트래픽 전환 자체를 정교하게 다룰 수 있는 도구가 필요했습니다.

그 결과 만들어진 것이 Traffic Light로, 데이터베이스 리마스터링부터 실제 트래픽 이동까지 전 과정을 조율합니다.

주요 기능은 다음과 같습니다:

  • Prewarm: 대상 데이터 센터의 포드 용량을 계산해 미리 배치하고, 90% 이상 준비될 때 전환을 허용합니다.
  • DNS 업데이트: 트래픽 이동 시 DNS를 정밀하게 조정합니다.
  • Artifact Pinning: 일부 서비스는 특정 데이터 센터에 고정해 지연과 불필요한 리전 간 호출을 막습니다.
  • 데이터베이스 리마스터링 자동화: 수 시간 걸리던 작업이 이제 몇 분 만에 끝납니다.

시행착오와 배운 점

물론 처음부터 완벽하지는 않았습니다.

처음에는 상황마다 엔지니어가 직접 만든 복잡하고 불일치한 반응 방식(user-defined responses)에 의존했습니다.

이를 개선하기 위해 저희는 의도(Intents) 개념을 도입했습니다.

트래픽 이동이나 위기 대응 같은 목표에 맞춰 미리 정의된 동작 세트를 연결해 시스템이 훨씬 일관되게 반응하도록 한 것입니다.

또 하나의 중요한 교훈은 데이터 센터를 웜(warm) 상태로 유지하는 것이었습니다.

트래픽을 옮긴 뒤에도 원래 센터를 30분 동안 계속 가동해, 문제가 생기면 다시 빠르게 되돌릴 수 있게 했습니다. 사소해 보이지만, 실제로는 전환 안정성을 크게 높인 전략이었습니다.

성과

Production State와 Traffic Light 도입으로 트래픽 관리와 인프라 탄력성은 완전히 달라졌습니다.

이 두 시스템은 단순한 도구가 아니라, 명확한 비전과 끊임없는 혁신의 결과물이었습니다.

얻은 성과는 분명합니다:

  • MTTR(평균 복구 시간) 80% 단축
  • 트래픽 이동의 64% 이상 자동화
  • 인프라 업데이트 속도 및 안정성 향상

무엇보다 중요한 건, 저희가 단순히 시스템을 더 튼튼하게 만든 것이 아니라, 도전을 대하는 방식 자체에 탄력성을 심었다는 것입니다.

앞으로의 길

Production State와 Traffic Light는 시작일 뿐입니다.

앞으로는 AI 기반 예측 모니터링과 서버리스 아키텍처를 도입하려 합니다.

또한 트래픽 전환에서 사용한 점진적이고 통제된 접근법을, 전체 인프라 변경에도 적용할 계획입니다.

예를 들어 새로운 기능을 먼저 일부 사용자에게만 배포하고, 이상 없을 때 전체로 확장하는 방식이 될 수 있습니다.

마무리하며

탄력성은 단순히 좋은 도구를 갖추는 게 아닙니다.

끊임없이 배우고, 적응하고, 개선하는 태도에서 비롯됩니다.

저희 이야기가 여러분에게도 각자의 도전에 더 자신감 있게, 더 창의적으로 맞설 수 있는 영감을 주길 바랍니다.

읽어주셔서 감사합니다.

궁금한 점이나 공유하고 싶은 경험이 있다면 언제든 환영합니다!

— Ben Chen, Wix Engineering

다가올 뉴스레터가 궁금하신가요?

지금 구독해서 새로운 레터를 받아보세요

✉️

이번 뉴스레터 어떠셨나요?

주간 SaaS 님에게 ☕️ 커피와 ✉️ 쪽지를 보내보세요!

댓글

의견을 남겨주세요

확인
의견이 있으신가요? 제일 먼저 댓글을 달아보세요 !

다른 뉴스레터

© 2025 주간 SaaS

B2B SaaS 비즈니스 모델과 멀티 테넌트 아키텍처 설계에 관한 좋은 콘텐츠를 소개합니다.

메일리 로고

도움말 자주 묻는 질문 오류 및 기능 관련 제보

서비스 이용 문의admin@team.maily.so

메일리 사업자 정보

메일리 (대표자: 이한결) | 사업자번호: 717-47-00705 | 서울특별시 성동구 왕십리로10길 6, 11층 1109호

이용약관 | 개인정보처리방침 | 정기결제 이용약관 | 라이선스