Anthropic의 CEO 다리오 아모데이를 비롯한 Anthropic의 공동 창업자들이 자체 유튜브 채널에서 2024년 12월 20일 공개한 인터뷰 내용을 리뷰해봤습니다.
등장 인물
- 다리오 아모데이(Dario Amodei): CEO/연구개발 총괄
- 다니엘라 아모데이(Daniela Amodei): President/운영 총괄
- 자레드 카플란(Jared Kaplan): Chief Science Officer
- 샘 맥캔들리시(Sam McCandlish): CTO
- 톰 브라운(Tom Brown): Chief Compute Officer
- 크리스 올라(Chris Olah): 해석가능성 연구 총괄
- 잭 클라크(Jack Clark): 정책 총괄
Anthropic의 미션
GPT-3를 통해 확장의 법칙과 RLHF(Reinforcement Learning with Human Feedback) 기법의 동작을 확인한 Anthropic의 창업 멤버들은 AI 레이스가 시작될 것을 직감했습니다. "안전하면서도 경쟁력있는 AI"를 만들겠다는 미션을 달성하기 위해 비영리단체를 만들어 연구만을 지속하는 방법도 있었지만, 확장의 법칙이 확인된 만큼 충분한 자본이 없으면 업계에 영향을 미칠만한 존재감을 만들 수 없을 거라는 생각에 Anthropic을 창업한 것이라고 멤버들은 이야기합니다.
RSP: Responsible Scaling Policy
Anthropic 초기에 Constitutional AI라는 용어를 가지고 나왔습니다. 마치 국가의 모든 법이 헌법에 기초하듯, 모델이 답변을 생성하면서 항상 헌법에 해당되는 몇가지 원칙들을 항상 점검하도록 모델을 만들었다는 것입니다. 실제로 Prompt Injection 공격을 수행해보면, 다른 모델들과는 달리 Anthropic Claude는 굉장히 높은 확률로 공격을 방어하는 것을 볼 수 있습니다.
그리고 마치 인간 사회에서도 사회의 변화에 따라 개헌이라는 방식으로 헌법을 수정하듯이, Anthropic에서도 많은 시행착오를 거치며 원칙을 수정해왔습니다. 여기에 더해 점점 모델의 성능이 고도화되고 자칫 큰 사고로 이어질 가능성이 높아지자 2023년 Anthropic은 "책임있는 확장 정책(Responsible Scaling Policy)"이라는 이름으로 문서를 만들어 안전한 AI에 대한 기준을 만들어 발표합니다.
이 정책의 핵심은 AI Safety Level(ASL) Standards라는 안전 기준 체계입니다. ASL Standards는 AI 모델의 능력이 향상됨에 따라 더 강력한 안전장치가 필요하다는 인식 하에 설계되었습니다. 현재 ASL-2와 ASL-3의 두 가지 주요 단계가 있습니다.
ASL-2 Standard는 모든 Anthropic 모델에 적용되는 기본 안전 기준입니다. 이는 두 가지 주요 요소로 구성됩니다:
- ASL-2 Deployment Standard(배포 기준)
- 모델 카드 발행과 사용 정책 시행
- Constitutional AI 등을 통한 유해성 방지 훈련
- 자동화된 탐지 메커니즘 구현
- 취약점 보고 채널 운영
- ASL-2 Security Standard(보안 기준)
- 기회주의적 공격자로부터의 보호
- 공급망 보안 검토
- 물리적 보안
- 직원 교육 및 내부자 위험 관리
ASL-3 Standard는 모델이 특정 능력 임계값(Capability Threshold)을 넘어설 때 적용되는 더 강화된 기준입니다:
- ASL-3 Deployment Standard(배포 기준)
- 지속적인 오용 시도에 대한 강력한 방어
- 심층 방어 접근법
- 레드팀 테스트
- 신속한 취약점 대응
- ASL-3 Security Standard(보안 기준)
- 모델 탈취 시도에 대한 고수준 보호
- 위험 거버넌스 모범 사례 준수
- 보안 프레임워크 확장
- 독립적인 감사
모델이 CBRN(화학, 생물학, 방사능, 핵) 무기 관련 능력이나 자율적 AI 연구개발 능력과 같은 중요한 임계값에 도달하면, Anthropic은 ASL-3 기준을 적용해야 합니다. 이는 위험을 수용 가능한 수준으로 유지하기 위한 것입니다.
Anthropic은 정기적으로 외부 전문가들의 의견을 수렴하고, 새로운 위험이 발견되면 기준을 업데이트합니다. 실제로 2024년 10월 버전에서는 2023년 9월 버전에 비해 상당한 개선이 이루어졌습니다.
이러한 접근 방식은 AI 안전이라는 도전과제에 대한 Anthropic의 철학을 보여줍니다. 단순히 내부 규정을 만드는 것이 아니라, 산업 전반에 적용될 수 있는 표준을 제시하고, 이를 통해 AI 발전의 혜택은 극대화하면서 위험은 최소화하려는 것입니다.
조직 문화
신뢰 기반의 문화
통합된 비전
Anthropic 공동 창업자들은 서로 가족이거나, 오랜 직장 동료인 경우가 많았습니다. Google Brain, OpenAI, Stripe 등에서 인연을 맺어오면서 자연스럽게 Culture Fit이 맞는 그룹이 만들어진 것 같았습니다.
또한, 리더십 이에외도 여러 팀간에 서로 이해관계가 다를 수 있는데, RSP와 같은 공통의 미션에 대한 이해가 높기 때문에 적당한 선에서 서로 양보가 일어나는 문화가 자리잡았다고 합니다.
AI의 발전 방향
신경과학
생물학
민주주의
리뷰
일전의 다리오 CEO 인터뷰 영상에 이어서 Anthropic 관련 두번째 영상을 다뤄봤습니다.
개인적으로 기업의 창업스토리를 좋아하는데 마침 Anthropic의 공동 창업자들이 모여 창업 스토리를 알려주는 영상이 만들어졌었네요. "안전하고 경쟁력있는 AI가 가능하다는 것을 세상에 보여줌으로써 다른 업체들도 이 방향으로 따라오도록 이끌겠다"는 Anthropic의 미션을 분명히 이해할 수 있는 계기가 된 것 같습니다.
실제로 영상을 보다보면, 거의 절반 이상이 RSP에 대한 이야기였는데요. 그만큼 안전한 AI를 만들기 위한 원칙과 기준에 대해 모두가 정말 많이 고민했고, 노력했다는 걸 알 수 있었습니다. 흥미롭게도 이런 Anthropic의 방향은 Anthropic이 시장의 선택을 받는데에 도움이 되기도 했습니다.
"안전"은 종종 "느림"으로 받아들여지곤 합니다. 그래서 빨리 가기 위해서는 안전을 다소 희생해야 된다는 인식을 갖게 되지요. 그래서 사고가 나더라도 빨리 가기 위해서는 어쩔 수 없었다고 정당화하기도 합니다. 하지만 Anthropic의 경우엔 어떻게 보면 방망이 깎는 노인처럼 미리부터 인공지능의 해석가능성과 안전기준에 투자를 하다보니, 시장에서 더 많은 선택을 받게 되고, 더 나아가서는 이 연구 결과를 통해 인간 두뇌에 대한 이해를 넓히게 될 것이라는 이야기가 굉장히 크게 와닿았습니다.
의견을 남겨주세요