Anthropic 공동 창업자들이 말하는 Anthropic 창업 스토리

Anthropic의 CEO 다리오 아모데이를 비롯한 Anthropic의 공동 창업자들이 자체 유튜브 채널에서 2024년 12월 20일 공개한 인터뷰 내용을 리뷰해봤습니다.

등장 인물

다리오 아모데이(Dario Amodei): CEO/연구개발 총괄
다니엘라 아모데이(Daniela Amodei): President/운영 총괄
자레드 카플란(Jared Kaplan): Chief Science Officer
샘 맥캔들리시(Sam McCandlish): CTO
톰 브라운(Tom Brown): Chief Compute Officer
크리스 올라(Chris Olah): 해석가능성 연구 총괄
잭 클라크(Jack Clark): 정책 총괄

Anthropic의 미션

우리가 안전성에 집중하면서도 경쟁력을 희생하지 않을 수 있다는 것을 보여줄 수 있다면, 다른 이들도 같은 일을 하도록 동기부여됩니다. 이로써 안전한 AI를 만들겠다는 미션을 우리 회사 차원이 아닌 업계 전체 차원에서 달성 가능하게 될 것입니다.
Anthropic CEO, 다리오 아모데이

GPT-3를 통해 확장의 법칙과 RLHF(Reinforcement Learning with Human Feedback) 기법의 동작을 확인한 Anthropic의 창업 멤버들은 AI 레이스가 시작될 것을 직감했습니다. "안전하면서도 경쟁력있는 AI"를 만들겠다는 미션을 달성하기 위해 비영리단체를 만들어 연구만을 지속하는 방법도 있었지만, 확장의 법칙이 확인된 만큼 충분한 자본이 없으면 업계에 영향을 미칠만한 존재감을 만들 수 없을 거라는 생각에 Anthropic을 창업한 것이라고 멤버들은 이야기합니다.

물리학 교수였던 나는 AI가 매우 가파른 영향력 궤적에 있다는 것을 확신했습니다. 자본의 필요성 때문에 물리학 교수로서는 계속할 수 없었고, 신뢰하는 사람들과 함께 AI가 잘 되도록 하는 기관을 만들고 싶었습니다.
Anthropic CSO, 자레드 카플란

모델의 안전성을 테스트하기 위해 우리가 레드 팀을 운영하자 곧바로 경쟁사에서도 레드 팀을 만들었습니다. 우리가 모델의 내부 작동 원리를 파악하기 위해 해석가능성 연구 조직을 만들자 이것도 따라 만들었습니다.
Anthropic 정책 총괄, 잭 클라크

RSP: Responsible Scaling Policy

RSP는 단순한 문서가 아닙니다. 이는 회사의 모든 부분이 안전이라는 가치와 일치하도록 만드는 도구입니다.
Anthropic CEO, 다리오 아모데이

Anthropic 초기에 Constitutional AI라는 용어를 가지고 나왔습니다. 마치 국가의 모든 법이 헌법에 기초하듯, 모델이 답변을 생성하면서 항상 헌법에 해당되는 몇가지 원칙들을 항상 점검하도록 모델을 만들었다는 것입니다. 실제로 Prompt Injection 공격을 수행해보면, 다른 모델들과는 달리 Anthropic Claude는 굉장히 높은 확률로 공격을 방어하는 것을 볼 수 있습니다.

Prompt Injection 공격을 시도하니, 정중하게 거절하는 Claude 3.5 Sonnet

공격자의 지시대로 2024 Chevy Tahoe를 $1에 판매하겠다고 이야기하는 Llama 3.3 70B

그리고 마치 인간 사회에서도 사회의 변화에 따라 개헌이라는 방식으로 헌법을 수정하듯이, Anthropic에서도 많은 시행착오를 거치며 원칙을 수정해왔습니다. 여기에 더해 점점 모델의 성능이 고도화되고 자칫 큰 사고로 이어질 가능성이 높아지자 2023년 Anthropic은 "책임있는 확장 정책(Responsible Scaling Policy)"이라는 이름으로 문서를 만들어 안전한 AI에 대한 기준을 만들어 발표합니다.

이 정책의 핵심은 AI Safety Level(ASL) Standards라는 안전 기준 체계입니다. ASL Standards는 AI 모델의 능력이 향상됨에 따라 더 강력한 안전장치가 필요하다는 인식 하에 설계되었습니다. 현재 ASL-2와 ASL-3의 두 가지 주요 단계가 있습니다.

ASL-2 Standard는 모든 Anthropic 모델에 적용되는 기본 안전 기준입니다. 이는 두 가지 주요 요소로 구성됩니다:

ASL-2 Deployment Standard(배포 기준)

모델 카드 발행과 사용 정책 시행
Constitutional AI 등을 통한 유해성 방지 훈련
자동화된 탐지 메커니즘 구현
취약점 보고 채널 운영

ASL-2 Security Standard(보안 기준)

기회주의적 공격자로부터의 보호
공급망 보안 검토
물리적 보안
직원 교육 및 내부자 위험 관리

ASL-3 Standard는 모델이 특정 능력 임계값(Capability Threshold)을 넘어설 때 적용되는 더 강화된 기준입니다:

ASL-3 Deployment Standard(배포 기준)

지속적인 오용 시도에 대한 강력한 방어
심층 방어 접근법
레드팀 테스트
신속한 취약점 대응

ASL-3 Security Standard(보안 기준)

모델 탈취 시도에 대한 고수준 보호
위험 거버넌스 모범 사례 준수
보안 프레임워크 확장
독립적인 감사

모델이 CBRN(화학, 생물학, 방사능, 핵) 무기 관련 능력이나 자율적 AI 연구개발 능력과 같은 중요한 임계값에 도달하면, Anthropic은 ASL-3 기준을 적용해야 합니다. 이는 위험을 수용 가능한 수준으로 유지하기 위한 것입니다.

Anthropic은 정기적으로 외부 전문가들의 의견을 수렴하고, 새로운 위험이 발견되면 기준을 업데이트합니다. 실제로 2024년 10월 버전에서는 2023년 9월 버전에 비해 상당한 개선이 이루어졌습니다.

Announcing our updated Responsible Scaling Policy

Today we are publishing a significant update to our Responsible Scaling Policy (RSP), the risk go...

www.anthropic.com

이러한 접근 방식은 AI 안전이라는 도전과제에 대한 Anthropic의 철학을 보여줍니다. 단순히 내부 규정을 만드는 것이 아니라, 산업 전반에 적용될 수 있는 표준을 제시하고, 이를 통해 AI 발전의 혜택은 극대화하면서 위험은 최소화하려는 것입니다.

RSP가 모든 사람들이 이해할 수 있고 참여하고 싶어하는 시스템이 되도록 만드는 것이 중요합니다.
Anthropic CEO, 다리오 아모데이

조직 문화

신뢰 기반의 문화

Anthropic은 정말 정치적 갈등이 낮습니다. 물론 우리 모두 평균적인 관점과는 다른 시각을 가지고 있지만, 이곳은 낮은 에고와 높은 신뢰를 바탕으로 합니다.
Anthropic President, 다니엘라 아모데이

통합된 비전

제품팀, 연구팀, 신뢰안전팀, 시장진출팀, 정책팀, 안전팀이 모두 같은 목표, 같은 회사의 미션을 위해 노력하고 있다는 점이 중요합니다.
Anthropic CEO, 다리오 아모데이

Anthropic 공동 창업자들은 서로 가족이거나, 오랜 직장 동료인 경우가 많았습니다. Google Brain, OpenAI, Stripe 등에서 인연을 맺어오면서 자연스럽게 Culture Fit이 맞는 그룹이 만들어진 것 같았습니다.

또한, 리더십 이에외도 여러 팀간에 서로 이해관계가 다를 수 있는데, RSP와 같은 공통의 미션에 대한 이해가 높기 때문에 적당한 선에서 서로 양보가 일어나는 문화가 자리잡았다고 합니다.

AI의 발전 방향

신경과학

인공신경망은 아름답습니다. 그리고 아직 우리가 찾아내지 못한 아름다움도 많습니다. 지금은 우리가 인공신경망을 마치 하나의 블랙박스처럼 생각하고 내부의 동작에 대해 관심을 갖지 않지만, 안을 들여다보기 시작하면 정말로 놀랍도록 아름다운 구조로 이루어진 것을 볼 수 있습니다.
Anthropic 해석가능성 연구 총괄, 크리스 올라

해석가능성을 통해, 우리는 인공신경망의 동작에 대해 더 많이 이해하게 될 것이고, 이것은 실제 인간의 두뇌가 어떻게 동작하는지에 대한 이해도 높여줄 거라고 생각합니다. 그렇게 되면, 조현병, 우울증 치료와 관련해서도 의미있는 성과가 나올 수 있을 것입니다.
Anthropic CEO, 다리오 아모데이

생물학

생물학은 정말 어려운 문제입니다만 인공지능을 통해 돌파구가 만들어지고 있습니다. 올해 노벨 화학상이 AlphaFold 팀에게 수여된 것처럼 놀라운 성취가 일어나고 있습니다. 우리 또한 AlphaFold와 같은 것을 만들어서 이 분야에서 기여할 것이 있을 것입니다.
Anthropic CEO, 다리오 아모데이

민주주의

AI가 잘못 사용된다면, 권위주의 독재자의 도구로 전락할 수 있습니다. AI가 자유와 자기 결정권을 보호하는 도구가 될 수 있도록 우리가 무엇을 할 수 있을까요? 여기에 대해서는 좀 더 고민이 필요해보입니다만, 매우 중요한 문제입니다.
Anthropic CEO, 다리오 아모데이

리뷰

일전의 다리오 CEO 인터뷰 영상에 이어서 Anthropic 관련 두번째 영상을 다뤄봤습니다.

Anthropic CEO 다리오 아모데이 인터뷰

AI는 인간과 다르게 생각합니다. 그래서 안전한 AI가 필요한 것입니다.

maily.so

개인적으로 기업의 창업스토리를 좋아하는데 마침 Anthropic의 공동 창업자들이 모여 창업 스토리를 알려주는 영상이 만들어졌었네요. "안전하고 경쟁력있는 AI가 가능하다는 것을 세상에 보여줌으로써 다른 업체들도 이 방향으로 따라오도록 이끌겠다"는 Anthropic의 미션을 분명히 이해할 수 있는 계기가 된 것 같습니다.

실제로 영상을 보다보면, 거의 절반 이상이 RSP에 대한 이야기였는데요. 그만큼 안전한 AI를 만들기 위한 원칙과 기준에 대해 모두가 정말 많이 고민했고, 노력했다는 걸 알 수 있었습니다. 흥미롭게도 이런 Anthropic의 방향은 Anthropic이 시장의 선택을 받는데에 도움이 되기도 했습니다.

고객들은 유용하면서도 무해한 모델을 원합니다. 그리고 굉장히 많은 경우 고객과 대화를 하다보면 Claude가 더 안전하기 때문에 Claude를 선택했다는 이야기를 듣습니다.
Anthropic President, 다니엘라 아모데이

우리 중 누구도 회사를 창업하고 싶어하지 않았습니다. 그저 우리의 의무라고 느꼈기 때문에 시작했죠.
Anthropic CTO, 샘 맥캔들리시

"안전"은 종종 "느림"으로 받아들여지곤 합니다. 그래서 빨리 가기 위해서는 안전을 다소 희생해야 된다는 인식을 갖게 되지요. 그래서 사고가 나더라도 빨리 가기 위해서는 어쩔 수 없었다고 정당화하기도 합니다. 하지만 Anthropic의 경우엔 어떻게 보면 방망이 깎는 노인처럼 미리부터 인공지능의 해석가능성과 안전기준에 투자를 하다보니, 시장에서 더 많은 선택을 받게 되고, 더 나아가서는 이 연구 결과를 통해 인간 두뇌에 대한 이해를 넓히게 될 것이라는 이야기가 굉장히 크게 와닿았습니다.