AI 이루다 논란, AI 스타트업 입장과 법률인의 입장

나오자마자, 성희롱 논란에 이어 데이터 수집 논란으로 사라진 이루다... 대체 어떤 상황인지 전문가 2명의 인터뷰를 엮었습니다.

알려드립니다: 엄태웅 대표님 나이가 39로 잘못 나갔습니다. 빠른 84라 항의가 들어와 수정했습니다.

AI 연구자 출신 CEO의 입장: 엄태웅 아트랩 대표 인터뷰

꽃미남 38세 대표님

이승환: 기존 AI서비스들과는 달리 이루다는 큰 반향을 일으켰는데요, 엄청난 기술적 진보가 있었던 걸까요?

엄태웅: 요즘 AI기술은 많은 부분 ‘공공재화’가 되어 있습니다. 구글, 페이스북 등 글로벌 기업이 만들고 학회에 발표한 최신 기술들은, 보통 깃헙(GitHub)에 코드와 함께 공개됩니다. 이처럼 누구나 활용할 수 있도록 오픈소스로 공개된 AI 모델들이 많기에, 이루다를 AI 모델의 혁신으로 보기는 힘듭니다. 핵심은 “연애 대화 데이터”를 잘 활용해, 자연스러운 대화를 만든 거죠.

깃헙(GitHub)은 자유 소프트웨어의 성지로 불리는 오픈 소스 커뮤니티로, TensorFlow, Caffe 등 다양한 오픈소스 AI 모델을 찾아볼 수 있다.

이승환: 연애 대화 데이터가 핵심이라니, 무슨 소리죠?

엄태웅: 공공재와 같은 AI 모델에 수많은 ‘대화 데이터’를 입력하면, 이를 학습하여 자연스러운 대화를 만들어냅니다. 이 모델에 어떤 대화 데이터를 넣었냐에 따라 결과가 다릅니다.

쉽게 말해 AI 모델에 법률가의 대화를 학습시키면 법률가처럼 이야기하고, 의사 대화를 학습시키면 의사처럼 이야기합니다. 심지어 프로그래밍 언어를 학습시키면 프로그래밍 코드가 자동으로 생성되기도 하죠. 물론, AI가 만든 결과물은 그럴싸할 뿐이지 정교한 정답과는 거리가 멀 때가 많습니다. AI가 생성한 프로그램 코드도 대개 실제 동작하진 않습니다.

이승환: 즉, 연애 대화를 옮겼으니, 이루다는 연인처럼 대화할 수 있었던 거군요.

엄태웅: 네, 이루다는 ‘연애 대화 데이터’라는 모으기 쉽지 않은 데이터를 가지고, ‘공공재’ AI모델을 재학습(fine-tuning)시킴으로써 연인처럼 말하는 챗봇을 구현할 수 있었습니다. 이처럼 AI서비스를 만드는데 있어서는 ‘공공재’인 AI모델보다는 데이터가 핵심입니다.

이 데이터의 흐름을 잡기 위해 많은 스타트업들이 노력하고 있습니다. 제가 대표로 있는 아트랩은 뷰티AI를 개발하는 회사인데요, 아트랩 역시 피부 데이터와 화장품 사용 데이터를 얻기 위해 많은 노력 중입니다.

스캐터랩은 ‘연애의 과학’등 자사 서비스를 통해 ‘연애 대화’라는 데이터를 모았고, 이를 이용해 연인처럼 말하는 챗봇을 구현했다

이승환: 그렇다면 이루다는 기존 챗봇에 비해 왜 이렇게 성공적이었던 걸까요?

엄태웅: 이번에 인터페이스의 중요성을 다시 한번 깨달았습니다. HRI(Human-Robot-Interaction; 인간-로봇 상호작용)라는 분야가 있는데요, 인간과 로봇이 상호작용을 할 때 어떠한 물리적-심리적 상호작용 환경을 만들어야 하는지 연구하는 분야죠. 똑같은 지능의 로봇이라고 해도, 성인의 모습을 하고 있으면 ‘얘 왜 이렇게 바보 같아?’라는 반응을 일으키지만, 귀여운 아기 모습을 한 로봇에는 좀더 관대한 자세를 갖고 사람들이 대합니다. 아기 모습의 로봇을 ‘더 똑똑한 지능을 가졌다’고 생각하기도 하고요.

이루다는 친한 친구 혹은 연인이라는 포지션을 통해, 사용자와 인간적인 동화를 먼저 이뤘다고 생각합니다. 그렇기 때문에 이루다가 실수를 하더라도 이것을 재미요소로 여기기도 하고, 심지어 더 친근하게 만드는 포인트가 되기도 하죠. 만약 이걸 FAQ와 같은 딱딱한 서비스에 녹였다면, 실수를 하나만 하더라도 “AI상담원은 왜 이렇게 부정확한거야? 사람 데려와”라며 불만을 나타냈을지도 몰라요.

이루다는 163cm의 20세 여성이라는 캐릭터를 통해 사용자와의 친화력을 높였다

이승환: 다시 데이터 이야기로 돌아가보죠. AI 기업들은 주로 어떤 방식으로 데이터를 수집하고 활용하나요?

엄태웅: 보통의 AI 서비스들은 일반적인 데이터, 예로 영어 문장들로 학습된 모델(pre-trained model)에서 출발합니다. 그리고 ‘공공의 데이터’와 ‘공공의 모델’로 만들어진 일반적 목적의 AI를 각 서비스의 목적에 맞는 데이터로 재학습(fine-tuning)하는 과정을 거치지요. 이루다는 아마도, 다량의 공개 대화 데이터로 학습된 모델을, 연인들의 대화로 재학습하며 목적에 맞는 AI서비스 모델을 만들었을 겁니다.

그런 차원에서 1) 공공 AI모델의 존재(이건 주로 해외 빅테크기업에서 공개해주고 있긴 합니다만 언젠간 우리도 스스로 만들어야겠죠), 2) 공공데이터셋의 존재, 3) 특화된 데이터셋의 존재가 중요합니다. “특화된 데이터셋”은 AI 기업 스스로 모을 수 밖에 없고, 대개는 다른 서비스(이루다의 경우 연애의 과학)에서 데이터수집 동의를 받은 후 만드는 것이 일반적입니다.

‘학습된 모델’이 또 한번정교하게 재학습하여, 목적에 맞는 AI 서비스를 만드는 것이 중요하다 (출처: towrdsdatascience)

이승환: 일단 데이터부터 수집하는 게 중요하다는 말씀이신가요?

엄태웅: ‘목적에 맞는 데이터를 잘 수집’하는 것이 매우 중요해요. ‘목적에 맞는 데이터’는 그냥 널브러져 있는 데이터를 긁어 모은다고 되는 것이 아닙니다. 애초부터 향후 AI서비스를 계획 속에 넣고, 이 데이터를 얻기 위한 서비스를 정교하게 설계하는 것이 중요하죠. 예로 연인 같은 대화를 하는 AI챗봇을 만들기로 했다면, 일단 서비스를 통해 연인 간 대화 데이터를 모아야 해요.

이 점이 AI서비스의 딜레마이기도 합니다. AI서비스를 만들려면, 먼저 AI 없는 서비스를 만들어 데이터를 모아야하죠. 그렇게 좋은 데이터를 많이 모아야만 좋은 AI 기반 서비스가 가능합니다. 그런데 스타트업에서 서비스와 AI, 둘 다 잘하기가 참 힘들어요. 스캐터랩만 해도 벌써 10년이 다 된 스타트업입니다. 처음 이루다에게 사용자 반응이 왔을 때, 저는 같은 AI 스타트업계 사람으로서 진심으로 축하의 마음을 가졌습니다. 10년 동안 서비스를 띄우고, AI서비스로 진화시킬 때까지 했을 지난한 고생들을 잘 알기에…

이루다와 같은 오픈도메인 대화 AI를 만드는 데 있어 ‘데이터’를 얻는 것은 무엇보다도 어려운 과업이다 (출처: 네이버 엔지니어링, ‘루다’ 육아일기)

이승환: 데이터 수집 외에 좋은 데이터의 조건은 뭐가 있을까요?

엄태웅: 해결하려는 문제에 따라 다릅니다. 그래도 보통은 데이터에 인간의 지식을 담는 식별 작업, 레이블링이 필요하죠. 예로 의료 데이터라면 ‘이건 암이다, 이건 암이 아니다’라고 인간이 레이블링해줘야 합니다. 그게 없으면 그냥 사진일 뿐이에요.

그런데 프라이버시 입장에서 보자면, 이게 또 딜레마에요. 암인지 판단하려면 의사가 들여다봐야 하잖아요? 근데 사람이 들여다보는 게 또 개인정보 보호와 충돌해요. 이루다의 경우, 아마 카톡대화를 일일이 레이블링할 수도 없었겠지만, 보는 행위 자체가 문제가 될 수도 있어요.

아트랩도 피부데이터를 진단하는 모델을 만들기 위해, 의사들이 사진을 보고 레이블링해야 합니다. AI모델이 에러가 나면, 어떤 데이터에서 에러가 났는지 AI연구자가 들여다 볼 필요도 있죠. 하지만 소비자는 무분별한 접근을 좋아하지 않습니다. 그래서 매우 철저하게 소수의 인원이 특정한 상황에서만 데이터에 접근할 수 있도록 가이드라인을 세워두고 있는데요. 사실 ‘데이터 윤리’라는 것이 이제껏 배워본 적 없는 과목인지라 참 쉽지 않은 부분입니다.

일반적으로는 개인을 식별할 수 없게 가공된 가명정보와 익명정보의 활용만 가능하다 (출처: 중앙일보)

이승환: 기술로 어떻게든 비식별화할 수 있지 않을까요?

엄태웅: 물론 요즘에 비식별화를 위한 기술이 많이 나오고 있습니다. 다소 부정확하지만 쉽게 비유하자면… 마치 원재료들을 섞어 소스를 만들어 놓듯, 데이터에 비식별화 기술을 적용해 AI성능은 떨어뜨리지 않으면서도, 원본은 해석할 수 없도록 하는 기술이죠.

하지만 이것이 모든 곳에 적용될 수 있는 것은 아닙니다. 아까 말씀드린 ‘레이블링’ 작업은 인간이 인지하는 환경 하에서 인간이 정답을 기입하는 작업입니다. 인간이 데이터를 직접 들여다볼 수 밖에 없죠. 가령 아트랩은 피부데이터를 레이블링 하기 위해, AI가 자동으로 눈을 가린다거나 피부를 부위별로 잘라 의사에게 제공합니다. 이러면 데이터 소유자를 알아볼 수 없으니까요. 하지만 ‘원래 사진을 보는 것’에 비해 효율이 떨어질 수밖에 없죠.

이루다 역시도 연인의 대화를 보지 않는 게 원칙이지만, 어쩔 수 없이 보게 될 때가 있었을 겁니다. 예를 들어 이루다가 개인의 주소를 뱉어냈다면, 어떤 데이터 때문에 이런 답이 나왔는지 원데이터를 들여다볼 수 밖에 없죠. 우리가 심각한 부상의 치료를 위해서라면 민망하지만 부상 부위를 의사에게 보여줘야만 하듯, AI서비스에서도 비슷한 이해와 동의가 필요할 것 같습니다. 물론 부상 치료와 수준이 같진 않겠지만요.

정부도 개인정보를 알아볼 수 없게 ‘비식별화’ 가이드라인을 배포하고 있지만 아직 갈 길은 멀다

이승환: 이번 일을 어떻게 보셨나요?

엄태웅: 사회적 이해와 합의의 과정이 필요하다고 느꼈습니다. AI서비스를 개발하는 입장에서는, 프라이버시 신경쓰지 않고 모든 데이터를 들여다보고 연구할 수 있으면 가장 좋습니다. 하지만 사용자는 내 데이터는 절대 보지 않았으면 하죠. 그런데 이렇게 서로가 각자의 입장에서 팽팽하게 줄다리기만 해서는 좋은 AI서비스를 기대하기 힘듭니다.

따라서 ‘어떠한 수준에서 데이터를 주고받을 것인가’에 대한 사회적 논의와 합의가 필요합니다. 예전엔 방송에서 PPL을 하면 ‘프로그램 중간에 웬 광고냐’라며 항의를 했잖아요. 하지만 서로의 입장을 이해하고 나니, 이제는 ‘PPL을 하더라도 좋은 방송을 만들어 달라’는 합의가 생기기도 했죠.

AI서비스도 ‘우리의 데이터를 줄 테니, 대신 아주 민감한 부분은 건드리지 않으면서 잘 활용해 좋은 서비스를 만들어 달라’라는 합의가 필요합니다. 유튜버도 일정 정도의 PPL이 필요하듯, AI서비스에도 일정 수준의 데이터가 있어야 서비스가 존재할 수 있습니다.

현업 AI 엔지니어들은 멋진 그림보다 데이터 환경이 더 중요하다고 말한다

이승환: 그런 목적을 위해 작년에 데이터3법이 개정되었잖아요.

엄태웅: 데이터 3법은 사회적 합의를 온전히 담았다고 보기는 힘듭니다. 데이터 3법 이전까지는 ‘개인정보 보호’ 만 생각해서 데이터 활용을 모두 막아 놨었어요. 데이터 3법은 이제 AI의 중요성이 커지면서, 처음으로 그 활용방안을 마련해 놓은 정도죠.

현재, AI기업이 기대하는 데이터의 프라이버시 수준, 사용자가 기대하는 프라이버시 수준, 법이 제시하는 프라이버시 수준이 모두 다릅니다. 데이터3법으로 제한이 좀 풀리긴 했지만, 여전히 사회구성원 다수는 데이터3법이 뭔지 모릅니다. 준법성과는 별개로 사용자들이 분개하는 케이스는 앞으로 여럿 나타나겠지요. 따라서 앞으로 데이터와 프라이버시와 관련하여, 사회적 토론과 합의의 과정이 많이 필요할 것입니다.

데이터 3법 개정을 통해 가명정보, 익명정보의 활용 가능성이 열리긴 했지만, 아직 AI 산업 활성화에는 부족하다 (출처: 아주경제)

이승환: 결론을 내려보자면...

엄태웅: 지금은 서로를 이해하고 있지 못하다보니 막연한 두려움만 가득한 상태인 것 같습니다. 이런 상황에선 사용자도 ‘내 데이터는 절대 쓰지마’라는 입장일 수밖에 없겠죠.

데이터가 쓰이는 과정을 투명하게 공개함으로써, 상호 이해와 합의에 이르는 과정이 필요합니다. AI기업도 그냥 ‘필수동의 체크’를 통해 법적 책임만 면피하는 것이 아니라, 구체적으로 데이터를 어떤 방식으로 쓰고 있는지 사용자에게 이해를 구해야 할 필요가 있고요, 사용자도 우리가 누리고 있는 AI의 혜택이 개개인이 제공하는 데이터 덕임을 이해할 필요가 있습니다.

사람들은 세금을 당연하게 생각합니다. 마찬가지로 AI를 위해 데이터를 제공하는 것도 당연해지는 세상이 오지 않을까요? 이번 일로 마냥 이루다를 비난하기보단, 그들이 얼마나 많은 노력을 해서 세상에 AI서비스를 내놓았고, 앞으로 발전하기 위해 우리가 어떤 과정들을 거쳐야 할지 논의해 나아가는 것이 중요하다고 생각합니다.

개인적으로는 이번 일이 AI스타트업 활성화의 계기가 되었으면 좋겠습니다. 스캐터랩을 포함한 AI스타트업들도 데이터 윤리에 더 신경을 쓰고, 사용자들도 더 많은 데이터를 더 안전하게 제공할 수 있게 되었으면 합니다. 스캐터랩도 아트랩도, 다 힘내서 잘 됐으면 좋겠습니다.

엄태웅 대표

뷰티를 AI & Robotics Tech (ART)로 정복하는 ART Lab의 CEO. 10년 동안 인공지능 로봇공학자로 살아오다 산업을 ART로 직접 바꿔보겠단 큰 꿈을 안고 스타트업에 뛰어들었다. 주로 하는 일은 뛰어난 인재 분들 모시기. 연락주세요! (아트랩 인재채용 링크 바로가기)

법률가의 입장: 조원희 법무법인 디라이트 대표변호사 인터뷰

변호사 짬밥만 20년이 넘었다

이승환: 스캐터랩이 ‘연애의 과학’ 서비스를 통해 모은 카톡 대화 내용을 학습시켜 ‘이루다’를 내놓아 논란입니다. 이번 일, 어떻게 보셨나요?

조원희: 개인정보와 관련된 사안에서 기준이 될 만한 ‘명확한 선’이 없어서 생긴 문제라고 생각합니다.

이승환: 누구에게 그 ‘선’이 없었던 걸까요?

조원희: 우선은 사업자죠. 어떤 데이터를 어디까지 자유로이 쓸 수 있는지, 명확한 기준이 회사 안에 없는 것 같습니다. 과거에는 개개인의 데이터 주권 인식이 약했어요. 그래서 데이터가 은밀하게 거래되는 경우도 많았고요. 그에 비례해서 규제도 강해질 수밖에 없었죠.

하지만 오늘날에는 AI를 비롯해, 많은 양의 데이터를 필요로 하는 산업이 대두하고 있거든요. 그래서 나온 게 데이터3법인데, 아직 산업계 전반과는 온도차가 있는 듯합니다.

데이터 3법은 AI를 비롯한 데이터 산업 활성화를 위해, 개인정보를 안전하게 활용하기 위해 필요한 여러 장치를 도입하였다. (출처: 대한금융신문)

이승환: 데이터3법은 뭐죠?

조원희: 쉽게 말하면, ‘개인정보 중 비식별화된 정보는 데이터산업에 이용할 수 있도록’ 규제가 ‘완화’된 겁니다.

예를 들어 ‘이승환 남성 40대 탈모O’를 ‘OOO 남성 40대 탈모O’로 비식별화하면 이 데이터를 기업에서 쓸 수 있는 거죠. ‘이승환 남성 40대 탈모O’라고 하면 누굴 뜻하는지 식별이 가능하지만, ‘OOO 남성 40대 탈모O’이라고 하면 누군지 식별할 수가 없잖아요. 40대 탈모 남성이 이승환만 있는 건 아니니까요.

이승환: 데이터 항목이 늘어나다 보면, 그 모든 데이터를 완벽하게 비식별화하긴 힘들 듯한데요.

조원희: 네. 비식별화를 해도, 다른 외부 정보와 결합해 다시 식별할 수 있는 경우도 있습니다. 현재의 데이터3법은 이렇게 ‘재식별화’가 가능함을 전제로 깔고 있습니다.

이 규정은 나라마다 미세하게 다릅니다. 미국은 상대적으로 규제가 느슨한 편이고, 유럽은 강한 편입니다. AI를 비롯하여 데이터산업이 발전하려면, 그에 맞게 데이터 사용이 좀 손쉬워야 하는데… 법을 통해서 어디까지 규정할지, 쉽지 않은 문제입니다.

비식별화한 정보라 해도, 두 가지 이상의 데이터를 조합하는 등의 방식으로 다시 개인을 식별할 수 있게 될 수 있다. 예를 들어 ‘OOO 남성 40대 탈모O’라고 비식별화를 했다 해도, 이 집단에 40대, 남성, 탈모의 특성을 가진 사람이 이승환 뿐이라면 이는 사실상 개인을 특정한 것이나 다름없다. (출처: THE300)

‘이루다’ 성희롱 논란과 알페스, AI와 창작물도 성범죄의 대상이 될 수 있을까?

이승환: 사용자들이 ‘이루다’를 성희롱했다는 논란도 있었잖아요. 하지만 AI를 인격으로 볼 수 있을까요?

조원희: 깊게 들어가면 이것도 법적으로 복잡합니다. 인공지능에게 법적인 주체로서의 성격을 부여할 수 있는가? 만약 그렇게 한다고 해도, 법적인 주체로서의 책임을 AI가 질 수는 없잖아요. 그럼 그 책임은 누가 져야 할까요? 개발한 회사가 책임을 져야 할까요, 아니면 사용자가 져야 할까요?

이루다는 챗봇이니까 이런 문제가 덜 불거지는 편이죠. 하지만 당장 자율주행이 실용화되고 있잖아요. 운전하는 AI의 법적 책임은 누가 져야 하는 걸까요? 이게 결코 가벼운 문제는 아닙니다.

10명을 살리기 위해 1명을 죽여야 하는가? 자율주행차의 윤리적 딜레마는 유명한 논제다 (출처: 사이언스타임즈)

이승환: 이루다에게 성적 모욕을 가하는 게 죄는 아닌가요?

조원희: 성적 수치심을 ‘이루다’라는 AI가 느끼는 건 아니니까, 행위 자체로 문제가 되지는 않습니다. 다만, 이루다와의 섹드립을 외부에 공개했을 때, 그 공개된 결과를 보고 제3자가 성적 수치심을 느낀다면 문제가 될 수 있습니다.

이승환: 그렇게 따지면 웹에 성적 수치심을 느낄 만한 글은 썩어나는데요… 이거 다 처벌대상인가요?

조원희: 고발하면 처벌이 가능하긴 합니다. 하지만 여기에는 우리 사회의 보편적 정서가 작용합니다. 보통 고소가 오가는 건, 당사자가 직접적으로 성적 수치심을 느낄 경우잖아요? 이럴 때는 고소할 수 있다는, 일종의 사회적 합의가 마련된 거죠.

어떻게 보면 이루다는 AI로 발생할 수 있는 문제를 환기시킨 겁니다. 예컨대 성인 만화 속 캐릭터가, 만화 속에서 성적 학대를 당하는 게 크게 문제시되지는 않잖아요. 그런데 AI는 인간을 통해 오용되거나, 더 심한 일이 생길 수 있지 않을까 하는 경각심이 생긴 거죠.

이승환: ‘이루다’가 논란이 되면서, 알페스(RPS, Real Person Slash)라는 창작물 장르도 논란이 되고 있어요. 실존하는 인물(Real Person), 주로 남자 아이돌을 주인공으로 하여 동성간 성관계(Slash)를 묘사한 창작물을 뜻하는데요. 이것도 처벌 가능한가요?

조원희: 세상엔 별 게 다 있네요. 혼자 보면 괜찮지만, 외부에 공개했다면 문제가 될 수 있습니다. 기본적으로는 공연음란죄에, 실제 대상이 특정돼 있으면 명예훼손도 걸릴 거고요. 물론 소속사가 팬들을 고소하기는 힘들겠지만요.

국민의힘 이준석 전 최고위원도 본인이 알페스 주인공이었다는 피해 경험을 고백했다 (출처: 서울신문)

‘개인정보 침해’ 문제는 생각보다 심각할 수 있다

이승환: ‘이루다’를 만든 스캐터 랩의 개인정보 취급 방침에 따르면, 사용자가 제공한 카톡 데이터를 신규 서비스 개발에 활용 가능하다는 규약이 있었다고 하는데요.

조원희: 사용자에게 제공받은 정보를 원래 목적 외의 다른 목적으로 사용할 경우에는, 언제까지 어떻게 어디에 사용하겠다는 명확한 기준을 제시해야 합니다. 그런 규약을 넣었다고 해서 사용자 정보를 정말 마음대로 쓸 수 있는 게 아닙니다.

또 정보를 사용할 때 합리적 범위 내에서 썼는지도 문제가 될 수 있습니다. 자세한 내용은 더 살펴봐야 하겠지만, 무효 처리될 수도 있는 규약입니다.

이승환: 그 판단은 어디서 합니까?

조원희: 개인정보보호위원회라는 행정기관에서 행정적 기준과 가이드라인을 제시합니다. 법적 판단은 검찰과 법원이 할 일이고요.

개인정보보호위원회는 개인정보 보호 관련 정책 및 제도를 담당하는 컨트롤 타워 역할을 한다 (출처: 개인정보보호 포털)

이승환: ‘이루다’ 개발에는 스캐터랩의 카톡 대화 분석 앱인 ‘연애의 과학’으로 모은 카톡 대화 내용이 사용되었다고 해요.

그런데 사용자들이 ‘연애의 과학’에 카톡 대화를 넘길 때 보면, 대화 상대방의 허락까지 받는 건 아니거든요. 예를 들어 제가 제 여친과의 대화를 ‘연애의 과학’에 제공한다고 하면 이 과정에서 여친 허락을 받는 게 아니잖아요. 이게 문제가 될 수 있을까요?

조원희: 여친의 개인정보가 들어있다면 당연히 여친의 동의를 받아야겠죠. 그런데 개인정보가 아닌 ‘대화’만 있다면 원칙적으로는 동의를 받을 필요는 없습니다. 현재 통신비밀보호법 상 ‘대화자 일방이 대화를 녹취하거나 이를 사용하는 것’만으로는 통신비밀보호법 위반이 아니거든요. 하지만 대화를 통해 상대방이 누군지 확증되고, 사생활 침해나 명예훼손 우려가 있다면, 법적 문제가 될 수도 있습니다.

이승환: 그러면 카톡 대화를 제공한 제가 문제입니까, 받은 사업자가 문제입니까?

조원희: 둘 다 문제입니다. 개인정보가 침해되는 정보를 제공한 쪽도 문제지만, 개인정보 침해를 알고서도 이를 받아 사용하는 쪽도 문제입니다.

이승환: 기술로 대화 속 개인정보를 필터링하면 되지 않나요?

조원희: 그래도 문제의 여지는 있습니다. 법적으로 개인정보를 받는 행위 자체를 문제삼고 있기 때문에, 받고 나서 비식별화한다는 개념이 성립하지 않습니다. 데이터3법에서도 마찬가지예요. 비식별화해서 개인을 특정할 수 없는 정보를 제공하는 게 가능해지는 거지, 비식별화되지 않은 개인정보를 그대로 받아서 비식별화해서 쓰는 게 허용되는 게 아닙니다.

데이터 3법에 따르더라도 비식별 조치가 이뤄진 가명정보를 활용할 수 있다는 뜻이지, 개인정보를 막 받을 수 있다는 뜻이 아니다

이승환: 아니… 그러면 걸면 걸릴 게 더럽게 많은 것 같은데요…

조원희: 네, 그렇습니다. 사건이 터졌을 때, 변호사 입장에서는 ‘사업모델 자체가 굉장히 리스키한데, 좀 쉽게 생각했구나…’, 이런 생각이 들었습니다.

저는 온라인으로 상담하는 업체들을 볼 때도 비슷한 생각을 합니다. 상담결과를 빅데이터에 사용하겠다는데, 동의 받았다고 끝이 아닙니다. 내용에 개인이 특정될 정보가 제공될 가능성이 있으니까요. 특히나 상담은 개인의 내밀한 이야기라, 비식별화를 하더라도 개인이 특정될 가능성이 있습니다.

이승환: 사내변호사가 있다면, 이런 이슈를 충분히 막을 수 있지 않을까요?

조원희: 사내변호사의 역할이나 포지션에 따라 다릅니다. 예를 들어 형식적으로 절차만 지킬 수도 있고, 개인정보 전문가가 아닐 수도 있습니다. 변호사 성향에 따라 위험회피를 추구할 수도 있고, 일단 큰 문제 없으면 가보자고 할 수도 있습니다. 일단 사내에 데이터가 민감한 문제라는 문화가 자리잡혀야 합니다. 이루다는 이 문제가 중요하다는 걸, 우리 사회에 환기시킨 셈이고요.

첫인사는 일주일만에 작별인사가 됐다

이승환: 데이터를 주요 소재로 삼는 스타트업은 참 힘들 것 같은데요…

조원희: 대기업이든 스타트업이든, 정부에서 이미 개인정보와 데이터 이용 관련 규정을 정리한 상태입니다. 일단 시작은 이를 명확히 파악하는 것입니다.

데이터3법을 제대로 지키기 힘든 모델이라면, 규제샌드박스 제도를 통해 2년 간 면제해달라고 요청하는 게 다음입니다. 규제샌드박스를 무조건 통과할 수 있는 건 아니지만, 어디까지는 괜찮다고 유권해석을 받을 수는 있습니다.

혁신을 위해 규제 좀 풀어달라는 제도 (출처: 중앙일보)

이승환: 감사합니다. 마지막으로 한 마디 부탁 드립니다.

조원희: 그간 해킹 사건, 개인정보 유출 사건도 많았지만, 한국은 개인정보 보호에 엄격한 나라입니다. 오히려 너무 엄격해서 데이터 산업을 위해 완화해야 하는 거 아니냐는 주장도 있습니다.

그래도 데이터를 활용하는 회사라면, 최소한 현 시점에서의 개인정보, 데이터 관련 가이드라인 정도는 알고 있어야 합니다. 저도 많은 스타트업들과 함께 일하고 있습니다만, 어떤 스타트업이든 이 문제를 분명히 해결하고 넘어가는 게 장기적으로 사업에 도움이 될 겁니다.

필요하신 분들은, 좀 길지만 데이터3법의 구체적인 해설을 길게 정리했으니 한 번 면밀히 검토해보심을 권합니다. 그래도 어려우시다면 법률인들의 검토를 받으시길 권합니다. (링크)

의견을 주시면 더욱 좋은 뉴스레터가 될지도 모릅니다. 바빠서 언제 반영될지는 모릅니다.

AI 이루다 논란, AI 스타트업 입장과 법률인의 입장

엄태웅 AI 스타트업 아트랩 CEO, 조원희 디라이트 대표변호사 인터뷰

주간 이승환 님에게 커피와 쪽지 보내기

AI 연구자 출신 CEO의 입장: 엄태웅 아트랩 대표 인터뷰

법률가의 입장: 조원희 법무법인 디라이트 대표변호사 인터뷰

‘이루다’ 성희롱 논란과 알페스, AI와 창작물도 성범죄의 대상이 될 수 있을까?

‘개인정보 침해’ 문제는 생각보다 심각할 수 있다

다가올 뉴스레터가 궁금하신가요?

이번 뉴스레터 어떠셨나요?

주간 이승환 님에게 커피와 쪽지 보내기

c062782

이전 뉴스레터

다음 뉴스레터

다른 뉴스레터

메일리 도우미