[오늘의 과학기술] 빅테크에 반격하기, '데이터 파업'

많은 분들이 눈치채고 계시겠지만, 요즘 인터넷 환경은 사용자의 개인정보를 최대한으로 수집하기 위해 그야말로 혈안이 되어 있습니다. 어느 사이트를 접속하더라도 우리의 사용 내역을 기록하고 수집한다며 팝업을 띄우고 동의해 달라고 요청하지요. 그나마 양심적인 사이트는 이것을 거절해도 적당히 사이트를 이용하게 해 주지만, 어떤 사이트는 아예 동의하지 않으면 사이트를 나가게 하거나 화면 전체를 가리는 거대한 팝업창을 지워주지 않기도 합니다.

인터넷 광고는 어떤가요? 쇼핑몰 창에 뭐 하나라도 검색했다가는 사이트 배너 광고에 연관 상품 광고만 주르륵 나오는 경험, 다들 해 보셨을 거예요. 전혀 맥락 없는 성인물 광고도 불쾌하지만, 내 취향과 기록을 모조리 꿰고 있는 개인 특화 광고도 소름 끼칩니다. 좀 더 깊숙하게는 우리가 SNS 플랫폼에 업로드하는 수많은 글이며 사진이 어디서 어떻게 쓰이고 있는지 모른다는 두려움도 있습니다. 거대 SNS 기업이 이것들을 이용해서 인공지능을 학습시키는 건 당연한 일이고, 불법적으로 개인 계정의 글과 사진을 수집하는 업체도 없지 않을 테니까요.

이런 환경에서 개인정보 보안에 사람들이 우려를 표하고 걱정하게 되는 것은 당연한 일입니다. 빅데이터 기업에 문의해 보면 “우리는 누가 누구인지 식별 가능한 개인정보는 전부 지웠으니 걱정 마세요”라고 대답하기만 할 뿐이죠. 하지만 2021년 초 논란이 되었던 챗봇 ‘이루다’ 사건에서처럼, 행여나 데이터를 조작하는 기업이 조금이라도 실수하면 이 개인정보는 손쓸 새 없이 인터넷으로 흘러나갈 수도 있습니다. 기업은 못 미덥고 정부의 반응은 느린 이 와중에 개인이 할 수 있는 일은 무엇이 있을까요?

미국이나 유럽 등의 선진국에서는 개인정보 보안에 대한 논의가 우리보다 훨씬 광범위하게 진행되었습니다. 특히 요즘에는 정부 차원의 규제뿐 아니라 사용자 개개인이 빅테크 기업을 ‘엿먹일’ 수 있는 기법에 대한 연구와 홍보도 비교적 활발히 이루어지고 있는데요, 이번 글에서는 이미 널리 쓰이고 있는 ‘데이터 파업’을 소개하도록 하겠습니다.

우선 간단하게 사용자 맞춤형 광고를 방해하는 방법부터 살펴볼까요? 구글 애드센스 등의 사용자 맞춤형 광고는 기본적으로 내가 과거에 검색하고 쇼핑했던 이력을 추적하고 분석해서 내가 기꺼이 돈을 낼 만한 아이템을 추천해 주는 방식입니다. 알고리즘이 어떤 상품을 추천할지 ‘정확’하게 판단을 내리려면 당연히 나의 과거 쇼핑 이력이 일관성이 있어야겠지요. 사지도 않을 물건을 이것저것 클릭만 하고 다니는 사람한테는 별다르게 구미가 당기는 추천을 하지는 못할 겁니다.

여기에 착안한 앱이 바로 “AdNauseam”입니다. 크롬이나 사파리, 파이어폭스 같은 인터넷 브라우저의 확장 프로그램으로 설치할 수 있지요. 좀 이상한 이름인데, 라틴어 “ad nauseam”에서 따 온 이름이지요. 이 단어는 “구역질이 날 만큼”, “진저리가 날 정도로” 같은 의미를 갖는 일종의 관용어구인데요, 사용자 맞춤형 광고를 다들 진저리 나게 싫어한다는 점을 생각하면 꽤 잘 지은 이름입니다. 하필 라틴어 전치사 “ad”가 광고(Ad)랑 같은 스펠링인 것도 재밌습니다.

AdNauseam이 하는 일은 사용자가 접속하는 모든 사이트에서 보이는 구글 광고를 모조리 눌러버리는 겁니다. 좀 번거롭긴 하지만 단순작업이기 때문에 이걸 실행하는 앱을 하나 갖고 있으면 그렇게 어려운 일은 아니지요. 사용자 맞춤 광고가 잘 작동하기 위해서는 기본적으로 믿을 만한, 즉 사용자의 ‘진심이 담긴’ 데이터가 대량으로 필요한데, AdNauseam을 사용하면 기업 입장에서는 사용자의 취향과 선호에 대해 아무 정보도 주지 않는 쓰레기 데이터만 잔뜩 들어오는 겁니다. 이런 공격을 데이터에 독 타기, 데이터 오염(data poisoning) 이라고 부르지요.

AdNauseam으로 대표되는 데이터 오염 공격은 얼마나 효과가 있을까요? 2021년 3월 3일, 구글은 더 이상 광고주들에게 사용자 쿠키 정보를 제공하지 않겠다고 발표한 바 있습니다. 낙관적인 사람들은 구글의 정책 변경이 데이터 오염 공격이 만연하면서 어차피 쓸모 있는 데이터를 확보하지 못하게 된 구글 측에서 그럴듯한 핑계를 대며 이미지 개선을 시도하는 거라고 생각하기도 합니다만, 진상은 아무도 모르는 일이겠지요. 어쨌든 데이터 오염 공격이 계속되면 테크 기업 입장에서 자사 알고리즘을 굴리기가 점점 어려워진다는 것은 사실일 겁니다.

AI 방어용 이미지 처리 프로그램인 포크스(Fawkes)의 웹사이트입니다. https://sandlab.cs.uchicago.edu/fawkes/

좀 더 기술적으로는 어렵지만 더 강력한 공격으로는, 인터넷에 우리가 업로드하는 사진 자체를 오염시켜서 인공지능 알고리즘이 인식하지 못하게 하는 방향이 있습니다. 적대적 공격(adversarial attack)이라고 하는 기법인데, 사진을 아주 미세하게 조작해서 사람은 바뀐 것을 전혀 눈치챌 수 없으면서도 AI 알고리즘이 완전히 엉뚱하게 인식하게 만드는 기술이지요.

위의 사진을 보시면 이처럼 AI를 속여넘기는 알고리즘인 포크스(Fawkes)가 어떻게 작동하는지를 볼 수 있습니다. 똑 같은 사진이 두 장씩 보일 텐데, 사실 각각의 사진 쌍에서 오른쪽 사진은 왼쪽 사진을 살짝 가공해서 컴퓨터가 알아볼 수 없도록 조작한 사진이에요. 적대적 공격은 아주 효과적이면서도 강력해서, 사람 눈에는 멀쩡한 고양이 사진처럼 보이는데 잘 훈련된 AI 알고리즘은 뜬금없이 기차라고 하게 만들 정도입니다. 이걸 이용해서 설령 내가 업로드한 사진이 빅테크 기업의 AI 알고리즘에 입력된다 하더라도 거기서 유용한 정보는 아무것도 학습하지 못하도록 방해하는 거죠.

포크스 측에서 권장하는 방법은 이렇습니다. 인터넷에 셀카나 단체 사진 따위를 업로드하기 전에, 포크스를 통과시켜서 사람 눈에는 똑같아 보이지만 컴퓨터는 완전히 혼란에 빠뜨릴 수 있는 사진으로 바꿉니다. 그리고 나서 SNS에 그 사진을 업로드하면 나의 SNS 친구들과 교류하는 데는 아무 지장도 없지만 테크 기업이 그 사진을 수집해서 자사의 AI 모델을 학습시키는 건 방해할 수 있다는 거죠.

다만 빅테크 기업의 알고리즘도 내부적으로 끊임없이 변화하기 때문에 한계가 있기는 합니다. 실제로 포크스 개발진에 따르면 마이크로소프트의 얼굴인식 알고리즘이 어느 순간 갑자기 포크스의 조작에 속아 넘어가지 않게 되었다고 해요. 포크스 개발진은 바로 후속 업데이트를 통해 다시 마이크로소프트를 속여넘기는 기능을 추가했지만, 결국 빅테크 기업과 데이터 오염 앱 사이의 꼬리잡기 게임이 될 수밖에 없기는 합니다.

빅테크 기업과 사생활, 개인정보 문제에 대한 궁극적인 해결책은 어쩌면 없을 수도 있습니다. 법적인 규제는 언제나 느슨하기 마련이고 빠져나갈 구멍은 있을 테니까요. 점점 복잡해져서 아무도 그 구조를 이해할 수 없게 되는 인공지능 알고리즘 특성도 한몫해서, 데이터가 어디서 어떻게 사용되고 있는지 심지어 테크 기업 자신도 제대로 이해하지 못할 수도 있지요.

그럼에도 불구하고 사용자가 자신들의 선에서 데이터가 어떻게 사용되는지 적극적으로 감시하고, 때로는 AdNauseam이나 포크스 같은 앱을 활용해서 데이터가 함부로 쓰이지 못하도록 작은 저항이나마 보탠다면 테크 기업들도 경각심을 갖고 자사 기술이 조금이라도 덜 악용되도록 신경 쓸 수밖에 없을 겁니다. 그들이 윤리적인 깨달음을 얻어서는 물론 아니고, 그게 세상의 트렌드라면 이익을 위해서라도 선하게 행동할 수밖에 없는 게 바로 자본주의의 행동 원리니까요.