학술논문은 대체로 아주 진지한 글입니다. 짧게는 몇 달에서 길게는 몇 년 동안 연구한 결과물을 정리하여 세상 어디에도 없던 지식의 조각을 발표하는 글이지요. 게다가 정상적인 학술지에서 발표된 논문은 출판 전에 해당 분야의 전문가들에게 피어 리뷰(peer review)라는 이름의 엄격한 평가를 받습니다. 저도 그랬지만, 대부분의 연구자들은 지난한 리뷰 과정에서 책잡힐 만한 요소를 최대한 없애기 위해 노력합니다. 전문가들의 비판적인 검토를 거치는 동안 논문은 점점 객관적이면서 조심스러운 글로 변해 가고, 결국 웃음기 하나 없는 건조한 글이 되곤 하지요.
삭막한 논문에 조금씩 위트를 섞으려는 연구자들도 드물지만 있기는 해요. 물론 본문을 장난스럽게 썼다가는 리뷰 과정을 넘어서기 어려워질 테니, 대개의 경우 제목에 장난을 칩니다. (주의: 연구자들은 대개 그렇게 재치 있는 사람들이 아닙니다. ‘웃긴 논문 제목’ 따위로 검색해 보시면 별로 웃기지 않은 제목들이 잔뜩 쏟아질 수도 있습니다.) 예상 독자의 눈을 확 끌 수 있다는 장점도 있고요. 최근의 유명한 사례로는 2017년에 출판된 기계학습 논문인 〈Attention is all you need〉, 번역하자면 〈어텐션만 있으면 돼〉가 있지요. 같은 내용의 논문이더라도 평범하고 보수적인 제목을 붙였다면 〈Massively parallelizable language model based entirely on the attention mechanism〉 정도가 되었을 겁니다.
〈어텐션〉 논문은 최근 유행하는 거대 언어 모델의 씨앗이 되었고, 2022년 6월까지 약 4만 5천 번 인용된 ‘대박 논문’입니다. 그런데 이 논문이 보수적이고 진지한 제목을 달고 공개되었다면 어땠을까요? 물론 〈어텐션〉은 그 내용과 성취가 대단히 훌륭한 논문이기 때문이 아마 제목이 조금 달랐더라도 널리 알려져서 많은 인용을 받았겠지만, 3만 번 정도 인용되는 데 그쳤을 수도 있지 않을까요? 아니면 6만 번 인용되어 마땅할 논문이었는데 장난스러운 제목 때문에 학자들의 반감을 사서 인용이 덜 된 걸까요?
2022년 3월, 캐나다 뉴브런즈윅 대학교의 생물학자 스티븐 허드(Stephen B. Heard) 교수는 논문 제목에 유머를 더했을 때 논문의 피인용 횟수에 어떤 변화가 생기는지 데이터를 분석해서 그 결과를 논문으로 발표했습니다. 〈이 제목을 보고 웃으셨다면 인용도 해주실 건가요? (If this title is funny, will you cite me?)〉라는 제목을 달았지요. 생물학 분야의 논문 2,400편을 대상으로 논문 제목의 ‘유머 지수’와 피인용 횟수 사이의 상관관계를 분석한 논문입니다.
허드 교수는 우선 열한 명의 ‘유머 판정단’을 선발해서 2,400편의 논문 제목의 ‘유머 지수’를 점수화했습니다. 유머 판정단원들은 여러 차례에 걸쳐서 2,400편의 논문 제목에 0점부터 6점까지 점수를 줬는데요, 0점은 ‘완벽하게 진지한 제목’이고 6점은 ‘매우 웃긴 제목’입니다. 그다음 열한 명의 판정단원들이 준 점수를 평균 내서 각 논문 제목의 점수를 계산했지요. 이어서 각 논문들이 인용된 횟수를 분석했습니다.
분석 결과는 어땠을까요? 실망스럽게도, ‘유머 지수’가 높은 제목일수록 인용 횟수가 낮아지는 경향이 나타났습니다. 유머 지수가 1점 높아질 때마다 인용 횟수가 4%씩 줄어든 거예요. 4%면 별것 아니어 보이지만, 0점 논문이 6점 논문이 된다고 생각하면 무려 22%나 인용 횟수에 손해를 보게 됩니다. 만약 이 분석이 맞는다면, 〈어텐션만 있으면 돼〉는 제목 때문에 만 번은 인용이 덜 된 셈입니다.
하지만 인용 횟수의 패턴에는 조금 특이한 점이 있었습니다. 제목 유머 지수가 높아질수록 자기인용(self-citation) 횟수가 줄어든 거예요. 자기인용은 자신이 출판한 논문을 다음 논문에서 인용하는 행위를 말합니다. 하나의 큰 주제를 계속해서 연구하고 있다면 당연히 스스로의 선행 논문을 인용하며 논리를 전개할 테니 자기인용을 하게 됩니다. 자기 인용 횟수가 줄어들었다는 건 무슨 의미일까요?
(왼쪽) 유머 지수에 따른 총 피인용수, (가운데) 자기인용 횟수, (오른쪽) 총 피인용수를 자기인용 횟수로 나눈 값입니다. 이미지 출처: bioRxiv 2022.03.18.484880 (2022), CC-BY-NC-ND 4.0.
허드 교수는 자기인용이 활발한 논문일수록 저자들이 스스로 자랑스러워하는 논문, 즉 중요한 논문일 거라고 해석했습니다. 자신이 과거에 출판한 논문 중 괜찮은 것들을 계속 인용하면서 홍보를 한다는 해석이지요. 반대로 어딘가 마음에 들지 않고 왠지 부끄러운 논문, 별로 중요하지 않은 결과만 들어 있는 논문은 나중에 굳이 스스로 인용을 하지 않으려 든다는 논리입니다. 즉, 연구자들이 스스로 평가하기에 대단치 않는 논문을 낼 때 더 가볍게 접근하면서 제목을 더 우습게 짓는 경향이 있다는 거죠. 훌륭한 발견을 담고 있고 자신의 커리어에 큰 자랑이 될 만한 논문을 발표할 때는 가장 안전하고 보수적인 제목을 짓는다는 겁니다.
요약하자면, 웃긴 제목을 달아서 인용이 덜 된 게 아니라 애초에 중요치 않은 내용의 논문에 웃긴 제목을 달았기 때문에 인용이 덜 된 거라고 볼 수 있겠지요. 그렇다면 자기인용 횟수가 비슷한 논문을 비교해 보면 어떨까요? 흥미롭게도, 자기인용 횟수라는 변인을 통제했을 때는 제목의 유머 지수가 1점 올라갈 때마다 무려 23%씩 피인용 횟수가 높아집니다. 기왕 낼 논문이라면, 제목을 최대한 위트 있게 달아보라는 결론이겠네요.
물론 이 분석에는 한계가 있습니다. 자기인용 횟수가 바로 논문의 중요성을 나타낸다고 생각하기는 어려워요. 자기인용은 사실 학술적 성과를 뻥튀기하는 편법으로 사용된 사례도 많습니다. 학계에서는 발표한 논문이 많이 인용될수록 직업적인 보상을 받게 되는데, 이를 노리고 전혀 상관없는 논문을 자기인용하는 경우도 대단히 많아요. 때문에 연구자의 명성을 평가할 때 총 인용 횟수에서 자기인용 횟수를 빼고 계산하는 경우도 점점 늘어나고 있습니다.
화려하고 위트 있는 제목에 비해 내용이 부실한 논문이 많다는 불평도 여기저기서 들려오곤 합니다. 앞서 언급한 〈어텐션〉 논문이 너무 성공한 탓에, 인공지능·기계학습 학계에서는 〈X is all you need〉 같은 제목을 단 논문이 은근히 많습니다. 〈어텐션〉 이후로 그만큼 주목받은 논문은 물론 없고요. 트위터에서 바이럴하게 유명해진 논문이라고 해서 전문가들의 인용을 많이 받지는 못한다는 분석 결과도 발표된 적 있습니다.
그럼에도 불구하고, 과학 논문이 다양한 독자층과 어떻게 상호작용하는지 이해하는 건 분명 즐겁고 또 유익한 주제입니다. 아무리 좋은 논문이라고 하더라도 동료 연구자들에게 읽히지 않으면 과학의 발전에는 기여할 수 없거든요. 딱딱하고 진지해 보이는 과학의 세계에서 과학자들이 작게나마 소통을 위해 노력하는 모습이 어떤 결과를 일으키는지, 데이터의 돋보기를 통해 알아보는 것은 그 자체로도 재미있는 분석이니까요.
댓글
의견을 남겨주세요