안녕하세요. 리스틀리입니다.
어느새 봄이 성큼 다가온 것 같아요. 얼마 전까지만 해도 패딩으로 꽁꽁 싸매고 다녔던 것 같은데 말이죠.😅 이번 레터에서는, 대 AI의 시대를 맞아 ‘웹스크래핑도 AI로 할 수 있을까?’라는 질문으로 간단한 테스트를 진행해 보았어요.
그리고 함께 전해드릴 소식은 리스틀리의 숨은 효자 기능, ‘탭스’의 업그레이드 소식입니다. 조용히, 하지만 알차게 준비 중이에요!
그럼 3월의 월간 리스틀리, 시작해 보겠습니다.🚀
Monthly Insights-이 달의 인사이트
AI, 데이터 수집도 대신해줄까? 👀
요즘은 일반 사용자도 쉽게 접근할 수 있는 AI 툴이 넘쳐납니다. 문서 요약, 글쓰기, 정보 검색까지, 업무에서 AI가 대신해주는 일이 점점 많아지고 있죠.
그렇다면 이런 AI가 웹페이지에 있는 데이터를 구조적으로 수집하는 일도 가능할까요? 쉽게 말해, 웹 스크래핑도 AI가 다 해줄 수 있을까요?
1. ChatGPT, Perplexity, Claude 같은 AI는?
이런 AI들은 주로 별도의 링크로 접속해 채팅창에서 대화하는 방식으로 사용됩니다.
웹 페이지 요약은 가능하지만, 위와 같은 AI 서비스에서는 우리가 기대하는 구조화된 데이터 수집까지는 아직 어려움이 있는데요.
URL과 함께 웹 스크래핑을 요청하더라도 위와 같이 웹 스크래핑 방법에 대해 안내를 해주거나, 직접적인 스크래핑은 어렵다는 답변을 받을 수 있었습니다. 링크에 접속하는 것 까지는 가능하지만, 상품 목록 전체를 정리된 표로 뽑아내거나, 파일로 저장하는 기능은 아직 부족하다는 뜻이죠.
2. 그럼 웹페이지 위에서 작동하는 AI 툴은 어떨까?
그렇다면 확장 프로그램으로 내가 실제로 보고 있는 웹페이지 위에서 작동하는 AI는 어떨까요? 그래서 이번에는 확장 프로그램에서 동작하는 AI 툴, Sider AI에서 테스트를 진행해 보았습니다.
웹페이지를 요약해 둔 상태에서 ‘이 페이지의 상품정보 전체를 엑셀처럼 구조화된 데이터로 수집해 줘’ 라는 프롬프트를 입력했습니다. 그런데 아래와 같은 결과가 나왔어요.
*이미지 내 같은 상품 데이터에는 같은 컬러 박스로 표시해두었습니다.
진열된 상품 순서와 맞지 않는 정보에, 표에는 일부 상품만 정리되어있었어요. 그리고 무엇보다 답변에서 “여기를 클릭하여 다운로드하세요”라는 문구는 존재하지만 실제 작동하지 않는 빈 링크가 나왔습니다.
결국, 구조화된 엑셀 파일을 받을 수는 없었습니다.
3. 웹페이지에서 바로 분석하는 것은 가능하지 않을까?
엑셀 수집은 안 된다면, 웹페이지에 떠 있는 정보들을 바탕으로 AI가 분석을 해줄 수는 있을까요?
비교를 위해 같은 쇼핑몰 페이지를 리스틀리로 웹스크래핑한 뒤, Chat GPT에 엑셀 파일을 기반으로 분석을 요청한 결과와 비교해보았습니다. 프롬프트는 둘 다 아래와 같이 동일하게 입력했습니다.
“이 페이지 or 이 파일에서 평점과 리뷰, 조회수를 기준으로 종합 순위가 가장 높은 순위 10위까지를 뽑아줘. 점수는 평점 40%, 리뷰수 30%, 조회수 30% 비중으로 매겨줘”
웹페이지 위에서 Sider AI로 분석한 결과와, 추출한 데이터를 기반으로 분석한 결과는 상당히 달랐습니다.
게다가, 웹페이지에서 바로 분석한 결과는 제품 순위 자체가 설득력이 부족했는데요.
해당 페이지에서 실질적으로 가장 인기 있는 제품은 요즘 뷰티에 관심이 조금이라도 있는 사람이라면 한번쯤은 들어봤을 ‘리*샷’인데, 그게 1위가 아니라는 결과가 나온 것 이었죠.
4. 왜 이런 차이가 발생했을까?
해당 쇼핑몰 페이지 구조를 살펴보면, 스크롤바가 상품 개수에 비해 매우 크다는 것을 알 수 있는데요. 모든 상품 정보를 한 번에 불러오는 방식이 아니라, 스크롤할 때마다 상품 정보가 유동적으로 불러와지는 구조임을 알 수 있습니다.
이렇게 유동적으로 정보를 불러오는 구조에서는, 현재 화면에 불러와져있는 정보만 AI가 인식하게 되는데요. 결과적으로, 웹페이지 구조에 따라 데이터 누락이 발생할 수도 있고 분석 정확도도 낮아지는 상황이 발생할 수 있는 것이죠.
실제로 Sider AI에 현재 페이지의 가장 마지막 상품이 뭐냐고 질문해봤더니,
전체 목록 중간쯤에 있는 상품을 마지막 제품으로 꼽는 상황을 확인할 수 있었습니다.
5. 결론 : AI가 데이터를 '읽을 수는 있어도', 완전히 '다룰 수는 없다'
지금 AI 툴들이 빠르게 발전하고 있지만, 정확하고 신뢰할 수 있는 분석을 위해서는 웹페이지에서 데이터를 먼저 '제대로' 추출하고 구조화하는 과정이 여전히 필요합니다.
리스틀리처럼 데이터를 확보한 뒤에 이루어지는 분석이 현재로서는 가장 디테일하고 설득력 있는 인사이트를 만들 수 있는 루트임을 이번 실험을 통해 확인할 수 있었어요.🔥
Listly Update - 리스틀리 소식
리스틀리의 탭스가 알차게 업데이트를 준비하고 있습니다. 그동안 여러 페이지를 동시에 추출해야 하는 상황에서 탭스를 써보셨다면, 그 즉각적인 반응에 만족하셨을 거예요. (실제로 그룹 추출이 막히는 상황에서도 탭스로는 대부분 해결 가능!)
🌟 이번에는 탭스의 영역 선택 기능이 더 유연해집니다.
기존에는 구조적으로 일치하는 하나의 단일 구간(PART)만 선택할 수 있었는데, 이제는 복수 구간, 즉 PARTS+ 선택도 탭스에서 가능해질 예정이에요.
페이지마다 같은 구조를 가지고 있다면, 여러 개의 섹션도 한 번에 선택해서 한 번 에 여러 페이지를 추출할 수 있게 되는 거죠. 한 번 선택하고 여러 페이지에 그대로 적용하는 흐름이 더 편해질 예정이에요.
🚀 그리고 또 하나! 여러개의 탭을 한 번에 띄우는 기능이 추가됩니다.
지금까지는 탭을 여러 개 여는 것 자체에 살짝...어려움을 느끼신 분들이 계실 텐데요. 이제는 단축키를 누른 채 영역을 드래그하면, 그 안에 링크가 있는 부분들이 자동으로 한 번에 탭으로 열리게 됩니다. 특히 ‘쇼핑몰 상품 리스트에서 상품 상세 탭 여러 개 열기’ 같은 작업에 아주 유용할 거예요.🙂
위 기능들은 현재 마지막 테스트중으로 곧! 적용 될 예정입니다. 아직 탭스를 써 본 적 없으셨다면, 이번 업데이트가 완료된 후에는 꼭 한 번 써보시길 추천드려요 :)
Coming up next...?
다음 장을 위한 마지막 페이지에서 드리는 인사.
2023년 9월에 시작했던 뉴스레터가 어느새 1년 반의 시간을 채웠습니다.
주기적으로 리스틀리가 발견한 인사이트와, 업무에 활용해볼 수 있는 소소한 아이디어를 전하며 쌓아온 시간들이 조용히 하나의 아카이브가 되었어요.
이번 3월호를 마지막으로, 재정비의 시간을 가지며 정기 뉴스레터 발행은 잠시 쉬어가려 합니다. 앞으로 매달 찾아가진 않겠지만, 리스틀리에 중요한 변화가 생기거나 꼭 전하고 싶은 정보가 있을 때, 그때그때 알차게 담아 인사드릴게요.
부족한 뉴스레터였지만, 그럼에도 꾸준히 읽어주신 많은 구독자 여러분께 진심으로 깊이 감사드립니다.
우리의 작은 연결이 앞으로도 이어지길 바라는 마음으로, 리스틀리 뉴스레터 시즌 1은 여기서 마무리 하겠습니다.
감사합니다.🥹🙌
의견을 남겨주세요