🧐 Summary
1️⃣ 구글의 DeepMind 연구소가 비디오에 맞는 사운드트랙과 대사를 생성하는 새로운 기술을 개발 중입니다.
2️⃣ Anthropic가 새로운 AI 모델인 Claude 3.5 Sonnet을 출시했습니다.
3️⃣ Meta가 최근 SNS 사진에 "Made with AI’ 라벨을 잘못 적용해서 논란이 되고 있습니다.
4️⃣ 최근 설문조사에 따르면 사람들은 전기차 소리로 가솔린 차량 소리에 더 가까운 소리를 선호하는 것으로 나타났습니다.
5️⃣ King's College London의 연구팀에 따르면 로봇의 디자인은 신뢰도, 보증, 보증자의 특성을 잘 반영해야 한다고 합니다.
안녕하세요 구독자님. AI 관련 소식과 사운드 디자인, 인간-로봇 상호작용에 대한 이야기를 가지고 왔습니다. Inspire X와 함께 한 주 시작해보시죠!
DeepMind, AI 기반 비디오-오디오 생성 기술 공개
구글의 DeepMind 연구소가 비디오에 맞는 사운드트랙과 대사를 생성하는 새로운 기술을 개발 중입니다. 이 '비디오-오디오 생성(V2A)' 기술은 Google Veo 및 OpenAI의 Sora와 같은 비디오 제작 도구와 결합하여 사용될 수 있습니다. DeepMind 팀은 V2A 시스템이 원시 픽셀을 이해하고 텍스트 프롬프트를 사용하여 화면에서 일어나는 일에 대한 사운드 효과를 생성한다고 설명했습니다. 이 기술은 무성 영화와 같이 사운드가 없는 전통적인 영상에도 사운드트랙을 추가할 수 있습니다.
연구팀은 비디오, 오디오 및 AI 생성 주석을 통해 기술을 훈련시켰으며, 특정 소리를 시각적 장면과 연결하는 방법을 학습했습니다. 텍스트 프롬프트는 선택 사항이며, 이를 통해 출력 결과를 더 정확하고 현실감 있게 조정할 수 있습니다. 현재 연구팀은 기술의 오디오 품질 저하와 생성된 대사의 립싱크 문제를 해결하기 위해 노력하고 있습니다. 기술이 공개되기 전에 엄격한 안전 평가와 테스트를 진행할 계획입니다.
💬 Sora를 보고 놀랐던게 얼마전 같은데 이제 음악과 대사를 만들어주는 기술이 나왔네요. 쉽게 생각하면 우리가 만드는 숏폼 영상이나 유튜브 영상 등을 이제 정말 쉽게 편집하고 업로드할 수 있게 될것 같아요. 이런 기술이 발달하면 할 수록 사람만이 가질 수 있는 창의성을 발전시키는 것이 중요한 역량이 될 것 같습니다.
Anthropic, 고성능 AI 모델 Claude 3.5 Sonnet 출시
Anthropic이 새로운 AI 모델인 Claude 3.5 Sonnet을 출시했습니다. 이 모델은 OpenAI의 GPT-4o와 구글의 Gemini보다 다양한 작업에서 더 나은 성능을 자랑하며, 웹과 iOS에서 Claude 사용자에게 제공되고 개발자도 사용할 수 있습니다.
이 모델은 코드 작성, 다중 단계 워크플로 처리, 차트 및 그래프 해석, 이미지에서 텍스트 전사 등 다양한 작업에서 뛰어난 성능을 발휘합니다. 또한, 유머를 이해하고 더 인간적인 글쓰기를 할 수 있는 능력도 향상되었습니다.
함께 도입된 'Artifacts' 기능은 Claude가 생성한 결과물을 보고 편집할 수 있게 해줍니다. 예를 들어, Claude가 디자인한 것을 보여주고 앱 내에서 직접 수정할 수 있습니다. 이메일 작성 시에도 Claude 앱에서 바로 편집할 수 있어 사용자 편의성이 크게 향상되었습니다.
Anthropic은 Claude 3.5 Sonnet을 기업용 도구로 발전시켜 지식, 문서, 작업을 하나의 공유 공간에서 안전하게 중앙 집중화할 계획입니다. 이는 Notion이나 Slack과 유사한 기능을 목표로 하고 있으며, Anthropic의 모델이 시스템의 중심이 됩니다.
💬 ChatGPT와 Gemini를 뛰어넘는 성능을 보여준 클로드. 무엇보다 유료모델보다 우수한 무료 모델이라는 점에서 많은 사람들이 주목하고 사용해 보게 될 것 같아요. 이번 모델 출시를 통해 AI 경쟁에서 Anthropic의 위치가 더욱 공고해질 것 같습니다.
https://www.theverge.com/2024/6/20/24181961/anthropic-claude-35-sonnet-model-ai-launch
Meta의 'Made with AI' 라벨 오류
Meta가 최근 SNS 사진에 "Made with AI’ 라벨을 잘못 적용해서 논란이 되고 있습니다. Meta는 올해 2월부터 AI 도구로 생성된 사진에 "Made with AI" 라벨을 붙이기 시작했습니다. AI로 생성된 콘텐츠를 식별하려는 시도였지만, AI 도구를 사용하지 않은 사진에도 라벨이 잘못 붙는 경우가 발생하면서 사용자와 사진작가들의 불만을 샀습니다. 일부 사진작가들은 단순히 사진을 편집한 것만으로 이러한 라벨이 붙는 것에 반발하고 있습니다.
Meta는 이미지 메타데이터를 이용해 라벨을 감지한다고 밝혔지만, 정확한 적용 기준에 대한 명확한 설명은 하지 않았습니다. 또한, AI 도구 제공업체와 협력해 라벨링을 개선하려고 노력중이라고 합니다. 미국 선거를 앞두고 소셜 미디어 기업들은 AI 생성 콘텐츠를 정확히 처리해하는 압박을 받고 있는데요, Meta의 라벨링 문제는 이러한 과제의 복잡성과 어려움을 잘 보여두는 사례라고 할 수 있습니다.
💬 AI 생성 콘텐츠를 얼마나 어떻게 구별해야하는가는 계속 논쟁이 있는 주제인것 같습니다. 기사에 있는 내용처럼 AI로 편집한 콘텐츠까지 AI가 만든것으로 봐야하는지, 처음부터 AI로 만든 콘텐츠만 그 대상으로 봐야하는지 아직은 기준이 불분명하네요. 우리의 인식, 사회적 합의도 아직 이루어진 상태가 아니기때문에 당분간은 이런 이슈를 계속 고민하게 될것 같습니다.
https://techcrunch.com/2024/06/21/meta-tagging-real-photos-made-with-ai/
전기차 경고음에 대한 사용자 만족도 조사 결과
전기차(EV) 제조사들은 저속 주행 시 보행자에게 경고하기 위해 전기차에서 나는 소리에 대해 고민해 왔습니다. 현재 대부분의 전기차 소리는 윙윙거리는 우주선 소리와 비슷합니다. 그러나 최근 설문조사에 따르면 사람들은 가솔린 차량 소리에 더 가까운 ‘비조성(Non-tonal: 특정한 음높이를 가지지 않는 소리)’소리를 선호하는 것으로 나타났습니다.
Listen(소닉 브랜딩 에이전시)와 CloudArmy(행동과학 및 뉴로마케팅 연구 기관)가 미국 성인 400명을 대상으로 진행한 설문조사 결과, 사람들은 높은 음의 소리를 ‘불쾌한 소리’로 인식했습니다. 반면에 비조성 소리는 ‘백색 소음’이나 ‘자연의 소리’로 인식하기 때문에 이 소리를 더 선호하는 것으로 나타났습니다.
이러한 결과는 BMW, 메르세데스-벤츠, 피아트와 같은 자동차 제조사들이 작곡가를 고용해서 전기차 소리를 디자인한 노력과 반대되는 내용이라고 할 수 있습니다. 결국, 사용자들은 전기차 소리로 전통적인 자동차 소리를 선호한다는 것이기 때문이죠. 유명 작곡가나 아티스트를 고용하는 대신, 백색소음에 가까운 비조성 소리를 적용하는 것이 더 효과적일 수 있습니다.
하지만 정부 규정에 따라 전기차는 저속 주행 시 보행자와 도로 이용자에게 경고하기 위해 1,000~4,000Hz 범위의 소리를 내야 합니다. 즉, 높은 음의 경고음을 제공해야하는데, 이러한 주파수대의 소리는 사람들의 주의를 끌수는 있지만 부정적인 인식을 줄 수 있습니다.
💬 전기차의 소리가 다 비슷하다고 느꼈는데, 경고음의 특성을 강조하기 위한 것이었네요. 전기차처럼 소리가 나지않는 기기에서 소리를 내기 위해서 각 기업들은 자신들의 브랜드가 담긴 소리를 적용하고자 노력합니다. 예전에 카메라 셔터음에 대한 연구를 한 적이 있었는데, 사용자들은 카메라로 사진을 찍을때 전통적이고 기계적인 셔터음을 중요하게 생각하더라구요. 전기차 경고음에 대한 설문조사 결과도 이와 비슷한것 같아요. 이전부터 제품을 사용하던 문화적, 사회적 감성이 남아있기 때문에 그것을 적당히 유지하면서 새로운 소리를 디자인하는 것이 중요한 것 같습니다.
https://www.theverge.com/24182348/ev-sounds-low-speed-survey-non-tonal-white-noise
인간-로봇 상호작용에서의 신뢰와 순응에 대한 연구
얼마 전 King's College London의 연구팀이 발표한 인간-로봇 상호작용에서의 신뢰와 순응에 대한 연구가 흥미로워 공유드립니다.. 이 연구는 인간이 로봇의 요청이나 권고에 긍정적으로 반응하는 '순응'의 이유를 분석하며, 신뢰 외에도 다른 요소들이 순응을 유도할 수 있음을 밝혔습니다.
본 연구에서는 즉각적인 상호작용에서 인간이 로봇의 지시에 순응하는 이유를 알아내기 위해 사용자에게 ‘왜 순응했읍니까?’라는 질문을 던졌습니다. 기존의 신뢰 연구에서는 대부분 순응을 신뢰의 행동적 척도로 사용했기에 신뢰에 좀 더 초점을 맞추었지만, 본 연구는 ‘순응’에 좀 더 집중한 것이죠.
이 연구에서는 다음과 같은 세 가지 시나리오를 설정하여 로봇이 지시를 내리는 상황에서 인간의 순응을 유도하는 로봇의 디자인 특성을 분석했습니다
- 화재 대피: 화재 경보가 울리고 로봇이 대피 지시
- 신분증 요청: 로봇이 신분증 제출 요청
- 케이블 뽑기: 로봇이 인터넷 케이블을 뽑아달라고 요청
각 시나리오에서 로봇의 신뢰도, 보증(guarantee), 보증자(guarantor) 특성을 변형하여 실험을 진행한 결과, 아래와 같은 인사이트를 얻었습니다.
- 외관 디자인과 행동: 로봇의 형태와 동작이 순응에 영향을 미쳤습니다. 인간형 로봇(TIAGo)이 비인간형 로봇(Turtlebot)보다 높은 순응률을 보였습니다.
- 보증의 효과: 간결하고 사실적인 보증이 순응을 유도하는 데 효과적이었습니다. 특히 신분증 요청 시나리오에서 보증이 중요한 역할을 했습니다.
- 보증자 효과: 로봇이 신뢰할 만한 기관이나 전문가에 의해 배치되었다는 정보가 순응을 높였습니다. 특히 화재 대피 시나리오에서는 이 효과가 두드러졌습니다.
이 논문에서는 로봇의 디자인은 신뢰도, 보증, 보증자의 특성을 잘 반영해야 한다고 주장하며, 다음과 같은 가이드라인을 제시합니다:
1. 로봇은 전문적이고 목적에 적합한 외형을 가져야 합니다.
2. 로봇이 전문가에 의해 배치되었음을 명확히 전달해야 합니다.
3. 보증은 간결하고 사실적이어야 합니다.
4. 보증이 개인화된 추천 형태라면 더 효과적일 수 있습니다.
💬 사람과 로봇의 상호작용에서 어떤 요소들이 로봇에 대한 신뢰를 높이고 로봇의 지시에 순응하게 하는지에 대해 연구한 이 논문은 로봇 및 챗봇 디자인에 좋은 인사이트를 주는 것 같습니다. 점차 다양한 분야에서 로봇이 활용되고 있는데, 로봇의 지시에 순응하게 하는 요소들을 챗봇과 같은 AI에도 적용할 수 있을 것 같아요. 그 전문성에 대한 신뢰도를 높여주면 사람들이 보다 쉽게 결과물을 받아들이고 인정할 수 있을 것 같습니다.
Weerawardhana, S., Akintunde, M., Masters, P., Roberts, A., Kefalidou, G., Lu, Y., ... & Moreau, L. (2024, May). More Than Trust: Compliance in Instantaneous Human-robot Interactions. In The 33rd IEEE International Conference on Robot and Human Interactive Communication: Embracing Human-Centered HRI.
저희는 수요일에 더 깊은 이야기로 돌아올게요. 수요일에 만나요!
댓글
의견을 남겨주세요