9월 셋째주 IT News

🧐 Summary

1️⃣ 새로운 카메라 컨트롤 버튼으로 직관적인 촬영 경험을 제공하는 iPhone 16이 발표되었습니다.

2️⃣ Adobe는 텍스트 프롬프트를 통해 영상을 자동으로 생성하는 AI 기능을 공개했습니다.

3️⃣ 구글은 사용자가 업로드한 문서를 AI가 대화를 나누면서 요약해서 오디오로 들려주는 Audio Overview 기능을 공개했습니다.

4️⃣ 로블록스는 텍스트를 입력하면 3D 장면을 빠르게 생성해주는 AI 도구를 공개했습니다.

5️⃣ 암 환자의 심리 모니터링을 위한 음성 기반 감정 인식 연구를 소개합니다.

안녕하세요 구독자님, 즐거운 추석 연휴 보내고 있으신가요? 추석인데도 폭염주의보 때문에 땀이 줄줄 흐르지만, 이번주에도 새로운 뉴스들과 즐거운 연휴 보내세요!

카메라 컨트롤 버튼을 추가한 iPhone 16

기다리던 iPhone 16 키노트 재밌게 보셨나요? 지난 Apple Intelligence에서 이미 많은 것을 공개했기에 기기 측면에서 큰 새로움이 없었다고 평가받을 뻔 했지만, 카메라 컨트롤 버튼이 생긴 것이 아주 흥미로웠습니다.

이 버튼은 현재 카메라의 다양한 기능을 제공하는데요, 클릭 한 번으로 카메라 앱을 열고, 다시 클릭하면 사진 촬영이 가능합니다. 길게 누르면 동영상 촬영을 할 수 있구요, 살짝 누르면 카메라 컨트롤 메뉴를 불러와서 좌우 스와이프로 기능 간 이동이 가능하죠. 사실 요즘 세대들은 카메라의 우측 상단 물리적 버튼에 익숙하진 않을텐데요, 레트로 무드가 유행하며 중고 디지털 카메라를 즐기는 친구들도 많으니 그런 느낌이 가능할까요?

💬 인간공학적으로 휴대폰을 쥐었을 때 오른쪽 검지손가락이 딱 닿는 위치에 카메라 컨트롤 버튼을 배치하였고, 검지 손가락이 위치한 방향에 적합하게 좌우로 스와이프 되는 직관적인 컨트롤을 제공함으로써 사용자에게 새로운 컨트롤의 즐거움을 줄 것 같습니다.최근 몇년간 휴대폰에서 하드웨어 버튼은 없어지는 추세였기에 새로운 물리적 인터랙션을 참 찾아보기 힘들었는데요, 애플이 새로운 버튼을 제공하면서 휴대폰 업계에 어떠한 영향을 끼칠지 궁금합니다. 또한 이 버튼이 Apple Intelligence와 연계하여 점차 더 많은 기능을 수행하는 모습이 기대되네요. 두 가지 클릭과 스와이프를 제공하면 이 조합을 이용한 재미있는 UI도 많이 만들 수 있을 것 같아요!

https://www.theverge.com/24239802/iphone-16-pro-max-hands-on-apple-photos-features-price

https://www.techradar.com/phones/iphone/the-iphone-16-got-a-camera-control-button-so-what-more-do-you-want

https://www.engadget.com/mobile/smartphones/iphone-16-pro-hands-on-how-does-a-faux-camera-control-button-feel-so-real-191406863.html?_fsig=7oVoguGLrZaVjS6CDASQcQ--%7EA

https://www.forbes.com/sites/prakharkhanna/2024/09/10/iphone-16-camera-control-button-everything-you-can-do-with-it/

Adobe의 AI 영상 제작 도구, Firefly Video model 공개

Adobe가 올해 말 베타 버전으로 공개될 예정인 Firefly AI를 활용한 영상 제작 도구를 발표하였습니다. Adobe는 이 기술이 후반 작업에서 단조로운 작업을 줄여주고, 창작자들이 더 창의적인 아이디어에 집중할 수 있도록 도울 것이라고 강조했는데요, 많은 분들에게 가장 인상적인 부분은 아마도 텍스트 프롬프트로 영상 제작을 해주는 기능이었을거에요. Adobe의 프로모션 영상에서는 다양한 텍스트 프롬프트를 통해 AI 생성 영상이 어떻게 구현되는지 보여줍니다. 이 기능은 많은 디자이너들에게 강력한 단축키로 사용될 것 같은데요, 아래 영상 한 번 봐주세요.

이 뿐 아니라 이미지-영상 변환도 가능한데요, 위 영상에서는 은하계 이미지를 활용하여 텍스트 프롬프트를 넣으면 인간의 눈 안쪽을 보여주는 영상으로 변환됩니다. 또한 Generative Extend는 숲 속 개울을 건너는 두 사람이 나오는 영상에서 AI가 부족한 장면을 자연스럽게 채워 넣는 모습이 나타나죠.

Firefly 영상 모델은 처음에는 5초 클립만 생성할 수 있으며, Adobe는 상업적으로 안전하게 사용할 수 있도록 자사에서 허가된 콘텐츠만 학습시킨다고 밝혔습니다. AI는 사용자의 작업을 학습하지 않으며, Firefly 도구는 Adobe Stock의 4억 개의 이미지, 일러스트, 영상으로 학습된다고 강조했습니다. 포토샵 사용자들의 컨텐츠를 AI 트레이닝에 사용할 수 있다는 약관으로 많은 이들의 반발을 샀던 것 기억하시죠? 아무래도 그 이후로는 좀 더 섬세한 대응을 하는 것 같아요.

베타테스터를 원하시면 아래에서 대기자 명단에 등록할 수 있으니 한 번 신청해보세요!

https://blog.adobe.com/en/publish/2024/09/11/bringing-gen-ai-to-video-adobe-firefly-video-model-coming-soon#form

💬 2023년 Firefly 출시 이후 급속도로 발전하는 모습을 보여주고 있네요. 이번 영상에서 놀라운 성능을 많이 확인할 수 있었는데요, 특히 사용자 작업을 학습하지 않는 AI라는 것을 강조하는 것이 재미있었어요. AI의 발전에 따라 AI를 어떻게 학습시키고 발전시켜 나가는 것이 옳은 것인지 제조사에서도, 사용자들도 함께 학습해나가고 있는 것 같아요. 윤리적 AI에 대한 인식이 점차 이렇게 확대될 것 같습니다.

구글, 문서를 오디오로 요약해주는 AI 기능 공개

구글이 NotebookLM이라는 AI 연구 도구에 문서를 오디오로 요약해주는 Audio Overview 기능을 추가했습니다. 구글의 NotebookLM은 사용자가 업로드한 문서를 바탕으로 다양한 질문에 대답하고 요약을 해주는 AI 연구도구에요. 이번에 추가된 Audio Overview는 문서를 올리면 두 명의 AI가 팟캐스트처럼 대화를 나누면서 내용을 정리해줘요. 문서 내용을 요약해주고 관련된 주제도 분석해주기 때문에 귀로 정보를 습득할 수 있죠.

이 기능은 아직 완벽하진 않아요. 영어로만 대화가 가능하고 가끔 틀린 정보를 알려줄때도 있어요. 또, 큰 파일을 처리할 때는 시간이 좀 걸리고 AI가 말할 때 중간에 끊거나 질문할 수 없습니다.

아직은 이런 한계가 있지만, 구글은 오디오로 들으면 더 잘 기억하는 사용자들이 있을 것이라 생각해서 이 기능을 만들었다고 하네요.

💬 연구를 할 때나 아이디어를 떠올려야할 때 가장 어려운 점이 뭘까요? 저는 혼자 고민해야 하는 점이라고 생각해요. 내가 생각하는 방향이 의미가 있을까 다른 방향을 고려해야 하는데 놓치진 않았을까 하는 걱정이 들곤하죠. 그런 고민을 하는 후배나 동료가 있으면 저는 다른 사람들에게 내가 생각한 것을 설명해보라고 해요. 대화를 하다보면 풀리는 부분들이 있거든요. Audio Overview는 이런 상황을 도와줄수 있는 기능이라고 생각합니다.

https://www.engadget.com/ai/googles-ai-notebook-can-generate-a-podcast-about-your-notes-140004869.html?_fsig=IHMMe98eT7tvDV5.zAuSGw--%7EA

로블록스, 텍스트로 3D 장면을 만들어주는 AI 도구 공개

로블록스가 텍스트로 3D 장면을 만들어주는 AI 도구를 공개했습니다. "사막에 레이스 트랙 만들어줘" 같은 텍스트를 입력하면 AI가 바로 3D 장면을 만들어준대요. 기존에는 이런 3D 장면들을 수작업으로 만들어야 했는데 이제는 이 AI 도구를 사용하면 훨씬 더 빠르게 만들 수 있죠.

이 AI 도구는 3D 블록을 알아서 조립해서 각 장면을 만들어요. 이런 방식때문에 가끔 이상한 위치에 나무가 생길수도 있어서 다른 AI가 오류를 한번 더 확인하고 수정해서 최종 결과물을 만들어줍니다.

이 도구를 사용하면 3D 디자인 기술이 부족한 사람들도 쉽게 게임을 만들 수 있겠죠? 특히 혼자 작업하는 개발자들에게 큰 도움이 될꺼 같네요.

💬 3D 디자인은 정말인지 시간과 인력의 싸움이란 생각이 들어요. 아직은 AI가 3D 장면을 만들어내기에 해결해야할 오류가 많아보이지만 중간 정도의 품질을 보장할 수만 있어도 많은 시간을 절약해주지 않을까 싶네요. 좋은 아이디어가 있는 게임 개발자의 실행력을 빠르게 높여줄 수 있을거에요.

https://www.technologyreview.com/2024/09/06/1103707/roblox-is-launching-a-generative-ai-that-builds-3d-environments-in-a-snap/

암 환자들의 심리 모니터링을 위한 음성 기반 감정 인식 소프트웨어 평가

Klotz, L. G., Wünsch, A., & Fischer, M. (2024). Evaluation of a Voice-Based Emotion Recognition Software in the Psycho-Oncological Care of Cancer Patients. In International Conference on Human-Computer Interaction (pp. 357-375). Springer, Cham.

지난 7월 있었던 International Conference on HCI에서 Best Paper 상을 받은 논문을 소개해드리려 해요. 이 논문에서는 암 환자들의 심리적 지원의 중요성에 대해 강조하며, 이를 지원할 수 있는 음성 기반 감정 인식 소프트웨어 활용 가능성에 대해 연구했습니다.

세계적으로 암 발병률은 증가하고 있고 또 이를 치료하기 위한 의료 기술의 발전으로 장기 생존자가 늘어나고 있지만, 이와 동시에 장기 암투병 중인 환자들의 심리적 고통 또한 큰 문제로 대두되고 있어요. 이를 지원하기 위해 암 환자들을 상담하는 앱을 개발하고 있는데요, 이 앱에서는 딥러닝 알고리즘을 이용해 음성 기반 감정 인식 기능을 지원합니다.

이 음성 기반 감정 인식 소프트웨어는 감정을 분석하기 위해 음성의 여러 특징 - 피치(pitch), 말하는 속도(speech rate), 강도(intensity), 음질(voice quality), 그리고 발음(articulation) 등 - 을 추출합니다. 예를 들어, 높은 불안, 기쁨, 분노 상태는 보통 더 높은 음조, 빠른 말하기 속도, 그리고 더 큰 소리로 나타나는 반면, 피로나 슬픔은 낮고 느린 목소리로 나타납니다. 또한 감정 분석에서 음성의 의미적 요소도 중요한 역할을 하기 때문에 특정 단어의 감정적 의미를 분석하는 것 역시 포함됩니다.

이 연구에서는 문헌 검토와 전문가 인터뷰를 통해 7가지 고유한 사용 사례를 식별하고 평가했습니다. 그 결과 음성 기반 감정 인식에 대한 최우선 사용 사례는 암 환자의 감정 상태를 장기적으로 모니터링하는 것으로 나타났습니다. 특히 심리종양학적 치료를 효과적으로 지원하기 위해 불안과 고통, 심리적 장애인 우울증과 같은 감정에 초점을 맞추는 것을 권장하고 있어요.

💬 음성 기반의 감정 인식은 챗 서비스에서 아바타의 감정 표현 등에 활용되는 걸로만 생각해왔었는데, 이렇게 심리 상담에서 활용하는 것은 정말 유용해보여요. 특히 감정적 모니터링이 필요한 특정 사용자 군에는 생명과 연계된 중요한 문제잖아요. 이런 연구에 대해 늘 모니터링하고 제품을 개발할 때에도 이런 접근을 시도해본다면 새로운 제품 개발에 좋은 영향을 미칠 수 있을 것 같아서 여러분들과 이 연구 내용을 나누어보고 싶었어요. 아래 링크에서 전문을 확인하실 수 있으니 관심있으신 분들은 한 번 읽어보시길 바랍니다.

https://link.springer.com/chapter/10.1007/978-3-031-60405-8_23

수요일에 깊은 이야기로 만나요!

Inspire X에 의견 보내기