인터뷰/예측
Google I/O 애프터파티 : ‘Veo → Mariner’로 살펴본 인간-AI 협업의 미래
작성자
하이룽룽
작성일
2025-06-04 21:45
조회
59
Google I/O 애프터파티 : ‘Veo → Mariner’로 살펴본 인간-AI 협업의 미래
1. 왜 갑자기 “구글이 AI에서 앞서간다”는 평가가 나왔을까?
Q : 최근까지 ‘추격 중’이던 구글이 단숨에 ‘선두’ 이미지로 바뀐 이유는?A :
- 모델 성능 : Gemini 계열(특히 영상용 Veo3)이 여러 벤치마크 1위를 차지하며 기술 우위 입증.
- 제품 물량 공세 : IO 직전–행사 기간에 걸쳐 영상·에이전트·노트북 등 ‘새 카테고리’ 제품을 연달아 공개해 체감도를 높였다.
- “1장 끝, 2장 시작” : 내부에선 3년 가까이 준비한 성과가 한꺼번에 밖으로 드러난 결과로 평가.
2. Veo·Whisk·Flow — 구글의 차세대 ‘영상-창작’ 스택
Q : Whisk와 Flow는 무엇이 다르고, 누가 쓰게 될까?A :
- Whisk : 일반 소비자용 ‘영상·이미지 리믹스 놀이터’. 남이 만든 콘텐츠를 바로 가져다 변형하는 “쇼 앤드 텔” 방식이 핵심.
- Flow : AI 영화감독(“AI Filmmaker”) 을 겨냥한 고급 제작 툴. 월드 빌딩→가상 카메라 촬영→재촬영·수정까지 지원해 “Generative DSLR” 를 지향.
A :
- 손가락·물리 오류는 대부분 잡았으나, 다중 인물 일관성·장면 간 캐릭터 유지 같은 장기적 스토리·편집 기능은 추가 연구 중.
- 영상+음향 동시 생성이 처음 들어갔고, 오디오 제어 UI 설계(목소리 지정, 조음, 분리 등)가 새 난제.
3. Project Mariner — ‘컴퓨터 사용’ 에이전트가 바꾸는 전자상거래
Q : Mariner는 어떤 원리로 브라우저를 조종하나?A :
- Gemini 액션 파인튜닝 모델 이 사용자의 자연어 지시를 계획(Plan)→스크린샷 분석→행동 으로 실행.
- 현재는 VM(가상 머신) 안에서 다중 탭·다중 작업을 동시에 처리해 사용자는 PC를 계속 쓸 수 있다.
A :
- “마우스 구경은 재밌지만 일도 해야 한다” → 백그라운드 실행·작업 요약 추가.
- 속도·신뢰성 → 모델 품질 향상·사용자 컨텍스트(열린 탭 등) 전달로 정확도 개선.
- 10개 이상 동시 작업 → ‘생각’ 대신 ‘실행’에 집중할 수 있어 뇌 부담↓.
A :
- 브라우저 밖(데스크톱·모바일 OS)으로 확장, 툴 체인·메모리·에이전트-to-에이전트 생태계 구축.
- 쇼핑 예시처럼 “인간이 귀찮아 포기하던 구매” 를 완결까지 밀어, 전자상거래 전환율과 비즈모델 자체가 재편될 가능성.
4. Notebook LM — ‘1인용 미디어’와 맞춤형 지식 작업 공간
Q : 작년 ‘오디오 오버뷰’가 왜 바이럴 히트였나?A :
- 긴 문서를 두 명의 진행자 대화 형식으로 요약해 주는 ‘팟캐스트-같은’ 경험이 신선했고, TPU가 녹아내릴 정도 로 사용 폭주.
A :
- “프로젝트 단위” 장기 맥락 지원 : 학생·지식노동자용 지속적 자료 축적, 변환(마인드맵, 코믹, 오디오 등) 기능 강화.
- 모바일 : 단순 축소판이 아닌 센서·녹음·상시 휴대 특성을 살린 동반 경험 설계(예: 회의 즉시 녹음→요약→노트 누적).
A :
- 다양한 쇼 타입(피드백 코치, 논문 코믹북 등) 도입 예정.
- 최종 목표는 콘텐츠 형태가 상황에 맞춰 자동 적응 하는 ‘맞춤형 지식 미디어’ 창출.
5. 패널들의 핵심 전망 & 반성
질문 | 답변 요약 |
---|---|
내년(2025) 가장 ‘핫’할 AI 응용 분야? | 영상·리믹스형 콘텐츠 (Veo·Whisk 같은 참여형 제작/소비) |
과거 예측에서 가장 빗나간 부분? | 타이밍 — 기술·비용 곡선을 1~2년 앞서 기획해 너무 이른 제품을 만든 적 있음 |
가장 옳았던 확신? | “쇼 앤드 텔” 인터랙션 : 긴 프롬프트 대신 시각·행동 예시로 모델을 제어해야 편리하다는 신념 |
어서 2025년을 에이전트의 해로 만들어다오..