Google I/O 애프터파티 : ‘Veo → Mariner’로 살펴본 인간-AI 협업의 미래

작성자

하이룽룽

작성일

2025-06-04 21:45

조회

Google I/O 애프터파티 : ‘Veo → Mariner’로 살펴본 인간-AI 협업의 미래

1. 왜 갑자기 “구글이 AI에서 앞서간다”는 평가가 나왔을까?

Q : 최근까지 ‘추격 중’이던 구글이 단숨에 ‘선두’ 이미지로 바뀐 이유는?
A :

모델 성능 : Gemini 계열(특히 영상용 Veo3)이 여러 벤치마크 1위를 차지하며 기술 우위 입증.
제품 물량 공세 : IO 직전–행사 기간에 걸쳐 영상·에이전트·노트북 등 ‘새 카테고리’ 제품을 연달아 공개해 체감도를 높였다.
“1장 끝, 2장 시작” : 내부에선 3년 가까이 준비한 성과가 한꺼번에 밖으로 드러난 결과로 평가.

2. Veo·Whisk·Flow — 구글의 차세대 ‘영상-창작’ 스택

Q : Whisk와 Flow는 무엇이 다르고, 누가 쓰게 될까?
A :

Whisk : 일반 소비자용 ‘영상·이미지 리믹스 놀이터’. 남이 만든 콘텐츠를 바로 가져다 변형하는 “쇼 앤드 텔” 방식이 핵심.
Flow : AI 영화감독(“AI Filmmaker”) 을 겨냥한 고급 제작 툴. 월드 빌딩→가상 카메라 촬영→재촬영·수정까지 지원해 “Generative DSLR” 를 지향.

Q : Veo3가 해결했지만 여전히 숙제인 부분은?
A :

손가락·물리 오류는 대부분 잡았으나, 다중 인물 일관성·장면 간 캐릭터 유지 같은 장기적 스토리·편집 기능은 추가 연구 중.
영상+음향 동시 생성이 처음 들어갔고, 오디오 제어 UI 설계(목소리 지정, 조음, 분리 등)가 새 난제.

3. Project Mariner — ‘컴퓨터 사용’ 에이전트가 바꾸는 전자상거래

Q : Mariner는 어떤 원리로 브라우저를 조종하나?
A :

Gemini 액션 파인튜닝 모델 이 사용자의 자연어 지시를 계획(Plan)→스크린샷 분석→행동 으로 실행.
현재는 VM(가상 머신) 안에서 다중 탭·다중 작업을 동시에 처리해 사용자는 PC를 계속 쓸 수 있다.

Q : 초기 테스터들이 요구한 개선점과 최근 업데이트는?
A :

“마우스 구경은 재밌지만 일도 해야 한다” → 백그라운드 실행·작업 요약 추가.
속도·신뢰성 → 모델 품질 향상·사용자 컨텍스트(열린 탭 등) 전달로 정확도 개선.
10개 이상 동시 작업 → ‘생각’ 대신 ‘실행’에 집중할 수 있어 뇌 부담↓.

Q : 앞으로의 로드맵?
A :

브라우저 밖(데스크톱·모바일 OS)으로 확장, 툴 체인·메모리·에이전트-to-에이전트 생태계 구축.
쇼핑 예시처럼 “인간이 귀찮아 포기하던 구매” 를 완결까지 밀어, 전자상거래 전환율과 비즈모델 자체가 재편될 가능성.

4. Notebook LM — ‘1인용 미디어’와 맞춤형 지식 작업 공간

Q : 작년 ‘오디오 오버뷰’가 왜 바이럴 히트였나?
A :

긴 문서를 두 명의 진행자 대화 형식으로 요약해 주는 ‘팟캐스트-같은’ 경험이 신선했고, TPU가 녹아내릴 정도 로 사용 폭주.

Q : 최근 초점은?
A :

“프로젝트 단위” 장기 맥락 지원 : 학생·지식노동자용 지속적 자료 축적, 변환(마인드맵, 코믹, 오디오 등) 기능 강화.
모바일 : 단순 축소판이 아닌 센서·녹음·상시 휴대 특성을 살린 동반 경험 설계(예: 회의 즉시 녹음→요약→노트 누적).

Q : 앞으로 오디오 오버뷰와 포맷 다양화는?
A :

다양한 쇼 타입(피드백 코치, 논문 코믹북 등) 도입 예정.
최종 목표는 콘텐츠 형태가 상황에 맞춰 자동 적응 하는 ‘맞춤형 지식 미디어’ 창출.

5. 패널들의 핵심 전망 & 반성

질문	답변 요약
내년(2025) 가장 ‘핫’할 AI 응용 분야?	영상·리믹스형 콘텐츠 (Veo·Whisk 같은 참여형 제작/소비)
과거 예측에서 가장 빗나간 부분?	타이밍 — 기술·비용 곡선을 1~2년 앞서 기획해 너무 이른 제품을 만든 적 있음
가장 옳았던 확신?	“쇼 앤드 텔” 인터랙션 : 긴 프롬프트 대신 시각·행동 예시로 모델을 제어해야 편리하다는 신념

한줄 요약

구글 랩스는 ① 초보-전문가 모두가 협업할 수 있는 영상 제작(Whisk·Flow·Veo), ② 브라우저 안팎에서 실질적 ‘대행’ 을 해줄 컴퓨터 사용 에이전트(Mariner), ③ 개인 맥락에 맞춰 지식을 축적·변환해 주는 1인용 미디어 플랫폼(Notebook LM) 으로 “모델 성능 → 사용 경험 → 생태계” 의 2막을 열고 있다.

전체 1

ㅇㅇ

2025-06-05 05:41

어서 2025년을 에이전트의 해로 만들어다오..

« 샘 알트만 "향후 1-2년 내 공개될 차세대 모델은 GPT-3→GPT-4 때보다 더 ‘숨 막히는’ 수준의 전방위적 개선을 보일 것"

그렉 브록만 "기초 연구가 돌아왔다" »

목록보기 답글쓰기

글수정 글삭제

N 앤트로픽 CPO "2027년의 AI 예측 보고서가 현실과 빠르게 수렴하고 있음을 실감" (1)	06:51
N Llm 으로 agi (1)	01:54
N 레이 커즈와일 "현 컴퓨팅 기술(집적회로) 이후의 차세대 패러다임으로 나노기술 기반 컴퓨터 등장할 것" (1)	2025.06.06
N 제러드 캐플런 "Claude를 OpenAI에 매각하는 것은 이상할 것"	2025.06.06
N 이거하고 똑같은 (1)	2025.06.06
N 선다 피차이 "Gemini 모델에 Ultra 모델을 내놓지 않고 Pro 모델을 출시한 이유" (1)	2025.06.06
N Gemini 2.5 Pro 0605 버전 성능 (2)	2025.06.06
N 그렉 브록만 "기초 연구가 돌아왔다"	2025.06.05
N Google I/O 애프터파티 : ‘Veo → Mariner’로 살펴본 인간-AI 협업의 미래 (1)	2025.06.04
N 일반 에이전트에는 세계 모델이 필요합니다. (4)	2025.06.04

N 개추	09:10
N GPT-4 이전에는 확률적 앵무새라 조롱함 LLM은 AGI 가능	06:51
N 개추	03:46
N 이제 2025년 6월인데 특이점을 향한 여정이 쉽지가 않으셈 ㅜㅜ	00:20
N 올해 8월은 얼마나 더울려나	00:06
N 시간졸빠르네... 이거글쓴지내가 벌써 이케되가다니...	2025.06.06
N 2020년대에 가능	2025.06.06
N GAIA 도 해결해서 얀르쿤 뚝배기 폭파해야함	2025.06.06
N 빨리 SWE 벤치 포화시켜야 함	2025.06.06
N 개추	2025.06.06

지미애플의 오리온	2024.08.28
전 OpenAI GTM 잭 캐스 "트랜스포머로 AGI 달성 가능" (7)	2024.07.04
전 구글 차이나 사장 리 카이푸 "AI는 2025년에 박사 학위 수준을 넘어설 것"	2024.07.29
로건 킬패트릭 "2025"	2024.08.06
앞으로 큰일이네 (8)	2024.08.08
선형들이 짖어대지만 (4)	2024.08.21
OpenAI 오리온 출시 예정 (7)	2024.08.27
gpt-4o 설명 바뀜	2024.08.31
...... (2)	2025.04.21
크리스티안 세게디 "2025년까지 인간 레벨 수학AI 및 ARC 문제의 95% 이상을 해결할 수 있는 일반 AI갖게 될 것"	2024.06.25