一支一小時的演講,怎麼變成一篇圖文並茂的解讀文章。
文章要配圖,圖得從影片裡截。但 AI 根本不知道該截哪一格。
純文字 AI 只拿得到字幕。講者秀的架構圖、操作示範,字幕裡完全沒有。
就算知道某段重要,那畫面在第幾秒?沒有時間戳,ffmpeg 切不出來。
隨機截,多半是講者說話的臉、或動畫展開一半的殘影。塞滿這種圖等於沒配圖。
會寫字的 AI 看不到畫面,看得到畫面的工具又不會寫字。
看影片交給看得到的,切素材交給切得準的。別逼一個工具做它不擅長的事,這就是多模態分工的精髓。
| 腳本 | 做什麼 | 步驟 |
|---|---|---|
| video_analyzer.py | 送 Gemini 分析影片,回傳時間戳清單。整套的核心。 | Step 1 |
| extract_assets.sh | 用 ffmpeg 照戳切圖、切 gif(≤ 12 秒)。 | Step 2 |
| create_contact_sheet.py | 把 ±2 秒的四張候選拼成一張,讓子代理一次挑最對的。 | Step 2 |
| frame_aligner.py | 避開轉場與動態模糊,挑最清楚、最定格的一幀。 | Step 2 |
| get_transcript.py | 字幕三層 fallback:transcript-api → yt-dlp → whisper。 | Step 3 |
| final_gate.py | 發布前正規化+硬擋連續圖、HTML tag、中英黏連。 | Step 8 |
一條判準:要精算、操作檔案才寫腳本;純判斷、純講規則的事,用文字寫進 SKILL.md 就好。
做精確、可重複的事。切第 12:38 秒那一幀、簡轉繁、壓雙逗號。不需要判斷,要的是每次都一模一樣。
做需要判斷的事。抽主題地圖、決定哪些細節要補、最後對著你的反饋拍板。它是導演,留著清醒的腦袋掌全局。
做又重又髒的活,用完即丟。寫草稿、配圖、校對,跑完只回主 Agent 一段摘要。
關鍵在這字幕動輒 30k token。主 Agent 自己讀就永久卡在 context;派子代理讀完只回 200 字摘要,那坨字幕跟著消失。子代理就是保護主 context 的隔離艙。
ps aux | grep gemini 一個指令就吃掉 12,000 token,耐心等 timeout 就好。流程誰都抄得到。「在這一步千萬別這樣」,只有真的跑壞過的人才寫得出來。這就是隱性知識。
三類元素必須留住:數字(金額/百分比)、反直覺金句(不是 X 而是 Y)、具名故事(人名+動詞+結果)。漏了 critical 的,自動補回去。
寫成好文章,交給專門的 skill:子代理自動載入 hamster-writing-craft。v2a 只把影片變素材,skill 串 skill,各自單一職責。
素材來源 — v2a 影片轉文章 pipeline,魁哥為「倉鼠特報員」打造的代表作。本單元為教學用途整理,腳本與防漂移細節均取自真實 SKILL.md。