Agent Skill 一日工作坊 / 案例研究

讓 AI 先看一遍,
再寫成圖文

一支一小時的演講,怎麼變成一篇圖文並茂的解讀文章。

v2a 8 步 pipeline 6 支腳本 倉鼠特報員代表作
難在哪

一小時的演講,哪一秒才是重點

文章要配圖,圖得從影片裡截。但 AI 根本不知道該截哪一格。


01

它看不到畫面

純文字 AI 只拿得到字幕。講者秀的架構圖、操作示範,字幕裡完全沒有。

02

它不知道時間

就算知道某段重要,那畫面在第幾秒?沒有時間戳,ffmpeg 切不出來。

03

截了也是廢圖

隨機截,多半是講者說話的臉、或動畫展開一半的殘影。塞滿這種圖等於沒配圖。


會寫字的 AI 看不到畫面,看得到畫面的工具又不會寫字

02 / 08
整套 skill 的靈魂

讓 Gemini 看一遍,把重點標成時間戳


Gemini 是眼睛看完一遍,標出每個重點在第幾秒、那段在講什麼。
ffmpeg 是手不用判斷,照著戳直接切那一刻的幀與 gif。
06:12問題開場
12:38架構圖
28:50反直覺金句
41:05關鍵數據

看影片交給看得到的,切素材交給切得準的。別逼一個工具做它不擅長的事,這就是多模態分工的精髓。

03 / 08
從影片到文章的全程

主幹八步,每一步誰負責一目了然


1
Gemini 標戳
2
切圖切 gif
3
下字幕清理
4
抽主題地圖
5
寫草稿
6
審校配圖
7
完整性查漏
8
把關交付

腳本 / 機械的事 主 Agent / 要判斷的事 子代理 / 吃 context 的重活
04 / 08
補一課 / skill 裡的腳本

六支腳本,哪支、在哪步、幹嘛


腳本做什麼步驟
video_analyzer.py送 Gemini 分析影片,回傳時間戳清單。整套的核心。Step 1
extract_assets.sh用 ffmpeg 照戳切圖、切 gif(≤ 12 秒)。Step 2
create_contact_sheet.py把 ±2 秒的四張候選拼成一張,讓子代理一次挑最對的。Step 2
frame_aligner.py避開轉場與動態模糊,挑最清楚、最定格的一幀。Step 2
get_transcript.py字幕三層 fallback:transcript-api → yt-dlp → whisper。Step 3
final_gate.py發布前正規化+硬擋連續圖、HTML tag、中英黏連。Step 8

一條判準:要精算、操作檔案才寫腳本;純判斷、純講規則的事,用文字寫進 SKILL.md 就好。

05 / 08
三個角色,一個劇本

為什麼寫作要另外派一個子代理


腳本

做精確、可重複的事。切第 12:38 秒那一幀、簡轉繁、壓雙逗號。不需要判斷,要的是每次都一模一樣。

主 Agent

做需要判斷的事。抽主題地圖、決定哪些細節要補、最後對著你的反饋拍板。它是導演,留著清醒的腦袋掌全局。

子代理

做又重又髒的活,用完即丟。寫草稿、配圖、校對,跑完只回主 Agent 一段摘要。


關鍵在這字幕動輒 30k token。主 Agent 自己讀就永久卡在 context;派子代理讀完只回 200 字摘要,那坨字幕跟著消失。子代理就是保護主 context 的隔離艙

06 / 08
最值錢的一頁

寫滿「別這麼做」的地方,才是專家經驗


禁純人物畫面
講者說話的臉沒有資訊量。Gemini 分析時就明令只抓投影片、圖表、操作畫面。
禁連續兩張圖
兩張圖之間一定要有一段實質文字。連著貼等於把文章變成相簿。
講者影像最多一張
整篇只准放一張講者照,用在介紹講者那段。多了只挑最清楚的一張,其餘全跳過。
封面別被內文截圖蓋掉
封面要用官方縮圖。子代理常手癢換成內文截圖,發布前主 Agent 要檢查救回。
別用 ps aux 輪詢腳本
analyzer 在跑時別反覆查狀態。ps aux | grep gemini 一個指令就吃掉 12,000 token,耐心等 timeout 就好。

流程誰都抄得到。「在這一步千萬別這樣」,只有真的跑壞過的人才寫得出來。這就是隱性知識

07 / 08
收束 / 把關與串接

最後一關,不過就不准發


final_gate自動把關,確定性的事不靠人盯
自動修
簡轉繁、破折號轉全形逗號、壓雙逗號。
不過不准發
連續圖片、HTML tag、dash 殘留、中英黏連。
fidelity對字幕抓漏,重要的不能掉

三類元素必須留住:數字(金額/百分比)、反直覺金句(不是 X 而是 Y)、具名故事(人名+動詞+結果)。漏了 critical 的,自動補回去。

寫成好文章,交給專門的 skill:子代理自動載入 hamster-writing-craft。v2a 只把影片變素材,skill 串 skill,各自單一職責。


素材來源 — v2a 影片轉文章 pipeline,魁哥為「倉鼠特報員」打造的代表作。本單元為教學用途整理,腳本與防漂移細節均取自真實 SKILL.md。

08 / 08