Agent Skill 一日工作坊／案例研究

讓 AI 先看一遍，
再寫成圖文

一支一小時的演講，怎麼變成一篇圖文並茂的解讀文章。

v2a 8 步 pipeline 6 支腳本倉鼠特報員代表作

難在哪

一小時的演講，哪一秒才是重點

文章要配圖，圖得從影片裡截。但 AI 根本不知道該截哪一格。

它看不到畫面

純文字 AI 只拿得到字幕。講者秀的架構圖、操作示範，字幕裡完全沒有。

它不知道時間

就算知道某段重要，那畫面在第幾秒？沒有時間戳，ffmpeg 切不出來。

截了也是廢圖

隨機截，多半是講者說話的臉、或動畫展開一半的殘影。塞滿這種圖等於沒配圖。

會寫字的 AI 看不到畫面，看得到畫面的工具又不會寫字。

02 ／ 08

整套 skill 的靈魂

讓 Gemini 看一遍，把重點標成時間戳

Gemini 是眼睛看完一遍，標出每個重點在第幾秒、那段在講什麼。

ffmpeg 是手不用判斷，照著戳直接切那一刻的幀與 gif。

06:12問題開場

12:38架構圖

28:50反直覺金句

41:05關鍵數據

看影片交給看得到的，切素材交給切得準的。別逼一個工具做它不擅長的事，這就是多模態分工的精髓。

03 ／ 08

從影片到文章的全程

主幹八步，每一步誰負責一目了然

Gemini 標戳

切圖切 gif

下字幕清理

抽主題地圖

寫草稿

審校配圖

完整性查漏

把關交付

腳本／機械的事 主 Agent ／要判斷的事 子代理／吃 context 的重活

04 ／ 08

補一課／ skill 裡的腳本

六支腳本，哪支、在哪步、幹嘛

腳本	做什麼	步驟
video_analyzer.py	送 Gemini 分析影片，回傳時間戳清單。整套的核心。	Step 1
extract_assets.sh	用 ffmpeg 照戳切圖、切 gif（≤ 12 秒）。	Step 2
create_contact_sheet.py	把 ±2 秒的四張候選拼成一張，讓子代理一次挑最對的。	Step 2
frame_aligner.py	避開轉場與動態模糊，挑最清楚、最定格的一幀。	Step 2
get_transcript.py	字幕三層 fallback：transcript-api → yt-dlp → whisper。	Step 3
final_gate.py	發布前正規化＋硬擋連續圖、HTML tag、中英黏連。	Step 8

一條判準：要精算、操作檔案才寫腳本；純判斷、純講規則的事，用文字寫進 SKILL.md 就好。

05 ／ 08

三個角色，一個劇本

為什麼寫作要另外派一個子代理

腳本

做精確、可重複的事。切第 12:38 秒那一幀、簡轉繁、壓雙逗號。不需要判斷，要的是每次都一模一樣。

主 Agent

做需要判斷的事。抽主題地圖、決定哪些細節要補、最後對著你的反饋拍板。它是導演，留著清醒的腦袋掌全局。

子代理

做又重又髒的活，用完即丟。寫草稿、配圖、校對，跑完只回主 Agent 一段摘要。

關鍵在這字幕動輒 30k token。主 Agent 自己讀就永久卡在 context；派子代理讀完只回 200 字摘要，那坨字幕跟著消失。子代理就是保護主 context 的隔離艙。

06 ／ 08

最值錢的一頁

寫滿「別這麼做」的地方，才是專家經驗

禁純人物畫面

講者說話的臉沒有資訊量。Gemini 分析時就明令只抓投影片、圖表、操作畫面。

禁連續兩張圖

兩張圖之間一定要有一段實質文字。連著貼等於把文章變成相簿。

講者影像最多一張

整篇只准放一張講者照，用在介紹講者那段。多了只挑最清楚的一張，其餘全跳過。

封面別被內文截圖蓋掉

封面要用官方縮圖。子代理常手癢換成內文截圖，發布前主 Agent 要檢查救回。

別用 ps aux 輪詢腳本

analyzer 在跑時別反覆查狀態。ps aux | grep gemini 一個指令就吃掉 12,000 token，耐心等 timeout 就好。

流程誰都抄得到。「在這一步千萬別這樣」，只有真的跑壞過的人才寫得出來。這就是隱性知識。

07 ／ 08

收束／把關與串接

最後一關，不過就不准發

final_gate自動把關，確定性的事不靠人盯

✓

自動修

簡轉繁、破折號轉全形逗號、壓雙逗號。

不過不准發

連續圖片、HTML tag、dash 殘留、中英黏連。

fidelity對字幕抓漏，重要的不能掉

三類元素必須留住：數字（金額／百分比）、反直覺金句（不是 X 而是 Y）、具名故事（人名＋動詞＋結果）。漏了 critical 的，自動補回去。

寫成好文章，交給專門的 skill：子代理自動載入 hamster-writing-craft。v2a 只把影片變素材，skill 串 skill，各自單一職責。

素材來源 — v2a 影片轉文章 pipeline，魁哥為「倉鼠特報員」打造的代表作。本單元為教學用途整理，腳本與防漂移細節均取自真實 SKILL.md。

08 ／ 08

讓 AI 先看一遍，再寫成圖文

它看不到畫面

它不知道時間

截了也是廢圖

讓 AI 先看一遍，
再寫成圖文