一位艾美獎紀錄片製作人的 AI 自動化哲學

看了這篇之後，覺得非常適合作為案例分享，Tim Mleier 在影片製作時如何為大量素材進行管理。

他除了意識到 AI 已經能看到內容之外，了解到透過 metadata 就能夠將素材管理的準確性提升到另一個層次。

而他還更進一步的利用 AI 來開發自己用的軟體，整個背後的思維非常值得參考學習。

後製的真實面貌：一片混亂

紀錄片後製不是大家想像的那種「坐在剪輯台前創作」的浪漫畫面。

Tim Mleier 是 Ken Burns 紀錄片團隊的製作人，他說：後製是一場技術性的媒體管理災難。你有圖片、有檔案影像、有實地拍攝的畫面、有訪談、有逐字稿。以他們製作的穆罕默德·阿里紀錄片為例：8 小時的成品背後，是 20,000 張靜態圖片、超過 100 小時的影像素材、35 場訪談。

而這些素材，每一個都需要被標記、描述、歸檔、讓團隊能搜尋到。

多年來，這些工作全靠手動輸入。

「自動化繁瑣的工作，這就是你該做的事。」

AI 作為工具 vs AI 生成內容

現在大家談 AI 在影視產業的應用，焦點都在生成影片、生成圖片這些「很閃亮」的用途上。但 Tim 的觀點不一樣：AI 作為工具，比 AI 作為生成器，在當下更有立即可用的價值。

生成式 AI 確實很酷，但商業級品質還沒到位。你花大量代幣（token）去跑最高端的影片模型，還是很難讓生成的畫面跟你實拍的素材匹配。但 AI 用來處理資料管理、元數據提取、語義搜尋？這些今天就能用，而且效果驚人。

「AI 真的很想為我們表現。當你給它工具和資訊，它就能寫出更好的描述。」

「沒人會為我做這個 app」

Tim 的故事從一個「A-ha moment」開始。

當 ChatGPT 加入圖片上傳功能那天，他和同事在辦公室瘋狂測試，把各種圖片丟進去看它能描述什麼。那一刻他意識到：這東西能「看見」了。而如果它能看見，就能幫我們寫描述、填資料庫。
問題是：市面上沒有現成的工具能做這件事。

「沒人會為我做這個 app。所以能夠自己做一個極度特定的應用程式，讓我的工作流程、團隊、公司運作更順暢，這是一個不可思議的時刻。」

他開始用 ChatGPT 寫 Python 腳本。一開始很簡單：丟一張圖片進去，讓 AI 描述它看到什麼。但 AI 會「幻覺」，會猜測。一張 1941 年愛達荷州 Cascade 小鎮的街景，AI 只會說「這看起來像 20 世紀中期的美國鄉村主街」。

轉折點在於：加入 metadata 作為護欄。

檔案照片通常有嵌入的元數據，可能是圖書館標註的資訊、攝影師的名字、拍攝日期。當你先提取這些「已知」的資訊，再讓 AI 描述，它就會依賴這些事實，而不是瞎猜。

結果：從「某個鄉村主街」變成「愛達荷州 Cascade 的主街，攝影師 Russell Lee 於 1941 年拍攝」。

三個自建工具的威力

Tim 沒有停在「能跑就好」。他把這個概念發展成三個不同形態的工具：

REST API 後端系統

每個進入資料庫的檔案，自動經過五步流程：收集檔案規格、複製到伺服器、解析元數據、從網路搜刮更多資訊、生成描述。影片也是同樣邏輯。影片不過就是每秒 24 張圖片加上音訊，把同樣的流程放大處理就行。

Flip-Flop（iOS app）

專門解決實地研究的痛點。去實體檔案館時，你會瘋狂用手機拍照，拍正面、拍背面（因為背面常有手寫註記）。問題是：回到辦公室，你的相機膠卷一片混亂，正面和背面配不起來。

這個 app 讓你在現場就能配對正面和背面，立刻用 AI 轉錄背面的文字，然後把所有資訊嵌入圖片的元數據中。檔案命名也自動結構化。

兩個同事出差兩天，帶回 1,400 張圖片，而且已經全部整理好。

OCR Party（Mac menu bar app）

處理舊文件的部分辨識需求。一整頁報紙，你可能只想 OCR 其中一篇文章。傳統 OCR 引擎對老舊印刷品效果很差，但 AI 可以處理模糊的字、紙張上的摺痕、甚至推斷被墨漬擋住的文字。

「這些 AI 模型非常擅長處理檔案。如果你開始研究不同檔案類型能塞進什麼資料，你會發現很多有趣的可能性。」

語義搜尋：發現你從未想過要找的東西

有了 AI 生成的描述還不夠。Tim 更進一步：為每個素材生成向量嵌入（vector embeddings）。

傳統上，你搜尋資料庫靠的是精確文字匹配。描述寫「狗」，你搜「小狗」就找不到。但向量嵌入讓你能「語義搜尋」，找的不是文字，而是意義。

更厲害的是「反向圖片搜尋」功能。編輯喜歡某張圖片，點一個按鈕，系統就會找出所有「有那個氛圍」的圖片。找人像，它就會找出其他人像。

「嵌入讓我們能用以前從未想過的方式發現東西。」

這才是真正的解放。以前做研究的人要花大量時間手動輸入資料，現在那些時間可以用來找更多素材。穆罕默德·阿里的紀錄片收集了 20,000 張圖片，如果不用手動輸入，也許能收集 25,000 張。

不只是效率提升，而是品質提升。因為你有更多素材可選，而且更容易找到對的那一張。

學習 AI 就像學 Photoshop

Tim 怎麼學會這些的？他說感覺跟學創意軟體很像。

Photoshop、Premiere、Avid 這些軟體極度複雜，選單層層疊疊。你會上 Reddit、上 YouTube，研究怎麼完成某個特定任務。

Cursor、Claude Code 這些工具也是同樣道理。你知道某件事「應該可以做到」，然後去找路徑。

「知道什麼是可能的，到達那裡的路徑比以往任何時候都更快。」

這個心態很重要。很多創意產業的人看到程式碼視窗會害怕，但 Tim 認為他們其實比自己以為的更適合這種工作。因為 vibe coding 的本質更像創作，而不是傳統意義的「寫程式」。

你不需要理解所有技術細節。你需要的是清楚知道你要什麼，然後讓 AI 幫你實現。