看了這篇之後,覺得非常適合作為案例分享,Tim Mleier 在影片製作時如何為大量素材進行管理。
他除了意識到 AI 已經能看到內容之外,了解到透過 metadata 就能夠將素材管理的準確性提升到另一個層次。
而他還更進一步的利用 AI 來開發自己用的軟體,整個背後的思維非常值得參考學習。
後製的真實面貌:一片混亂
紀錄片後製不是大家想像的那種「坐在剪輯台前創作」的浪漫畫面。
Tim Mleier 是 Ken Burns 紀錄片團隊的製作人,他說:後製是一場技術性的媒體管理災難。你有圖片、有檔案影像、有實地拍攝的畫面、有訪談、有逐字稿。以他們製作的穆罕默德·阿里紀錄片為例:8 小時的成品背後,是 20,000 張靜態圖片、超過 100 小時的影像素材、35 場訪談。
而這些素材,每一個都需要被標記、描述、歸檔、讓團隊能搜尋到。
多年來,這些工作全靠手動輸入。
「自動化繁瑣的工作,這就是你該做的事。」
AI 作為工具 vs AI 生成內容
現在大家談 AI 在影視產業的應用,焦點都在生成影片、生成圖片這些「很閃亮」的用途上。但 Tim 的觀點不一樣:AI 作為工具,比 AI 作為生成器,在當下更有立即可用的價值。
生成式 AI 確實很酷,但商業級品質還沒到位。你花大量代幣(token)去跑最高端的影片模型,還是很難讓生成的畫面跟你實拍的素材匹配。但 AI 用來處理資料管理、元數據提取、語義搜尋?這些今天就能用,而且效果驚人。
「AI 真的很想為我們表現。當你給它工具和資訊,它就能寫出更好的描述。」
「沒人會為我做這個 app」
Tim 的故事從一個「A-ha moment」開始。
當 ChatGPT 加入圖片上傳功能那天,他和同事在辦公室瘋狂測試,把各種圖片丟進去看它能描述什麼。那一刻他意識到:這東西能「看見」了。而如果它能看見,就能幫我們寫描述、填資料庫。
問題是:市面上沒有現成的工具能做這件事。
「沒人會為我做這個 app。所以能夠自己做一個極度特定的應用程式,讓我的工作流程、團隊、公司運作更順暢,這是一個不可思議的時刻。」
他開始用 ChatGPT 寫 Python 腳本。一開始很簡單:丟一張圖片進去,讓 AI 描述它看到什麼。但 AI 會「幻覺」,會猜測。一張 1941 年愛達荷州 Cascade 小鎮的街景,AI 只會說「這看起來像 20 世紀中期的美國鄉村主街」。
轉折點在於:加入 metadata 作為護欄。
檔案照片通常有嵌入的元數據,可能是圖書館標註的資訊、攝影師的名字、拍攝日期。當你先提取這些「已知」的資訊,再讓 AI 描述,它就會依賴這些事實,而不是瞎猜。
結果:從「某個鄉村主街」變成「愛達荷州 Cascade 的主街,攝影師 Russell Lee 於 1941 年拍攝」。
三個自建工具的威力
Tim 沒有停在「能跑就好」。他把這個概念發展成三個不同形態的工具:
REST API 後端系統
每個進入資料庫的檔案,自動經過五步流程:收集檔案規格、複製到伺服器、解析元數據、從網路搜刮更多資訊、生成描述。影片也是同樣邏輯。影片不過就是每秒 24 張圖片加上音訊,把同樣的流程放大處理就行。
Flip-Flop(iOS app)
專門解決實地研究的痛點。去實體檔案館時,你會瘋狂用手機拍照,拍正面、拍背面(因為背面常有手寫註記)。問題是:回到辦公室,你的相機膠卷一片混亂,正面和背面配不起來。
這個 app 讓你在現場就能配對正面和背面,立刻用 AI 轉錄背面的文字,然後把所有資訊嵌入圖片的元數據中。檔案命名也自動結構化。
兩個同事出差兩天,帶回 1,400 張圖片,而且已經全部整理好。
OCR Party(Mac menu bar app)
處理舊文件的部分辨識需求。一整頁報紙,你可能只想 OCR 其中一篇文章。傳統 OCR 引擎對老舊印刷品效果很差,但 AI 可以處理模糊的字、紙張上的摺痕、甚至推斷被墨漬擋住的文字。
「這些 AI 模型非常擅長處理檔案。如果你開始研究不同檔案類型能塞進什麼資料,你會發現很多有趣的可能性。」
語義搜尋:發現你從未想過要找的東西
有了 AI 生成的描述還不夠。Tim 更進一步:為每個素材生成向量嵌入(vector embeddings)。
傳統上,你搜尋資料庫靠的是精確文字匹配。描述寫「狗」,你搜「小狗」就找不到。但向量嵌入讓你能「語義搜尋」,找的不是文字,而是意義。
更厲害的是「反向圖片搜尋」功能。編輯喜歡某張圖片,點一個按鈕,系統就會找出所有「有那個氛圍」的圖片。找人像,它就會找出其他人像。
「嵌入讓我們能用以前從未想過的方式發現東西。」
這才是真正的解放。以前做研究的人要花大量時間手動輸入資料,現在那些時間可以用來找更多素材。穆罕默德·阿里的紀錄片收集了 20,000 張圖片,如果不用手動輸入,也許能收集 25,000 張。
不只是效率提升,而是品質提升。因為你有更多素材可選,而且更容易找到對的那一張。
學習 AI 就像學 Photoshop
Tim 怎麼學會這些的?他說感覺跟學創意軟體很像。
Photoshop、Premiere、Avid 這些軟體極度複雜,選單層層疊疊。你會上 Reddit、上 YouTube,研究怎麼完成某個特定任務。
Cursor、Claude Code 這些工具也是同樣道理。你知道某件事「應該可以做到」,然後去找路徑。
「知道什麼是可能的,到達那裡的路徑比以往任何時候都更快。」
這個心態很重要。很多創意產業的人看到程式碼視窗會害怕,但 Tim 認為他們其實比自己以為的更適合這種工作。因為 vibe coding 的本質更像創作,而不是傳統意義的「寫程式」。
你不需要理解所有技術細節。你需要的是清楚知道你要什麼,然後讓 AI 幫你實現。