看了這篇之後,覺得非常適合作為案例分享,Tim Mleier 在影片製作時如何為大量素材進行管理。

他除了意識到 AI 已經能看到內容之外,了解到透過 metadata 就能夠將素材管理的準確性提升到另一個層次。

而他還更進一步的利用 AI 來開發自己用的軟體,整個背後的思維非常值得參考學習。

後製的真實面貌:一片混亂


紀錄片後製不是大家想像的那種「坐在剪輯台前創作」的浪漫畫面。

Tim Mleier 是 Ken Burns 紀錄片團隊的製作人,他說:後製是一場技術性的媒體管理災難。你有圖片、有檔案影像、有實地拍攝的畫面、有訪談、有逐字稿。以他們製作的穆罕默德·阿里紀錄片為例:8 小時的成品背後,是 20,000 張靜態圖片、超過 100 小時的影像素材、35 場訪談。

而這些素材,每一個都需要被標記、描述、歸檔、讓團隊能搜尋到。

多年來,這些工作全靠手動輸入。

「自動化繁瑣的工作,這就是你該做的事。」

AI 作為工具 vs AI 生成內容


現在大家談 AI 在影視產業的應用,焦點都在生成影片、生成圖片這些「很閃亮」的用途上。但 Tim 的觀點不一樣:AI 作為工具,比 AI 作為生成器,在當下更有立即可用的價值。

生成式 AI 確實很酷,但商業級品質還沒到位。你花大量代幣(token)去跑最高端的影片模型,還是很難讓生成的畫面跟你實拍的素材匹配。但 AI 用來處理資料管理、元數據提取、語義搜尋?這些今天就能用,而且效果驚人。

「AI 真的很想為我們表現。當你給它工具和資訊,它就能寫出更好的描述。」

「沒人會為我做這個 app」


Tim 的故事從一個「A-ha moment」開始。

當 ChatGPT 加入圖片上傳功能那天,他和同事在辦公室瘋狂測試,把各種圖片丟進去看它能描述什麼。那一刻他意識到:這東西能「看見」了。而如果它能看見,就能幫我們寫描述、填資料庫。
問題是:市面上沒有現成的工具能做這件事。

「沒人會為我做這個 app。所以能夠自己做一個極度特定的應用程式,讓我的工作流程、團隊、公司運作更順暢,這是一個不可思議的時刻。」

他開始用 ChatGPT 寫 Python 腳本。一開始很簡單:丟一張圖片進去,讓 AI 描述它看到什麼。但 AI 會「幻覺」,會猜測。一張 1941 年愛達荷州 Cascade 小鎮的街景,AI 只會說「這看起來像 20 世紀中期的美國鄉村主街」。

轉折點在於:加入 metadata 作為護欄。

檔案照片通常有嵌入的元數據,可能是圖書館標註的資訊、攝影師的名字、拍攝日期。當你先提取這些「已知」的資訊,再讓 AI 描述,它就會依賴這些事實,而不是瞎猜。

結果:從「某個鄉村主街」變成「愛達荷州 Cascade 的主街,攝影師 Russell Lee 於 1941 年拍攝」。

三個自建工具的威力


Tim 沒有停在「能跑就好」。他把這個概念發展成三個不同形態的工具:

REST API 後端系統

每個進入資料庫的檔案,自動經過五步流程:收集檔案規格、複製到伺服器、解析元數據、從網路搜刮更多資訊、生成描述。影片也是同樣邏輯。影片不過就是每秒 24 張圖片加上音訊,把同樣的流程放大處理就行。

Flip-Flop(iOS app)

專門解決實地研究的痛點。去實體檔案館時,你會瘋狂用手機拍照,拍正面、拍背面(因為背面常有手寫註記)。問題是:回到辦公室,你的相機膠卷一片混亂,正面和背面配不起來。

這個 app 讓你在現場就能配對正面和背面,立刻用 AI 轉錄背面的文字,然後把所有資訊嵌入圖片的元數據中。檔案命名也自動結構化。

兩個同事出差兩天,帶回 1,400 張圖片,而且已經全部整理好。

OCR Party(Mac menu bar app)

處理舊文件的部分辨識需求。一整頁報紙,你可能只想 OCR 其中一篇文章。傳統 OCR 引擎對老舊印刷品效果很差,但 AI 可以處理模糊的字、紙張上的摺痕、甚至推斷被墨漬擋住的文字。

「這些 AI 模型非常擅長處理檔案。如果你開始研究不同檔案類型能塞進什麼資料,你會發現很多有趣的可能性。」

語義搜尋:發現你從未想過要找的東西


有了 AI 生成的描述還不夠。Tim 更進一步:為每個素材生成向量嵌入(vector embeddings)。

傳統上,你搜尋資料庫靠的是精確文字匹配。描述寫「狗」,你搜「小狗」就找不到。但向量嵌入讓你能「語義搜尋」,找的不是文字,而是意義。

更厲害的是「反向圖片搜尋」功能。編輯喜歡某張圖片,點一個按鈕,系統就會找出所有「有那個氛圍」的圖片。找人像,它就會找出其他人像。

「嵌入讓我們能用以前從未想過的方式發現東西。」

這才是真正的解放。以前做研究的人要花大量時間手動輸入資料,現在那些時間可以用來找更多素材。穆罕默德·阿里的紀錄片收集了 20,000 張圖片,如果不用手動輸入,也許能收集 25,000 張。

不只是效率提升,而是品質提升。因為你有更多素材可選,而且更容易找到對的那一張。

學習 AI 就像學 Photoshop


Tim 怎麼學會這些的?他說感覺跟學創意軟體很像。

Photoshop、Premiere、Avid 這些軟體極度複雜,選單層層疊疊。你會上 Reddit、上 YouTube,研究怎麼完成某個特定任務。

Cursor、Claude Code 這些工具也是同樣道理。你知道某件事「應該可以做到」,然後去找路徑。

「知道什麼是可能的,到達那裡的路徑比以往任何時候都更快。」

這個心態很重要。很多創意產業的人看到程式碼視窗會害怕,但 Tim 認為他們其實比自己以為的更適合這種工作。因為 vibe coding 的本質更像創作,而不是傳統意義的「寫程式」。

你不需要理解所有技術細節。你需要的是清楚知道你要什麼,然後讓 AI 幫你實現。

Share this post