14 天 AI 試點的每一天該做什麼
很多管理者拿到 AI 工具授權,第一個問題就是:「14 天試點到底怎麼排?」答案跟你想的不一樣——不是 14 天都在跑 AI。前面幾天在做準備,中間才跑,後面收尾。這篇把每一天拆開講,照著走就有基本盤。
Day 1-3:選流程、寫 SOP、確認 Input/Output
這三天決定試點成不成功。
Day 1:選一個流程。標準——重複性高、規則清楚、人工做會抱怨的那個。不要選最複雜的,也不要選最簡單的。選一個「做對了大家都會有感」的中等流程。
Day 2:把這個流程的 SOP 寫出來。不是寫給 AI 看的,是寫給自己看的。你必須能用文字說清楚: input 是什麼、處理步驟是什麼、output 長什麼樣、什麼叫合格、什麼叫不合格。如果寫不出來,代表你對這個流程的理解還不夠,先回去搞懂。
Day 3:確認 input/output 格式。AI 吃什麼、吐什麼,格式要釘死。是表格?是文字段落?是特定欄位的 JSON?這天要把範例準備好,至少 10 筆真實但去敏的樣本。沒有範例就沒有驗證基準。
Day 4-5:設定 AI、跑測試資料、確認 Output 格式
Day 4:把 AI 接上去。不管你用的是哪個工具,這天就是設定 prompt、串流程、確定資料能跑通。重點:不要用真實資料測試。用 Day 3 準備的去敏樣本。真實資料一旦進去,出錯了不好收。
Day 5:檢查 output。格式對不對?內容有沒有明顯離譜的地方?有問題就調 prompt 或參數,再跑一次。目標是「格式穩定、內容大致合理」,不是完美。
Day 6-10:正式跑五天,每天 Review
這五天是試點的核心。每天的操作:早上把 input 丟進去,下午 review output。Review 三件事:
- 產出有沒有完成——數量對不對?有沒有漏掉?
- 品質抽檢——每天抽 20%,標準用 Day 2 寫的那張 SOP。
- 記錄異常——哪些案例 AI 處理不好?什麼類型的 input 會出包?
異常記錄是試點最有價值的產出之一,告訴你 AI 的邊界在哪裡。這五天不要改 prompt,你在觀察穩定表現。發現重大問題記下來,試點結束再處理。
Day 11-13:收集數據、算 KPI、準備復盤
Day 11:把五天的數據整理出來。處理量、錯誤率、每筆平均處理時間、人工介入次數。這些數字不需要精密到小數點後兩位,但要有。
Day 12:計算 KPI。試點前定了什麼指標,現在就對照什麼指標。常見的幾個:時間節省比例、錯誤率對比、人工介入率。不要臨時發明新指標來美化結果。
Day 13:準備復盤資料。一頁 A4 紙就夠了:做了什麼、數據如何、碰到什麼問題、下一步建議。不要做精美簡報,沒人在試點階段需要那個。
Day 14:復盤會議
半天就夠。用四個問題收掉:
- 試點目標有沒有達成?(達成/未達成/部分達成)
- 品質是否達到可接受水準?(附數據)
- 最大的問題是什麼?(附異常記錄)
- 要不要繼續?(繼續/調整後繼續/停止,附理由)
寫一張紙的結論,這張紙就是試點的全部產出。
常見錯誤
跳過 Day 1-3 直接上線。 這是最常見也最致命的錯誤。沒有釘好 SOP 和 input/output 格式,後面每天都在救火,最後結論是「AI 不行」,但其實是你沒準備好。
用真實資料測試。 測試階段出錯是正常的。用真實資料,出錯了要花更多時間收拾。去敏樣本做得到的驗證效果一樣好,風險卻低得多。
第 14 天才開始算 KPI。 KPI 的定義要在試點開始前就確認,數據要在 Day 6-10 邊跑邊收。最後一天才算,不是漏了數據就是臨時湊,結論不可信。
結語
14 天不是壓縮執行時間,是壓縮驗證週期。前面三天的準備做得越好,後面五天的結果越可靠,最後四天的結論越有說服力。試點的價值不在於「AI 能做多少」,在於「你能不能在有控制的情況下,搞清楚 AI 在你的流程裡到底行不行」。