AI 試點到底要看哪些 KPI？只要 3 個就夠了

很多管理者推 AI 試點，跑了一個月，老闆問「效果怎麼樣」，支支吾吾說「感覺有變快」。另一個部門也跑了試點，端出一份 15 個指標的報告，每個都是綠燈，但沒人說得清楚到底哪裡變好了。

問題不是沒數據，是不知道該看哪個數據。

判斷 AI 試點成不成功，不需要一套複雜的儀表板。3 個數字就夠了。多了反而會變成在挑數據證明自己對。

KPI 1：每週省了多少手動時間

用小時算，不要用百分比。

「效率提升 30%」這種說法毫無意義。30% 的基數是什麼？是 2 小時變 1.4 小時，還是 20 小時變 14 小時？百分比會稀釋真相。

正確的做法：試點前，記錄這個流程每週要花多少人工小時。試點後，再記一次。兩個數字相減，就是答案。

舉例：財務月結的對帳作業，導入 AI 前每週手動處理 12 小時，導入後變成 4 小時。每週省 8 小時。這個數字任何人一秒鐘就能判斷有沒有價值。

如果你的答案是「大概省了一些」，表示你沒有基線數據。那第一件事不是繼續試點，是回去量基線。

用次數算，不要用「好像變少了」。

很多人以為 AI 導入的主要好處是速度。但速度很容易被主觀感受膨脹。真正能客觀驗證的，是錯誤率的變化。

具體怎麼算：挑一個你已經在追蹤的錯誤類型——漏單、資料輸入錯、格式不對、客訴退回——任何一個你本來就在數的東西。試點期間繼續用同樣的方式數，然後比較前後。

舉例：客服信箱分類導入 AI 前，每週平均有 7 件分錯類。導入後連續三週分別是 2、1、3 件。錯誤從每週 7 次降到平均 2 次。這就是硬證據。

注意：不要因為試點期間錯誤沒有下降就覺得失敗。有時候 AI 會創造新的錯誤類型（例如過度自信地分錯），這也是有用的事實——至少你知道問題出在哪裡。

用交付時間的標準差算，不是看平均。

「平均處理時間從 3 天縮短到 2 天」聽起來很棒。但如果有的案子 0.5 天完成、有的要 5 天，這個「平均」就掩蓋了真正的問題——不確定性。

管理者要的不是偶爾快，是穩定地快。AI 最大的價值之一，就是讓交付時間的波動變小。

怎麼算：記錄試點前連續幾週每個案子的實際交付天數，算標準差。試點後用同樣方式再算一次。標準差下降，表示交付變得可預測了。

舉例：試點前，報告交付天數的標準差是 2.1 天（快的 1 天、慢的 6 天）。試點後標準差降到 0.8 天（大多在 1.5–2.5 天之間）。這代表你的團隊從「有時候很快有時候爆炸」變成「穩穩地交付」。對管理者來說，這比偶爾快一次更有價值。

超過 3 個 KPI，人心裡那個「證明自己決定是對的」的衝動就會跑出來。你會開始挑有利的角度：這個指標不好就看那個，那個不好就再加一個新的。最後報告裡 10 個指標 8 個綠燈，但關鍵問題沒有人敢回答：到底值不值得繼續投資？

3 個 KPI 的好處是沒地方躲。省了多少時間、錯了多少次、穩不穩定——三個面向，三個硬數字。好就是好，不好就是不好。這才是數據驅動決策應該有的樣子。

如果你覺得 3 個不夠，先問自己：你想加的那個指標，是真的能幫你做決定，還是只是讓報告好看一點？

數據驅動不等於數據淹沒。3 個清楚的信號勝過 10 個模糊的指標。試點結束時，你應該能在 30 秒內講完這三個數字，而且任何聽的人都能立刻判斷下一步該怎麼走。做不到的話，不是 KPI 不夠多，是你還沒找到真正重要的數字。