AI 試點到底要看哪些 KPI?只要 3 個就夠了
很多管理者推 AI 試點,跑了一個月,老闆問「效果怎麼樣」,支支吾吾說「感覺有變快」。另一個部門也跑了試點,端出一份 15 個指標的報告,每個都是綠燈,但沒人說得清楚到底哪裡變好了。
問題不是沒數據,是不知道該看哪個數據。
判斷 AI 試點成不成功,不需要一套複雜的儀表板。3 個數字就夠了。多了反而會變成在挑數據證明自己對。
KPI 1:每週省了多少手動時間
用小時算,不要用百分比。
「效率提升 30%」這種說法毫無意義。30% 的基數是什麼?是 2 小時變 1.4 小時,還是 20 小時變 14 小時?百分比會稀釋真相。
正確的做法:試點前,記錄這個流程每週要花多少人工小時。試點後,再記一次。兩個數字相減,就是答案。
舉例:財務月結的對帳作業,導入 AI 前每週手動處理 12 小時,導入後變成 4 小時。每週省 8 小時。這個數字任何人一秒鐘就能判斷有沒有價值。
如果你的答案是「大概省了一些」,表示你沒有基線數據。那第一件事不是繼續試點,是回去量基線。
KPI 2:錯誤和遺漏有沒有下降
用次數算,不要用「好像變少了」。
很多人以為 AI 導入的主要好處是速度。但速度很容易被主觀感受膨脹。真正能客觀驗證的,是錯誤率的變化。
具體怎麼算:挑一個你已經在追蹤的錯誤類型——漏單、資料輸入錯、格式不對、客訴退回——任何一個你本來就在數的東西。試點期間繼續用同樣的方式數,然後比較前後。
舉例:客服信箱分類導入 AI 前,每週平均有 7 件分錯類。導入後連續三週分別是 2、1、3 件。錯誤從每週 7 次降到平均 2 次。這就是硬證據。
注意:不要因為試點期間錯誤沒有下降就覺得失敗。有時候 AI 會創造新的錯誤類型(例如過度自信地分錯),這也是有用的事實——至少你知道問題出在哪裡。
KPI 3:交付節奏有沒有更穩定
用交付時間的標準差算,不是看平均。
「平均處理時間從 3 天縮短到 2 天」聽起來很棒。但如果有的案子 0.5 天完成、有的要 5 天,這個「平均」就掩蓋了真正的問題——不確定性。
管理者要的不是偶爾快,是穩定地快。AI 最大的價值之一,就是讓交付時間的波動變小。
怎麼算:記錄試點前連續幾週每個案子的實際交付天數,算標準差。試點後用同樣方式再算一次。標準差下降,表示交付變得可預測了。
舉例:試點前,報告交付天數的標準差是 2.1 天(快的 1 天、慢的 6 天)。試點後標準差降到 0.8 天(大多在 1.5–2.5 天之間)。這代表你的團隊從「有時候很快有時候爆炸」變成「穩穩地交付」。對管理者來說,這比偶爾快一次更有價值。
為什麼不需要更多 KPI
超過 3 個 KPI,人心裡那個「證明自己決定是對的」的衝動就會跑出來。你會開始挑有利的角度:這個指標不好就看那個,那個不好就再加一個新的。最後報告裡 10 個指標 8 個綠燈,但關鍵問題沒有人敢回答:到底值不值得繼續投資?
3 個 KPI 的好處是沒地方躲。省了多少時間、錯了多少次、穩不穩定——三個面向,三個硬數字。好就是好,不好就是不好。這才是數據驅動決策應該有的樣子。
如果你覺得 3 個不夠,先問自己:你想加的那個指標,是真的能幫你做決定,還是只是讓報告好看一點?
數據驅動不等於數據淹沒。3 個清楚的信號勝過 10 個模糊的指標。試點結束時,你應該能在 30 秒內講完這三個數字,而且任何聽的人都能立刻判斷下一步該怎麼走。做不到的話,不是 KPI 不夠多,是你還沒找到真正重要的數字。