A/B 測試：別再憑感覺，用數據決定怎麼做

「這個標題比較好啦」「不對，我覺得藍色按鈕比較順眼」「上次那個版型不是賣得不錯嗎？」——這種會議，幾乎每家公司都開過。最後拍板的，往往不是最懂顧客的人，而是職位最高、嗓門最大的人。問題是，顧客不會因為你資深就比較買單。當行銷決策一直靠直覺、靠資歷、靠誰比較會講，你其實是在拿真金白銀的流量做沒有對照組的賭注。

A/B 測試就是把這場爭吵交給數據裁決的方法。它讓你同時推出兩個版本給真實使用者，看哪一個帶來更多點擊、更多註冊、更多成交，然後用結果而不是嘴巴決定走哪條路。這篇文章會把 A/B 測試的觀念、設計流程、樣本與統計顯著、常見陷阱，以及台灣中小企業實際怎麼做，一次講清楚，讓你的每一個改版都站在證據上。

A/B 測試到底在測什麼

基本定義與運作方式

A/B 測試，又叫分流測試或對照測試，做法是把同樣的流量隨機分成兩組：A 組看到原本的版本（對照組），B 組看到你想嘗試的新版本（實驗組）。兩組除了你刻意改動的那一個元素之外，其他條件完全相同。過一段時間後，比較兩組在某個關鍵指標上的表現，例如點擊率、加入購物車率或最終轉換率，表現明顯較好的那一版就勝出。

它的精神來自科學實驗：要判斷一個改動有沒有效，你必須有對照組。如果你直接把網站全部換成新版，業績變好了，你也無法確定是新版的功勞，還是剛好遇到旺季、剛好那週有檔活動、剛好有人轉發。A/B 測試透過「同時間、同條件、只差一個變因」的設計，把這些干擾排除，讓因果關係站得住腳。

什麼東西值得測

幾乎所有會影響使用者行動的元素都可以測，但資源有限時要挑「離成交近、又容易改」的東西先測。常見的高價值測試項目包括：行動呼籲按鈕的文字與顏色、頁面標題與主視覺、表單的欄位數量、商品圖片的呈現方式、定價的顯示方式（例如月費 vs 年費的擺法）、電子報的主旨、廣告的素材與文案。一個原則是：每次只改一個變因，否則就算有效，你也不知道是哪個改動的功勞。

怎麼設計一場可信的 A/B 測試

從一個明確的假設開始

好的測試不是「我們來改改看哪個好」，而是先寫下一個可以被驗證的假設。假設的標準句型是：「因為（觀察到的現象），所以我認為（某個改動）會讓（某個指標）提升。」例如：「因為結帳頁的表單有 9 個欄位、跳出率很高，所以我認為把欄位減到 5 個，會讓結帳完成率提升。」

有了明確假設，你才知道要改什麼、要看哪個指標、結果該怎麼解讀。沒有假設的測試，做完常常是「嗯，B 好像高一點」然後不知道下一步該幹嘛。寫假設也逼你先想清楚問題出在哪，這個思考過程本身就很有價值。

樣本數、測試時間與統計顯著

這是最多人栽跟頭的地方。很多人測了兩天，看到 B 版高了 3%，就興奮地全面換版，結果上線後完全沒效。原因是樣本太少，那 3% 只是隨機波動，不是真實差異。要讓結果可信，你需要足夠的樣本數，以及達到「統計顯著」——通常以信心水準 95% 為門檻，意思是這個差異有 95% 的機率不是運氣造成的。

實務上有幾個原則：測試前先用線上的樣本數計算工具估算需要多少流量；測試至少完整跑滿一到兩個完整週期（含平日與週末，避免週間行為差異干擾）；在達到預定樣本數之前不要偷看就提早下結論，這叫「偷看問題」，會大幅提高誤判機率。流量小的中小企業尤其要有耐心，寧可一次測一個影響大的元素、跑久一點，也不要同時測一堆小東西，結果每個都樣本不足。

測試要素	做對的樣子	常見錯誤
變因數量	一次只改一個元素	同時改標題、按鈕、圖片，無法歸因
樣本數	事前估算、跑滿才看結果	看到差距就提早收手
測試時間	涵蓋完整週期含週末	只跑兩三天就下定論
判斷依據	達 95% 統計顯著	用絕對數字「感覺有比較高」
分流方式	隨機、同時、同條件	先後上線，受旺淡季干擾

選對北極星指標

測試前要先講好「哪個指標贏了才算贏」。這個指標應該盡量靠近你真正的商業目標。例如你在測商品頁的按鈕文案，與其只看按鈕點擊率，更該看最終的購買完成率。因為有可能新文案讓更多人點了按鈕，卻是被誤導點進去、最後沒買，那點擊率上升反而是假象。盡量用離營收最近的指標當裁判，避免被表面數字騙了。

台灣中小企業怎麼落地

一家線上課程平台的表單實驗

以一家販售職場技能線上課程的台灣團隊為例。他們的免費試聽報名頁，原本要求填寫姓名、Email、電話、職稱、公司、想學的主題共六個欄位。行銷負責人憑感覺覺得「欄位多比較能篩出精準名單」，但報名數一直上不去。內部為了要不要砍欄位吵了很久，誰也說服不了誰。

後來他們決定不吵了，直接做 A/B 測試。假設是：「因為報名表單有六個欄位、填寫率低，所以把欄位減到姓名與 Email 兩個，會讓報名完成率提升。」他們把流量隨機對半分，A 組維持六欄、B 組只留兩欄，其餘條件完全一樣，跑滿兩個完整週、累積足夠樣本後再看結果。結果 B 組的報名完成率明顯高於 A 組，且達到統計顯著。更重要的是，後續追蹤發現雖然名單欄位變少，但實際轉成付費的比例並沒有下降——原本那四個欄位篩掉的，很多其實是會買單的人。這場測試讓他們把「欄位多比較精準」這個憑感覺的信念，換成了有數據撐腰的決策。

可直接照做的操作清單

挑一個「離成交近、又好改」的元素當作第一個測試對象。
用標準句型寫下假設：因為（現象）、所以（改動）會讓（指標）提升。
決定唯一的勝負指標，盡量選最靠近營收的那個。
每次只改一個變因，其餘條件保持完全一致。
事前用樣本數計算工具估算需要多少流量與時間。
測試跑滿完整週期、達到預定樣本數前，不提早下結論。
用 95% 統計顯著當門檻，沒達到就視為沒有差異、不要硬換。
把每次測試的假設、結果、結論記錄成檔，累積成團隊的知識庫。

常見問題

問：我的網站流量很小，還能做 A/B 測試嗎？

答：可以，但要調整做法。流量小代表累積樣本慢，所以要挑「影響大」的元素來測（例如整個落地頁的主張、表單長度），別浪費珍貴流量去測按鈕顏色這種微小差異。同時要有耐心，把測試時間拉長到累積足夠樣本為止。如果流量真的非常少，也可以先靠質化方法（使用者訪談、錄影觀察）找問題，等流量起來再做量化測試。

問：測出來兩版差不多，是不是白測了？

答：不算白測。沒有顯著差異本身就是一個結論：它告訴你這個元素不是影響成交的關鍵，你可以停止在這上面糾結，把力氣移到更可能有影響的地方。很多時候大家爭得面紅耳赤的東西，測完發現根本沒差，這反而幫團隊省下無謂的爭論，把焦點放回真正重要的事情上。

問：可以同時測很多個元素，加快速度嗎？

答：在流量充足的前提下可以，但那已經是進階的「多變量測試」，需要更大的樣本與更謹慎的分析，否則容易混淆歸因。對多數中小企業來說，建議先把單變因的 A/B 測試做扎實，建立起「假設、測試、結論」的紀律與節奏。等流量夠大、團隊也熟練了，再考慮多變量測試會更穩。

總結

A/B 測試真正改變的，不只是某個按鈕的顏色，而是一個團隊做決策的方式：從「誰資深誰說了算」變成「讓真實顧客投票」。它要求你先寫清楚假設、只改一個變因、湊夠樣本、用統計顯著而不是感覺來判讀，這套紀律會慢慢累積成你最寶貴的顧客知識。下次再為了標題或版型吵不出結論時，別再比嗓門了，設計一場乾淨的測試，把決定權交給數據。