「這個標題比較好啦」「不對,我覺得藍色按鈕比較順眼」「上次那個版型不是賣得不錯嗎?」——這種會議,幾乎每家公司都開過。最後拍板的,往往不是最懂顧客的人,而是職位最高、嗓門最大的人。問題是,顧客不會因為你資深就比較買單。當行銷決策一直靠直覺、靠資歷、靠誰比較會講,你其實是在拿真金白銀的流量做沒有對照組的賭注。
A/B 測試就是把這場爭吵交給數據裁決的方法。它讓你同時推出兩個版本給真實使用者,看哪一個帶來更多點擊、更多註冊、更多成交,然後用結果而不是嘴巴決定走哪條路。這篇文章會把 A/B 測試的觀念、設計流程、樣本與統計顯著、常見陷阱,以及台灣中小企業實際怎麼做,一次講清楚,讓你的每一個改版都站在證據上。
A/B 測試到底在測什麼
基本定義與運作方式
A/B 測試,又叫分流測試或對照測試,做法是把同樣的流量隨機分成兩組:A 組看到原本的版本(對照組),B 組看到你想嘗試的新版本(實驗組)。兩組除了你刻意改動的那一個元素之外,其他條件完全相同。過一段時間後,比較兩組在某個關鍵指標上的表現,例如點擊率、加入購物車率或最終轉換率,表現明顯較好的那一版就勝出。
它的精神來自科學實驗:要判斷一個改動有沒有效,你必須有對照組。如果你直接把網站全部換成新版,業績變好了,你也無法確定是新版的功勞,還是剛好遇到旺季、剛好那週有檔活動、剛好有人轉發。A/B 測試透過「同時間、同條件、只差一個變因」的設計,把這些干擾排除,讓因果關係站得住腳。
什麼東西值得測
幾乎所有會影響使用者行動的元素都可以測,但資源有限時要挑「離成交近、又容易改」的東西先測。常見的高價值測試項目包括:行動呼籲按鈕的文字與顏色、頁面標題與主視覺、表單的欄位數量、商品圖片的呈現方式、定價的顯示方式(例如月費 vs 年費的擺法)、電子報的主旨、廣告的素材與文案。一個原則是:每次只改一個變因,否則就算有效,你也不知道是哪個改動的功勞。
怎麼設計一場可信的 A/B 測試
從一個明確的假設開始
好的測試不是「我們來改改看哪個好」,而是先寫下一個可以被驗證的假設。假設的標準句型是:「因為(觀察到的現象),所以我認為(某個改動)會讓(某個指標)提升。」例如:「因為結帳頁的表單有 9 個欄位、跳出率很高,所以我認為把欄位減到 5 個,會讓結帳完成率提升。」
有了明確假設,你才知道要改什麼、要看哪個指標、結果該怎麼解讀。沒有假設的測試,做完常常是「嗯,B 好像高一點」然後不知道下一步該幹嘛。寫假設也逼你先想清楚問題出在哪,這個思考過程本身就很有價值。
樣本數、測試時間與統計顯著
這是最多人栽跟頭的地方。很多人測了兩天,看到 B 版高了 3%,就興奮地全面換版,結果上線後完全沒效。原因是樣本太少,那 3% 只是隨機波動,不是真實差異。要讓結果可信,你需要足夠的樣本數,以及達到「統計顯著」——通常以信心水準 95% 為門檻,意思是這個差異有 95% 的機率不是運氣造成的。
實務上有幾個原則:測試前先用線上的樣本數計算工具估算需要多少流量;測試至少完整跑滿一到兩個完整週期(含平日與週末,避免週間行為差異干擾);在達到預定樣本數之前不要偷看就提早下結論,這叫「偷看問題」,會大幅提高誤判機率。流量小的中小企業尤其要有耐心,寧可一次測一個影響大的元素、跑久一點,也不要同時測一堆小東西,結果每個都樣本不足。
| 測試要素 | 做對的樣子 | 常見錯誤 |
| 變因數量 | 一次只改一個元素 | 同時改標題、按鈕、圖片,無法歸因 |
| 樣本數 | 事前估算、跑滿才看結果 | 看到差距就提早收手 |
| 測試時間 | 涵蓋完整週期含週末 | 只跑兩三天就下定論 |
| 判斷依據 | 達 95% 統計顯著 | 用絕對數字「感覺有比較高」 |
| 分流方式 | 隨機、同時、同條件 | 先後上線,受旺淡季干擾 |
選對北極星指標
測試前要先講好「哪個指標贏了才算贏」。這個指標應該盡量靠近你真正的商業目標。例如你在測商品頁的按鈕文案,與其只看按鈕點擊率,更該看最終的購買完成率。因為有可能新文案讓更多人點了按鈕,卻是被誤導點進去、最後沒買,那點擊率上升反而是假象。盡量用離營收最近的指標當裁判,避免被表面數字騙了。
台灣中小企業怎麼落地
一家線上課程平台的表單實驗
以一家販售職場技能線上課程的台灣團隊為例。他們的免費試聽報名頁,原本要求填寫姓名、Email、電話、職稱、公司、想學的主題共六個欄位。行銷負責人憑感覺覺得「欄位多比較能篩出精準名單」,但報名數一直上不去。內部為了要不要砍欄位吵了很久,誰也說服不了誰。
後來他們決定不吵了,直接做 A/B 測試。假設是:「因為報名表單有六個欄位、填寫率低,所以把欄位減到姓名與 Email 兩個,會讓報名完成率提升。」他們把流量隨機對半分,A 組維持六欄、B 組只留兩欄,其餘條件完全一樣,跑滿兩個完整週、累積足夠樣本後再看結果。結果 B 組的報名完成率明顯高於 A 組,且達到統計顯著。更重要的是,後續追蹤發現雖然名單欄位變少,但實際轉成付費的比例並沒有下降——原本那四個欄位篩掉的,很多其實是會買單的人。這場測試讓他們把「欄位多比較精準」這個憑感覺的信念,換成了有數據撐腰的決策。
可直接照做的操作清單
- 挑一個「離成交近、又好改」的元素當作第一個測試對象。
- 用標準句型寫下假設:因為(現象)、所以(改動)會讓(指標)提升。
- 決定唯一的勝負指標,盡量選最靠近營收的那個。
- 每次只改一個變因,其餘條件保持完全一致。
- 事前用樣本數計算工具估算需要多少流量與時間。
- 測試跑滿完整週期、達到預定樣本數前,不提早下結論。
- 用 95% 統計顯著當門檻,沒達到就視為沒有差異、不要硬換。
- 把每次測試的假設、結果、結論記錄成檔,累積成團隊的知識庫。
常見問題
問:我的網站流量很小,還能做 A/B 測試嗎?
答:可以,但要調整做法。流量小代表累積樣本慢,所以要挑「影響大」的元素來測(例如整個落地頁的主張、表單長度),別浪費珍貴流量去測按鈕顏色這種微小差異。同時要有耐心,把測試時間拉長到累積足夠樣本為止。如果流量真的非常少,也可以先靠質化方法(使用者訪談、錄影觀察)找問題,等流量起來再做量化測試。
問:測出來兩版差不多,是不是白測了?
答:不算白測。沒有顯著差異本身就是一個結論:它告訴你這個元素不是影響成交的關鍵,你可以停止在這上面糾結,把力氣移到更可能有影響的地方。很多時候大家爭得面紅耳赤的東西,測完發現根本沒差,這反而幫團隊省下無謂的爭論,把焦點放回真正重要的事情上。
問:可以同時測很多個元素,加快速度嗎?
答:在流量充足的前提下可以,但那已經是進階的「多變量測試」,需要更大的樣本與更謹慎的分析,否則容易混淆歸因。對多數中小企業來說,建議先把單變因的 A/B 測試做扎實,建立起「假設、測試、結論」的紀律與節奏。等流量夠大、團隊也熟練了,再考慮多變量測試會更穩。
總結
A/B 測試真正改變的,不只是某個按鈕的顏色,而是一個團隊做決策的方式:從「誰資深誰說了算」變成「讓真實顧客投票」。它要求你先寫清楚假設、只改一個變因、湊夠樣本、用統計顯著而不是感覺來判讀,這套紀律會慢慢累積成你最寶貴的顧客知識。下次再為了標題或版型吵不出結論時,別再比嗓門了,設計一場乾淨的測試,把決定權交給數據。