Optimizely Intelligence Cloud:如何使用統計引擎更智能、更快速地進行 A/B 測試

優化統計引擎和 A/B 測試策略

如果您希望運行一個實驗程序來幫助您的業務測試和學習,那麼您很可能正在使用 優化智能雲 – 或者你至少看過它。 Optimizely 是遊戲中最強大的工具之一,但與任何此類工具一樣,如果您不了解它的工作原理,則可能會錯誤地使用它。 

是什麼讓 Optimizely 如此強大? 其功能集的核心在於第三方工具中最明智和最直觀的統計引擎,讓您能夠更加專注於實時進行重要測試——而無需擔心會誤解您的結果。 

就像傳統的醫學盲研究一樣, A / B測試 會隨機顯示不同 治療 向不同的用戶展示您的網站,然後比較每種治療方法的療效。 

然後統計數據可以幫助我們推斷該治療的長期有效性。 

大多數 A/B 測試工具依賴於兩種類型的統計推斷之一:頻率統計或貝葉斯統計。 每個學校都有不同的優點和缺點——頻率統計需要在運行實驗之前固定樣本大小,而貝葉斯統計主要關心做出良好的方向決策,而不是指定任何單一的影響數字,舉兩個例子。 Optimizely 的超能力是,它是當今市場上唯一可以採取 兩全其美 的方法。

最終結果? Optimizely 使用戶能夠更快、更可靠、更直觀地運行實驗。

但是,為了充分利用這一點,了解幕後發生的事情很重要。 這裡有 5 種見解和策略,可讓您像專業人士一樣使用 Optimizely 的功能。

策略#1: 了解並非所有指標都是平等的

在大多數測試工具中,一個普遍被忽視的問題是,作為測試的一部分添加和跟踪的指標越多,由於隨機機會,您就越有可能看到一些不正確的結論(在統計學中,這稱為“多重測試問題” ”)。 為了保持其結果的可靠性,Optimizely 使用一系列控制和更正來盡可能降低發生這種情況的機率。 

當您在 Optimizely 中設置測試時,這些控制和更正有兩個含義。 首先,您指定的指標 主要指標 將最快達到統計顯著性,所有其他條件不變。 其次,添加到實驗中的指標越多,後期指標達到統計顯著性所需的時間就越長。

在計劃實驗時, 確保您知道在您的決策過程中哪個指標將成為您的真北,並將其作為您的主要指標。 然後,通過刪除任何多餘或無關緊要的內容來保持指標列表的其餘部分精簡。

策略#2: 構建您自己的自定義屬性

Optimizely 非常擅長為您提供多種有趣且有用的方法來細分實驗結果。 例如,您可以檢查某些處理方法在桌面與移動設備上的表現是否更好,或者觀察不同流量來源的差異。 不過,隨著您的實驗計劃的成熟,您很快就會希望有新的細分受眾群——這些細分受眾群可能特定於您的用例,例如一次性購買與訂閱購買的細分,或者像“新訪問者與回訪者”(其中,坦率地說,我們仍然無法弄清楚為什麼沒有開箱即用)。

好消息是,通過 Optimizely 的 Project Javascript 字段,熟悉 Optimizely 的工程師可以構建任意數量的有趣的自定義屬性,訪問者可以根據這些屬性進行分配和細分。 在 Cro Metrics,我們構建了許多庫存模塊(例如“新訪客與回訪者”),我們通過他們的項目 Javascript 為所有客戶安裝這些模塊。 利用這種能力是擁有合適技術資源來幫助他們執行的成熟團隊與努力實現實驗的全部潛力的團隊之間的關鍵區別。

策略#3: 探索 Optimizely 的統計加速器

一個經常被誇大的測試工具功能是能夠使用“多臂強盜”,這是一種機器學習算法,可在實驗過程中動態改變流量分配位置,將盡可能多的訪問者發送到“獲勝”盡可能變異。 多臂強盜的問題在於它們的結果不是長期性能的可靠指標,因此這些類型的實驗的用例僅限於促銷等時間敏感的情況。

不過,Optimizely 為更高計劃的用戶提供了一種不同類型的強盜算法——統計加速器(現在被稱為強盜內部的“加速學習”選項)。 在此設置中,Optimizely 不是嘗試將流量動態分配給性能最高的變體,而是將流量動態分配給最有可能最快達到統計顯著性的變體。 這樣,您可以更快地學習,並保留傳統 A/B 測試結果的可複制性。

策略 #4:將表情符號添加到您的指標名稱中

乍一看,這個想法可能聽起來不合時宜,甚至是愚蠢的。 但是,確保您閱讀正確的實驗結果的一個關鍵方面是確保您的聽眾能夠理解問題。 

有時儘管我們盡了最大的努力,指標名稱還是會變得混亂(等等——當訂單被接受時,或者當用戶點擊感謝頁面時,這個指標會觸發嗎?),或者一個實驗有太多的指標,上下滾動結果頁面導致總的認知超載。

將表情符號添加到您的指標名稱(目標、綠色複選標記,甚至大錢袋子也可以)可以使頁面更易於掃描。 

相信我們 - 讀出結果會容易得多。

策略#5: 重新考慮您的統計顯著性水平

結果在 Optimizely 實驗的上下文中被認為是決定性的,當它們達到 統計學意義. 統計顯著性是一個嚴格的數學術語,但本質上它是您的觀察結果是兩個群體之間真正差異的結果的概率,而不僅僅是隨機機會。 

Optimizely 報告的統計顯著性水平“始終有效”,這要歸功於一個名為 順序測試 – 這實際上使它們比其他測試工具更可靠,如果您過早閱讀它們,它們很容易出現各種“偷看”問題。

值得考慮您認為對測試程序重要的統計顯著性水平。 雖然 95% 是科學界的慣例,但我們正在測試網站更改,而不是疫苗。 實驗世界中的另一個常見選擇:90%。 但是,為了更快地進行實驗並測試更多想法,您願意接受更多的不確定性嗎? 您可以使用 85% 甚至 80% 的統計顯著性嗎? 隨著時間的推移,有意保持風險回報平衡會帶來指數級紅利,因此請仔細考慮這一點。

閱讀有關 Optimizely 智能雲的更多信息

在使用 Optimizely 時,牢記這五個快速原則和見解將非常有幫助。 與任何工具一樣,它歸結為確保您對所有幕後自定義有很好的了解,因此您可以確保有效地使用該工具。 通過這些理解,您可以在需要時獲得您正在尋找的可靠結果。 

你覺得呢?

本網站使用Akismet來減少垃圾郵件。 了解您的評論如何處理.