Netflix是如何做決策的?(四):漏報與功效
神譯局是36氪旗下編譯團隊,關注科技、商業、職場、生活等領域,重點介紹國外的新技術、新觀點、新風向。
編者按:決策是行動的指南。不管是個人還是企業,每天都要面臨著無數的決策。決策的好壞會對結果產生巨大影響,如何做好決策是每個人都要上的一門必修課。在Netflix這里,他們采用了一種以實驗為導向的決策流程,先小范圍地對不同方案進行測試,根據對比效果調整,從而摸索出普遍適用的決策。他們為此還在官方技術博客推出了關于Netflix如何用A/N測試做出決策的系列文章。本文來自編譯,是系列文章的第四篇。后續文章還將介紹實驗在 Netflix 中的作用、Netflix對基礎設施的投資是如何為實驗提供支撐和擴展的,以及 Netflix內部實驗文化的重要性。
劃重點:
功效給出的是特定實驗設計和規模下真陽性的概率
提高功效的手段一般有三種:增加效應量、擴大樣本規模、減少基礎總體指標的可變性
約定俗成的功效一般是80%
誤報與漏報不能同時減少
Netflix 是如何做決策的?(一):介紹
Netflix是如何做決策的?(二):什么是 A/B 測試?
Netflix是如何做決策的?(三):誤報與統計顯著性
在《第 3 篇:誤報與統計顯著性》,我們定義了在解釋測試結果時可能會出現的兩種錯誤類型:誤報與漏報。然后,我們用拋硬幣這個簡單的思維練習來建立對誤報和相關概念(如統計顯著性、p 值與置信區間)的直覺。在這篇文章里,我們將對漏報與統計功效的相關概念做同樣的事情。
圖 1:跟第 3 篇一樣,我們還是拿拋硬幣這個思維練習,比如這個凱撒·奧古斯都面朝上的游戲,一邊建立起對核心統計概念的直覺。
漏報與功效
當數據沒能表明治療組與控制組之間存在有意義的差異,但實際上差異是存在的時候,就會出現漏報(假陽性,false positive)。繼續第 3 篇里面的示例,漏報對應于把貓的照片標記成“沒有貓”。漏報與功效這個統計概念密切相關,功效給出的是特定實驗設計和規模下真陽性的概率。事實上,功效不過是1減去漏報率而已。
功效牽涉到的是對有關世界實際狀態的特定假設的可能結果——跟我們在第 3 篇里面首先要假設零假設為真來定義顯著性類似。為了建立對功效的直覺,我們不妨回到第 3 篇里面舉過的那個拋硬幣的例子,目標是用計算拋 100 次硬幣時出現正面的比例這個實驗來確定硬幣是不是均勻的。在硬幣是均勻的零假設下,結果分布如圖 2 所示,用黑色標記。為了讓那張圖解釋起來更容易些,我們對直方圖的頂部進行了平滑處理。
如果硬幣不均勻的話,這個實驗會出現什么情況?為了讓這個思維練習更具體些,我們不妨看看當我們有一枚硬幣出現正面的平均概率為64% 時會發生什么(為什么要選這個數字后面我們會解釋的)。因為我們的實驗存在不確定性或噪音,所以我們不指望拋 100 次能夠正好看到有 64 次為正面。但就像假設硬幣是均勻的零假設一樣,如果這個特定的替代性假設為真,我們就可以計算粗所有可能的結果。這種分布如圖 2 的紅色曲線所示。
圖 2:用擲100 次硬幣然后計算正面朝上的占比這個例子來說明功效。黑色和紅色虛線分別顯示的是假設出現正面概率為 50%(零假設)與 64%(替換假設的特定值)的結果分布。在本例中,該替代方案的功效為 80%(紅色陰影)。
從上圖看,功效是替代分布(紅色)里面超出零假設(藍線和黑色曲線;參見第 3 篇)臨界值的部分。在本例中, 替代分布(紅色)有80%落在了較高的藍色線(該線劃定的是右側拒絕區域的臨界值)的右側。假設這枚硬幣正面朝上事實上的概率是 64%,那么本次測試的功效就是 80%。為了完整起見,替代分布(紅色)還有一小部分落在左側拒絕區域內(藍色短線的左側)。
檢驗的功效跟特定的假設的效應量相對應。在我們的例子里面,如果這個不均勻的硬幣正面朝上的實際概率為 64%,則檢測硬幣是否不均勻的功效為 80%。解釋如下:如果硬幣正面朝上的概率為 64%,并且我們反復進行拋 100 次的實驗并按照 5% 的顯著性水平做出決定,那么我們每5次實驗得出拒絕硬幣是均勻的零假設的結論中大約有 4 個是對的。這些重復的實驗當中有 20% 會導致漏報:也就是我們不會拒絕硬幣是均勻的零假設,哪怕其實硬幣是不均勻的。
提高功效的辦法
在設計 A/B 測試的時候,我們首先要確定顯著性水平(約定為 5%:如果治療與控制之間沒有差異的話,我們有 5% 的可能性出現誤報),然后我們設計實驗來控制漏報。我們可以通過三個主要手段來提高功效,減少漏報的可能性:
效應量。簡而言之,效應量(A 組和 B 組之間的指標值差異)越大,我們能夠正確檢測到這種差異的概率就越高。為了建立直覺,不妨假設做個實驗來確定硬幣是否不均勻,我們要收集的數據是拋 100 里面出現正面的比例。現在設想兩種場景。在第一種情況下,正面朝上的真實概率為 55%,而在第二種情況下為 75%。直觀上(以及數學上!)我們的實驗更有可能在在第二種情況下將硬幣識別為不均勻。正面的真實概率與 50% 的零假設相差更大,所以實驗產生的結果更有可能落在拒絕區域內。在產品開發的環境下,我們可以通過我們大膽增加要測試的假設的增量來增加指標變動的預期幅度。增加效應量的另一個策略是在會員滿意度可能有更大的提升空間的產品新領域進行測試。也就是說,通過實驗學習的樂趣之一是其中會有驚喜元素:有時候,看似微小的變化可能也會對最高級別的指標產生重大影響。
樣本規模。實驗的單位越多,功效越高,越容易正確識別較小的效應。為了建立直覺,再設想去做個實驗來確定硬幣是不是不均勻,我們要收集的數據是拋固定次數下正面朝上的比例,而正面朝上的真實概率為 64%。然后考慮兩種情況:第一種情況,我們拋20 次硬幣,第二種情況,我們拋100 次硬幣。直觀上(以及數學上?。┒?,我們的實驗更有可能在第二種情況下把硬幣識別成不均勻。因為在有了更多數據的情況下,實驗的結果會更接近 64% 的真實概率,而基于硬幣是均勻的假設下,結果應該集中在 0.50 左右,導致拒絕區域侵占掉 50% 的值。在這些效應相結合下,因此如果拿不均勻的硬幣做實驗,數據越多,結果就越有可能落入該拒絕區域,從而產生真陽性。在產品開發環境里,我們可以通過給測試分配更多的會員(或其他單位)或減少測試組的數量來提高功效,不過在每次測試的樣本量與同時可以進行的不重疊的測試數量之間需要做出權衡(樣本量大,可進行的測試數就少)。
基礎總體指標的可變性。指標在待測試總體里面越同質化,就越容易正確識別真實效果。這個的直覺有點難以理解,我們那個簡單的拋硬幣例子終于沒法解釋了。假設在Netflix這里,我們要進行一項測試,目的是看看某些減少延遲(比方說成員按下播放與開始視頻播放之間的延遲)的措施是否有效。鑒于大家用來訪問 Netflix 的設備與互聯網連接的多樣性,在我們的用戶當中這個指標會存在很多自然的可變性。因此,如果測試治療組的結果只是延遲指標小幅減少的話,是很難識別成功的——因為不同會員之間可變性的“噪音”比信號要強。相比之下,如果我們對采用類似網絡連接與類似設備的一組會員進行測試的話,那么強度不大的信號就會更容易識別——因為可能會壓制信號的噪音更少了。在 Netflix 這里,我們花費了大量時間來構建利用這種直覺的統計分析模型,并通過有效降低可變性來提高功效;相關做法的技術說明,請參見此處。
為合理和有意義的效應設定功效
功效和漏報率是假定效應量的函數。就像 5% 的誤報率是一個被廣泛接受的約定一樣,功效的經驗法則是將 80% 的功效定為合理且有意義的效應量的目標。也就是說,我們假設了一個效應量,然后設計實驗(主要是設置樣本大小),這樣的話,如果治療體驗的真實影響如我們假設一樣的話,在80%的時間內測試都能夠正確地識別出效應的存在。在 20% 的時間內測試結果會是漏報:也就是說其實是有效果的,但我們對測試觀察到的結果不在拒絕區域內,所以我們無法得出有效應的結論。這就是為什么上面的例子用了 64% 正面朝上的概率:拋100 次的實驗功效為 80%。
合理的效應量由哪些東西構成這個問題很棘手,因為測試可能會產生意外結果。但是結合領域知識與常識一般可以提供可靠的估計。在測試歷史悠久的領域,比方說幫助Netflix 會員選擇適合自己的內容的優化推薦系統,我們對測試大致產生的效應量(不管是陽性還是陰性)已經有了明確想法。在對過去的效應量以及分析策略有了了解之后,我們就可以設置樣本大小,來確保測試對合理的指標變動具有 80% 的功效。
不管是在這個實驗設計階段還是在決定往什么地方做出努力時,第二個考慮因素是要確定什么對用來決定測試的主要指標產生了有意義的效應。怎么才算有意義要取決于實驗的影響領域(會員滿意度、播放延遲、后端系統的技術性能等),以及與新產品體驗相關的潛在工作或成本。我們不妨假設如果效應量小于主要指標 0.1% 的變化的話,則支撐新產品功能的成本就大于收益。在這種情況下,通過測試來檢測指標是不是發生了 0.01% 變化就幾乎沒有意義,因為成功識別這種效應量并不會導致決策發生有意義的變化。同樣地,如果對特定創新領域所做測試觀察到的效應量對用戶體驗或業務來說始終都無關緊要的話,則表明我們可以把實驗資源部署到其他更有效的地方了。
總結
本系列的第 3 篇和第 4 篇重點是對用來分析測試結果的核心概念進行定義并建立相關直覺:其中包括了假陽性(誤報)、假陰性(漏報)、統計顯著性、p 值,以及功效。
關于實驗,有個事實也許會令人不安,那就是我們不能同時最大限度地減少誤報和漏報。事實上,誤報和漏報會相互制約。如果我們采用更嚴格的誤報率,比方說 0.01%的話, A 和 B 之間沒有差異的測試的誤報數量就會減少——但這樣也會降低測試的功效,增加那些存在有意義差異的測試的假陰性(漏報)率。用 5% 的誤報率以及 80% 的功效是約定俗成的慣例,可以在限制發現錯誤與取得真正發現之間取得平衡。然而,在假陽性(或假陰性)會帶來更大風險的情況下,研究人員可能就會拋開這些經驗法則,好盡量減少某種類型的不確定性。
我們的目標不是要消除不確定性,而是去理解和量化這種不確定性,以便做出合理的決策。在很多情況下,A/B 測試的結果需要細致入微的解釋,實際上測試結果本身也只是商業決策的一個輸入。在下一篇文章里,我們會介紹怎么用測試結果建立起對決策的信心。
譯者:boxi。