Netflix是如何做決策的?(三):誤報(bào)與統(tǒng)計(jì)顯著性
神譯局是36氪旗下編譯團(tuán)隊(duì),關(guān)注科技、商業(yè)、職場、生活等領(lǐng)域,重點(diǎn)介紹國外的新技術(shù)、新觀點(diǎn)、新風(fēng)向。
編者按:決策是行動的指南。不管是個(gè)人還是企業(yè),每天都要面臨著無數(shù)的決策。決策的好壞會對結(jié)果產(chǎn)生巨大影響,如何做好決策是每個(gè)人都要上的一門必修課。在Netflix這里,他們采用了一種以實(shí)驗(yàn)為導(dǎo)向的決策流程,先小范圍地對不同方案進(jìn)行測試,根據(jù)對比效果調(diào)整,從而摸索出普遍適用的決策。他們?yōu)榇诉€在官方技術(shù)博客推出了關(guān)于Netflix如何用A/N測試做出決策的系列文章。本文來自編譯,是系列文章的第三篇。后續(xù)文章還將介紹實(shí)驗(yàn)在 Netflix 中的作用、Netflix對基礎(chǔ)設(shè)施的投資是如何為實(shí)驗(yàn)提供支撐和擴(kuò)展的,以及 Netflix內(nèi)部實(shí)驗(yàn)文化的重要性。
劃重點(diǎn):
任何決策方法都不能完全消除不確定性以及犯錯(cuò)誤的可能性
在對測試結(jié)果采取行動時(shí),可能會犯兩種類型的錯(cuò)誤:誤報(bào)與漏報(bào)
誤報(bào)率跟觀察到的實(shí)驗(yàn)組與對照組之間的度量值差異的“統(tǒng)計(jì)顯著性”密切相關(guān)
A/B 測試?yán)锩孢€有兩個(gè)概念跟 p 值密切相關(guān):測試的否定域以及觀測的置信區(qū)間
Netflix 是如何做決策的?(一):介紹
Netflix是如何做決策的?(二):什么是 A/B 測試?
在《Netflix是如何做決策的?(二):什么是 A/B 測試?》中,我們討論了在 Netflix 上面測試 Top 10,以及如何利用這項(xiàng)測試的主要決策指標(biāo)衡量會員對 Netflix 的滿意度的。如果像這樣的測試顯示出主要的決策指標(biāo)在統(tǒng)計(jì)上有顯著改善的話,就說明這項(xiàng)功能非常適合面向所有會員推出。但是,得到測試的結(jié)果之后,我們?nèi)绾尾拍苤雷约鹤龀龅臎Q定是否正確呢?重要的是要承認(rèn)一點(diǎn),任何決策方法都不能完全消除不確定性以及犯錯(cuò)誤的可能性。利用基于假設(shè)生成、A/B 測試以及統(tǒng)計(jì)分析的框架,我們可以對不確定性進(jìn)行細(xì)致的量化,并了解犯不同類型錯(cuò)誤的概率。
在對測試結(jié)果采取行動時(shí),我們可能會犯兩種類型的錯(cuò)誤。當(dāng)來自測試的數(shù)據(jù)表明控制組和實(shí)驗(yàn)組體驗(yàn)之間存在表明差別,但實(shí)際上沒有差別時(shí),就會出現(xiàn)假陽性(也稱為 I 型錯(cuò)誤)。這種情況就好比健康人的體檢結(jié)果呈陽性。在對測試做決定時(shí)可能還會犯另一個(gè)錯(cuò)誤,那就是假陰性(也稱為 II 型錯(cuò)誤),當(dāng)數(shù)據(jù)沒有表明實(shí)驗(yàn)和控制之間存在表面差異,但實(shí)際存在差異時(shí),就會發(fā)生這種情況。這種情況就像你有病,但相關(guān)的醫(yī)學(xué)檢測結(jié)果呈陰性。
作為建立直覺的另一種辦法,不妨思考一下這個(gè)互聯(lián)網(wǎng)和機(jī)器學(xué)習(xí)之所以存在的真正原因(編者注:一個(gè)玩笑):標(biāo)記圖像里面有沒有貓。對于特定圖像來說,決策有兩種可能(貼上 “有貓”或“沒貓”的標(biāo)簽),同樣地事實(shí)也有兩種(圖像要么有貓,要么沒有)。這導(dǎo)致總共有四種可能的結(jié)果,如圖 1 所示。 A/B 測試也是如此:我們根據(jù)數(shù)據(jù)做出兩個(gè)決策之一(“有足夠的證據(jù)得出十大排名會影響會員的滿意度這個(gè)結(jié)論”)或“證據(jù)不足”),而事實(shí)也會有兩種可能,但我們永遠(yuǎn)沒法完全確定(“十大排名確實(shí)影響到會員的滿意度”或“沒影響”)。
圖 1:把圖像標(biāo)記為圖中有沒有貓時(shí)的四種可能結(jié)果。
關(guān)于誤報(bào)和漏報(bào),一個(gè)令人不安的事實(shí)是,我們沒法排除掉。事實(shí)上,這兩者是此消彼長的關(guān)系。對實(shí)驗(yàn)進(jìn)行設(shè)計(jì)好讓誤報(bào)率很小必然會增加漏報(bào)率,反之亦然。在實(shí)踐上,我們的目標(biāo)是對這兩種錯(cuò)誤來源做好量化、理解和控制。
在本文的其余部分里,我們會利用簡單的示例來建立起對誤報(bào)和相關(guān)統(tǒng)計(jì)概念的直覺;在本系列的下一篇文章里,我們再談?wù)劼﹫?bào)及相關(guān)統(tǒng)計(jì)概念。
誤報(bào)與統(tǒng)計(jì)顯著性
有了一個(gè)很好的假設(shè),并且對主要決策指標(biāo)有了清晰理解之后,是時(shí)候轉(zhuǎn)到設(shè)計(jì) A/B 測試的統(tǒng)計(jì)方面了。這個(gè)過程一般從確定可接受的誤報(bào)率開始。按照慣例,這個(gè)誤報(bào)率通常設(shè)定為 5%:對于實(shí)驗(yàn)組與對照組之間其實(shí)沒有實(shí)質(zhì)差異的測試,我們有5%的幾率會錯(cuò)誤地得出存在 “統(tǒng)計(jì)上顯著”差異的結(jié)論。誤報(bào)率為5%的測試就是顯著性水平為 5%的測試。
約定顯著性水平為5%可能會讓人感到不舒服。遵循這一慣例,意味著我們接受這樣的事實(shí),即對于會員來說實(shí)驗(yàn)組和控制組體驗(yàn)沒有明顯不同的情況下,我們犯錯(cuò)的幾率是5%。我們會把 5% 沒有貓的照片標(biāo)記成有貓。
誤報(bào)率跟觀察到的實(shí)驗(yàn)組與對照組之間的度量值差異的“統(tǒng)計(jì)顯著性”密切相關(guān),我們就用 p 值來測量吧。p 值是觀測到至少與A/B測試實(shí)際觀測樣本相同極端的樣本的概率,前提是實(shí)驗(yàn)組跟對照組的體驗(yàn)確實(shí)沒有差異。理解統(tǒng)計(jì)顯著性跟 p 值(這玩意兒已經(jīng)讓學(xué)統(tǒng)計(jì)學(xué)的困惑了一個(gè)多世紀(jì))有一個(gè)直觀的辦法,那就是玩簡單的機(jī)會游戲,去計(jì)算所有的相關(guān)概率并進(jìn)行可視化。
圖 2:不妨考慮玩一個(gè)簡單的機(jī)會游戲,比方說像這樣的拋硬幣游戲,這是建立起統(tǒng)計(jì)直覺的好方法。
假設(shè)我們想知道一枚硬幣是不是不均勻,也就是拋到正面的概率不是 0.5(或 50%)。這個(gè)情況看起來似乎很簡單,但其實(shí)跟很多企業(yè)直接相關(guān),其目標(biāo)是要了解新產(chǎn)品體驗(yàn)會不會導(dǎo)致某些二元性的用戶活動(單擊某項(xiàng)UI 功能,再續(xù)租Netflix 服務(wù)一個(gè)月)出現(xiàn)的比率不同。所以任何我們可以通過簡單的拋硬幣游戲建立的直覺都可以直接映射到對A/B測試做出的解釋。
為了確定硬幣是不是不均勻,我們不妨做個(gè)實(shí)驗(yàn):拋 100 次硬幣并計(jì)算正面朝上的比例。由于存在隨機(jī)性或“噪音”,就算硬幣是完全均勻的,我們也不指望正好會有 50 次正面朝下, 50次反面朝上——但跟50 這個(gè)數(shù)偏差多少才算 “太多”呢?什么時(shí)候才有足夠的證據(jù)來拒絕硬幣其實(shí)是均勻的這個(gè)基線判定?如果拋 100 次有 60 次是正面的話,你是不是愿意得出硬幣不均勻的結(jié)論?70呢?我們需要有一種方法來調(diào)整決策框架并了解相關(guān)的誤報(bào)率。
為了建立直覺,不妨來一次思考練習(xí)。首先,我們假設(shè)硬幣是均勻的——這就是我們的“零假設(shè)”。零假設(shè)始終是對現(xiàn)狀或均等的陳述。然后,我們從數(shù)據(jù)里面尋找反對這個(gè)零假設(shè)的那些令人信服的證據(jù)。為了決定令人信服的證據(jù)應(yīng)該由什么構(gòu)成,在假設(shè)原假設(shè)為真的情況下,我們要計(jì)算每個(gè)可能結(jié)果的概率。對于拋硬幣這個(gè)例子而言,就是拋100 次硬幣拋出 0 個(gè)正面、1個(gè)正面、2個(gè)正面,以此類推直至 100 個(gè)正面的概率——前提假設(shè)是硬幣是均勻的。具體數(shù)學(xué)我們就略過了,只需要留意所有這些可能的結(jié)果及其相關(guān)概率都用圖 3 里面的黑條和藍(lán)條顯示(現(xiàn)在先忽略顏色)。
然后,我們可以將在硬幣均勻的假設(shè)下計(jì)算得出的結(jié)果概率分布跟我們收集到的數(shù)據(jù)進(jìn)行比較。假設(shè)我們觀察到拋100 次里面其中的55% 得到的是正面(圖 3 中的紅色實(shí)線)。為了對這個(gè)觀察是否硬幣不均勻的有力證據(jù)進(jìn)行量化,我們把每一個(gè)可能性低于觀察的每一個(gè)結(jié)果的相關(guān)概率進(jìn)行合計(jì)。此處,由于我們沒有對更有可能出現(xiàn)正面或反面做出任何假設(shè),所以我們把出現(xiàn)正面概率達(dá)到或超過55%的累加起來(紅色實(shí)線右側(cè)的條),把出現(xiàn)反面概率達(dá)到或超過55%的也累加到一起(紅色虛線左側(cè)的條)。
神秘的 p 值就出現(xiàn)了:在零假設(shè)為真的情況下,觀測到至少與實(shí)際觀測樣本相同極端的樣本的概率。在我們的例子中,零假設(shè)是硬幣是均勻的,觀測到的結(jié)果是拋100 次硬幣當(dāng)中有 55% 是正面,而 p 值大概是 0.32。解釋如下:拋硬幣 100 次并計(jì)算正面朝上占比的實(shí)驗(yàn),用均勻的硬幣(零假設(shè)為真)來拋,如果我們重復(fù)多次的話,在這些實(shí)驗(yàn)當(dāng)中,其中有32% 的結(jié)果將至少有 55% 是正面朝上或至少 55% 是反面朝上(結(jié)果至少跟我們的實(shí)際觀測結(jié)果一樣不可能)。
圖 3:將一枚均勻的硬幣拋 100 次,每一個(gè)結(jié)果的概率表示為正面朝上的占比。
那我們怎么用 p 值來確定是否存在統(tǒng)計(jì)上顯著的證據(jù)表明硬幣是不均勻的——或者表明我們的新產(chǎn)品體驗(yàn)對現(xiàn)狀有改進(jìn)呢?回到我們在開始時(shí)同意接受的 5% 的誤報(bào)率:我們得出結(jié)論,如果 p 值小于 0.05,則存在統(tǒng)計(jì)上的顯著影響。這形成了這樣一種直覺,也就是如果我們的結(jié)果在硬幣是均勻的假設(shè)下不太可能發(fā)生的話,我們應(yīng)該拒絕硬幣是均勻的零假設(shè)。在拋 100 次硬幣觀測到有 55 次正面朝上的例子里,我們計(jì)算出的 p 值為 0.32。由于 p 值大于 0.05 顯著性水平,因此我們得出結(jié)論,沒有統(tǒng)計(jì)上顯著的證據(jù)表明硬幣不均勻。
我們可以從實(shí)驗(yàn)或 A/B 測試中得出兩個(gè)結(jié)論:要么得出有影響的結(jié)論(“硬幣不均勻”、“十大排名功能提高了會員的滿意度”),要么得出證據(jù)不足以得出有影響的結(jié)論(“不能得出硬幣不均勻的結(jié)論”,“不能得出十大排名提高了會員滿意度的結(jié)論”)。這跟陪審團(tuán)審判很像,陪審團(tuán)最后只能得出兩個(gè)可能的結(jié)果,要么“有罪”,要么“無罪”(not guilty)——而“無罪”跟“清白”(innocent)是是非常不同的。同樣地,這種A/B 測試的(頻率主義)方法不允許我們得出沒有影響的結(jié)論——我們從來都不會得出硬幣是均勻的,或者新產(chǎn)品功能對我們的會員沒有影響的結(jié)論。我們只是得出這樣的結(jié)論,我們沒有收集到足夠的證據(jù)來駁回不存在差異的零假設(shè)。在上面拋硬幣的例子里,我們拋了 100 次硬幣然后觀測到有 55% 是正面朝上,并得出結(jié)論,我們沒有足夠的證據(jù)可以將硬幣標(biāo)記為不均勻。至關(guān)重要的是,我們也沒有得出硬幣是均勻的結(jié)論——畢竟,如果我們收集到更多的證據(jù),比如將同一枚硬幣拋 1000 次的話,我們可能就能找到足夠令人信服的證據(jù)來駁回硬幣是均勻的零假設(shè)。
否定域與置信區(qū)間
A/B 測試?yán)锩孢€有兩個(gè)概念跟 p 值密切相關(guān):測試的否定域以及觀測的置信區(qū)間。我們會在本節(jié)介紹這兩個(gè)概念,還是用上面的拋硬幣例子作為基礎(chǔ)。
否定域。給測試建立決策規(guī)則的另一種方法是根據(jù)所謂的“拒絕域”——我們得出結(jié)論認(rèn)為硬幣是不均勻的一組值。為了計(jì)算拒絕域,我們再次假設(shè)原假設(shè)為真(硬幣是均勻的),然后將拒絕域定義為概率總和不超過 0.05 的最不可能結(jié)果的集合。拒絕域由最極端的結(jié)果組成,前提是原假設(shè)是正確的——是拒絕原假設(shè)的證據(jù)最強(qiáng)的結(jié)果。如果觀測值落在拒絕域內(nèi),我們就可以得出結(jié)論,存在統(tǒng)計(jì)上顯著的證據(jù)表明硬幣是不均勻的,并“拒絕”零假設(shè)。在那個(gè)拋硬幣實(shí)驗(yàn)的情況下,拒絕域?qū)?yīng)于觀測到正面朝上的情況少于 40% 或超過 60%(如圖 3 的藍(lán)色陰影條所示)。我們稱拒絕域的邊界,本例情況下為正面朝向占比為 40% 與 60% ,為測試的臨界值。
拒絕域與 p 值之間存在等價(jià)關(guān)系,兩者都可得出相同的決定:當(dāng)且僅當(dāng)觀測值位于拒絕域內(nèi)時(shí),p 值小于 0.05。
置信區(qū)間。到目前為止,我們已經(jīng)通過首先從零假設(shè)開始來設(shè)立決策規(guī)則。零假設(shè)始終都是沒有變化或等價(jià)的陳述(“硬幣是均勻的”或“產(chǎn)品創(chuàng)新對會員滿意度沒有影響”)。然后,我們在該零假設(shè)下定義可能的結(jié)果,并將我們的觀測結(jié)果跟這一分布進(jìn)行比較。要想理解置信區(qū)間,把問題倒過來,去關(guān)注觀測結(jié)果會有所幫助。我們不妨做個(gè)思考練習(xí):給定觀測結(jié)果,假設(shè)誤報(bào)率指定為 5% 的情況,零假設(shè)的哪些值會導(dǎo)致得出不拒絕的決定?對于那個(gè)的拋硬幣的例子,觀測結(jié)果是在拋100 次硬幣當(dāng)中有 55% 是正面朝上,我們不拒絕硬幣為均勻的無效。我們也不會拒絕正面朝上概率為 47.5%、50% 或 60% 的零假設(shè)。正面朝上概率從大約 45% 到 65% 的范圍內(nèi),我們都不會拒絕零假設(shè)(圖 4)。
這個(gè)值范圍就是一個(gè)置信區(qū)間:在給定測試數(shù)據(jù)的情況下,在零假設(shè)下不會導(dǎo)致拒絕的值的范圍。因?yàn)槲覀円呀?jīng)用顯著性水平為5%的測試劃定了區(qū)間,所以就設(shè)定了 95% 的置信區(qū)間。我們的解釋是,在重復(fù)實(shí)驗(yàn)的情況下,置信區(qū)間在 95% 的時(shí)間內(nèi)可覆蓋真實(shí)值(此處為正面朝上的實(shí)際概率)。
置信區(qū)間與 p 值之間存在等價(jià)關(guān)系,兩者都可得出相同的決定:當(dāng)且僅當(dāng) p 值小于 0.05 時(shí),95% 置信區(qū)間未覆蓋空值,并且在這兩種情況下我們都拒絕無影響的零假設(shè)。
圖 4:通過映射一組值來建立置信區(qū)間,這些值在用來定義零假設(shè)時(shí)不會導(dǎo)致拒絕給定觀測結(jié)果。
總結(jié)
通過以拋硬幣為例的一系列思考練習(xí),我們已經(jīng)建立起關(guān)于誤報(bào)、統(tǒng)計(jì)顯著性、 p 值、拒絕域、置信區(qū)間以及我們可根據(jù)測試數(shù)據(jù)做出的兩個(gè)決定的直覺。這些核心概念和直覺可直接映射到比較 A/B 測試的實(shí)驗(yàn)與控制體驗(yàn)上面。我們定義了一個(gè)二者沒有差異的“零假設(shè)”:也就是“B”體驗(yàn)沒有改變會員滿意度。然后我們進(jìn)行同樣的思考實(shí)驗(yàn):假設(shè)會員滿意度沒有差異的話,實(shí)驗(yàn)組和對照組之間的指標(biāo)差異可能有哪些結(jié)果,相關(guān)概率是多少?然后,就像拋硬幣例子一樣,我們可以把實(shí)驗(yàn)的觀測結(jié)果跟這個(gè)分布進(jìn)行比較,計(jì)算出 p 值并得出測試的結(jié)論。就像拋硬幣的例子一樣,我們可以定義拒絕域并計(jì)算出置信區(qū)間。
但是誤報(bào)只是我們在對測試結(jié)果采取行動時(shí)可能會犯的兩個(gè)錯(cuò)誤當(dāng)中的一個(gè)。在本系列的下一篇文章里,我們還會介紹另一種類型的錯(cuò)誤:漏報(bào)以及與統(tǒng)計(jì)功效密切相關(guān)的概念。
譯者:boxi。