• <fieldset id="82iqi"></fieldset>
    <tfoot id="82iqi"><input id="82iqi"></input></tfoot>
  • 
    <abbr id="82iqi"></abbr><strike id="82iqi"></strike>
  • Netflix是如何做決策的?(六):實驗是主要關(guān)注焦點

    神譯局是36氪旗下編譯團隊,關(guān)注科技、商業(yè)、職場、生活等領(lǐng)域,重點介紹國外的新技術(shù)、新觀點、新風向。

    編者按:決策是行動的指南。不管是個人還是企業(yè),每天都要面臨著無數(shù)的決策。決策的好壞會對結(jié)果產(chǎn)生巨大影響,如何做好決策是每個人都要上的一門必修課。在Netflix這里,他們采用了一種以實驗為導向的決策流程,先小范圍地對不同方案進行測試,根據(jù)對比效果調(diào)整,從而摸索出普遍適用的決策。他們?yōu)榇诉€在官方技術(shù)博客推出了關(guān)于Netflix如何用A/B測試做出決策的系列文章。本文來自編譯,是系列文章的第六篇。后續(xù)文章還將介紹Netflix對基礎(chǔ)設(shè)施的投資是如何為實驗提供支撐和擴展,以及 Netflix內(nèi)部實驗文化的重要性。

    Netflix 是如何做決策的?(一):介紹

    Netflix是如何做決策的?(二):什么是 A/B 測試?

    Netflix是如何做決策的?(三):誤報與統(tǒng)計顯著性

    Netflix是如何做決策的?(四):漏報與功效

    Netflix是如何做決策的?(五):樹立對決策的信心

    實驗和因果推理是 Netflix 數(shù)據(jù)科學與工程組織關(guān)注的主要焦點領(lǐng)域之一。為了給全公司的重大決策提供直接支持,Netflix 有許多的數(shù)據(jù)科學團隊會直接跟產(chǎn)品經(jīng)理、工程團隊以及其他業(yè)務(wù)部門合作,去設(shè)計實驗、進行實驗并從實驗中學習。為了實現(xiàn)規(guī)模化,我們已經(jīng)建立了一個內(nèi)部實驗平臺(簡稱 XP),而且還會繼續(xù)投資。我們有意識地鼓勵中心化的實驗平臺跟那些數(shù)據(jù)科學團隊之間的協(xié)作,后者也將跟Netflix的業(yè)務(wù)部門直接開展合作。

    Netflix的數(shù)據(jù)科學家直接跟公司的業(yè)務(wù)部門合作,進行實驗與因果推理,他們對自己所工作的業(yè)務(wù)領(lǐng)域有著深入的領(lǐng)域理解與直覺。擔任這些角色的數(shù)據(jù)科學家運用科學方法改善Netflix當前以及未來會員的體驗,并參與實驗的整個生命周期:包括數(shù)據(jù)探索與構(gòu)思;設(shè)計并執(zhí)行測試;分析測試結(jié)果,為決策提供支撐;綜合來自眾多測試(與其他來源)的知識,從而了解會員的行為,并確定創(chuàng)新的機會領(lǐng)域。這是一個科學嚴謹?shù)牧夹匝h(huán),測試基于一般原則(演繹)做出的,有關(guān)會員行為與偏好的特定假設(shè),并概括從實驗中學到的東西,從而建立起我們對會員的概念理解(歸納)。這個循環(huán)讓我們建議對 Netflix 服務(wù)的各個方面進行快速創(chuàng)新,對我們正在為會員帶來更多快樂樹立起信心,因為我們的決定是有經(jīng)驗證據(jù)的支持的。

    這些角色的成功需要具備淵博的技術(shù)技能、主動的態(tài)度,以及對本領(lǐng)域空間具有強烈的好奇心。 Netflix 的數(shù)據(jù)科學家不懈地向數(shù)據(jù)追求知識,并不斷探索更遠的距離,總是提出下一個問題。 “我們還能從這次測試中學到什么,好用于下一次測試?” “去年的測試我能夠綜合出哪些信息,好了解明年的學習路線圖的機會有多大?” “這個問題還可以得出哪些數(shù)據(jù)和直覺?” “根據(jù)我在 Netflix 的經(jīng)驗,在哪些地方還有機會可以測試和改進當前的體驗?”我們期待我們的數(shù)據(jù)科學家能夠突破實驗設(shè)計與分析的界限:根據(jù)產(chǎn)品特定部分的學習議程,還有哪些新方案或方法可以產(chǎn)生有價值的洞察?業(yè)務(wù)合作伙伴也將這些數(shù)據(jù)科學家視為值得信賴的思想伙伴,因為他們在會員與 Netflix 體驗方面已經(jīng)積累了深厚的領(lǐng)域?qū)I(yè)知識。

    以下就是 Netflix 對部分實驗領(lǐng)域,以及每個領(lǐng)域的部分創(chuàng)新工作的簡要總結(jié)。所列內(nèi)容并未詳盡,我們關(guān)注的焦點是那些機會不太明顯的領(lǐng)域。這里所說的機會是指通過實驗去學習和提供更好的會員體驗的機會。

    Netflix 全公司都在利用 A/B 測試來為當前與未來的會員帶來更多樂趣。

    增長廣告

    Netflix的目標是為全世界提供娛樂!我們的增長團隊在社交媒體平臺以及其他網(wǎng)站上做廣告,分享有關(guān)即將上映的影片以及新產(chǎn)品功能的新聞,最終的目標是增加全球 Netflix 會員的數(shù)量。對于開發(fā)利用因果推理來決定廣告預(yù)算運用方式的自動化系統(tǒng)來說,數(shù)據(jù)科學家發(fā)揮著至關(guān)重要的作用。

    在廣告方面,實驗對象(我們購買的廣告)是 Netflix 的直接貨幣成本。因此,我們對于決策是有風險厭惡的,會積極降低購買無法有效吸引新會員的廣告的可能性。在我們這個領(lǐng)域要規(guī)避這種風險很有挑戰(zhàn)性,因為實驗往往功效很低(參見第 4 部分)。比方說,我們要靠雙差法來進行比較,對每一個廣告實驗的潛在不同受眾體驗進行公正的比較,而這些方法可以有效地減少樣本量(非常感興趣的讀者可以了解更多細節(jié)https://www.msi.org/wp-content/uploads/2020/06/MSI_Report_15-122.pdf)。解決這些功效降低有一個辦法,就是拉長實驗的時間——但這會延緩整個創(chuàng)新的步伐。

    在本文中,我們將聚焦該領(lǐng)域的兩個相關(guān)的實驗問題,并簡要描述我們是怎么在保持高節(jié)奏實驗的同時解決這些問題的。

    回顧一下,我們在第 3 部分和第 4 部分描述了兩種類型的錯誤:誤報(或 第一類錯誤)以及漏報(第二類錯誤)。尤其是在實驗功效較低的情況下,其他兩種錯誤類型很可能會發(fā)生,因此,在對具有統(tǒng)計顯著性的測試結(jié)果采取行動時要考慮這一點:

    當我們觀察到具有統(tǒng)計顯著性的結(jié)果,而估計的指標變化顯示出跟事實相反的信號時,就發(fā)生了S類錯誤(Type-S error)。

    當我們觀察到具有統(tǒng)計顯著性的結(jié)果,而估計的指標變化大小相對于事實被放大(或夸大)時,就會發(fā)生 M 類錯誤(Type-M error)。

    如果測試結(jié)果具有統(tǒng)計顯著性(具有陽性的指標變化)我們就宣布為贏家,那 S型錯誤就會意味著我們其實選擇了錯誤的實驗推廣用于生產(chǎn),這樣一來,我們未來所有的廣告支出都會產(chǎn)生次優(yōu)結(jié)果。 M 型錯誤意味著我們高估了實驗的影響。短期而言,M 型錯誤意味著我們會夸大結(jié)果,從長遠來看,可能會導致高估了優(yōu)化的預(yù)算水平,甚至把未來的研究方向的優(yōu)先事項都給搞錯了。

    為了減少這些錯誤的影響,我們采用了貝葉斯方法對增長廣告進行實驗。我們在這方面進行了很多的測試,并利用了過去測試的指標變化分布作為分析的額外輸入。直觀上(以及數(shù)學上),這種方法會讓估計的指標變化幅度更小,置信區(qū)間更窄(參見第 3 部分)。綜合來看,這兩種效應(yīng)降低了S型錯誤與M型錯誤的風險。

    由于及早結(jié)束次優(yōu)實驗的好處可能會非常巨大,我們還希望能夠做出在統(tǒng)計上有效的明智決定,好盡快結(jié)束實驗。這是我們數(shù)據(jù)科學團隊一個非常活躍的研究領(lǐng)域,作為最優(yōu)停止的方法,我們已經(jīng)調(diào)查了成組續(xù)貫試驗(Group Sequential Testing)以及貝葉斯推理(Bayesian Inference)(有關(guān)這兩種方法的更多信息,請參見下文)。后者跟類似預(yù)期損失(或風險)最小化等決策理論概念相結(jié)合使用時,可用來對不同決策(包括提前結(jié)束實驗的決定)的影響做出正式評估。

    支付

    支付團隊認為,不管未來或當前會員采用哪種支付方式(信用卡、直接借記卡、移動運營商計費等),都絕不應(yīng)成為注冊 Netflix 的障礙或會員離開 Netflix 的原因。我們的會員與支付團隊之間有許多接觸點:我們在 Netflix 與新會員之間建立起關(guān)系,通過續(xù)訂來維持這些關(guān)系,而(可悲的是!)當會員選擇取消時,這些關(guān)系就會結(jié)束。

    我們對 Netflix 產(chǎn)品的支付方式、身份驗證體驗、文案、 UI 設(shè)計,以及任何其他我們可以為會員提供順暢支付體驗的地方進行創(chuàng)新。在所有這些領(lǐng)域,我們都力求在本系列文章中列出的測試原則的指導下,提高決策的質(zhì)量和速度。

    決策質(zhì)量肯定不想這么簡單,當 p 值(參見第 3 部分)降至 0.05 以下時,告訴大家“發(fā)布出去!”即可。首先要有一個好的假設(shè)以及一個清晰的決策框架——尤其是要在長期目標以及在務(wù)實的時間框架內(nèi)弄清楚之間做出明智的平衡。我們的流量或時間都是有限的,所以有時候我們不得不做出艱難選擇。有沒有可以更快產(chǎn)生信號的指標?使用這些指標的權(quán)衡取舍是什么?調(diào)用該測試的預(yù)期損失跟跑其他測試的機會成本相比如何?這些都是有趣的問題,我們一直在尋求改進。

    我們還積極投資,致力于提高決策速度,通常會跟實驗平臺團隊密切合作。在過去一年的時間里,我們?yōu)榧涌鞂嶒灥娜N方法試驗了各種模型與工作流程:包括成組續(xù)貫試驗(GST)、高斯貝葉斯推理(Gaussian Bayesian Inference)以及自適應(yīng)測試(Adaptive Testing)。這些技術(shù)均可可以自行提高我們的實驗吞吐量;綜合運用這些方法有望改變 Netflix 支付實驗的速度軌跡。

    伙伴關(guān)系

    我們希望所有會員無論何時何地訪問 Netflix,都能享受到高品質(zhì)的體驗。我們的合作伙伴團隊致力于確保將 Netflix App 以及我們的最新技術(shù)集成到各種消費產(chǎn)品當中,并且確保 Netflix在所有這些設(shè)備上很容易就能被發(fā)現(xiàn)和使用。我們還與移動與付費電視運營商合作,建立捆綁套餐產(chǎn)品,將 Netflix 的價值帶給更多的未來會員。

    在合作伙伴領(lǐng)域,我們想要了解的眾多體驗,比方說合作伙伴推動的營銷活動,均不適用于作為本系列關(guān)注的 A/B 測試框架。有時候,用戶會自行選擇體驗,或者一次性把新體驗推出給一大群用戶。這種隨機性的缺乏妨礙了根據(jù) A/B 測試得出直接因果結(jié)論。在這些情況下,我們采用了準實驗以及觀察因果推理技術(shù),用來推斷我們正在研究的體驗的因果影響。數(shù)據(jù)科學家在這些分析中扮演了一個關(guān)鍵角色,那就是讓利益相關(guān)者了解這些研究相關(guān)的警告提醒,同時仍能提供嚴格的評估以及可行動的洞察,并為一些原本模棱兩可的問題提供清晰的結(jié)構(gòu)。以下是這些分析存在的一些挑戰(zhàn)與機遇:

    混淆了實驗選擇。 用戶自行選擇實驗(treatment)體驗或?qū)φ眨╟ontrol)體驗時(相對于第 2 部分里面討論的隨機分配),最終進入哪種體驗的概率可能要取決于他們的Netflix使用習慣。這些基線指標也跟結(jié)果指標(比方說會員滿意度)天然相關(guān),所以會給觀察到的實驗對結(jié)果指標的影響造成混淆。當治療選擇或治療吸收會隨時間而變化時,問題會變得更加嚴重,這可能會導致混淆情況會隨時間而變化。為了應(yīng)對這些情況,我們采用了逆傾向得分(inverse propensity scores)、雙穩(wěn)健估計(doubly robust estimators)、雙差法,或者工具變量等方法來析取可行動的因果洞察,并通過縱向分析來解釋時間依賴性。

    綜合控制與結(jié)構(gòu)模型。針對混淆進行調(diào)整需要讓預(yù)處理協(xié)變量與、跟響應(yīng)變量處在同樣的綜合水平上。但是,有時候我們沒法訪問Netflix 會員個人級別的信息。在這種情況下,我們采用綜合控制與結(jié)構(gòu)模型來分析總體層面的數(shù)據(jù)。

    敏感性分析。在缺乏真正的 A/B 測試的情況下,我們的分析依賴于利用可用數(shù)據(jù)來調(diào)整治療與結(jié)果指標之間的虛假相關(guān)性。但這件事情的好壞取決于可用數(shù)據(jù)是否足以解釋所有這些相關(guān)性。為了了解所做出的因果聲明的有效性,我們會進行敏感性分析,從而評估發(fā)現(xiàn)的穩(wěn)健性。

    信息收發(fā)

    在 Netflix,我們一直在尋找方法來幫助我們的會員選擇適合自己的內(nèi)容。我們通過Netflix 產(chǎn)品為每一位會員提供個性化體驗來做到這一點。但是,我們可以通過其他方式幫助會員了解新的或相關(guān)的內(nèi)容,這樣等他們在漫長的一天結(jié)束后想放松一下時,就會想到有些很棒的東西可以看呢?

    消息傳遞,包括電子郵件與推送通知,是我們讓會員保持知情的關(guān)鍵方式之一。 在會員主動觀看內(nèi)容以外的時間里,Netflix 的消息傳遞團隊還努力為他們帶來快樂。 Netflix 有了或者即將推出什么新功能?有哪些完美內(nèi)容可以告訴我們的會員,好讓 “預(yù)約好電影之夜的時間”,在路上看?作為一支消息傳遞團隊,我們也注意到會員生活當中遇到的各種數(shù)字干擾,所以我們一直在努力著,希望做到在合適的時間向合適的會員發(fā)送合適的信息。

    這一領(lǐng)域的數(shù)據(jù)科學家與產(chǎn)品經(jīng)理和工程師密切合作,開發(fā)消息傳遞的解決方案,最大限度地提高我們會員的長期滿意度。比方說,我們一直致力于為我們的會員提供更好、更個性化的消息傳遞體驗。每一天,我們都會根據(jù)歷史數(shù)據(jù),以及告訴會員會收到什么消息(如果有的話)的輸出,預(yù)測每一條候選消息會如何滿足會員的需求。為了確保我們對個性化消息傳遞方案的創(chuàng)新能為會員帶來更好體驗,我們采用 A/B 測試來學習并確認我們的假設(shè)。

    在 Netflix 當消息傳遞數(shù)據(jù)科學家有一點很令人興奮,那就是我們正在積極開發(fā)和使用復雜的學習模型來幫助我們更好地為我們的會員服務(wù)。這些模型以bandit算法為基礎(chǔ),會不斷地走多了解一些會員對消息傳遞的偏好與將學到的這些知識用于讓會員更滿意之間做出平衡。這就像一個持續(xù)的 A/B 測試,總是在部署新的治療方法。這個框架讓我們得以進行許多令人興奮的,具有挑戰(zhàn)性的分析,而不必每次都部署新的 A/B 測試。

    證據(jù)選擇

    當會員打開 Netflix app時,我們的目標是幫助他們選擇一部非常適合他們的作品。其中的一種做法是不斷改進推薦系統(tǒng),為每一位會員提供個性化的主頁體驗。除了作品推薦以外,我們還會努力挑選和展示同樣個性化的藝術(shù)作品、圖像以及其他的視覺“證據(jù)”,并幫助每個會員了解為什么特定作品對他們來說是一個不錯的選擇——尤其是如果該作品對服務(wù)來說是新的,或該會員不熟悉的話。

    為了實現(xiàn)這一目標,關(guān)鍵是要有卓越的創(chuàng)意以及對證據(jù)選擇系統(tǒng)的持續(xù)改進。在證據(jù)選擇領(lǐng)域工作的數(shù)據(jù)科學家運用在線實驗以及離線分析,為兩方面的產(chǎn)品決策提供健壯的因果洞察。這兩方面的產(chǎn)品決策包括創(chuàng)建證據(jù)資產(chǎn)(比方說出現(xiàn)在 Netflix 主頁上的圖片),以及建立將會員與證據(jù)配對的模型。

    這一領(lǐng)域的數(shù)據(jù)科學家站在內(nèi)容創(chuàng)建與產(chǎn)品開發(fā)的交叉點上,他們面臨著一些獨特的挑戰(zhàn):

    預(yù)測證據(jù)性能。假設(shè)我們在開發(fā)一種生成證據(jù)的新方法(比方說預(yù)告片)。理想情況下,我們希望,在做出可能需要時間才能獲得回報的潛在巨額投資之前,對新的證據(jù)類型的積極成果要有所了解。通過開發(fā)出可用因果關(guān)系驗證的預(yù)測模型,數(shù)據(jù)科學家可以幫助為此類投資決策提供信息。

    將會員與最佳證據(jù)匹配。高質(zhì)量且選擇正確的證據(jù)是為所有Netflix會員帶來出色經(jīng)驗的關(guān)鍵。我們在測試和了解哪些類型的證據(jù)最有效,以及如何將會員與最佳證據(jù)相匹配的同時,還努力通過投資于有效的 A/B 測試方法,最大限度地減少潛在的不利因素,從而讓我們得以快速停止次優(yōu)的治療體驗。

    為證據(jù)開發(fā)提供及時的因果反饋。來自數(shù)據(jù)(包括來自 A/B 測試)的洞察,被廣泛用來推動創(chuàng)作出更好的藝術(shù)品、預(yù)告片以及其他類型的證據(jù)。除了 A/B 測試以外,我們還致力于開發(fā)實驗設(shè)計與分析框架,從而提供細粒度的因果推理,并跟上我們學習議程的規(guī)模。我們使用了contextual bandit算法框架,從而最大限度地減少將會員與證據(jù)匹配的遺憾,而且通過與我們的算法工程團隊的合作,我們已經(jīng)建立了記錄反設(shè)事實的能力:換一種的選擇策略會推薦什么內(nèi)容?這些數(shù)據(jù)為我們提供了一個平臺,用來運行豐富的離線實驗,并得出因果推理,從而應(yīng)對我們的挑戰(zhàn),并回答 A/B 測試可能難以回答的問題。

    流媒體

    既然你已經(jīng)注冊了 Netflix ,而且發(fā)現(xiàn)了一些令人興奮的內(nèi)容,那么當你按下播放時會發(fā)生什么呢?在幕后,Netflix 的基礎(chǔ)設(shè)施已經(jīng)啟動,會尋找用最快的方式把你選擇的內(nèi)容用出色的音頻和視頻質(zhì)量提供給你。

    參與提供高質(zhì)量音頻和視頻的眾多工程團隊用 A/B 測試來改善我們?yōu)槿驎T提供的體驗。創(chuàng)新領(lǐng)域包括 Netflix App 本身(需要兼容數(shù)千種設(shè)備)、編碼算法,以及對內(nèi)容在我們的全球 Open Connect 分發(fā)網(wǎng)絡(luò)上放置位置的優(yōu)化方法。

    這個業(yè)務(wù)領(lǐng)域的數(shù)據(jù)科學角色強調(diào)的是大規(guī)模實驗以及對工程團隊自主實驗的支持:我們怎么才能讓這些團隊高效、有信心地執(zhí)行、分析A/B 測試,并基于此做出決策?我們將探討數(shù)據(jù)科學與工程團隊之間的合作關(guān)系令本領(lǐng)域受益的四種方式。

    自動化。由于流媒體實驗數(shù)量眾多(每年數(shù)千次)且持續(xù)時間往往很短,因此我們已經(jīng)對工作流自動化進行了投資。比方說,我們通過將實驗平臺的 API 直接跟 Spinnaker 部署管道集成,搭載在Netflix的工具上,安全地部署在 Netflix 客戶端。這使得工程師可以用一個配置文件設(shè)置、分配和分析他們所做變更的效果。這個模式更進一步的話,用戶甚至可以通過將一個實驗跑多輪實現(xiàn)“自動化的自動化”,以實現(xiàn)順序優(yōu)化。

    超越平均水平的處理效應(yīng)。由于許多重要的流媒體視頻和音頻指標不能很好地逼近正態(tài)分布,我們發(fā)現(xiàn)超越平均的處理效應(yīng)至關(guān)重要。為了克服這些挑戰(zhàn),我們與實驗平臺合作開發(fā)和集成了用于壓縮數(shù)據(jù)的高性能自助方法,從而可以快速估計處理效應(yīng)的分布與分位數(shù),甚至包括最病態(tài)的指標。對分位數(shù)進行可視化可以為我們帶來關(guān)于處理效應(yīng)的新洞察,這些圖表現(xiàn)在已經(jīng)可以自動生成,作為自動化報告的一部分,往往被用來給高級產(chǎn)品決策提供直接支撐。

    A/B 測試的替代方案。 Open Connect 工程團隊面臨著眾多的衡量挑戰(zhàn)。擁塞會導致實驗組與對照組之間發(fā)生交互;或者其他情況下,由于我們的流量導向算法的特性,我們沒法做到隨機化。為了應(yīng)對這種種挑戰(zhàn),我們正在對準實驗方法進行大力投資。我們采用了Metaflow,將用于指標定義的現(xiàn)有基礎(chǔ)設(shè)施,來自我們的實驗平臺(Experimentation Platform)的數(shù)據(jù)收集,與基于雙差法的自定義分析方法配對。這個工作流程使得我們能夠快速部署自助服務(wù)工具,來衡量傳統(tǒng) A/B 測試無法衡量的變化。此外,我們的模塊化方法讓跨 Open Connect 用例擴展準實驗變得很容易,這使得我們能夠根據(jù)每個團隊的不同需求更換數(shù)據(jù)源或分析方法。

    支持自定義的指標與維度。最后,我們開辟了一條(相對)無障礙的路徑,讓所有的實驗者(不僅僅是數(shù)據(jù)科學家)在需要的時候可以快速創(chuàng)建自定義的指標與維度。除了我們?yōu)樵擃I(lǐng)域的所有測試準備的長期體驗質(zhì)量指標以外,任何可以記錄的內(nèi)容都可以快速傳送到實驗平臺,進行分析與可視化。如此,我們的工程師就可以沿著鋪砌好的道路提出和回答更精確的問題,這樣他們就可以少花些時間去摸清楚門道,而有更多的時間去測試令人興奮的想法。

    擴大實驗規(guī)模,投資基礎(chǔ)設(shè)施

    為了支持 Netflix 實驗計劃的規(guī)模與復雜性,我們下力氣開發(fā)了自己的實驗平臺(內(nèi)部叫做“XP”)。我們的 XP 為實驗的整個生命周期(從體驗管理到分析)提供強大的自動化(或半自動化)解決方案,并能滿足大型測試的高吞吐量產(chǎn)生的數(shù)據(jù)規(guī)模要求。

    XP 提供了一個框架,讓工程團隊可以在代碼中定義一組測試處理體驗,然后用這些來配置實驗。之后,平臺會隨機選擇會員(或我們可能要進行實驗的其他單元,如回放會話),分配給實驗,然后將其隨機分配給每個實驗里面的體驗(對照體驗或?qū)嶒烍w驗)。 調(diào)用XP的Netflix 服務(wù)然后會根據(jù)會員參與了哪些測試以及這些測試中的哪些變體,確保提供了正確的體驗。我們的數(shù)據(jù)工程系統(tǒng)則會收集這些測試元數(shù)據(jù),然后再將它們跟我們的核心數(shù)據(jù)集相結(jié)合起來:包括關(guān)于會員和非會員如何與服務(wù)交互的日志、跟蹤流視頻傳輸?shù)募夹g(shù)指標的日志等等。然后,這些數(shù)據(jù)會流經(jīng)自動分析管道,并用Ablaze( Netflix 報告和配置實驗的前端)生成報告。跟 Netflix 的文化一致,公司里面的每個人都可以訪問測試結(jié)果,而不僅限于數(shù)據(jù)科學家和決策者。

    除了考慮當前的實驗計劃以外,Netflix XP還用對未來創(chuàng)新的關(guān)注加以平衡。這是一個良性的飛輪,因為 XP 的目標是利用今年實驗計劃所突破的極限,把它變成明年的一鍵式解決方案。這可能涉及開發(fā)用于將會員(或其他單元)分配給實驗的新的解決方案,跟蹤不同測試存在沖突的新方法,或者是實驗設(shè)計、分析以及基于實驗做決策的新方法。比方說,XP 就跟我們的工程團隊在功能標記與體驗交付方面密切合作。這些努力成功地為 Netflix的開發(fā)人員提供了無縫體驗,得以將實驗完全集成到軟件開發(fā)生命周期之中。

    為了分析實驗,我們開發(fā) Netflix XP 的時候就考慮了大眾化與模塊化。大眾化是指數(shù)據(jù)科學家(還有其他用戶)可以直接貢獻指標、分析測試的因果推理方法以及可視化。通過這三個模塊,實驗者可以編寫靈活的報告,量身定制自己的測試,然后送到我們的前端 UI 以及支持臨時和探索性分析的notebook環(huán)境。

    這種模式可以支持快速原型設(shè)計與創(chuàng)新,當我們對工程問題進行抽象時,數(shù)據(jù)科學家就可以直接向生產(chǎn)實驗平臺貢獻代碼——而不必自己成為軟件工程師。隨著分析方法變得更加復雜,對計算要求更高,為了確保平臺功能能夠支持所需的規(guī)模(測試的數(shù)量和規(guī)模),我們已經(jīng)對專業(yè)知識的形成進行了投資,從而為測試分析提供健壯的計算型因果推理軟件。

    搭建實驗平臺需要同理合作:軟件工程師搭建和維護后端工程基礎(chǔ)設(shè)施; UI 工程師開發(fā)用于管理和分析實驗的ABlaze前端;具備因果推理和數(shù)值計算專業(yè)知識的數(shù)據(jù)科學家則可以開發(fā)、實施、擴展尖端的方法并將其社會化;還需要確保利益相關(guān)者可以訪問我們的產(chǎn)品的用戶體驗設(shè)計師;以及讓平臺本身朝著正確方向創(chuàng)新的產(chǎn)品經(jīng)理。這是一項令人難以置信的工作,需要多學科的努力,在XP這里工作提供了發(fā)展跨學科的廣泛技能的機會。由于 Netflix 的實驗是那么的普遍,那些從事 XP 工作的人會面臨挑戰(zhàn),并與來自 Netflix 各個角落的同事合作。這是從各種角度廣泛了解“Netflix 工作機制”的好途徑。

    總結(jié)

    Netflix對數(shù)據(jù)科學團隊進行投資。這些團隊會利用 A/B 測試、其他實驗范式,以及更廣泛的科學方法,從而支持為當前和未來會員提供的產(chǎn)品的持續(xù)創(chuàng)新。同時,我們投資建立了一個內(nèi)部的實驗平臺 (XP),以支持我們的實驗與學習計劃的那種規(guī)模及復雜性。

    在實踐上,這兩方面投資之間的界限其實很模糊,我們鼓勵 XP 以及面向業(yè)務(wù)的數(shù)據(jù)科學家之展開合作,包括舉辦 A/B 實驗研討會以及因果推理峰會等內(nèi)部活動。為了確保 Netflix 的實驗?zāi)芰Σ粩喟l(fā)展,從而滿足實驗從業(yè)者的實際需求,對于開發(fā)新的測量與實驗管理能力,以及支持和擴展研究的新軟件系統(tǒng),我們有意識地確保XP 與實驗從業(yè)者之間的通力合作。此外,我們有意識的協(xié)作還為大家提供了很好的機會,讓他們得以領(lǐng)導和貢獻出高影響力的項目,為我們提供了工程、測量以及內(nèi)部產(chǎn)品開發(fā)等方面的新能力。由于 Netflix 對實驗的戰(zhàn)略價值,這些合作努力受到了包括我們的高管在內(nèi)的廣泛關(guān)注。

    到目前為止,本系列已經(jīng)討論了 A/B 測試的原因、內(nèi)容與方式,產(chǎn)品開發(fā)要想從實驗型方案中收獲好處,所有這些都是必需的。但是要是沒有一點魔法的話,光有這些基礎(chǔ)還是不夠的。這種魔法將成為本系列下一篇,也是最后一篇文章的重點:貫穿 Netflix上下的學習與實驗文化。敬請關(guān)注。

    譯者:boxi。

    標簽: 如何做 焦點 Netflix