《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 其他 > 業(yè)界動(dòng)態(tài) > 把抖音、今日頭條背后的技術(shù)開放給企業(yè),,字節(jié)跳動(dòng)揭秘A/B測(cè)試產(chǎn)品

把抖音,、今日頭條背后的技術(shù)開放給企業(yè),字節(jié)跳動(dòng)揭秘A/B測(cè)試產(chǎn)品

2021-04-22
來源: 機(jī)器之心
關(guān)鍵詞: 抖音 今日頭條

  「A/B 測(cè)試不一定是最好的評(píng)估方法,。它不是萬能的,,但不會(huì) A/B 測(cè)試肯定是不行的?!?br/>

  4 月 20 日,,首個(gè)火山引擎技術(shù)開放日在北京方恒時(shí)尚中心舉辦,字節(jié)跳動(dòng)副總裁楊震原以《聊聊數(shù)據(jù)驅(qū)動(dòng)和用 A/B 測(cè)試解決問題》為題,,分享了他對(duì)于 A/B 測(cè)試的理解,。

  楊震原稱,,A/B 測(cè)試是字節(jié)跳動(dòng)一項(xiàng)非常基礎(chǔ)的工具,,從公司成立之初就在使用,,支撐了抖音今日頭條等產(chǎn)品的增長迭代,。目前,,字節(jié)跳動(dòng) A/B 測(cè)試每日新增 1500 + 實(shí)驗(yàn),服務(wù)于 400 多項(xiàng)大大小小的業(yè)務(wù),,累計(jì)做了 70 多萬次實(shí)驗(yàn),。這項(xiàng)工具已經(jīng)實(shí)現(xiàn)產(chǎn)品化,通過火山引擎向企業(yè)客戶開放,。

  A/B 測(cè)試廣泛應(yīng)用于字節(jié)跳動(dòng)方方面面,,包括產(chǎn)品命名、交互設(shè)計(jì),、推薦算法等,。但楊震原表示,這項(xiàng)工具也存在很多應(yīng)用局限,,比如獨(dú)立性,、置信度、長短期等問題,。

  楊震原透露,抖音產(chǎn)品名字,,其實(shí)是綜合了 A/B 測(cè)試和人為判斷的結(jié)果,,「『抖音』這個(gè)名字在測(cè)試結(jié)果中排名第二。但大家覺得,,這個(gè)名字更符合認(rèn)知,,更能體現(xiàn)它的形態(tài),所以還是選了它,?!?/p>

  1.png

  楊震原在火山引擎技術(shù)開放日現(xiàn)場(chǎng)

  以下為楊震原演講全文:

  大家好,我叫楊震原,。非常高興在火山引擎技術(shù)開放日上和大家交流分享,,希望對(duì)大家有所幫助。

  字節(jié)跳動(dòng)做了很多產(chǎn)品,,我們希望技術(shù)團(tuán)隊(duì)對(duì)待自家產(chǎn)品就像對(duì)待客戶一樣,。我們不僅有內(nèi)部客戶,像抖音,、今日頭條,,也希望有更多外部客戶,,把我們的技術(shù)能力輸出,于是就有了火山引擎品牌,?;鹕揭婕夹g(shù)開放日也是這個(gè)目的,希望把我們的技術(shù)對(duì)外,,跟更多朋友分享交流,。當(dāng)然,也有點(diǎn)私心,,希望我們的產(chǎn)品能賣到更多地方去,。

  今天我們聊的話題是 “數(shù)據(jù)驅(qū)動(dòng)和用 A/B 測(cè)試解決問題”。這里的關(guān)鍵詞是“解決問題,、數(shù)據(jù)驅(qū)動(dòng),、A/B 測(cè)試”。解決問題一定要有好的方法,,每個(gè)人都想用更好的方法解決問題,,這涉及用什么方法,達(dá)成什么目標(biāo),?!皵?shù)據(jù)驅(qū)動(dòng)” 是我們公司內(nèi)非常看重的一系列方法,,“A/B 測(cè)試”是 “數(shù)據(jù)驅(qū)動(dòng)” 中的一個(gè)具體方法,。

  用戶畫像和使用時(shí)長不是好的目標(biāo)

  要想解決問題,第一個(gè)問題是:目標(biāo)是什么,?很多人覺得:這個(gè)很簡(jiǎn)單?。∧繕?biāo)嘛,,今天想干一個(gè)什么事情,,我就確定一個(gè)目標(biāo),接下來就是照著這個(gè)目標(biāo)去完成,。但是,,確認(rèn)目標(biāo),以及這個(gè)目標(biāo)是否可量化,,其實(shí)是特別重要的,。

  我給大家舉幾個(gè)例子。我大概 2014 年初來到字節(jié)跳動(dòng),。剛來時(shí),,張一鳴說把我們的推薦質(zhì)量提升提升,想想辦法怎么做改進(jìn)。所以,,當(dāng)時(shí)我的目標(biāo)就是提升今日頭條產(chǎn)品的用戶體驗(yàn),,把推薦做得更好。

  很快我發(fā)現(xiàn),,這方面其實(shí)已經(jīng)有很多項(xiàng)目在做了,,其中有一個(gè)子方向的目標(biāo)是“全面、精準(zhǔn)的用戶畫像體系”,。但在我看來,,這個(gè)目標(biāo)其實(shí)有很多問題。

  我們的實(shí)際目標(biāo)是“提升推薦的用戶體驗(yàn)”,。我們有很多方法來達(dá)成目標(biāo),,用戶畫像只是方法之一。它是個(gè)子目標(biāo),,不是我們要解決的目標(biāo),,甚至可能都不是重要的方法。即使假設(shè)這個(gè)目標(biāo)就是我們的主要目標(biāo),,我們也還要評(píng)估它是不是可衡量的,。

  如何評(píng)估這一點(diǎn)非常難,比如衡量用戶畫像是不是好,,很難量化,。用戶的實(shí)際興趣是什么,很難評(píng)估,。問用戶喜歡不喜歡旅游,,一般人都說喜歡,但是推薦旅游相關(guān)文章看不看,?實(shí)際上很多人都不看,。

  因此,用戶畫像不是一個(gè)好的目標(biāo),。首先,這個(gè)目標(biāo)優(yōu)先級(jí)不一定高,,其次,,它的評(píng)估非常難,這就意味著,,這個(gè)目標(biāo)很難指導(dǎo)我們的具體工作,。

  還有一種常用目標(biāo),叫“使用時(shí)長”,。A 做了一個(gè)算法,,平均使用時(shí)長 40 分鐘,B 做的算法,平均使用時(shí)長 45 分鐘,,那是不是 B 就比 A 好,?這個(gè)聽起來似乎很科學(xué)。

  但是我要跟大家講一個(gè)例子,。大概在 2016 年,,有一個(gè)傳統(tǒng)老牌外企,它在美國的 PC 端有一款產(chǎn)品是新聞推薦,。這個(gè)公司在中國有一個(gè)研究所,,其中一項(xiàng)工作是去提高新聞推薦質(zhì)量,采用的評(píng)估標(biāo)準(zhǔn)是用戶使用時(shí)長,。對(duì)于用戶在平臺(tái)上閱讀了多少時(shí)長,,這個(gè)研究所每個(gè)季度都有 KPI,連續(xù)幾年他們每年都能完成目標(biāo),,并且經(jīng)常超額完成,。但后來我跟他們聊的時(shí)候,這個(gè)研究所快要解散了,。

  原來,,雖然使用時(shí)長在增加,但這個(gè)產(chǎn)品的用戶規(guī)模其實(shí)是不好的,,用戶體驗(yàn)也不夠理想,,整個(gè)產(chǎn)品的留存在下降。我問他們,,為什么你們的時(shí)長一直在漲,,但是你們產(chǎn)品卻不行了?對(duì)方說:時(shí)長是在漲,,但時(shí)長增長有兩種方式,,一種是用戶體驗(yàn)變好了、用戶看的時(shí)間更長了,;還有一種方式是用著很好的用戶繼續(xù)留下來了,,而一些時(shí)長很短的用戶看了看覺得這個(gè)產(chǎn)品不好,就走了,。這些用戶走了以后,,平均時(shí)長繼續(xù)變長。于是就變成了 “不斷驅(qū)趕體驗(yàn)差的用戶,,平均時(shí)長卻變長了” 這樣一個(gè)過程,。

  這是很可怕的,看起來是個(gè)很好的目標(biāo),,但卻把產(chǎn)品做死了,??梢灶A(yù)見,如果我們只用使用時(shí)長作為目標(biāo)的話,,是有風(fēng)險(xiǎn)的,。

  那怎么辦呢?我們也沒有大招,,只能是盡量將多個(gè)目標(biāo)綜合,。既要考慮用戶體驗(yàn),也要考慮一些客觀指標(biāo),,同時(shí)可能輔以一些用戶訪談的直觀印象,,最后綜合去制定我們的方向。

 2.png

  好的目標(biāo)層次合理,、可衡量

  如何選一個(gè)合適的目標(biāo),?我覺得至少有兩個(gè)角度,需要去考慮,。

  第一個(gè)角度,,目標(biāo)層次合理性。

  什么叫“層次合理性”,?比如你是一家公司的首席技術(shù)官(CTO),,CEO 問你公司的技術(shù)目標(biāo)是什么,你說“我要讓我們的公司市值做得更大,,原來估值 5 億美元,,10 年之后估值 50 億美元”。這個(gè)目標(biāo)很泛,、很高層次,,跟最終目標(biāo)很接近。通常大家也不會(huì)質(zhì)疑說這個(gè)目標(biāo)有錯(cuò)誤,。但是這個(gè)目標(biāo)就不太能指導(dǎo)你的工作,。CTO 下面的總監(jiān)、經(jīng)理,、工程師這個(gè)季度該干什么呢,?這個(gè)目標(biāo)能有些推導(dǎo)分解嗎?很難,。雖然目標(biāo)層次很高,,不容易偏離,但是對(duì)具體工作很難有指導(dǎo),。

  那我們定非常具體的目標(biāo)可以嗎,?比如像剛才的例子,,以使用時(shí)長為目標(biāo),。這種時(shí)候,會(huì)有另一個(gè)問題:這個(gè)目標(biāo)很具體、很能指導(dǎo)工作,,但是它偏離了怎么辦,?還有一個(gè)可能出現(xiàn)的問題是,這個(gè)目標(biāo)沒有偏離,,但不可衡量,,它不利于指導(dǎo)工作。

  所以,,應(yīng)該選一個(gè)不要太高,、不要太低的目標(biāo),并且定期衡量特別重要,。聊數(shù)據(jù)驅(qū)動(dòng)思路時(shí),,當(dāng)試圖用數(shù)據(jù)驅(qū)動(dòng)思路去細(xì)化目標(biāo)時(shí),有利于你仔細(xì)反思:我的目標(biāo)是不是這個(gè),?我的目標(biāo)能不能量化,?它會(huì)逼你把目標(biāo)想得很清楚。

  第二個(gè)角度,,目標(biāo)可衡量,。這一點(diǎn)特別重要。它跟數(shù)據(jù)驅(qū)動(dòng)的理念互相幫助,,定好目標(biāo),,才能更好的應(yīng)用數(shù)據(jù)驅(qū)動(dòng),當(dāng)你用數(shù)據(jù)驅(qū)動(dòng)的方法去做事情時(shí),,它就會(huì) push 你的目標(biāo)到底是不是合理,。比如你想了想這個(gè)目標(biāo):哦,之前的目標(biāo)就定錯(cuò)了,,怪不得搞不清楚,。

3.png

  什么是靠譜的評(píng)估方法?

  當(dāng)目標(biāo)想清楚了,,那我們就評(píng)估吧,。通常我們有哪些方法?

  一是經(jīng)驗(yàn)判斷,。不管什么公司,,每天都在不停的用這個(gè)方法,這個(gè)方法非??孔V的,,但是有它的問題。

  二是非 A/B 測(cè)試的數(shù)據(jù)分析,。

  三是 A/B 測(cè)試的數(shù)據(jù)分析,。我特別把 A/B 測(cè)試和非 A/B 測(cè)試區(qū)分了一下,,因?yàn)樗且粋€(gè)更接近真實(shí)、更能夠把握住本質(zhì)的一個(gè)方法,。相信很多朋友都了解因果推斷,,做精準(zhǔn)的 A/B 測(cè)試能夠把因果說得更清楚,所以是更有效的方法,。

  4.png

  經(jīng)驗(yàn)判斷是什么,?本質(zhì)上是就靠人,這個(gè)方法是普遍采用的,。舉個(gè)例子,,大家都知道我們公司在做短視頻,怎么評(píng)估質(zhì)量好壞,?很多時(shí)候都靠人去判斷,,如果你用客觀指標(biāo)判斷它,會(huì)有另外的風(fēng)險(xiǎn),,所以很多時(shí)候用人判斷,。在很多公司,比如戰(zhàn)略決策通常是人判斷的,,很難靠數(shù)據(jù)定你的戰(zhàn)略方向,,這是一個(gè)很重要的方法。

  但它的問題在于:執(zhí)行層面很容易不一致,,尤其對(duì)一個(gè)很大的公司來說,,每天要決策的事情很多,并不是每個(gè)決策都由 CEO 或者高管來做,,可能會(huì)分到公司很多團(tuán)隊(duì)很多部門,,每個(gè)部門都有很多人,這些人在他們的點(diǎn)上去做希望對(duì)公司正確的決策,,但他們的意見有可能是不一致的,。而且每個(gè)人可能有每個(gè)人的偏好,這是很難避免的,。尤其公司比較大的時(shí)候,,就會(huì)帶來非常多風(fēng)險(xiǎn),比如不一致性和有偏性,。

  非 A/B 測(cè)試的數(shù)據(jù)分析,。這個(gè)主要想強(qiáng)調(diào)關(guān)聯(lián)跟因果的問題,我們來舉個(gè)例子就很容易看到,。暑假前,,運(yùn)營團(tuán)隊(duì)做了一波活動(dòng),聲勢(shì)非常浩大,,到了暑假開始的時(shí)候,,發(fā)現(xiàn)用戶的活躍度大幅上升,,這個(gè)提升是我們的運(yùn)營活動(dòng)帶來的嗎?二者是有關(guān)聯(lián)的,,但是關(guān)聯(lián)并不代表因果。很明顯,,暑假就是一個(gè)因素,,暑假帶來的變化跟運(yùn)營活動(dòng)帶來的變化,到底誰更大,?這個(gè)事情很難歸因的,。每個(gè)人都覺得自己做的事情有用,關(guān)聯(lián)分析中往往就會(huì)帶有偏見,。

  我們?cè)倥e個(gè)有趣的例子,,諾貝爾獎(jiǎng)和巧克力消費(fèi)量的關(guān)系圖。圖片顯示,,巧克力吃得越多的國家,,諾貝爾獎(jiǎng)得主就越多。如果想改進(jìn)中國的科技水平,,多拿諾貝爾獎(jiǎng),,我們應(yīng)該多吃巧克力嗎?這顯然不靠譜,??赡軙?huì)變胖,但很難拿到諾貝爾獎(jiǎng),。

  5.png

  這可以說明一件事情,,這兩個(gè)事件有關(guān)聯(lián)性,但是它不是因果性,。從數(shù)據(jù)分析中得出結(jié)論,,就會(huì)面臨很多這樣的風(fēng)險(xiǎn),它會(huì)混淆關(guān)聯(lián)性和因果性,,并不能解決問題,。

  真正的完美解決方案是什么?得靠平行宇宙了,。當(dāng)前時(shí)空是這個(gè)狀態(tài),,做了一波 A 操作,比如一些同事搞了一波活動(dòng),,時(shí)間退回去,,他沒有做這個(gè)事情。我們?cè)倩剡^頭來看這兩個(gè)平行宇宙的差別是什么,,這個(gè)差別就是這個(gè)活動(dòng)所帶來的,,這個(gè)很好理解,。但是我們沒辦法做平行宇宙的實(shí)驗(yàn),就只能做 A/B 測(cè)試了,。

  怎么做 A/B 測(cè)試,?當(dāng)我們想觀測(cè)某個(gè)方面,比如說人群或者某類產(chǎn)品,,就把人群和產(chǎn)品分成 A,、B 兩組,比如你的操作是發(fā)紅包,,或者改了設(shè)計(jì)頁面,,又或者是做了運(yùn)營活動(dòng)。除了這些操作之外,,其他的分布完全一樣,。當(dāng)然了,這件事情只能無限逼近,,不能做到理論上完全一樣,,除非是平行宇宙。

  A/B 測(cè)試看上去好像效率很低,,非常復(fù)雜,,要分組,還要看因素是不是剝離干凈了,。但是當(dāng)你真正把一個(gè)事情搞清楚以后,,就可以一個(gè)臺(tái)階一個(gè)臺(tái)階往上走。如果你搞不清楚,,做得很快,,有可能今天上一個(gè)臺(tái)階,明天下一個(gè)臺(tái)階,,后天上一個(gè)臺(tái)階,,不能保證一直在前進(jìn),這是非常大的差別,。

  字節(jié)跳動(dòng)的 A/B 測(cè)試實(shí)踐

  早期有記載的 A/B 測(cè)試,,是在 1747 年,詹姆斯 · 林德治療壞血病的臨床實(shí)驗(yàn),。他們把患有壞血病的水手分成 6 組,,每組 2 個(gè)人。在 6 天的時(shí)間內(nèi),,他們把大家安排在同樣的治療室中,,吃同樣的食物,盡量排除實(shí)驗(yàn)的干擾。這個(gè)人群選擇也很重要,,我們應(yīng)該選擇各種年齡段的,,各種國家地區(qū)的。這里沒有寫,,沒有足夠的數(shù)量,,這是它不嚴(yán)謹(jǐn)?shù)牡胤健Nㄒ坏牟煌敲拷M的治療方案,,吃什么東西,?檸檬、橘子,、蘋果汁、醋,、海水等等,。最后的實(shí)驗(yàn)結(jié)果是檸檬 / 橘子、蘋果汁有用,。

  在此之前有很多玄學(xué),,這個(gè)病,有人說用這個(gè)方法有用,,用那個(gè)方法有用,,有的是碰上了,有的是有效了,。這個(gè)實(shí)驗(yàn)雖然不夠嚴(yán)謹(jǐn),,還可以做得更好,但是它真正確定了什么原因,。當(dāng)你非常確信這個(gè)結(jié)論時(shí),,就可以繼續(xù)深入研究,比如從這個(gè)食物中分離出它所必要的真正有效物質(zhì)是什么,。在很確定結(jié)論的基礎(chǔ)上不斷演化,,就能夠往后走得很遠(yuǎn)。

  知道了 A/B 測(cè)試的源頭后,,現(xiàn)在說下字節(jié)跳動(dòng)做的 A/B 測(cè)試實(shí)踐,。

  6.png

  2012 年公司成立,那時(shí)候我還沒來,。聽說那會(huì)兒一鳴還在自己寫代碼,,已經(jīng)開始做 A/B 測(cè)試。

  我大概是 2014 年來的,,發(fā)現(xiàn)公司已經(jīng)非常重視這方面,。這跟我的理念非常像,我也在繼續(xù)推動(dòng)這件事情,。比如定目標(biāo),,推動(dòng) A/B 測(cè)試的平臺(tái)化,,讓它更嚴(yán)謹(jǐn),以及發(fā)現(xiàn)它的問題,,在公司中更廣泛地使用,。

  到 2016 年,已經(jīng)變成一個(gè)內(nèi)部廣泛使用的平臺(tái)了,,叫 Libra 平臺(tái),,它有很多的功能。到 2019 年時(shí),,我們已經(jīng)不只是內(nèi)部平臺(tái)了,,正式立項(xiàng),開始做對(duì)外平臺(tái),,給外部更多客戶來用我們的產(chǎn)品,。

  內(nèi)部來說,我們用 A/B 測(cè)試確實(shí)很多,,現(xiàn)在每天大概新增 1500 個(gè)實(shí)驗(yàn),,服務(wù)了 400 多項(xiàng)業(yè)務(wù),累計(jì)已經(jīng)做了 70 萬次實(shí)驗(yàn),。

  7.png

  應(yīng)用在哪些方面呢,?產(chǎn)品命名、交互設(shè)計(jì),,比如改一個(gè)字體,、一個(gè)彈窗、界面大小,,都會(huì)做 A/B 測(cè)試,。推薦算法就不說了,從一鳴自己寫代碼開始,,就一直在做了,。廣告優(yōu)化,這是業(yè)界普遍做法,。用戶增長,,也是這樣。市場(chǎng)活動(dòng),,我們做了一小部分,。內(nèi)部基本上就是,能用 A/B 測(cè)試的都用,。

  A/B 測(cè)試不是萬能的

  那 A/B 測(cè)試是不是就一統(tǒng)天下了呢,?顯然也不是。A/B 測(cè)試不一定是最好的評(píng)估方法,它不是萬能的,,但是我覺得,,不會(huì) A/B 測(cè)試肯定是不行的。

  為什么說它不一定是最好的評(píng)估方法,?我們說說它的一些局限和問題,。

  首先是獨(dú)立性的問題。如果你真的想做 A/B 測(cè)試,,就要對(duì)你的實(shí)驗(yàn)對(duì)象進(jìn)行分組,,分組之后,去做一個(gè)操作,,觀測(cè)結(jié)果,。這個(gè)分組要求兩組是非常獨(dú)立,除了你的這個(gè)操作之外,,其他部分都一樣,,至少是分布一樣。但有時(shí)候這點(diǎn)并不容易保證,。

  舉個(gè)例子,,網(wǎng)約車的司機(jī)分配策略,,比如這個(gè)網(wǎng)約車分配什么司機(jī),?誰離你最近,我就分配,,這是一個(gè)策略,。我們還可以考慮價(jià)格,以及車型和時(shí)間等等,,做別的策略,。A 同學(xué)做了 A 策略,B 同學(xué)做了 B 策略,,哪個(gè)策略更好,?

  8.png

  我們可以來做個(gè) A/B 實(shí)驗(yàn),把用戶分成兩組,,A 組是一部分用戶,,用 A 策略,B 組是另一部分用戶,,用 B 策略,。但這是有很多問題的。如果只按用戶來分,,A 策略和 B 策略的用戶有可能都用同一個(gè)司機(jī),,A 策略的用戶把這個(gè)司機(jī)訂走了,B 組的用戶就訂不到這個(gè)司機(jī)了。

  也就是說,,你最后觀測(cè)到的統(tǒng)計(jì)指標(biāo),,比如成單量、成單率,,可能會(huì)有交叉影響,,但具體是多少?單從這個(gè)實(shí)驗(yàn)數(shù)據(jù)來講,,是看不出來的,,也不太容易分析,所以它不獨(dú)立,。交叉影響在哪,?按用戶分了,但是司機(jī)沒有分開,,兩波用戶有可能會(huì)聯(lián)系到同一個(gè)司機(jī),,這就叫“獨(dú)立性問題”。

  更嚴(yán)謹(jǐn)?shù)膶?shí)驗(yàn)怎么做,?應(yīng)該把用戶和司機(jī)都分開,,把用戶編個(gè)組,司機(jī)也編個(gè)組,,用戶司機(jī) A 組,,用戶司機(jī) B 組。當(dāng)你發(fā)現(xiàn)你要觀測(cè)的對(duì)象不能被嚴(yán)格切分的話,,就需要考慮獨(dú)立性的問題,,這時(shí)候你做的結(jié)論很可能是錯(cuò)的。

  我們?cè)倏匆粋€(gè)置信度的問題,。比如做搜索評(píng)估,,我們?cè)u(píng)估 100 個(gè)隨機(jī)測(cè)試,把它們分成 A,、B 兩個(gè)測(cè)試組,,其中有 22 個(gè)變好了,有 20 個(gè)變差了,,加起來是 42 個(gè),,剩下的 58 個(gè)兩邊一樣。

  請(qǐng)問,,A 組是比 B 組變好了嗎,?有人說,系統(tǒng)變好 10%,,效果非常明顯,。你相信嗎,?你要相信的話就被蒙蔽了。

 9.png

  我這里寫了一個(gè)置信度,,P 值 = 0.75,,這是什么意思?我們通常認(rèn)為,,P 值要小于 0.05,,這個(gè)數(shù)據(jù)才是可信的,也就是 A 比 B 好,。0.75 的意思是 “A 比 B 好” 碰巧出現(xiàn)的概率是 75%,,這是不可信的。我們把這個(gè)箱型圖畫出來,,它波動(dòng)的范圍如果按照 95% 的區(qū)間,,從 - 0.1 一直到 0.147,是非常大的范圍,。把置信度畫出來,,發(fā)現(xiàn)這個(gè)實(shí)驗(yàn)完全不能說明 A 比 B 好。結(jié)論就是:這個(gè)實(shí)驗(yàn)不可信,,沒有顯著性,,完全不能從這個(gè)實(shí)驗(yàn)中得出 A 比 B 好的結(jié)論。

  還有長短期的影響,,這也是一個(gè)常見的問題,。我舉一個(gè)例子,比如說,,我們對(duì)每個(gè)商品會(huì)有評(píng)價(jià),,現(xiàn)在興趣電商比較熱,,電商的推薦主要會(huì)考慮它的評(píng)價(jià),,對(duì)于評(píng)價(jià)低的商品,我們會(huì)做一些控制和懲罰,,讓它的推薦少一些,。如果加大懲罰力度,或者由不懲罰變成懲罰,,交易量會(huì)怎么樣變化,?

 10.png

  如果做 A/B 實(shí)驗(yàn),會(huì)發(fā)現(xiàn)加上這個(gè)懲罰,,它的交易量是下降的,。這很顯然,商品本來可以買,,現(xiàn)在不讓買了,,那它的交易量肯定下降,。如果你看了 A/B 測(cè)試,說我們不應(yīng)該做,,對(duì)這些差的產(chǎn)品就應(yīng)該保持,,那你很可能就錯(cuò)了。

  有時(shí)候,,靠人的經(jīng)驗(yàn)相信這個(gè)事情是對(duì)的,,堅(jiān)持做,你很可能會(huì)得到一個(gè)正確的答案,。為什么,?我們這個(gè)實(shí)驗(yàn)不再測(cè) 3 天或者 1 個(gè)星期,而是測(cè) 1 個(gè)月,,你會(huì)發(fā)現(xiàn),,這個(gè)交易量開始是下降的,但是慢慢持平了,。隨著時(shí)間再往前推移,,它的交易量就變好了。

  可以想象,,當(dāng)你做了一些正確的事情,,短期可能會(huì)受一定損失,但是積累了用戶口碑,,這些東西周期都很長的,,慢慢效果就體現(xiàn)出來了。A/B 測(cè)試通常不會(huì)做那么多時(shí)間,。

  所以有時(shí)候要結(jié)合判斷相信背后本質(zhì)的東西,,可以用更長期的 A/B 測(cè)試驗(yàn)證它,這時(shí)候你會(huì)做出更正確的選擇,。如果相信短期,,就掉到溝里了,得出錯(cuò)誤的結(jié)論,。

  抖音的名字是怎么來的,?

  最后再講講抖音取名字的故事。很多人都很關(guān)心這件事,,甚至有人說抖音的名字是找大師算過的,。起名字是可以做 A/B 測(cè)試的。當(dāng)年,,我們做了這個(gè)短視頻產(chǎn)品,,有很多候選名字,那會(huì)兒已經(jīng)有一些產(chǎn)品 demo 了,。

  我們就把這個(gè) demo 產(chǎn)品起成不同的名字,,用不同的 logo,,在應(yīng)用市場(chǎng)商店做 A/B 測(cè)試,同樣的預(yù)算,,同樣的位置,,這能測(cè)出用戶對(duì)這個(gè)名字的關(guān)心程度,吸引力程度,,下載轉(zhuǎn)化率等等,,但其實(shí)也是非常短期的。

  做完這個(gè)測(cè)試之后,,我們得出了一個(gè)排名,,比如第一名是什么,第二名是什么,?!岸兑簟笔桥琶诙模皇亲詈玫拿?。當(dāng)時(shí)負(fù)責(zé)抖音的產(chǎn)品經(jīng)理,,討論應(yīng)該用哪個(gè)名字。

  你去看這個(gè)分析和排名,,看那個(gè)過程,,就會(huì)發(fā)現(xiàn)有一些是符合你的感覺,有一些不是符合你的感覺,,才知道,,原來人們對(duì)這個(gè)東西可能會(huì)這么想。所以 A/B 測(cè)試的過程,,有時(shí)不完全看它的結(jié)論,,它也會(huì)給你帶來很多認(rèn)知,這就是經(jīng)驗(yàn)帶來的偏差,。A/B 測(cè)試可以糾正這些偏差,,但是它也會(huì)有這樣或那樣的問題,有時(shí)候你不會(huì)完全采納它的結(jié)論,。

  我們就沒有采納排名第一的名字,,大家覺得,,“抖音”長期來講更符合認(rèn)知,,更能體現(xiàn)它的形態(tài),所以就選擇了 “抖音” 這個(gè)排名第二的選項(xiàng),。

  從這個(gè)故事中可以看到,,真正想去做一個(gè)科學(xué)決策,是很難有完美方法的,,沒有一招鮮的方法,,只有最合適的方法,。充分地做 A/B 測(cè)試,這是一個(gè)能夠在很大程度上補(bǔ)充信息的過程,,能夠消除很多偏見,,能夠帶來很多客觀的事實(shí)。但是它也不是完美的,,需要補(bǔ)充其他方法一起來用,。就像 “抖音” 起名字的例子一樣。在公司中更廣泛地使用 A/B 測(cè)試,,我相信對(duì)提高整個(gè)公司的決策質(zhì)量是很有幫助的,。

 


本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,,并不代表本網(wǎng)站贊同其觀點(diǎn),。轉(zhuǎn)載的所有的文章、圖片,、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有,。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容,、版權(quán)和其它問題,,請(qǐng)及時(shí)通過電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,,避免給雙方造成不必要的經(jīng)濟(jì)損失,。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com,。