国产日韩精品一区二区_欧美一级片在线播放_久久精品中文字幕电影_久久视频精品在线_亚洲国产成人久久综合一区_久久精品国产精品_国产视频精品免费播放_在线视频中文亚洲_亚洲午夜未满十八勿入免费观看全集_精品亚洲一区二区_国产原创欧美精品_国产色综合天天综合网_九九久久国产精品_欧美极品少妇xxxxⅹ裸体艺术_亚洲国产精品人人爽夜夜爽_尤物九九久久国产精品的分类

京東MALL現場直擊多款多噴頭3D打印機實操評測 消費級3D打印機迎來新突破里程碑時刻!縱橫第100家體驗中心榮耀啟幕,筑牢中國豪華越野品類生態根基惡意利用“七無天無理由退貨”政策法律不予支持!央視曝光“摸摸黨”拼多多聯席董事長趙佳臻:Temu將All In中國供應鏈以科技守味非遺!卡薩帝冰箱冬至將全國啟幕「好好吃」餃子館字節TRAE,正悄悄“解放”600萬工程師酷開再獲國家級“信任牌照”:數據安全彰顯戰略定力ThinkPad 2025黑FUN禮——了不起的offer,企業采購專享狂歡來襲!拼多多宣布實行聯席董事長制度 下一個三年爭取再造一個拼多多菜鳥將入股九識智能 無人車業務有望大整合抖音上線“長輩防走失模式”同程旅行發布2025年度旅行榜:長線出行北上廣至川藏航線熱度居首XR專利首案在歐洲落地,中國智造出海風險與機遇并行超能小度,賦能生長,小度全屋智能舉辦年終核心服務商成長特訓營破“內卷”、立標準、向未來 光伏行業領袖共話行業生態重塑之道AI重構2026年線上帶貨新生態:零庫存爆單、小紅書月銷百萬,開啟AI小店副業新時代人形機器人租賃市場大幅降溫 行業商業化路徑仍待探索阿里云AI Landing Zone正式發布,助力企業從“上好云”到“用好AI”的戰略升級118家標桿企業脫穎而出,定義AI時代的雇主標桿!2025NFuture最佳雇主AI榜單重磅發布昇思人工智能框架峰會 | MindSpore Lite混合精度推理,實現內存節省30%,助力鴻蒙翻譯模型輕量化部署
  • 首頁 > 即時新聞

    A/B測試怎么做 火山引擎A/B測試全流程實踐分享

    2021年11月11日 21:37:44 來源:

      為什么要做 A/B 測試

      首先我們看一個案例。字節跳動有一款中視頻產品叫西瓜視頻,最早它叫做頭條視頻。為了提升產品的品牌辨識度,團隊想給它起個更好的名字。經過一些內部調研和頭腦風暴,征集到了西瓜視頻、奇妙視頻、筷子視頻、陽光視頻 4 個名字,于是團隊就針對一共 5 個 APP 名稱進行了 A/B 實驗。這個實驗中唯一改變的是應用市場里該產品的名稱和對應的 logo,實驗目的是為了驗證哪一個應用名稱能更好地提升“頭條視頻” APP 在應用商店的點擊率。最后西瓜視頻和奇妙視頻的點擊率位列前二,但差距不顯著,結合用戶調性等因素的綜合考量后,最終決定頭條視頻正式更名為西瓜視頻。

      通過這個案例可以看到,A/B 測試可以幫助業務做最終決策。結合案例的直觀感受,我們可以這樣來定義 A/B 測試:在同一時間對目標受眾做科學抽樣、分組測試以評估效果。

    1.png

      以上圖圖示為例,假設我們有 100 萬用戶要進行 A/B 測試:

      ● 先選定目標受眾,比如一線城市的用戶。

      ● A/B 測試不可能對所有用戶都進行實驗,所以要進行科學抽樣,選擇小部分流量進行實驗。

      ● 抽樣之后需要對樣本進行分組,比如 A 組保持現狀,B 組的某一個因素有所改變。

      ● 分組之后在同一時間進行實驗,就可以看到改變變量后用戶行為的變化。

      ● 再根據對應實驗目標的指標,比如點擊率的高低,來評估實驗的結果。

      以上就是我們對 A/B 測試的定義。目前,A/B 測試已被 Google、Facebook、亞馬遜等大型互聯網公司廣泛采用;字節跳動更是在 2012 年成立之初便開始使用 A/B 測試,公司內部一直流傳一句話:一切皆可 A/B 測試。A/B 測試在字節跳動已是非;A的設施和文化,目前,字節跳動累計已有 80W+ 的 A/B 實驗,日新增實驗 1500+,同時運行試驗 1W+,服務 500+ 業務線。

      那我們為什么要做 A/B 測試呢?我總結有 3 點原因:

      ● 風險控制:小流量實驗可以避免直接上線效果不好造成損失。其次,實驗迭代的過程中,決策都是有科學依據的,可以避免系統性的偏差。

      ● 因果推斷:我們相信 A/B 實驗中的優化和改變最終能影響到線上數據以及用戶的行為。在這個前提下,A/B 測試就是最好的因果推斷工具。

      ● 復利效應:A/B 測試是可以持續不斷進行的實驗,即使一次實驗提升的效果不大,但是長期下來復利效應的積累會產生很大的變化和回報。

      A/B 測試系統實現

      了解了我們為什么要做 A/B 測試,下面我們來看一下火山引擎的 A/B 測試系統是如何實現的。

    2.png

      上圖是火山引擎 A/B 測試系統的架構示意圖,整體架構分為幾層:

      ● 運行環境層:在最底層,服務可以運行在容器內,也可以運行在物理機上。

      ● 基礎設施層:會用到關系型數據庫和鍵值對。因為 A/B 測試要處理很大的數據量,這一層也會使用離線和實時的大數據組件。

      ● 服務層:包括實驗所需的分流服務、元信息服務、調度服務等。在 A/B 測試中我們也需要標識用戶,因此這一層有設備服務。為了提供多種數據查詢,還有 OLAP 引擎。

      ● 業務層:包括實驗管理、指標管理、Feature 管理、評估報告等。

      ● 接入層:包括 CDN、網絡防火墻、負載均衡。

      ● 應用層:提供管理后臺控制實驗、查看報告等,SDK 調用。

      ●下面介紹幾個實驗流程的實現。

      客戶端實驗參數傳遞及生效過程

    3.png

      客戶端實驗的流程如上圖所示:

      ● 業務方開發策略,確定實驗內容;

      ● 枚舉策略中的映射關系并在客戶端實現映射關系;

      ● 創建并開啟實驗;

      ● 客戶端已經集成了火山引擎 A/B 測試系統的 SDK,向 A/B 測試系統請求分流服務,判斷用戶命中哪些實驗哪些版本,下發參數;

      ● 客戶端從 SDK 取到參數,進行相對應的流程完成實驗。

      服務端實驗參數傳遞及生效過程

    4.png

      服務端的實驗和客戶端類似:

      ● 設計實驗;

      ● 服務端實驗的 SDK 是跟業務系統比如服務端集成在一起?蛻羰菑钠渌 C 端用戶直接請求業務的服務端,該服務端會在本地 SDK 做決策;

      ● 決策完之后將參數下發到下游,使策略生效。

      統計分析實踐

      ● 在統計分析中,我們總結了一些有用的實踐經驗:

      ● 確定業務的指標體系:可以從宏觀/微觀、長期/短期、橫向/縱向三個角度建設指標體系。

      ● 分類檢驗:對指標進行置信度計算的時候,并不會每次都用同一套方法,而是針對不同的指標類型(包括轉化類、人均類、CTR 類等)進行不同的建模采用不同的方法。

      ● 統計修正:如果一個實驗開了多個組,可能犯了多重比較的錯誤。還有時開完實驗之后每天都會查看結果,這就犯了連續觀測的錯誤。所以在實踐中需要有一些統計修正的方法來修正行為。

      ● 基于葉貝斯體系的探索:區別于經典的假設檢驗,我們也在探索基于葉貝斯體系,如何評估實驗效果,降低面向用戶使用時候的理解門檻。在智能流量調優、模型超參數搜索等場景下有具體落地。

      ● 這里也跟大家分享一些 A/B 實驗設計背后的思考:

      ● 避免過度曝光:A/B 實驗中有一個很關鍵的點是決策哪些樣本應該進入實驗。如果所有打開應用的人都能命中實驗,實驗結果就不會很明顯。

      ● 進組和出組:假設我們對北京的用戶進行了實驗,有些人出差或者旅游離開北京之后還能命中實驗嗎?我們可以把這個決策留給實驗者,讓實驗者自己決定是進組還是出組。

      ● 和 Feature Flag 的珠聯璧合:實驗之前可以把能進行實驗的內容抽象成 Feature Flag,簡單理解成功能開關。實驗完成之后的上線或者重復實驗,也可用 Feature Flag 進行管理。

      字節跳動 A/B 測試最佳實踐

      在字節跳動,A/B 測試已經是一種企業文化,大家都認可其價值,達成共識才能一起探討。A/B 測試跟其他環節是緊密相關的。我們在收集和分析數據之后會得到一些洞察,基于這些洞察可以知道有些環節是比較薄弱的,可進行提升,然后就可以提出假設,設計 A/B 實驗,完成實驗之后評估效果。有可能實驗沒有達到預期效果,可以對實驗進行迭代繼續收集數據,這樣就形成了以 A/B 測試為核心的業務增長閉環。

      下面為大家介紹如何完整進行一次 A/B 實驗。

      如何產生好的實驗想法

      關于如何產生好的實驗想法,我們可以從定量分析和定性分析幾個角度來看。前面提到的構建完善的指標體系就是定量分析,這里不再贅述。在收集到指標數據以后,對于指標發生的異動進行現象分析,針對已存在問題(非異動),則可以進行新的產品策略或者運營策略迭代執行。

      定性分析可以分為三個方面:

      ● 產品本身的價值主張是什么?比如一款打車 APP 的價值主張是通過共享經濟實現社會的效率提升,這個產品有沒有很好地體現價值主張?可以從這一方面產生一些實驗想法。

      ● 推動因素

      相關性:同一個頁面中如果有不相關的功能,用戶大概率也不會點擊,這樣的設計就沒有效果。

      清晰度:要表達的內容(比如命名)是否足夠清晰。

      緊迫性:對于有時間周期的活動,可以設計一些事件營造緊迫感。

      ● 阻礙因素:

      注意力分散:避免在一個頁面放五花八門的信息讓用戶找不到重點。

      焦慮性:有的地方可能給了用戶很多選擇,也會造成選擇困難,不自覺地形成一種焦慮感,不如簡單一些只設計一個選擇。

      如何建立一個有效的實驗假設

      我們需要針對一個用戶群體做出改變,然后產生一定的影響。但是這個假設不是無腦定的,要有邏輯性是合理的,最終能通過指標來評估變化的影響。針對這幾個要素,我們總結出了設計 A/B 實驗的 PICOT 原則,即 Population、Intervention、Comparison、Outcome、Time,明確對什么樣的用戶做出了什么樣的改變,然后進行分組比較,最終需要設計衡量結果的指標,并決策實驗要進行多長時間。

      A/B 測試效果評估

      看哪些數據

    5.png

      上圖是一份 A/B 測試實驗報告,可以看到指標在實驗版本里是絕對值,還有變化值以及置信區間。置信區間是指假設策略全量上線,你有 95% 的把握會看到真實的指標收益在 [,] 這個范圍內。置信區間越窄且不包含 0,可信度就越高。從「查看圖表」進入選擇差異值可以觀察累計 diff 趨勢圖,如果呈現置信區間逐漸變窄的現象,說明隨著樣本量越來越大,我們對評估結果的信心就越來越強。

      指標變化是顯著的嗎

      A/B 實驗的結果有以下幾種:

      ● 正向顯著:說明當前樣本容量條件下,實驗版本優于對照版本,實驗結果和假設一致;

      ● 負向顯著:說明當前樣本容量條件下,實驗版本不優于對照版本,實驗結果和假設不一致;

      ● 不顯著:

      確實不顯著:可以參考 MDE 指標是否符合預期,如果符合,則說明結果確實不顯著。

      其他原因導致的不顯著:比如樣本容量小,指標對應的用戶行為滲透率低,實驗時長較短等。在這些情況下,如果實驗效果不顯著,可以進一步優化實驗,比如增大樣本量,擴大流量、再觀察一段時間積累更多進組用戶等。

      接下來我們可以再看兩個案例。

      哪個首頁新 UI 版本更受歡迎

      今日頭條 UI 整體風格偏大齡被詬病已久,不利于年輕和女性用戶泛化,歷史上幾次紅頭改灰頭實驗都對大盤數據顯著負向。因此團隊設計了 A/B 實驗,目標是在可接受的負向范圍內,改一版用戶評價更好的 UI。通過控制變量法,對以下變量分別開展數次 A/B 實驗:

      ● 頭部色值飽和度

      ● 字號

      ● 字重

      ● 上下間距

      ● 左右間距

      ● 底部 tab icon

      ● 結合用戶調研(結果顯示:年輕用戶和女性用戶對新 UI 更偏好)

      綜合來看,效果最好的 UI 版本如圖 2 所示,全量上線。

    6.png

      新 UI 上線后,Stay duration 顯著負向從-0.38% 降至 -0.24%,圖文類時長顯著 +1.66%,搜索滲透顯著 +1.47%,高頻用戶(占 71%)已逐漸適應新 UI。

      選擇更優的視頻上滑引導產品形態

      某款短視頻在剛面世時,很多用戶都不知道上滑的玩法,因此就設計實驗驗證如何能更好地引導用戶上滑。實驗目標定為優化后提升新用戶留存,上滑操作滲透率提升 1%,錯誤操作滲透率下降 1%。定向受眾為新用戶,面向 10% 的線上流量進行為期 1 個月的實驗。

    7.png

      我們做了兩輪實驗,第一輪實驗結果并不符合預期,上滑操作滲透率下降 1% 且顯著,錯誤操作滲透率提升 1.5%,不符合預期。新用戶留存未見顯著上升。但在不符合預期的情況下,還是能做一些分析來發現原因。因此經過改進我們做了第二輪實驗,結果上滑操作滲透率上升 1.5% 且顯著,新用戶 7 日內留存提升 1%-1.8%,且指標結果呈顯著,符合預期。

      上面的例子就說明了我們可以把 A/B 測試當成一個理解用戶的工具。

      展望

      ● 最后想跟大家一起展望一下 A/B 測試行業未來的情況。從行業前景來看:

      ● 認知率和普及率在高速提升:我們之前做過一個調研,發現 A/B 測試在國內整體認知度較低,可能低到一個難以想象的數字。我們認為在未來 5-10 年內,A/B 測試的認知度可能會有 50-100 倍的提升,這個市場還是一片藍海。

      ● 從 nice-to-have 到 must-have:現在很多人認為 A/B 測試是一個錦上添花的工具,但在數據驅動越來越重要的今天,A/B 測試是必須要掌握的工具,是企業開展業務過程中的剛需,否則在行業競爭中就會失去優勢。

      ● 破圈:我們也發現 A/B 測試正在破圈。大家的印象中 A/B 測試只有互聯網公司會用,但是我們在交流的過程中發現,很多傳統企業雖然沒有線上業務,但如果能解決數據收集的問題,A/B 測試也能滿足傳統企業優化的訴求。

      ● 從技術趨勢上來看,有這樣幾個發展方向:

      ● 智能化:A/B 測試目前還處在早期階段,一些實驗結論或實驗洞察對數據和用戶屬性的利用還不是很充分。如果 A/B 測試能和統計方法、算法模型相結合,很可能提高整個行業的水平。

      ● 場景化:很多場景還沒有開始使用 A/B 測試,未來更多的行業場景能和 A/B 測試相結合,讓 A/B 測試更易用。

      ● 被集成:目前我們的 A/B 測試平臺可以一站式管理實驗、查看報告,但是一些用戶的業務已經很成熟,希望 A/B 測試能夠走入業務和系統,更順滑地使用。所以 A/B 測試技術也需要提高自身被集成的能力,無縫地和各種業務、系統結合起來。

      Q&A

      Q:A/B 測試對用戶體量有沒有基本限制?小用戶量在進行 A/B 測試時有什么要注意的嗎?

      A:A/B 測試方法本身對用戶量沒有限制,但是如果實驗樣本太少,就很難看到顯著的結果,收益比較小。

      Q:火山引擎 A/B 測試和算法等數據科學有哪些結合的嘗試和實踐?

      A:我們內部在做的一些事情可以簡單介紹一下:比如基于多臂老虎機的智能實驗,已經在開始應用一些算法。此外我們也在探索參數搜索的實驗,提升搜索參數的速度,讓 A/B 測試更智能化。

      Q:A/B 實驗一般要測試多才可以看到結果?

      A:嚴格意義上,開多久是和實驗能帶來的影響有關系的,以我們的經驗值來看,一般是要覆蓋一個完整的用戶生命周期。我們一般是以周為單位,實驗至少開啟 1-2 周。

      Q:A/B 測試在實驗結果上有沒有自動歸因的能力,幫用戶直接定位到是什么原因引起實驗結果好或者差的?

      A:前面提到的一些智能化探索會對自動歸因有幫助,但是自動歸因還有一個很重要的點是,A/B 測試實驗數據背后的原因可能需要很多業務知識的輸入或者很有力的指標建設才能推斷出來。

      Q:如此多的實驗,如何保證實驗的正交?

      A:我們通過大量的模擬實驗,以及對系統監控的自檢來保證正交,一旦發現數據超過了閾值就會及時進行調整。

      文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。

    海報生成中...

    [No.X048]

    最新新聞

    熱門新聞

    即時

    全球頂級AI創作社區回歸!海藝AI國內首發“全民娛樂化創作

    海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。

    新聞

    市場占比高達35.8%,阿里云引領中國AI云增長

    9月9日,國際權威市場調研機構英富曼(Omdia)發布了《中國AI云市場,1H25》報告。中國AI云市場阿里云占比8%位列第一。

    企業IT

    華為坤靈發布IdeaHub千行百業體驗官計劃,助力中小企

    9月24日,華為坤靈召開“智能體驗,一屏到位”華為IdeaHub千行百業體驗官計劃發布會。

    3C消費

    雅馬哈推出兩款高端頭戴耳機YH-4000與YH-C3000

    雅馬哈昨日宣布推出兩款頭戴式耳機,分別是平板振膜的YH-4000和動圈原理的YH-C3000。

    研究

    IDC:2025上半年全球智能家居清潔機器人出貨量同比暴

    IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。

    国产日韩精品一区二区_欧美一级片在线播放_久久精品中文字幕电影_久久视频精品在线_亚洲国产成人久久综合一区_久久精品国产精品_国产视频精品免费播放_在线视频中文亚洲_亚洲午夜未满十八勿入免费观看全集_精品亚洲一区二区_国产原创欧美精品_国产色综合天天综合网_九九久久国产精品_欧美极品少妇xxxxⅹ裸体艺术_亚洲国产精品人人爽夜夜爽_尤物九九久久国产精品的分类
    欧美黄色录像| 成人午夜三级| 欧美videossexotv100| 在线欧美一区二区| 久久久久久久一区二区三区| 成人在线直播| 亚洲一区二区三区四区的| 亚洲国产欧美一区二区三区久久| xxxxx成人.com| 免费电影一区二区三区| 国产精品三级网站| 99久久999| 国产精品福利在线观看网址| 欧美成人激情| 国产一区二区久久精品| 久久亚洲精品人成综合网| 欧美激情免费看| 国产美女精彩久久| 久久免费精品| 欧美天天综合| 精品精品国产毛片在线看| 欧美高清不卡| 综合欧美国产视频二区| 亚洲视频免费在线| 国产伦精品一区二区三区在线观看| 奇米精品一区二区三区在线观看| 日韩视频在线直播| 99久久99久久综合| 国产精品久久麻豆| 国产精品日韩电影| 国产九色91| 亚洲国产精品中文| 欧洲一区二区三区| 欧美日韩精品免费观看视欧美高清免费大片| 亚洲第一福利一区| 成人日韩在线观看| 免费电影网站在线视频观看福利| 美女福利一区| 久热国产精品视频一区二区三区| 日韩国产高清在线| 四虎国产精品免费久久| 日本电影一区二区| 亚洲狠狠爱一区二区三区| 国产精品综合视频| 亚洲啊v在线观看| 色噜噜狠狠狠综合曰曰曰88av| 91在线色戒在线| 欧美大黑bbbbbbbbb在线| 欧美14一18处毛片| 亚洲精品视频网上网址在线观看| 日韩高清一区在线| 色婷婷精品久久二区二区蜜臀av| 精品精品视频| 国产成人精品亚洲日本在线观看| 91精品国产一区二区三区| 在线国产精品播放| 日本韩国精品一区二区在线观看| 精品一级毛片| 蜜桃av噜噜一区二区三区| 亚洲人成在线电影| 久久综合国产| 日韩精品五月天| 久久久久久久久伊人| 欧美高清视频一区二区三区在线观看| 国产精品手机视频| 97久久超碰福利国产精品…| 夜夜躁日日躁狠狠久久88av| 国产婷婷97碰碰久久人人蜜臀| 国产成人综合一区二区三区| 欧美成人精品一区二区男人看| 国产精品久久占久久| 亚洲免费av电影| 国产一区国产二区国产三区| 亚洲福利视频网站| 久久国产免费看| 欧美日韩精品一区二区| 成人免费网站在线看| 亚洲欧美日韩综合| 国产精品一区二区三区精品| 国产高清在线不卡| 欧美不卡1区2区3区| 亚洲福利视频久久| 秋霞午夜一区二区| 精品二区三区线观看| 蜜桃一区二区三区| 人体精品一二三区| 精品久久久久久一区| 欧美残忍xxxx极端| 欧美激情欧美激情在线五月| 番号集在线观看| 四虎永久在线精品免费一区二区| 黄色小说在线播放| 日韩精品一区二区在线| 亚洲欧美成人vr| 国产一二在线播放| 久久久亚洲欧洲日产国码αv| 日韩美女视频免费在线观看| 亚洲精品日韩在线| 亚洲成人一区| 久久99视频免费| 成人国产激情| 国内精品久久影院| 国产高清精品一区| 国产一区欧美| 国产精品∨欧美精品v日韩精品| 国产精品免费视频久久久| 日韩午夜小视频| 最近国产精品视频| 精品一区二区免费在线观看| 色综合.com| 日韩一区二区三区视频在线观看| 亚洲国产视频直播| 清纯唯美亚洲经典中文字幕| 国产精品亚洲欧美| 欧美二区不卡| 成人区精品一区二区不卡| 国产精品高清免费在线观看| 中文字幕久热精品在线视频| 国产.欧美.日韩| 欧美理论电影在线| 丝袜综合欧美| 亚洲国内精品视频| 久久久影视精品| 动漫一区二区| 亚洲欧洲成人自拍| 亚洲精品一卡二卡| 欧洲亚洲女同hd| 69xxxx欧美| 欧美精品一二区| 亚洲自拍偷拍图区| 欧洲人成人精品| 夜间精品视频| 日本在线观看视频| 天天久久夜夜| 国产ktv在线视频| 久久精品成人一区二区三区蜜臀| 亚洲国产一二三| 亚洲免费视频一区二区三区| 国产成人一区二区| 91精品导航| 韩国精品视频在线观看| 欧美精品电影在线播放| 欧美一区三区三区高中清蜜桃| 欧美一区二区在线播放| 久久人人九九| 国产视频一区在线| 欧美一级黑人aaaaaaa做受| 一区二区三区中文字幕在线观看| 亚洲成人资源在线| 精品中文字幕人| yellow字幕网在线| 免费看日本一区二区| 夜夜爽夜夜爽精品视频| 亚洲国产精品123| 国产精品乱人伦中文| 欧美va亚洲va在线观看蝴蝶网| 欧美激情一区二区| 日韩av网站在线免费观看| 欧美日韩国产乱码电影| 亚洲黄色在线| 六月丁香婷婷色狠狠久久| 亚洲人成电影网站色| 国产色噜噜噜91在线精品| 色诱亚洲精品久久久久久|