18禁美女黄网站色大片免费观看,久久精品国产99

今年8月，StartDT旗下GrowingIO分析云產(chǎn)品客戶數(shù)據(jù)平臺（CDP）正式上線了LTV預(yù)測標(biāo)簽。通過開箱即用的標(biāo)簽功能，分析師就能一鍵生成用戶價值的預(yù)測結(jié)果，用于用戶運營和價值分析。

LTV預(yù)測標(biāo)簽背后是怎樣的算法？

為什么LTV算法以標(biāo)簽形式產(chǎn)出結(jié)果，能做到又快又穩(wěn)？

企業(yè)在自建算法模型的過程中，還有哪些坑要規(guī)避？

本文以LTV算法為例，介紹基于奇點云數(shù)據(jù)云平臺DataSimba的MLOps實踐。

索引

1、背景：如何用算法讓LTV預(yù)測更簡單？

2、實踐：LTV算法從開發(fā)到上線的3個難點

3、解析：基于DataSimba，完成MLOps全鏈路

4、提效：SimbaOS Kernel加持，讓算法工程師專注算法

共4194字，閱讀時間約16分鐘。

（一）背景：如何用算法讓LTV預(yù)測更簡單？

LTV（Lifetime Value，生命周期價值）指用戶與一家公司/品牌建立關(guān)系的整個“生命周期”內(nèi)產(chǎn)生的價值，是企業(yè)市場營銷、客戶關(guān)系管理、用戶運營中的一項關(guān)鍵指標(biāo)。

通過分析、預(yù)測LTV，企業(yè)可以針對性地制定運營、營銷乃至定價策略，助企業(yè)更高效地達成業(yè)績目標(biāo)。

過去，當(dāng)營銷活動需要基于用戶LTV來制定策略時，有以下2種常見方案：

1、結(jié)合歷史數(shù)據(jù)和個人經(jīng)驗制定策略。

這種方案有一定的數(shù)據(jù)基礎(chǔ)，但對業(yè)務(wù)指標(biāo)的總結(jié)、分析以及LTV的預(yù)測較為依賴“老法師”的經(jīng)驗，不確定性較高，且伴隨重復(fù)、長期、大量的數(shù)據(jù)分析，無法快速響應(yīng)業(yè)務(wù)的高頻需求，結(jié)合業(yè)務(wù)發(fā)展更新迭代。

2、使用開源框架自研LTV算法。

伴隨信息團隊的壯大和開源技術(shù)的成熟，有越來越多的企業(yè)開始自研算法，嘗試使用一些開源框架解決問題。但同時又不得不面對適配難、開發(fā)周期長、數(shù)據(jù)在多種工具之間流轉(zhuǎn)安全無保障、訓(xùn)練成本高、缺乏專家經(jīng)驗、效果不夠理想等問題，從開發(fā)到部署上線、在日常工作中高效使用，還存在鴻溝。

基于客戶需求調(diào)研，奇點云算法團隊和GrowingIO分析云產(chǎn)品團隊“一拍即合”，選擇開發(fā)LTV算法，并將它以“LTV預(yù)測標(biāo)簽”的形式嵌入到分析云客戶數(shù)據(jù)平臺（CDP）產(chǎn)品中。

LTV預(yù)測標(biāo)簽開箱即用，分析師只需要在CDP界面中選擇用戶表、事件表（核心轉(zhuǎn)化/營收事件），設(shè)置LTV預(yù)測目標(biāo)，就可以一鍵運行算法模型全鏈路，生成預(yù)測結(jié)果。

這樣做的好處是，調(diào)用LTV算法不再需要依賴工程師，技術(shù)門檻大大降低，對業(yè)務(wù)響應(yīng)速度快、效率高，算法也能基于最新數(shù)據(jù)自動迭代優(yōu)化。

（二）實踐：LTV算法從開發(fā)到上線的3個難點

LTV算法本身是基于一套自學(xué)習(xí)算法流程進行的自動化建模，需要對用戶進行靈活的特征構(gòu)建，并采用多個內(nèi)置模型對比以避免模型結(jié)果漂移，幫助模型尋找用戶群體規(guī)律，提高預(yù)測準(zhǔn)確率。

考慮到LTV算法會在CDP產(chǎn)品中以“標(biāo)簽”形式被調(diào)用，除了算法本身的開發(fā)訓(xùn)練，算法團隊還需要確保在實際的生產(chǎn)環(huán)境中依舊表現(xiàn)良好，輸出既高效又穩(wěn)定。

拆解來看，具體有以下3個核心難點要克服：

1、用于處理的數(shù)據(jù)不標(biāo)準(zhǔn)，配置不確定。

出于行業(yè)習(xí)慣、企業(yè)數(shù)據(jù)治理程度等原因，不同客戶的數(shù)據(jù)基礎(chǔ)往往存在較大差異。日常運營活動中，對于LTV的衡量方式也靈活多變。

因此，LTV算法選擇基于UEI模型的標(biāo)準(zhǔn)數(shù)據(jù)表構(gòu)建：

UEI（User用戶、Event事件、Item實體）是GrowingIO分析云產(chǎn)品核心的數(shù)據(jù)模型，把所有用戶行為、商品、門店等不同維度數(shù)據(jù)整合在一張表，以一個事件不同屬性的形式呈現(xiàn)在寬視圖中，以滿足不同的分析需求?？蛻粼谑褂肅DP、UBA等產(chǎn)品時，基礎(chǔ)數(shù)據(jù)已按照用戶表、事件表、實體表構(gòu)建。LTV算法直接采用，即可快速得到結(jié)果。

進一步，通過選填字段提升算法效果；通過一些識別規(guī)則和再處理邏輯的設(shè)置，來幫助算法在預(yù)處理、特征工程、訓(xùn)練集構(gòu)建、模型構(gòu)建階段，能自適應(yīng)不同量級、不同時間跨度的數(shù)據(jù)集，以及短則一天、長則數(shù)月的預(yù)測周期。

說人話：上述動作旨在簡化用戶使用算法的步驟，在保證算法效果的前提下，盡可能適應(yīng)數(shù)據(jù)情況各不相同的企業(yè)。

2、算法應(yīng)當(dāng)穩(wěn)定產(chǎn)出優(yōu)于業(yè)務(wù)規(guī)則的效果。

穩(wěn)定產(chǎn)出比業(yè)務(wù)規(guī)則、人工經(jīng)驗更好的效果，是開發(fā)LTV算法的初衷。

在模型構(gòu)建過程中，算法團隊選用了常用的三個決策樹模型，并通過將測試集上的指標(biāo)效果對比排序來選擇模型。主要選擇指標(biāo)如下：

在進行目標(biāo)金額的誤差優(yōu)化時，往往會損失一定分類排序性能。但用戶（分析師、業(yè)務(wù)人員）在使用該標(biāo)簽時，通常直接將前排排序結(jié)果作為運營人群來進行觸達。因此算法會對比三個指標(biāo)的結(jié)果進行模型選擇，避免模型漂移。

基線的構(gòu)造方法如下：

基線構(gòu)造方法

算法相對基線，LTV算法在下列指標(biāo)上的提升如下：

*不同數(shù)據(jù)集的指標(biāo)結(jié)果相差較大，上表僅展示測試數(shù)據(jù)集的提升范圍。

目前，LTV算法已能夠快速、穩(wěn)定輸出優(yōu)于重復(fù)業(yè)務(wù)策略的結(jié)果。同時，它依然擁有很大的優(yōu)化潛力，可以針對數(shù)據(jù)集進行更多調(diào)整。（CDP提供標(biāo)準(zhǔn)的LTV算法預(yù)測標(biāo)簽，針對特定企業(yè)的優(yōu)化屬定制化開發(fā)項目。）

3、為優(yōu)化用戶體驗，在資源和時效上應(yīng)有保障。

完成開發(fā)并不是LTV算法的終點——能在企業(yè)生產(chǎn)環(huán)境中穩(wěn)定發(fā)揮的算法，才是業(yè)務(wù)需要的好算法。

在實際生產(chǎn)中，算法運行通常要長時間地占用大量資源，而LTV算法的結(jié)果顯式地展現(xiàn)為一個CDP標(biāo)簽，客戶會對其時間、資源有更嚴(yán)格的心理預(yù)期。

因此，算法團隊從以下3點優(yōu)化體驗：

· 進行算法資源隔離，確保算法能盡快申請到資源，并減少數(shù)據(jù)作業(yè)和算法作業(yè)互相影響而導(dǎo)致任務(wù)運行超載的情況。

· 拆分成若干個作業(yè)并配置Pipeline，為每個作業(yè)配置不同的參數(shù)，以減少單個作業(yè)的資源占用量，以及整個算法任務(wù)對大型資源的占用時間，并支持階段性地輸出運行日志。

· 通過前期大量測試及結(jié)果回歸，為任務(wù)運行預(yù)估時間，并設(shè)置細致的數(shù)據(jù)校驗，提供報錯信息，以減少用戶在使用中的焦慮，也更易運維。

其中，前2點能力來自SimbaOS Kernel（數(shù)據(jù)云操作系統(tǒng)內(nèi)核，是DataSimba的核心）。

（三）解析：基于DataSimba，完成MLOps全鏈路

MLOps（Machine Learning Operations），是一種把ML（機器學(xué)習(xí)）模型的部署管理與DevOps（軟件開發(fā)運維）相結(jié)合的實踐和方法論，目標(biāo)是實現(xiàn)并提升機器學(xué)習(xí)模型的可重復(fù)性、可擴展性和可維護性。

MLOps（的過程及相關(guān)工具）通常涵蓋模型開發(fā)和訓(xùn)練、模型部署、監(jiān)控和維護、自動化、版本控制和跟蹤等環(huán)節(jié)，并支持團隊協(xié)作和知識共享。

說人話，就是改“手工小作坊煉丹”為“成熟的工業(yè)化制造工廠”，讓機器學(xué)習(xí)從研究及原型開發(fā)，真正轉(zhuǎn)化為能滿足業(yè)務(wù)需求的實際應(yīng)用。

本文所介紹的LTV算法，從數(shù)據(jù)準(zhǔn)備、模型訓(xùn)練到發(fā)布，以及作為服務(wù)被調(diào)用，也就是MLOps的全鏈路，均在DataSimba上進行。

算法工程師昭游介紹，LTV算法預(yù)測標(biāo)簽在上線前進行了約500次測試，其中包括但不限于規(guī)則閾值、壓力測試、默認參數(shù)等等。得益于DataSimba的資源分配、版本管理、持續(xù)更新部署等能力，算法團隊在作業(yè)調(diào)試、Pipeline構(gòu)建及模型部署過程省去了不少煩惱，從而達成“代碼管理整潔”、“調(diào)整測試便捷”、“部署上線快捷”三大目標(biāo)。

抽象來看，DataSimba支持工程師完成MLOps的全鏈路如下圖所示：

基于DataSimba的MLOps流程

1、數(shù)據(jù)集成，通過離線任務(wù)將數(shù)據(jù)保存至研發(fā)模塊，并定期更新。DataSimba支持集成數(shù)據(jù)庫類型或文件格式的數(shù)據(jù)。在LTV算法的場景中，底層數(shù)據(jù)主要來自ClickHouse。

2、在研發(fā)模塊，進行作業(yè)開發(fā)。開發(fā)過程中的代碼版本、更新歷史記錄、運行日志等，一并存儲在DataSimba集成的Git倉庫中，進行統(tǒng)一的管理。

3、從Git倉庫中拉取最新的代碼，配置算法構(gòu)建任務(wù)流，以便持續(xù)集成與發(fā)布。

4、Pipeline在首次運行后，會生成模型文件，在模型中心進行注冊與管理。并在后續(xù)運維過程中，持續(xù)部署、更新模型文件。

5、調(diào)用鏡像和已注冊的模型進行服務(wù)配置。后續(xù)模型的版本更新會自動從模型中心拉取最新版本。

6、在服務(wù)中心，對平臺內(nèi)的所有服務(wù)進行統(tǒng)一管理及調(diào)用。

7、（實時）終端/業(yè)務(wù)系統(tǒng)只需訪問API，即可實時獲取當(dāng)前最新的模型預(yù)測結(jié)果；（離線）在Pipeline持續(xù)更新模型的過程中，輸出的預(yù)測結(jié)果也會反向存儲進數(shù)據(jù)庫，終端/業(yè)務(wù)系統(tǒng)可通過訪問數(shù)據(jù)庫來獲取離線的計算結(jié)果。

數(shù)據(jù)是AI的基礎(chǔ)，算法依賴大量數(shù)據(jù)來訓(xùn)練模型，在生產(chǎn)環(huán)境中也需要處理數(shù)據(jù)來產(chǎn)出結(jié)果。如果算法工程師不需要從數(shù)據(jù)云平臺導(dǎo)出數(shù)據(jù)到其他工具，不需要把數(shù)據(jù)下載到本地開發(fā)再導(dǎo)回生產(chǎn)環(huán)境做部署，也不需要在多個開源工具中流轉(zhuǎn)，算法生產(chǎn)全流程的安全性及便利性將大大提升。

因此，數(shù)據(jù)云平臺DataSimba不僅能完成“本職工作”（數(shù)據(jù)集成、研發(fā)、運維、治理、服務(wù)等），支持數(shù)據(jù)工程師搞定數(shù)據(jù)作業(yè)，也能支持算法工程師完成MLOps全鏈路工作——提供經(jīng)清洗治理的數(shù)據(jù)，以及數(shù)據(jù)管理、建模、持續(xù)部署、計算資源與存儲管理等全流程能力。

（四）提效：SimbaOSKernel加持，讓算法工程師專注算法

經(jīng)不嚴(yán)謹測算（消耗算法工程師3名），相較通過開源組件自建，或借助其他算法平臺工具，依托DataSimba的全流程耗時可縮短40%~78%。

據(jù)算法團隊介紹，一位沒有算法基礎(chǔ)的售前專家曾基于DataSimba創(chuàng)下1天內(nèi)做出算法demo的紀(jì)錄，“即便此前我們已經(jīng)對他做過2小時培訓(xùn)，他對DataSimba各個模塊相對熟悉，但這個速度還是挺驚人的?！?

提效一方面得益于DataSimba具備一站式完成數(shù)據(jù)管理、建模、持續(xù)部署、計算資源與存儲管理等全流程的能力，為算法提供經(jīng)過治理的干凈數(shù)據(jù)；

另一方面，則離不開SimbaOS Kernel（數(shù)據(jù)云操作系統(tǒng)內(nèi)核）的加持——“包攬”了安全管控、資源管理、任務(wù)調(diào)度等底層技術(shù)問題，把算法工程師從各種權(quán)限配置、數(shù)據(jù)對接、爭搶資源的“痛苦”中解放出來，更專注在算法本身。

*SimbaOS Kernel是DataSimba的核心層，將大數(shù)據(jù)領(lǐng)域的存儲、計算、服務(wù)、調(diào)度、安全、租戶等常用功能，抽象為一組標(biāo)準(zhǔn)對象模塊。用戶只需直接使用封裝好的對象的能力，無需關(guān)注復(fù)雜的底層體系。

舉2個例子：

1、不用搶，資源也有保障

依托SimbaOS Kernel和企業(yè)設(shè)定的資源調(diào)度規(guī)則，可以對算法作業(yè)配置資源及運行環(huán)境，確保算法能盡快申請到獨立的資源，從而確保算法與數(shù)據(jù)作業(yè)運行無沖突，資源不搶占。

同時，SimbaOS Kernel的任務(wù)域支持作業(yè)Pipeline構(gòu)建，可配置定時調(diào)度，擁有全套的任務(wù)失敗恢復(fù)和基線告警機制，保證算法任務(wù)的高效執(zhí)行。

2、全方位全鏈路守護安全

除了無需把數(shù)據(jù)導(dǎo)出平臺、規(guī)避因多工具流轉(zhuǎn)而帶來的安全風(fēng)險，SimbaOS Kernel更擁有一套完整的權(quán)限體系和數(shù)據(jù)安全策略，為上層的所有數(shù)據(jù)應(yīng)用（包括SimbaMetric、CDP、UBA等）統(tǒng)一解決用戶管理、身份認證、資源訪問權(quán)限等安全相關(guān)問題，例如：

· 精細化管控用戶權(quán)限，并通過項目劃分確保數(shù)據(jù)隔離，算法任務(wù)只對必要數(shù)據(jù)有訪問權(quán)限；

· 支持敏感數(shù)據(jù)自動識別、加密脫敏（如使用的數(shù)據(jù)表中涉及敏感數(shù)據(jù)），并可提供數(shù)據(jù)訪問、調(diào)用、開發(fā)處理等行為的審計記錄；

· 對業(yè)務(wù)數(shù)據(jù)、算法模型等數(shù)據(jù)資產(chǎn)提供異常操作行為識別、告警、防泄漏等安全保障。

目前，在DataSimba R4.9 LTS以上版本，均具備上述MLOps能力。同時，旗艦版套餐還包含專門為算法模型開發(fā)全生命周期管理提供的一站式平臺工具SimbaML（算法工廠），以及包括推薦引擎、復(fù)購預(yù)測、流失預(yù)警、銷量/銷售預(yù)測、GraphOneID圖計算等開箱即用的算法模型，幫助企業(yè)初步建立數(shù)據(jù)科學(xué)應(yīng)用能力。詳情可咨詢奇點云客戶經(jīng)理/技術(shù)顧問了解。

精品国产18久久久久久,一个人在线观看的www,亚洲一区二区久久久,成人国内精品久久久久影院vr,最近免费中文字幕大全高清大全1

真正滿足業(yè)務(wù)需要的算法！從LTV標(biāo)簽，淺談基于奇點云DataSimba的MLOps實踐

相關(guān)文章

人工智能企業(yè)

人工智能硬件

人工智能產(chǎn)業(yè)

人工智能技術(shù)