精品国产18久久久久久,一个人在线观看的www,亚洲一区二区久久久,成人国内精品久久久久影院vr,最近免费中文字幕大全高清大全1

真正滿足業(yè)務(wù)需要的算法!從LTV標(biāo)簽,淺談基于奇點云DataSimba的MLOps實踐

2023-11-08 16:05:45AI云資訊1396

今年8月,StartDT旗下GrowingIO分析云產(chǎn)品客戶數(shù)據(jù)平臺(CDP)正式上線了LTV預(yù)測標(biāo)簽。通過開箱即用的標(biāo)簽功能,分析師就能一鍵生成用戶價值的預(yù)測結(jié)果,用于用戶運營和價值分析。

LTV預(yù)測標(biāo)簽背后是怎樣的算法?

為什么LTV算法以標(biāo)簽形式產(chǎn)出結(jié)果,能做到又快又穩(wěn)?

企業(yè)在自建算法模型的過程中,還有哪些坑要規(guī)避?

本文以LTV算法為例,介紹基于奇點云數(shù)據(jù)云平臺DataSimba的MLOps實踐。

索引

1、背景:如何用算法讓LTV預(yù)測更簡單?

2、實踐:LTV算法從開發(fā)到上線的3個難點

3、解析:基于DataSimba,完成MLOps全鏈路

4、提效:SimbaOS Kernel加持,讓算法工程師專注算法

共4194字,閱讀時間約16分鐘。

(一)背景:如何用算法讓LTV預(yù)測更簡單?

LTV(Lifetime Value,生命周期價值)指用戶與一家公司/品牌建立關(guān)系的整個“生命周期”內(nèi)產(chǎn)生的價值,是企業(yè)市場營銷、客戶關(guān)系管理、用戶運營中的一項關(guān)鍵指標(biāo)。

通過分析、預(yù)測LTV,企業(yè)可以針對性地制定運營、營銷乃至定價策略,助企業(yè)更高效地達成業(yè)績目標(biāo)。

過去,當(dāng)營銷活動需要基于用戶LTV來制定策略時,有以下2種常見方案:

1、結(jié)合歷史數(shù)據(jù)和個人經(jīng)驗制定策略。

這種方案有一定的數(shù)據(jù)基礎(chǔ),但對業(yè)務(wù)指標(biāo)的總結(jié)、分析以及LTV的預(yù)測較為依賴“老法師”的經(jīng)驗,不確定性較高,且伴隨重復(fù)、長期、大量的數(shù)據(jù)分析,無法快速響應(yīng)業(yè)務(wù)的高頻需求,結(jié)合業(yè)務(wù)發(fā)展更新迭代。

2、使用開源框架自研LTV算法。

伴隨信息團隊的壯大和開源技術(shù)的成熟,有越來越多的企業(yè)開始自研算法,嘗試使用一些開源框架解決問題。但同時又不得不面對適配難、開發(fā)周期長、數(shù)據(jù)在多種工具之間流轉(zhuǎn)安全無保障、訓(xùn)練成本高、缺乏專家經(jīng)驗、效果不夠理想等問題,從開發(fā)到部署上線、在日常工作中高效使用,還存在鴻溝。

基于客戶需求調(diào)研,奇點云算法團隊和GrowingIO分析云產(chǎn)品團隊“一拍即合”,選擇開發(fā)LTV算法,并將它以“LTV預(yù)測標(biāo)簽”的形式嵌入到分析云客戶數(shù)據(jù)平臺(CDP)產(chǎn)品中。

LTV預(yù)測標(biāo)簽開箱即用,分析師只需要在CDP界面中選擇用戶表、事件表(核心轉(zhuǎn)化/營收事件),設(shè)置LTV預(yù)測目標(biāo),就可以一鍵運行算法模型全鏈路,生成預(yù)測結(jié)果。

這樣做的好處是,調(diào)用LTV算法不再需要依賴工程師,技術(shù)門檻大大降低,對業(yè)務(wù)響應(yīng)速度快、效率高,算法也能基于最新數(shù)據(jù)自動迭代優(yōu)化。

(二)實踐:LTV算法從開發(fā)到上線的3個難點

LTV算法本身是基于一套自學(xué)習(xí)算法流程進行的自動化建模,需要對用戶進行靈活的特征構(gòu)建,并采用多個內(nèi)置模型對比以避免模型結(jié)果漂移,幫助模型尋找用戶群體規(guī)律,提高預(yù)測準(zhǔn)確率。

考慮到LTV算法會在CDP產(chǎn)品中以“標(biāo)簽”形式被調(diào)用,除了算法本身的開發(fā)訓(xùn)練,算法團隊還需要確保在實際的生產(chǎn)環(huán)境中依舊表現(xiàn)良好,輸出既高效又穩(wěn)定。

拆解來看,具體有以下3個核心難點要克服:

1、用于處理的數(shù)據(jù)不標(biāo)準(zhǔn),配置不確定。

出于行業(yè)習(xí)慣、企業(yè)數(shù)據(jù)治理程度等原因,不同客戶的數(shù)據(jù)基礎(chǔ)往往存在較大差異。日常運營活動中,對于LTV的衡量方式也靈活多變。

因此,LTV算法選擇基于UEI模型的標(biāo)準(zhǔn)數(shù)據(jù)表構(gòu)建:

UEI(User用戶、Event事件、Item實體)是GrowingIO分析云產(chǎn)品核心的數(shù)據(jù)模型,把所有用戶行為、商品、門店等不同維度數(shù)據(jù)整合在一張表,以一個事件不同屬性的形式呈現(xiàn)在寬視圖中,以滿足不同的分析需求??蛻粼谑褂肅DP、UBA等產(chǎn)品時,基礎(chǔ)數(shù)據(jù)已按照用戶表、事件表、實體表構(gòu)建。LTV算法直接采用,即可快速得到結(jié)果。

進一步,通過選填字段提升算法效果;通過一些識別規(guī)則和再處理邏輯的設(shè)置,來幫助算法在預(yù)處理、特征工程、訓(xùn)練集構(gòu)建、模型構(gòu)建階段,能自適應(yīng)不同量級、不同時間跨度的數(shù)據(jù)集,以及短則一天、長則數(shù)月的預(yù)測周期。

說人話:上述動作旨在簡化用戶使用算法的步驟,在保證算法效果的前提下,盡可能適應(yīng)數(shù)據(jù)情況各不相同的企業(yè)。

2、算法應(yīng)當(dāng)穩(wěn)定產(chǎn)出優(yōu)于業(yè)務(wù)規(guī)則的效果。

穩(wěn)定產(chǎn)出比業(yè)務(wù)規(guī)則、人工經(jīng)驗更好的效果,是開發(fā)LTV算法的初衷。

在模型構(gòu)建過程中,算法團隊選用了常用的三個決策樹模型,并通過將測試集上的指標(biāo)效果對比排序來選擇模型。主要選擇指標(biāo)如下:

在進行目標(biāo)金額的誤差優(yōu)化時,往往會損失一定分類排序性能。但用戶(分析師、業(yè)務(wù)人員)在使用該標(biāo)簽時,通常直接將前排排序結(jié)果作為運營人群來進行觸達。因此算法會對比三個指標(biāo)的結(jié)果進行模型選擇,避免模型漂移。

基線的構(gòu)造方法如下:

基線構(gòu)造方法

算法相對基線,LTV算法在下列指標(biāo)上的提升如下:

*不同數(shù)據(jù)集的指標(biāo)結(jié)果相差較大,上表僅展示測試數(shù)據(jù)集的提升范圍。

目前,LTV算法已能夠快速、穩(wěn)定輸出優(yōu)于重復(fù)業(yè)務(wù)策略的結(jié)果。同時,它依然擁有很大的優(yōu)化潛力,可以針對數(shù)據(jù)集進行更多調(diào)整。(CDP提供標(biāo)準(zhǔn)的LTV算法預(yù)測標(biāo)簽,針對特定企業(yè)的優(yōu)化屬定制化開發(fā)項目。)

3、為優(yōu)化用戶體驗,在資源和時效上應(yīng)有保障。

完成開發(fā)并不是LTV算法的終點——能在企業(yè)生產(chǎn)環(huán)境中穩(wěn)定發(fā)揮的算法,才是業(yè)務(wù)需要的好算法。

在實際生產(chǎn)中,算法運行通常要長時間地占用大量資源,而LTV算法的結(jié)果顯式地展現(xiàn)為一個CDP標(biāo)簽,客戶會對其時間、資源有更嚴(yán)格的心理預(yù)期。

因此,算法團隊從以下3點優(yōu)化體驗:

· 進行算法資源隔離,確保算法能盡快申請到資源,并減少數(shù)據(jù)作業(yè)和算法作業(yè)互相影響而導(dǎo)致任務(wù)運行超載的情況。

· 拆分成若干個作業(yè)并配置Pipeline,為每個作業(yè)配置不同的參數(shù),以減少單個作業(yè)的資源占用量,以及整個算法任務(wù)對大型資源的占用時間,并支持階段性地輸出運行日志。

· 通過前期大量測試及結(jié)果回歸,為任務(wù)運行預(yù)估時間,并設(shè)置細致的數(shù)據(jù)校驗,提供報錯信息,以減少用戶在使用中的焦慮,也更易運維。

其中,前2點能力來自SimbaOS Kernel(數(shù)據(jù)云操作系統(tǒng)內(nèi)核,是DataSimba的核心)。

(三)解析:基于DataSimba,完成MLOps全鏈路

MLOps(Machine Learning Operations),是一種把ML(機器學(xué)習(xí))模型的部署管理與DevOps(軟件開發(fā)運維)相結(jié)合的實踐和方法論,目標(biāo)是實現(xiàn)并提升機器學(xué)習(xí)模型的可重復(fù)性、可擴展性和可維護性。

MLOps(的過程及相關(guān)工具)通常涵蓋模型開發(fā)和訓(xùn)練、模型部署、監(jiān)控和維護、自動化、版本控制和跟蹤等環(huán)節(jié),并支持團隊協(xié)作和知識共享。

說人話,就是改“手工小作坊煉丹”為“成熟的工業(yè)化制造工廠”,讓機器學(xué)習(xí)從研究及原型開發(fā),真正轉(zhuǎn)化為能滿足業(yè)務(wù)需求的實際應(yīng)用。

本文所介紹的LTV算法,從數(shù)據(jù)準(zhǔn)備、模型訓(xùn)練到發(fā)布,以及作為服務(wù)被調(diào)用,也就是MLOps的全鏈路,均在DataSimba上進行。

算法工程師昭游介紹,LTV算法預(yù)測標(biāo)簽在上線前進行了約500次測試,其中包括但不限于規(guī)則閾值、壓力測試、默認參數(shù)等等。得益于DataSimba的資源分配、版本管理、持續(xù)更新部署等能力,算法團隊在作業(yè)調(diào)試、Pipeline構(gòu)建及模型部署過程省去了不少煩惱,從而達成“代碼管理整潔”、“調(diào)整測試便捷”、“部署上線快捷”三大目標(biāo)。

抽象來看,DataSimba支持工程師完成MLOps的全鏈路如下圖所示:

基于DataSimba的MLOps流程

1、數(shù)據(jù)集成,通過離線任務(wù)將數(shù)據(jù)保存至研發(fā)模塊,并定期更新。DataSimba支持集成數(shù)據(jù)庫類型或文件格式的數(shù)據(jù)。在LTV算法的場景中,底層數(shù)據(jù)主要來自ClickHouse。

2、在研發(fā)模塊,進行作業(yè)開發(fā)。開發(fā)過程中的代碼版本、更新歷史記錄、運行日志等,一并存儲在DataSimba集成的Git倉庫中,進行統(tǒng)一的管理。

3、從Git倉庫中拉取最新的代碼,配置算法構(gòu)建任務(wù)流,以便持續(xù)集成與發(fā)布。

4、Pipeline在首次運行后,會生成模型文件,在模型中心進行注冊與管理。并在后續(xù)運維過程中,持續(xù)部署、更新模型文件。

5、調(diào)用鏡像和已注冊的模型進行服務(wù)配置。后續(xù)模型的版本更新會自動從模型中心拉取最新版本。

6、在服務(wù)中心,對平臺內(nèi)的所有服務(wù)進行統(tǒng)一管理及調(diào)用。

7、(實時)終端/業(yè)務(wù)系統(tǒng)只需訪問API,即可實時獲取當(dāng)前最新的模型預(yù)測結(jié)果;(離線)在Pipeline持續(xù)更新模型的過程中,輸出的預(yù)測結(jié)果也會反向存儲進數(shù)據(jù)庫,終端/業(yè)務(wù)系統(tǒng)可通過訪問數(shù)據(jù)庫來獲取離線的計算結(jié)果。

數(shù)據(jù)是AI的基礎(chǔ),算法依賴大量數(shù)據(jù)來訓(xùn)練模型,在生產(chǎn)環(huán)境中也需要處理數(shù)據(jù)來產(chǎn)出結(jié)果。如果算法工程師不需要從數(shù)據(jù)云平臺導(dǎo)出數(shù)據(jù)到其他工具,不需要把數(shù)據(jù)下載到本地開發(fā)再導(dǎo)回生產(chǎn)環(huán)境做部署,也不需要在多個開源工具中流轉(zhuǎn),算法生產(chǎn)全流程的安全性及便利性將大大提升。

因此,數(shù)據(jù)云平臺DataSimba不僅能完成“本職工作”(數(shù)據(jù)集成、研發(fā)、運維、治理、服務(wù)等),支持數(shù)據(jù)工程師搞定數(shù)據(jù)作業(yè),也能支持算法工程師完成MLOps全鏈路工作——提供經(jīng)清洗治理的數(shù)據(jù),以及數(shù)據(jù)管理、建模、持續(xù)部署、計算資源與存儲管理等全流程能力。

(四)提效:SimbaOSKernel加持,讓算法工程師專注算法

經(jīng)不嚴(yán)謹測算(消耗算法工程師3名),相較通過開源組件自建,或借助其他算法平臺工具,依托DataSimba的全流程耗時可縮短40%~78%。

據(jù)算法團隊介紹,一位沒有算法基礎(chǔ)的售前專家曾基于DataSimba創(chuàng)下1天內(nèi)做出算法demo的紀(jì)錄,“即便此前我們已經(jīng)對他做過2小時培訓(xùn),他對DataSimba各個模塊相對熟悉,但這個速度還是挺驚人的?!?

提效一方面得益于DataSimba具備一站式完成數(shù)據(jù)管理、建模、持續(xù)部署、計算資源與存儲管理等全流程的能力,為算法提供經(jīng)過治理的干凈數(shù)據(jù);

另一方面,則離不開SimbaOS Kernel(數(shù)據(jù)云操作系統(tǒng)內(nèi)核)的加持——“包攬”了安全管控、資源管理、任務(wù)調(diào)度等底層技術(shù)問題,把算法工程師從各種權(quán)限配置、數(shù)據(jù)對接、爭搶資源的“痛苦”中解放出來,更專注在算法本身。

*SimbaOS Kernel是DataSimba的核心層,將大數(shù)據(jù)領(lǐng)域的存儲、計算、服務(wù)、調(diào)度、安全、租戶等常用功能,抽象為一組標(biāo)準(zhǔn)對象模塊。用戶只需直接使用封裝好的對象的能力,無需關(guān)注復(fù)雜的底層體系。

舉2個例子:

1、不用搶,資源也有保障

依托SimbaOS Kernel和企業(yè)設(shè)定的資源調(diào)度規(guī)則,可以對算法作業(yè)配置資源及運行環(huán)境,確保算法能盡快申請到獨立的資源,從而確保算法與數(shù)據(jù)作業(yè)運行無沖突,資源不搶占。

同時,SimbaOS Kernel的任務(wù)域支持作業(yè)Pipeline構(gòu)建,可配置定時調(diào)度,擁有全套的任務(wù)失敗恢復(fù)和基線告警機制,保證算法任務(wù)的高效執(zhí)行。

2、全方位全鏈路守護安全

除了無需把數(shù)據(jù)導(dǎo)出平臺、規(guī)避因多工具流轉(zhuǎn)而帶來的安全風(fēng)險,SimbaOS Kernel更擁有一套完整的權(quán)限體系和數(shù)據(jù)安全策略,為上層的所有數(shù)據(jù)應(yīng)用(包括SimbaMetric、CDP、UBA等)統(tǒng)一解決用戶管理、身份認證、資源訪問權(quán)限等安全相關(guān)問題,例如:

· 精細化管控用戶權(quán)限,并通過項目劃分確保數(shù)據(jù)隔離,算法任務(wù)只對必要數(shù)據(jù)有訪問權(quán)限;

· 支持敏感數(shù)據(jù)自動識別、加密脫敏(如使用的數(shù)據(jù)表中涉及敏感數(shù)據(jù)),并可提供數(shù)據(jù)訪問、調(diào)用、開發(fā)處理等行為的審計記錄;

· 對業(yè)務(wù)數(shù)據(jù)、算法模型等數(shù)據(jù)資產(chǎn)提供異常操作行為識別、告警、防泄漏等安全保障。

目前,在DataSimba R4.9 LTS以上版本,均具備上述MLOps能力。同時,旗艦版套餐還包含專門為算法模型開發(fā)全生命周期管理提供的一站式平臺工具SimbaML(算法工廠),以及包括推薦引擎、復(fù)購預(yù)測、流失預(yù)警、銷量/銷售預(yù)測、GraphOneID圖計算等開箱即用的算法模型,幫助企業(yè)初步建立數(shù)據(jù)科學(xué)應(yīng)用能力。詳情可咨詢奇點云客戶經(jīng)理/技術(shù)顧問了解。

相關(guān)文章

人工智能企業(yè)

更多>>

人工智能產(chǎn)業(yè)

更多>>

人工智能技術(shù)

更多>>
AI云資訊(愛云資訊)立足人工智能科技,打造有深度、有前瞻、有影響力的泛科技媒體平臺。
合作QQ:1211461360微信號:icloudnews