真正滿足業(yè)務(wù)需要的算法!從LTV標(biāo)簽,淺談基于奇點云DataSimba的MLOps實踐
2023-11-08 16:05:45AI云資訊1396
今年8月,StartDT旗下GrowingIO分析云產(chǎn)品客戶數(shù)據(jù)平臺(CDP)正式上線了LTV預(yù)測標(biāo)簽。通過開箱即用的標(biāo)簽功能,分析師就能一鍵生成用戶價值的預(yù)測結(jié)果,用于用戶運營和價值分析。
LTV預(yù)測標(biāo)簽背后是怎樣的算法?
為什么LTV算法以標(biāo)簽形式產(chǎn)出結(jié)果,能做到又快又穩(wěn)?
企業(yè)在自建算法模型的過程中,還有哪些坑要規(guī)避?
本文以LTV算法為例,介紹基于奇點云數(shù)據(jù)云平臺DataSimba的MLOps實踐。
索引
1、背景:如何用算法讓LTV預(yù)測更簡單?
2、實踐:LTV算法從開發(fā)到上線的3個難點
3、解析:基于DataSimba,完成MLOps全鏈路
4、提效:SimbaOS Kernel加持,讓算法工程師專注算法
共4194字,閱讀時間約16分鐘。
(一)背景:如何用算法讓LTV預(yù)測更簡單?
LTV(Lifetime Value,生命周期價值)指用戶與一家公司/品牌建立關(guān)系的整個“生命周期”內(nèi)產(chǎn)生的價值,是企業(yè)市場營銷、客戶關(guān)系管理、用戶運營中的一項關(guān)鍵指標(biāo)。
通過分析、預(yù)測LTV,企業(yè)可以針對性地制定運營、營銷乃至定價策略,助企業(yè)更高效地達成業(yè)績目標(biāo)。
過去,當(dāng)營銷活動需要基于用戶LTV來制定策略時,有以下2種常見方案:
1、結(jié)合歷史數(shù)據(jù)和個人經(jīng)驗制定策略。
這種方案有一定的數(shù)據(jù)基礎(chǔ),但對業(yè)務(wù)指標(biāo)的總結(jié)、分析以及LTV的預(yù)測較為依賴“老法師”的經(jīng)驗,不確定性較高,且伴隨重復(fù)、長期、大量的數(shù)據(jù)分析,無法快速響應(yīng)業(yè)務(wù)的高頻需求,結(jié)合業(yè)務(wù)發(fā)展更新迭代。
2、使用開源框架自研LTV算法。
伴隨信息團隊的壯大和開源技術(shù)的成熟,有越來越多的企業(yè)開始自研算法,嘗試使用一些開源框架解決問題。但同時又不得不面對適配難、開發(fā)周期長、數(shù)據(jù)在多種工具之間流轉(zhuǎn)安全無保障、訓(xùn)練成本高、缺乏專家經(jīng)驗、效果不夠理想等問題,從開發(fā)到部署上線、在日常工作中高效使用,還存在鴻溝。
基于客戶需求調(diào)研,奇點云算法團隊和GrowingIO分析云產(chǎn)品團隊“一拍即合”,選擇開發(fā)LTV算法,并將它以“LTV預(yù)測標(biāo)簽”的形式嵌入到分析云客戶數(shù)據(jù)平臺(CDP)產(chǎn)品中。
LTV預(yù)測標(biāo)簽開箱即用,分析師只需要在CDP界面中選擇用戶表、事件表(核心轉(zhuǎn)化/營收事件),設(shè)置LTV預(yù)測目標(biāo),就可以一鍵運行算法模型全鏈路,生成預(yù)測結(jié)果。
這樣做的好處是,調(diào)用LTV算法不再需要依賴工程師,技術(shù)門檻大大降低,對業(yè)務(wù)響應(yīng)速度快、效率高,算法也能基于最新數(shù)據(jù)自動迭代優(yōu)化。
(二)實踐:LTV算法從開發(fā)到上線的3個難點
LTV算法本身是基于一套自學(xué)習(xí)算法流程進行的自動化建模,需要對用戶進行靈活的特征構(gòu)建,并采用多個內(nèi)置模型對比以避免模型結(jié)果漂移,幫助模型尋找用戶群體規(guī)律,提高預(yù)測準(zhǔn)確率。
考慮到LTV算法會在CDP產(chǎn)品中以“標(biāo)簽”形式被調(diào)用,除了算法本身的開發(fā)訓(xùn)練,算法團隊還需要確保在實際的生產(chǎn)環(huán)境中依舊表現(xiàn)良好,輸出既高效又穩(wěn)定。
拆解來看,具體有以下3個核心難點要克服:
1、用于處理的數(shù)據(jù)不標(biāo)準(zhǔn),配置不確定。
出于行業(yè)習(xí)慣、企業(yè)數(shù)據(jù)治理程度等原因,不同客戶的數(shù)據(jù)基礎(chǔ)往往存在較大差異。日常運營活動中,對于LTV的衡量方式也靈活多變。
因此,LTV算法選擇基于UEI模型的標(biāo)準(zhǔn)數(shù)據(jù)表構(gòu)建:
UEI(User用戶、Event事件、Item實體)是GrowingIO分析云產(chǎn)品核心的數(shù)據(jù)模型,把所有用戶行為、商品、門店等不同維度數(shù)據(jù)整合在一張表,以一個事件不同屬性的形式呈現(xiàn)在寬視圖中,以滿足不同的分析需求??蛻粼谑褂肅DP、UBA等產(chǎn)品時,基礎(chǔ)數(shù)據(jù)已按照用戶表、事件表、實體表構(gòu)建。LTV算法直接采用,即可快速得到結(jié)果。
進一步,通過選填字段提升算法效果;通過一些識別規(guī)則和再處理邏輯的設(shè)置,來幫助算法在預(yù)處理、特征工程、訓(xùn)練集構(gòu)建、模型構(gòu)建階段,能自適應(yīng)不同量級、不同時間跨度的數(shù)據(jù)集,以及短則一天、長則數(shù)月的預(yù)測周期。
說人話:上述動作旨在簡化用戶使用算法的步驟,在保證算法效果的前提下,盡可能適應(yīng)數(shù)據(jù)情況各不相同的企業(yè)。
2、算法應(yīng)當(dāng)穩(wěn)定產(chǎn)出優(yōu)于業(yè)務(wù)規(guī)則的效果。
穩(wěn)定產(chǎn)出比業(yè)務(wù)規(guī)則、人工經(jīng)驗更好的效果,是開發(fā)LTV算法的初衷。
在模型構(gòu)建過程中,算法團隊選用了常用的三個決策樹模型,并通過將測試集上的指標(biāo)效果對比排序來選擇模型。主要選擇指標(biāo)如下:
在進行目標(biāo)金額的誤差優(yōu)化時,往往會損失一定分類排序性能。但用戶(分析師、業(yè)務(wù)人員)在使用該標(biāo)簽時,通常直接將前排排序結(jié)果作為運營人群來進行觸達。因此算法會對比三個指標(biāo)的結(jié)果進行模型選擇,避免模型漂移。
基線的構(gòu)造方法如下:
基線構(gòu)造方法
算法相對基線,LTV算法在下列指標(biāo)上的提升如下:
*不同數(shù)據(jù)集的指標(biāo)結(jié)果相差較大,上表僅展示測試數(shù)據(jù)集的提升范圍。
目前,LTV算法已能夠快速、穩(wěn)定輸出優(yōu)于重復(fù)業(yè)務(wù)策略的結(jié)果。同時,它依然擁有很大的優(yōu)化潛力,可以針對數(shù)據(jù)集進行更多調(diào)整。(CDP提供標(biāo)準(zhǔn)的LTV算法預(yù)測標(biāo)簽,針對特定企業(yè)的優(yōu)化屬定制化開發(fā)項目。)
3、為優(yōu)化用戶體驗,在資源和時效上應(yīng)有保障。
完成開發(fā)并不是LTV算法的終點——能在企業(yè)生產(chǎn)環(huán)境中穩(wěn)定發(fā)揮的算法,才是業(yè)務(wù)需要的好算法。
在實際生產(chǎn)中,算法運行通常要長時間地占用大量資源,而LTV算法的結(jié)果顯式地展現(xiàn)為一個CDP標(biāo)簽,客戶會對其時間、資源有更嚴(yán)格的心理預(yù)期。
因此,算法團隊從以下3點優(yōu)化體驗:
· 進行算法資源隔離,確保算法能盡快申請到資源,并減少數(shù)據(jù)作業(yè)和算法作業(yè)互相影響而導(dǎo)致任務(wù)運行超載的情況。
· 拆分成若干個作業(yè)并配置Pipeline,為每個作業(yè)配置不同的參數(shù),以減少單個作業(yè)的資源占用量,以及整個算法任務(wù)對大型資源的占用時間,并支持階段性地輸出運行日志。
· 通過前期大量測試及結(jié)果回歸,為任務(wù)運行預(yù)估時間,并設(shè)置細致的數(shù)據(jù)校驗,提供報錯信息,以減少用戶在使用中的焦慮,也更易運維。
其中,前2點能力來自SimbaOS Kernel(數(shù)據(jù)云操作系統(tǒng)內(nèi)核,是DataSimba的核心)。
(三)解析:基于DataSimba,完成MLOps全鏈路
MLOps(Machine Learning Operations),是一種把ML(機器學(xué)習(xí))模型的部署管理與DevOps(軟件開發(fā)運維)相結(jié)合的實踐和方法論,目標(biāo)是實現(xiàn)并提升機器學(xué)習(xí)模型的可重復(fù)性、可擴展性和可維護性。
MLOps(的過程及相關(guān)工具)通常涵蓋模型開發(fā)和訓(xùn)練、模型部署、監(jiān)控和維護、自動化、版本控制和跟蹤等環(huán)節(jié),并支持團隊協(xié)作和知識共享。
說人話,就是改“手工小作坊煉丹”為“成熟的工業(yè)化制造工廠”,讓機器學(xué)習(xí)從研究及原型開發(fā),真正轉(zhuǎn)化為能滿足業(yè)務(wù)需求的實際應(yīng)用。
本文所介紹的LTV算法,從數(shù)據(jù)準(zhǔn)備、模型訓(xùn)練到發(fā)布,以及作為服務(wù)被調(diào)用,也就是MLOps的全鏈路,均在DataSimba上進行。
算法工程師昭游介紹,LTV算法預(yù)測標(biāo)簽在上線前進行了約500次測試,其中包括但不限于規(guī)則閾值、壓力測試、默認參數(shù)等等。得益于DataSimba的資源分配、版本管理、持續(xù)更新部署等能力,算法團隊在作業(yè)調(diào)試、Pipeline構(gòu)建及模型部署過程省去了不少煩惱,從而達成“代碼管理整潔”、“調(diào)整測試便捷”、“部署上線快捷”三大目標(biāo)。
抽象來看,DataSimba支持工程師完成MLOps的全鏈路如下圖所示:
基于DataSimba的MLOps流程
1、數(shù)據(jù)集成,通過離線任務(wù)將數(shù)據(jù)保存至研發(fā)模塊,并定期更新。DataSimba支持集成數(shù)據(jù)庫類型或文件格式的數(shù)據(jù)。在LTV算法的場景中,底層數(shù)據(jù)主要來自ClickHouse。
2、在研發(fā)模塊,進行作業(yè)開發(fā)。開發(fā)過程中的代碼版本、更新歷史記錄、運行日志等,一并存儲在DataSimba集成的Git倉庫中,進行統(tǒng)一的管理。
3、從Git倉庫中拉取最新的代碼,配置算法構(gòu)建任務(wù)流,以便持續(xù)集成與發(fā)布。
4、Pipeline在首次運行后,會生成模型文件,在模型中心進行注冊與管理。并在后續(xù)運維過程中,持續(xù)部署、更新模型文件。
5、調(diào)用鏡像和已注冊的模型進行服務(wù)配置。后續(xù)模型的版本更新會自動從模型中心拉取最新版本。
6、在服務(wù)中心,對平臺內(nèi)的所有服務(wù)進行統(tǒng)一管理及調(diào)用。
7、(實時)終端/業(yè)務(wù)系統(tǒng)只需訪問API,即可實時獲取當(dāng)前最新的模型預(yù)測結(jié)果;(離線)在Pipeline持續(xù)更新模型的過程中,輸出的預(yù)測結(jié)果也會反向存儲進數(shù)據(jù)庫,終端/業(yè)務(wù)系統(tǒng)可通過訪問數(shù)據(jù)庫來獲取離線的計算結(jié)果。
數(shù)據(jù)是AI的基礎(chǔ),算法依賴大量數(shù)據(jù)來訓(xùn)練模型,在生產(chǎn)環(huán)境中也需要處理數(shù)據(jù)來產(chǎn)出結(jié)果。如果算法工程師不需要從數(shù)據(jù)云平臺導(dǎo)出數(shù)據(jù)到其他工具,不需要把數(shù)據(jù)下載到本地開發(fā)再導(dǎo)回生產(chǎn)環(huán)境做部署,也不需要在多個開源工具中流轉(zhuǎn),算法生產(chǎn)全流程的安全性及便利性將大大提升。
因此,數(shù)據(jù)云平臺DataSimba不僅能完成“本職工作”(數(shù)據(jù)集成、研發(fā)、運維、治理、服務(wù)等),支持數(shù)據(jù)工程師搞定數(shù)據(jù)作業(yè),也能支持算法工程師完成MLOps全鏈路工作——提供經(jīng)清洗治理的數(shù)據(jù),以及數(shù)據(jù)管理、建模、持續(xù)部署、計算資源與存儲管理等全流程能力。
(四)提效:SimbaOSKernel加持,讓算法工程師專注算法
經(jīng)不嚴(yán)謹測算(消耗算法工程師3名),相較通過開源組件自建,或借助其他算法平臺工具,依托DataSimba的全流程耗時可縮短40%~78%。
據(jù)算法團隊介紹,一位沒有算法基礎(chǔ)的售前專家曾基于DataSimba創(chuàng)下1天內(nèi)做出算法demo的紀(jì)錄,“即便此前我們已經(jīng)對他做過2小時培訓(xùn),他對DataSimba各個模塊相對熟悉,但這個速度還是挺驚人的?!?
提效一方面得益于DataSimba具備一站式完成數(shù)據(jù)管理、建模、持續(xù)部署、計算資源與存儲管理等全流程的能力,為算法提供經(jīng)過治理的干凈數(shù)據(jù);
另一方面,則離不開SimbaOS Kernel(數(shù)據(jù)云操作系統(tǒng)內(nèi)核)的加持——“包攬”了安全管控、資源管理、任務(wù)調(diào)度等底層技術(shù)問題,把算法工程師從各種權(quán)限配置、數(shù)據(jù)對接、爭搶資源的“痛苦”中解放出來,更專注在算法本身。
*SimbaOS Kernel是DataSimba的核心層,將大數(shù)據(jù)領(lǐng)域的存儲、計算、服務(wù)、調(diào)度、安全、租戶等常用功能,抽象為一組標(biāo)準(zhǔn)對象模塊。用戶只需直接使用封裝好的對象的能力,無需關(guān)注復(fù)雜的底層體系。
舉2個例子:
1、不用搶,資源也有保障
依托SimbaOS Kernel和企業(yè)設(shè)定的資源調(diào)度規(guī)則,可以對算法作業(yè)配置資源及運行環(huán)境,確保算法能盡快申請到獨立的資源,從而確保算法與數(shù)據(jù)作業(yè)運行無沖突,資源不搶占。
同時,SimbaOS Kernel的任務(wù)域支持作業(yè)Pipeline構(gòu)建,可配置定時調(diào)度,擁有全套的任務(wù)失敗恢復(fù)和基線告警機制,保證算法任務(wù)的高效執(zhí)行。
2、全方位全鏈路守護安全
除了無需把數(shù)據(jù)導(dǎo)出平臺、規(guī)避因多工具流轉(zhuǎn)而帶來的安全風(fēng)險,SimbaOS Kernel更擁有一套完整的權(quán)限體系和數(shù)據(jù)安全策略,為上層的所有數(shù)據(jù)應(yīng)用(包括SimbaMetric、CDP、UBA等)統(tǒng)一解決用戶管理、身份認證、資源訪問權(quán)限等安全相關(guān)問題,例如:
· 精細化管控用戶權(quán)限,并通過項目劃分確保數(shù)據(jù)隔離,算法任務(wù)只對必要數(shù)據(jù)有訪問權(quán)限;
· 支持敏感數(shù)據(jù)自動識別、加密脫敏(如使用的數(shù)據(jù)表中涉及敏感數(shù)據(jù)),并可提供數(shù)據(jù)訪問、調(diào)用、開發(fā)處理等行為的審計記錄;
· 對業(yè)務(wù)數(shù)據(jù)、算法模型等數(shù)據(jù)資產(chǎn)提供異常操作行為識別、告警、防泄漏等安全保障。
目前,在DataSimba R4.9 LTS以上版本,均具備上述MLOps能力。同時,旗艦版套餐還包含專門為算法模型開發(fā)全生命周期管理提供的一站式平臺工具SimbaML(算法工廠),以及包括推薦引擎、復(fù)購預(yù)測、流失預(yù)警、銷量/銷售預(yù)測、GraphOneID圖計算等開箱即用的算法模型,幫助企業(yè)初步建立數(shù)據(jù)科學(xué)應(yīng)用能力。詳情可咨詢奇點云客戶經(jīng)理/技術(shù)顧問了解。
相關(guān)文章
- 真正滿足業(yè)務(wù)需要的算法!從LTV標(biāo)簽,淺談基于奇點云DataSimba的MLOps實踐
- 奇點云DataBlack支持全域數(shù)據(jù)安全,還有這些更新值得關(guān)注
- StartDT奇點云加入中國信通院“數(shù)據(jù)安全共同體計劃”
- 奇點云與GrowingIO并購重組,加速商業(yè)數(shù)據(jù)智能
- 奇點云聯(lián)合阿里云,發(fā)布綜合體數(shù)字化轉(zhuǎn)型與數(shù)據(jù)創(chuàng)新解決方案
- 杭州未來科技城 x 奇點云打造企業(yè)數(shù)據(jù)大腦,助力1.3萬家企業(yè)服務(wù)
- 奇點云亮相GMIC大會,集結(jié)4大頂尖“魔性”AI科技產(chǎn)品
- 浙江省、吉林省黨政代表團到訪奇點云,鼓勵自主創(chuàng)新創(chuàng)業(yè)
人工智能企業(yè)
更多>>- 形態(tài)再革新 三星Galaxy S25 Edge給出輕薄旗艦終極答案
- 從超薄曲面屏到全場景AI,傳音手機推動前沿科技落地新興市場
- 神眸BC22+全新上市,重新定義“真無線”智能安防
- 華為《AIDC機房參考設(shè)計白皮書》重磅發(fā)布,賦能AI算力基礎(chǔ)設(shè)施邁向新高度
- 億萬克R322A7+服務(wù)器上新,可靠性封神!
- 中科天璣支持CCF BigData 2025“數(shù)據(jù)智能計算”論壇圓滿召開——攜產(chǎn)界實踐洞見共探智能時代數(shù)據(jù)支撐新路徑
- 百年傳奇煥新:讓“RCA之聲”傳遍中國
- 在胡同與北海間流轉(zhuǎn)的光影 佳能EOS R50 V秋日氛圍感體驗
人工智能產(chǎn)業(yè)
更多>>- AIDC產(chǎn)業(yè)發(fā)展大會隆重召開,開啟AIDC新紀(jì)元
- 絢星破局AI落地困境,四大業(yè)務(wù)重構(gòu)企業(yè)智能生產(chǎn)力新范式
- 騰訊啟動AI應(yīng)用繁榮計劃,新一期AI共創(chuàng)營報名企業(yè)超300家
- 首都機場“AI繪空港”大賽完美收官,卓特視覺以技術(shù)賦能創(chuàng)意未來
- 打造張江人工智能創(chuàng)新小鎮(zhèn),全國首個人工智能創(chuàng)新應(yīng)用先導(dǎo)區(qū)再添發(fā)展新引擎
- 人機共生 · 智啟未來——2025高交會亞洲人工智能與機器人產(chǎn)業(yè)鏈展主題發(fā)布
- 北京數(shù)基建發(fā)布“知行IntAct”混合智能體產(chǎn)品,以AI定義城市治理新范式
- 新時達“精耕小腦”,與大腦協(xié)同,加速具身智能垂直落地
人工智能技術(shù)
更多>>- 騰訊開源框架 Kuikly 再升級!率先適配 “液態(tài)玻璃”,原生體驗更極致
- 外灘大會首發(fā)! 螞蟻密算推出AI密態(tài)升級卡 實現(xiàn)零改動“即插即用”
- 騰訊優(yōu)圖攜Youtu-Agent開源項目亮相上海創(chuàng)智學(xué)院首屆TechFest大會
- 2025外灘大會:王堅暢談AI變革,普天科技錨定空天算力新賽道
- 騰訊正式開源Youtu-GraphRAG,圖檢索增強技術(shù)迎來落地新突破
- 聲網(wǎng)兄弟公司 Agora與OpenAI 攜手 助力多模態(tài) AI 智能體實現(xiàn)實時交互
- Qwen-Image-Edit 模型上線基石智算,圖像編輯更精準(zhǔn)
- 火山引擎多模態(tài)數(shù)據(jù)湖落地深勢科技,提升科研數(shù)據(jù)處理效能