什么是MLOps?為什么要使用MLOps進(jìn)行機(jī)器學(xué)習(xí)實踐
2023-06-25 10:59:03AI云資訊1630
隨著數(shù)字化和計算能力的發(fā)展,機(jī)器學(xué)習(xí)(Machine Learning)技術(shù)在提高企業(yè)生產(chǎn)力方面所涌現(xiàn)的潛力越來越被大家所重視,然而很多機(jī)器學(xué)習(xí)的模型及應(yīng)用在實際的生產(chǎn)環(huán)境并未達(dá)到預(yù)期,大量的ML項目被證明是失敗的。從機(jī)器學(xué)習(xí)的發(fā)展歷程來看,早期ML社區(qū)廣泛關(guān)注的是ML模型的構(gòu)建,確保模型能在預(yù)定義的測試數(shù)據(jù)集上取得較好的表現(xiàn),但對于如何讓模型從實驗室走向用戶的桌面,并未大家所關(guān)注。
機(jī)器學(xué)習(xí)的生命周期涉及眾多的流程,如數(shù)據(jù)的獲取、數(shù)據(jù)準(zhǔn)備、模型訓(xùn)練、模型的調(diào)整、模型的部署、模型監(jiān)控、模型的可解釋性等,不同的流程涉及不同的流程工具和人員,需要跨團(tuán)隊的協(xié)作和交接,從數(shù)據(jù)工程到數(shù)據(jù)科學(xué)再到ML工程。在此背景下,如何保障生產(chǎn)中以下諸多目標(biāo)是我們亟待解決的。譬如實現(xiàn)更快的模型開發(fā)、交付更高質(zhì)量的 ML 模型以及更快的部署和生產(chǎn);同時監(jiān)督、控制、管理和監(jiān)視數(shù)千個模型,以實現(xiàn)持續(xù)集成、持續(xù)交付和持續(xù)部署;加強(qiáng)對模型的監(jiān)管審查,提高模型透明度,確保更好地遵守組織或行業(yè)的政策。
尤其是LLM模型時代,伴隨著AGI的到來,機(jī)器學(xué)習(xí)模型的規(guī)模和復(fù)雜性也在不斷增加。這意味著將這些模型部署到生產(chǎn)環(huán)境的難度也在上升,需要更加專業(yè)化的工具和方法來管理和監(jiān)控。
MLOps(Machine Learning Operations)是一種將機(jī)器學(xué)習(xí)(ML)模型整合到生產(chǎn)環(huán)境中的實踐,目的是確保模型在生產(chǎn)過程中的有效性和可靠性。通過采用 MLOps 方法,數(shù)據(jù)科學(xué)家和機(jī)器學(xué)習(xí)工程師可以協(xié)作并加快模型開發(fā)和生產(chǎn)的步伐,方法是實施持續(xù)集成和部署 (CI/CD) 實踐,并對 ML 模型進(jìn)行適當(dāng)?shù)谋O(jiān)控、驗證和治理。使得機(jī)器學(xué)習(xí)模型從實驗室走向生產(chǎn)環(huán)境,加速了機(jī)器學(xué)習(xí)的落地和商業(yè)化。
MLOps 是一組特定于機(jī)器學(xué)習(xí)項目的工程實踐,借鑒了軟件工程中更廣泛采用的 DevOps 原則。 DevOps 為交付應(yīng)用程序帶來了一種快速、持續(xù)迭代的方法,而 MLOps 則借用了相同的原則將機(jī)器學(xué)習(xí)模型投入生產(chǎn)。 在這兩種情況下,結(jié)果都是更高的軟件質(zhì)量、更快的補(bǔ)丁和發(fā)布以及更高的客戶滿意度。
MLOps 和 DevOps 都是旨在簡化和自動化軟件應(yīng)用程序開發(fā)和部署的方法。 DevOps 專注于一般軟件開發(fā)流程和 IT 運(yùn)營,但 MLOps 專門針對機(jī)器學(xué)習(xí)應(yīng)用程序的獨(dú)特挑戰(zhàn)和復(fù)雜性。 但這兩種方法都旨在提高軟件應(yīng)用程序開發(fā)、部署和管理中的協(xié)作、自動化和效率。
數(shù)據(jù)準(zhǔn)備和特征工程 - 通過創(chuàng)建可重現(xiàn)、可編輯和可共享的數(shù)據(jù)集、表格和可視化,為機(jī)器學(xué)習(xí)生命周期迭代探索、共享和準(zhǔn)備數(shù)據(jù)。迭代地轉(zhuǎn)換、聚合和刪除重復(fù)數(shù)據(jù)以創(chuàng)建改進(jìn)的特征。 重要的是,利用特征存儲,使特征在數(shù)據(jù)團(tuán)隊之間可見和共享。
模型訓(xùn)練和調(diào)優(yōu) - 使用流行的開源庫來訓(xùn)練和提高模型性能。 作為一種更簡單的替代方法,使用自動化機(jī)器學(xué)習(xí)工具(例如 AutoML)自動執(zhí)行試運(yùn)行并創(chuàng)建可審查和可部署的代碼。
模型管理 - 跟蹤模型沿襲、模型版本,并管理模型工件和整個生命周期的轉(zhuǎn)換。 借助 MLflow 等開源 MLOps 平臺,跨 ML 模型發(fā)現(xiàn)、共享和協(xié)作。
模型推理和服務(wù) - 管理模型刷新頻率、推理請求時間以及測試和 QA 中的類似生產(chǎn)細(xì)節(jié)。 使用 repos 和 orchestrators(借用 devops 原則)等 CI/CD 工具來自動化預(yù)生產(chǎn)管道。
模型部署和監(jiān)控 - 自動化權(quán)限和集群創(chuàng)建以生產(chǎn)注冊模型。 啟用 REST API 模型端點(diǎn)。
自動模型重訓(xùn)練 - 收集模型監(jiān)控的指標(biāo)信息針對性對模型進(jìn)行重新訓(xùn)練
MLOps(機(jī)器學(xué)習(xí)運(yùn)維)是一種方法,旨在加速機(jī)器學(xué)習(xí)應(yīng)用程序的開發(fā)、部署和維護(hù)。為了實現(xiàn)這一目標(biāo),MLOps使用了許多基礎(chǔ)設(shè)施和工具。
數(shù)據(jù)管道管理:用于整理、清洗和轉(zhuǎn)換數(shù)據(jù)的工具,如 Apache NiFi, Luigi 和 Apache Airflow。
版本控制:用于跟蹤代碼、數(shù)據(jù)和模型變化的工具,如 Git, DVC (Data Version Control) 和 MLflow。
模型訓(xùn)練:用于在多種硬件環(huán)境下訓(xùn)練模型的工具和平臺,如 TensorFlow, PyTorch, Keras 和 Apache MXNet。
模型驗證和測試:用于評估模型性能和準(zhǔn)確性的工具,如 TensorFlow Extended (TFX) 和 MLflow。
模型部署:用于將模型部署到生產(chǎn)環(huán)境的工具和平臺,如 TensorFlow Serving, NVIDIA Triton Inference Server, AWS SageMaker 和 Microsoft Azure Machine Learning。
模型監(jiān)控:用于實時跟蹤模型性能和健康狀況的工具,如 Grafana, Prometheus 和 ELK Stack (Elasticsearch, Logstash, Kibana)。
自動化和持續(xù)集成/持續(xù)部署(CI/CD):用于自動化機(jī)器學(xué)習(xí)工作流程的工具,如 Jenkins, GitLab CI/CD 和 GitHub Actions。
容器化和編排:用于簡化部署和管理的容器技術(shù),如 Docker 和 Kubernetes。
云服務(wù)提供商:提供各種機(jī)器學(xué)習(xí)服務(wù)和基礎(chǔ)設(shè)施的云平臺,如 Amazon Web Services (AWS), Microsoft Azure 和 Google Cloud Platform (GCP)。
這些基礎(chǔ)設(shè)施和工具的目標(biāo)是幫助數(shù)據(jù)科學(xué)家、機(jī)器學(xué)習(xí)工程師和運(yùn)維團(tuán)隊更有效地協(xié)作,以便更快地開發(fā)、部署和維護(hù)機(jī)器學(xué)習(xí)應(yīng)用程序。
Starwhale是一個服務(wù)于模型訓(xùn)練師和機(jī)器學(xué)習(xí)研發(fā)人員的開源MLOps平臺,可以非常容易的構(gòu)建、部署和維護(hù)ML系統(tǒng),提高AI從業(yè)者、團(tuán)隊和企業(yè)的合作和工作效率,
Starwhale 從模型評估開始 MLOps 之旅,模型評估在機(jī)器學(xué)習(xí)中起著重要作用。模型評估量化了模型在測試數(shù)據(jù)集上的性能。評估指標(biāo)有助于數(shù)據(jù)科學(xué)家了解機(jī)器學(xué)習(xí)模型的性能。因此,模型的弱點(diǎn)和優(yōu)點(diǎn)是眾所周知的。通過比較模型的指標(biāo),可以選擇并發(fā)布表現(xiàn)最佳的模型。
Starwhale支持多種類型的模型評估,評測結(jié)果可視化,簡化模型評估過程。
1、多評估結(jié)果并行對比,提示指標(biāo)變化情況,輔助模型調(diào)優(yōu)。
2、可視化的評估結(jié)果,支持自定義圖標(biāo)可視化展示評測結(jié)果
3、Starwhale擁有組件化的可視化工具,支持嵌入頁面,滿足多種模型評測場景的需求。
4、搜索和篩選直觀易用,同時支持SQL式高級搜索,符合研發(fā)人員習(xí)慣,提升搜索體驗。
Starwhale的數(shù)據(jù)集管理功能十分強(qiáng)大,支持多種格式數(shù)據(jù)可視化和版本管理,關(guān)注數(shù)據(jù)理解和洞察,提升標(biāo)注效率。
1、主流視覺、音視頻、NLP等數(shù)據(jù)及標(biāo)注信息在線可視化
2、線性記錄數(shù)據(jù)集版本,支持自定義版本標(biāo)簽,支持版本回退。
3、通過SDK批量管理數(shù)據(jù)標(biāo)簽,提高標(biāo)注效率。
Starwhale關(guān)注模型迭代和調(diào)試過程管理,解決復(fù)現(xiàn)和追溯痛點(diǎn)。
1、靈活性:Starwhale 模型可以剝離冗余信息以獲得更小的包,支持與生產(chǎn)團(tuán)隊的協(xié)作,而無需顯示 python 推理代碼以避免危害。
2、評測結(jié)果可視化:通過組件化的可視化工具,更顯性的展示評測結(jié)果,便于理解和分析數(shù)據(jù)
3、版本差異可視化:支持不同版本模型對比,洞察代碼變化和影響,輔助調(diào)試。
4、在線預(yù)測快:用小批量數(shù)據(jù)驗證或調(diào)試模型,操作方便,效果直觀。
Starwhale關(guān)注模型開發(fā)和評測體驗,降低開發(fā)和調(diào)試門檻
支持一鍵將運(yùn)行時環(huán)境共享給他人使用,支持將運(yùn)行時環(huán)境保存為鏡像,方便分享和使用。
支持多種主流環(huán)境,關(guān)注模型開發(fā)和評測體驗,降低開發(fā)和調(diào)試門檻。
相關(guān)文章
- 智聚邊緣 創(chuàng)見未來丨貿(mào)澤電子2025技術(shù)創(chuàng)新論壇探討“邊緣AI與機(jī)器學(xué)習(xí)”新紀(jì)元
- 易達(dá)威與天津大學(xué)聯(lián)合舉辦第三屆軟件工程和機(jī)器學(xué)習(xí)國際會議
- SAS全球調(diào)研揭示:超70%企業(yè)看好量子AI在數(shù)據(jù)分析與機(jī)器學(xué)習(xí)中的應(yīng)用潛力
- 2025全球機(jī)器學(xué)習(xí)技術(shù)大會即將召開:匯聚全球AI頂尖專家,共話未來技術(shù)趨勢
- 微美全息構(gòu)筑區(qū)塊鏈新基石,引領(lǐng)全同態(tài)加密技術(shù)與機(jī)器學(xué)習(xí)深度融合
- JFrog 助力開發(fā)者實現(xiàn)安全AI之旅,與 DataBricks 的 MLflow 集成實現(xiàn)無縫機(jī)器學(xué)習(xí)生命周期
- 2024全球機(jī)器學(xué)習(xí)技術(shù)大會上海站圓滿閉幕,共奏AGI變革新時代
- 榮登京東工業(yè)類圖書榜首!《高通量多尺度材料計算和機(jī)器學(xué)習(xí)》開啟材料研發(fā)“快車道”
- 適應(yīng)快速變化的業(yè)務(wù)需求,人工智能/機(jī)器學(xué)習(xí)將為 DevOps 注入全新活力
- 為機(jī)器學(xué)習(xí)領(lǐng)域帶來創(chuàng)新突破,微美全息將多級相關(guān)學(xué)習(xí)技術(shù)運(yùn)用于多視圖無監(jiān)督特征選擇
- ManageEngine卓豪|利用機(jī)器學(xué)習(xí)和AI優(yōu)化自助服務(wù)的5種方式
- 微美全息利用機(jī)器學(xué)習(xí)的智能推薦技術(shù),開發(fā)多模態(tài)融合推薦系統(tǒng)
- 快速玩轉(zhuǎn) Llama2!阿里云機(jī)器學(xué)習(xí) PAI 推出最佳實踐
- 引領(lǐng)高質(zhì)量圖像處理的創(chuàng)新發(fā)展,微美全息研發(fā)機(jī)器學(xué)習(xí)的多焦點(diǎn)圖像融合技術(shù)
- 九章云極DataCanvas公司7次蟬聯(lián)中國機(jī)器學(xué)習(xí)平臺市場三甲
- 人工智能加速落地賦能千行百業(yè),微美全息賦能AI+機(jī)器學(xué)習(xí)算法迎來空前發(fā)展機(jī)會
人工智能企業(yè)
更多>>人工智能硬件
更多>>- 中科天璣支持CCF BigData 2025“數(shù)據(jù)智能計算”論壇圓滿召開——攜產(chǎn)界實踐洞見共探智能時代數(shù)據(jù)支撐新路徑
- 百年傳奇煥新:讓“RCA之聲”傳遍中國
- 在胡同與北海間流轉(zhuǎn)的光影 佳能EOS R50 V秋日氛圍感體驗
- 一直戴,一直拍!魅族AI拍攝眼鏡StarV Snap發(fā)布
- “盎銳科技杯”2025建筑機(jī)器人技能大賽在滬啟動,助推智能建造實戰(zhàn)人才培養(yǎng)
- 國產(chǎn)芯開行業(yè)新局,至像Z35國產(chǎn)芯系列新品打印機(jī)賦能中國打印
- 神眸榮獲快手“品牌標(biāo)桿獎”,以芯片級創(chuàng)新躋身行業(yè)前列
- AMD 推出 EPYC? 嵌入式 4005 處理器,助力低時延邊緣應(yīng)用
人工智能產(chǎn)業(yè)
更多>>- 騰訊啟動AI應(yīng)用繁榮計劃,新一期AI共創(chuàng)營報名企業(yè)超300家
- 首都機(jī)場“AI繪空港”大賽完美收官,卓特視覺以技術(shù)賦能創(chuàng)意未來
- 打造張江人工智能創(chuàng)新小鎮(zhèn),全國首個人工智能創(chuàng)新應(yīng)用先導(dǎo)區(qū)再添發(fā)展新引擎
- 人機(jī)共生 · 智啟未來——2025高交會亞洲人工智能與機(jī)器人產(chǎn)業(yè)鏈展主題發(fā)布
- 北京數(shù)基建發(fā)布“知行IntAct”混合智能體產(chǎn)品,以AI定義城市治理新范式
- 新時達(dá)“精耕小腦”,與大腦協(xié)同,加速具身智能垂直落地
- 亞洲愿景論壇 東軟蓋龍佳談AI與數(shù)據(jù)價值化重構(gòu)醫(yī)療未來
- 破解AI落地難題!北大這場特訓(xùn)營,為企業(yè)找到轉(zhuǎn)型“最優(yōu)解”
人工智能技術(shù)
更多>>- 外灘大會首發(fā)! 螞蟻密算推出AI密態(tài)升級卡 實現(xiàn)零改動“即插即用”
- 騰訊優(yōu)圖攜Youtu-Agent開源項目亮相上海創(chuàng)智學(xué)院首屆TechFest大會
- 2025外灘大會:王堅暢談AI變革,普天科技錨定空天算力新賽道
- 騰訊正式開源Youtu-GraphRAG,圖檢索增強(qiáng)技術(shù)迎來落地新突破
- 聲網(wǎng)兄弟公司 Agora與OpenAI 攜手 助力多模態(tài) AI 智能體實現(xiàn)實時交互
- Qwen-Image-Edit 模型上線基石智算,圖像編輯更精準(zhǔn)
- 火山引擎多模態(tài)數(shù)據(jù)湖落地深勢科技,提升科研數(shù)據(jù)處理效能
- 斑馬AI大模型:為每個孩子提供專屬學(xué)習(xí)方案