精品国产18久久久久久,一个人在线观看的www,亚洲一区二区久久久,成人国内精品久久久久影院vr,最近免费中文字幕大全高清大全1

PaddleNLP 3.0重磅發(fā)布:開箱即用的產(chǎn)業(yè)級大語言模型開發(fā)利器

2024-08-09 10:30:05AI云資訊110709

大語言模型的快速發(fā)展對訓(xùn)練和推理技術(shù)帶來了更高的要求,基于飛槳框架3.0版本打造的PaddleNLP大語言模型套件,通過極致的全流程優(yōu)化,為開發(fā)者提供從組網(wǎng)開發(fā)、預(yù)訓(xùn)練、精調(diào)對齊、模型壓縮以及推理部署的一站式解決方案。

產(chǎn)品亮點(diǎn)

1. 大模型自動并行,千億模型訓(xùn)推全流程開箱即用

基于飛槳框架3.0版本,通過統(tǒng)一的分布式表示結(jié)合自動并行技術(shù),大幅簡化了組網(wǎng)開發(fā)的復(fù)雜性,分布式核心代碼量減少50%以上,全分布式策略支持的組網(wǎng)支持Llama 3.1 405B模型開箱即用,同時(shí)預(yù)置了80多個(gè)主流模型的訓(xùn)練-壓縮-推理的全流程方案,以滿足不同場景需求。

2. 大模型訓(xùn)推一體,提供產(chǎn)業(yè)級高性能精調(diào)與對齊方案

基于飛槳框架獨(dú)有的FlashMask高性能變長注意力掩碼計(jì)算機(jī)制,結(jié)合Zero Padding零填充數(shù)據(jù)流優(yōu)化技術(shù),可最大程度減少無效數(shù)據(jù)填充帶來計(jì)算資源浪費(fèi),顯著提升精調(diào)和對齊性能。以Llama 3.1 8B模型為例,相比LLaMA-Factory方案,性能提升了1.2倍,單機(jī)即可完成128K長文的SFT/DPO。借助飛槳訓(xùn)推一體特性,提供產(chǎn)業(yè)級的RLHF方案,PPO采樣可復(fù)用推理加速算子,訓(xùn)練吞吐提升達(dá)2.1倍。

3. 大模型多硬件適配,30余接口低成本適配實(shí)現(xiàn)軟硬協(xié)同優(yōu)化

基于飛槳插件式松耦合統(tǒng)一硬件適配方案(CustomDevice),僅需適配30余個(gè)接口,即可實(shí)現(xiàn)大模型的基礎(chǔ)適配,低成本完成訓(xùn)練-壓縮-推理全流程;PaddleNLP目前一站式支持英偉達(dá) GPU、昆侖芯 XPU、昇騰NPU、燧原 GCU 和海光 DCU 等多款芯片的大模型訓(xùn)練和推理,依托框架多種算子接入模式和自動并行調(diào)優(yōu)等技術(shù),便捷實(shí)現(xiàn)框架與芯片間軟硬協(xié)同的性能優(yōu)化。

歡迎開發(fā)者前往開源項(xiàng)目主頁直接體驗(yàn):

https://github.com/PaddlePaddle/PaddleNLP

亮點(diǎn)一:大模型自動并行,千億級模型訓(xùn)推全流程開箱即用1. 自動并行降低開發(fā)成本,80+模型開箱即用

本次PaddleNLP 3.0升級總計(jì)涵蓋了80+業(yè)界主流的開源大語言模型,參數(shù)量覆蓋從0.5B到405B不等,能夠靈活滿足各種場景下的用戶需求。借助飛槳3.0版本框架的最新特性,通過統(tǒng)一的分布式表示和自動并行技術(shù),大幅簡化了組網(wǎng)開發(fā)的復(fù)雜性。分布式核心代碼量減少50%以上,全分布式策略支持的組網(wǎng)使得Llama 3.1 405B的SFT與PEFT功能開箱即用。

動靜統(tǒng)一、自動并行

2. 訓(xùn)壓推全流程貫通,模型秒級保存與穩(wěn)定恢復(fù)

在PaddleNLP本次升級中重點(diǎn)強(qiáng)化大語言模型訓(xùn)練-壓縮-推理的全流程開發(fā)能力,基于飛槳框架3.0版本全新設(shè)計(jì)的一站式開發(fā)體驗(yàn),大幅降低學(xué)習(xí)和使用成本。

分布式訓(xùn)練:基于Fleet API實(shí)現(xiàn)了全并行策略支持的高性能組網(wǎng),覆蓋預(yù)訓(xùn)練、精調(diào)(SFT/PEFT)和對齊(RLHF/DPO)三個(gè)環(huán)節(jié)的主流算法,相比HuggingFace Transformers僅支持?jǐn)?shù)據(jù)并行的組網(wǎng)實(shí)現(xiàn),飛槳的組網(wǎng)原生支持張量并行和流水線并行,在低資源精調(diào)和長文訓(xùn)練場景中,具備更高的性能上限和可擴(kuò)展性;

模型壓縮:基于PaddleSlim提供的多種大語言模型Post Training Quantization技術(shù),提供WAC(權(quán)重/激活/緩存)靈活可配的量化能力,與Paddle Inference深度聯(lián)動,保障壓縮后的模型均能利用高性能低比特算子進(jìn)行推理。

推理部署:基于FastDeploy全場景部署工具,提供了面向服務(wù)器場景的高性能推理服務(wù),支持動態(tài)插入、流式輸出、多硬件部署等功能。

業(yè)界方案在不同并行策略和不同結(jié)點(diǎn)數(shù)量下模型保存的Checkpoint格式不統(tǒng)一,模型量化和推理部署使用時(shí)需引入復(fù)雜切分和合并過程,保存和恢復(fù)時(shí)間長。針對這一系列問題,PaddleNLP設(shè)計(jì)了Unified Checkpoint大模型存儲方案,突破了以下三個(gè)技術(shù)瓶頸:

統(tǒng)一模型存儲協(xié)議,在模型壓縮、動轉(zhuǎn)靜、推理部署等環(huán)節(jié)中無需引入額外的參數(shù)合并流程。

內(nèi)置參數(shù)自適應(yīng)切分與合并功能,恢復(fù)訓(xùn)練時(shí)并行策略或者結(jié)點(diǎn)數(shù)量變化時(shí)可自動完成切分與合并,精準(zhǔn)還原數(shù)據(jù)流狀態(tài)。

支持異步保存與快速恢復(fù),結(jié)合存儲參數(shù)多進(jìn)程均勻讀寫分配,實(shí)現(xiàn)秒級保存與比特穩(wěn)定快速恢復(fù)。

Unified Checkpoint模型參數(shù)存儲示例圖

亮點(diǎn)二:大模型訓(xùn)推一體,提供高性能產(chǎn)業(yè)級的精調(diào)與對齊解決方案1. 精調(diào)對齊性能極致優(yōu)化,支持128K長上下文訓(xùn)練

在精調(diào)和對齊訓(xùn)練中為業(yè)界普遍采用定長Padding策略解決數(shù)據(jù)長度不一的問題,該做法隨著數(shù)據(jù)集長度分布差異增大,無效的Padding計(jì)算也會同步增加,繼而導(dǎo)致訓(xùn)練時(shí)間增長。針對這一問題,飛槳框架獨(dú)有FlashMask高性能變長注意力掩碼計(jì)算結(jié)合PaddleNLP中Zero Padding零填充數(shù)據(jù)流優(yōu)化技術(shù),通過分組貪心的數(shù)據(jù)填充策略,可最大程度消除無效Padding的比例。

同時(shí),ZeroPadding+FlashMask稀疏計(jì)算的特性也大幅減少了顯存開銷,使精調(diào)訓(xùn)練代碼無縫從8K擴(kuò)展到128K的長文訓(xùn)練。

綜合上述優(yōu)化,相比LLaMA-Factory,PaddleNLP在SFT環(huán)節(jié)性能提升120%,DPO環(huán)節(jié)性能提升130%~240%,大幅降低了大模型精調(diào)和對齊環(huán)節(jié)所需的計(jì)算成本。

SFT/DPO訓(xùn)練有效吞吐性能對比

2. 訓(xùn)推一體框架特性加速RLHF訓(xùn)練效率

人類反饋強(qiáng)化學(xué)習(xí)(RLHF)通過不斷接收人類對于模型行為的直接評價(jià)或示例指導(dǎo),促使模型效果逐漸逼近人類預(yù)期的行為模式。然而,多樣化的樣本導(dǎo)致待對齊模型出現(xiàn)獎勵信號互斥和策略更新程度難以平衡的現(xiàn)象,進(jìn)而導(dǎo)致模型訓(xùn)練時(shí)波動幅度大且收斂速度慢,多模型生成和訓(xùn)練容易占用顯存大,訓(xùn)練速度慢。針對這一系列問題,PaddleNLP基于飛槳訓(xùn)推一體框架特性和多多種策略結(jié)合的來解決:

訓(xùn)推一體:依托飛槳框架訓(xùn)推一體特性,在Policy模型采樣生成復(fù)用推理高性能融合算子,使RLHF訓(xùn)練加速 2.1 倍。

顯存優(yōu)化:基于飛槳原生的張量并行/流水線并行能力,結(jié)合Offload訓(xùn)練模式控制顯存占用,單機(jī)即可完成訓(xùn)練百億級別PPO訓(xùn)練。

策略優(yōu)化:支持優(yōu)勢函數(shù)平滑、EMA參數(shù)策略,提升模型訓(xùn)練穩(wěn)定性。

綜合上述優(yōu)化,以LLaMA-7B模型為例,PaddleNLP的PPO訓(xùn)練性能達(dá)Beaver框架的3.2倍。

RLHF訓(xùn)練策略&RLHF PPO訓(xùn)練速度對比

亮點(diǎn)三:大模型多硬件適配,30余接口低成本適配實(shí)現(xiàn)軟硬協(xié)同優(yōu)化

基于飛槳框架3.0發(fā)布的大模型多硬件適配技術(shù),通過插件式軟硬件松耦合的分層設(shè)計(jì),可以低成本完成芯片的大模型基礎(chǔ)適配和軟硬協(xié)同優(yōu)化,其具備以下特點(diǎn):

硬件適配簡捷高效:不同硬件僅需適配30余接口,即可全面支持大模型訓(xùn)壓推。

基礎(chǔ)算子體系完備:通過基礎(chǔ)算子體系,減少硬件適配所需開發(fā)的算子數(shù)量。

大模型性能極致優(yōu)化:支持算子融合、顯存復(fù)用等方式實(shí)現(xiàn)高效算子流水編排,極致顯存復(fù)用優(yōu)化。

硬件編譯接入自動優(yōu)化:支持通過神經(jīng)網(wǎng)絡(luò)編譯器代碼后端 CodeGen 的方式接入,實(shí)現(xiàn)多硬件后端的算子生成與性能優(yōu)化。

PaddleNLP目前一站式支持英偉達(dá) GPU、昆侖芯 XPU、昇騰 NPU、燧原 GCU 和海光 DCU 等多款芯片的大模型訓(xùn)練和推理,依托框架多種算子接入和適配模式,以及自動并行調(diào)優(yōu)等技術(shù),便捷實(shí)現(xiàn)框架與芯片軟硬協(xié)同的性能優(yōu)化。

飛槳大模型多硬件適配

當(dāng)前PaddleNLP 3.0在支持英特爾CPU和英偉達(dá)GPU的硬件基礎(chǔ)上,針對Llama類模型結(jié)構(gòu)已適配了昆侖芯XPU、昇騰NPU、海光DCU以及燧原GCU等國產(chǎn)硬件的訓(xùn)練和推理,只需要一行代碼即可輕松切換硬件,歡迎與生態(tài)伙伴一起共建更多開源大模型的多硬件支持!


精彩課程預(yù)告

為了幫助您迅速且深入地了解PaddleNLP 3.0,并熟練掌握實(shí)際操作技巧,百度高級研發(fā)工程師將在8月15日(周四)19:00,為您詳細(xì)解讀從組網(wǎng)開發(fā)、預(yù)訓(xùn)練、精調(diào)對齊、模型壓縮以及推理部署的一站式解決方案。

相關(guān)文章

人工智能企業(yè)

更多>>

人工智能硬件

更多>>

人工智能產(chǎn)業(yè)

更多>>

人工智能技術(shù)

更多>>
AI云資訊(愛云資訊)立足人工智能科技,打造有深度、有前瞻、有影響力的泛科技媒體平臺。
合作QQ:1211461360微信號:icloudnews