騰訊混元文生圖開源模型上線三款ControlNet插件,讓創(chuàng)作更自由
2024-08-15 15:51:00AI云資訊148523
8月15日,騰訊混元文生圖開源大模型(開源項(xiàng)目名稱為“HunyuanDiT”,以下簡(jiǎn)稱為“混元DiT”)聯(lián)合社區(qū)發(fā)布了最新的三款可控制插件ControlNet,包括tile(高清放大)、inpainting(圖像修復(fù)與擴(kuò)充)、lineart(線稿生圖)等不同類型,與此前官方插件一同形成混元DiT的ControlNet矩陣,組合使用可以覆蓋包括美術(shù)、創(chuàng)意、建筑、攝影、美妝、電商等80%案例和場(chǎng)景。
這意味著,全球的企業(yè)與個(gè)人開發(fā)者、創(chuàng)作者們,都可以基于豐富混元DiT模型的ControlNet生態(tài)更加精準(zhǔn)地生成圖片,創(chuàng)造更具個(gè)性化的專屬模型,進(jìn)行更大自由度的創(chuàng)作。
騰訊混元DiTControlNet矩陣,實(shí)現(xiàn)多樣化場(chǎng)景創(chuàng)作
AI生圖領(lǐng)域的可控制插件ControlNet是一種應(yīng)用于文生圖領(lǐng)域的可控化生成算法,它允許用戶通過(guò)添加額外條件來(lái)更好地控制圖像的生成。
Tile(高清放大)可以為畫面擴(kuò)充信息,用于增加細(xì)節(jié)輔助超清放大,將畫面清晰度變成4K甚至8K,連毛發(fā)都清晰可見(jiàn),非常適合對(duì)于圖片有極致細(xì)節(jié)追求的場(chǎng)景使用。
使用tile模型將人物寫真畫面放大八倍
適當(dāng)調(diào)整使用方法的情況下,tile插件也可以對(duì)畫面進(jìn)行其他操作,比如通過(guò)如衰減權(quán)重后把下面圖中的真人寫真變成一個(gè)可愛(ài)的動(dòng)漫人物。
Inpainting(圖像修復(fù)與擴(kuò)充)插件的能力類似于部分圖像處理軟件的AI涂抹重繪、AI擴(kuò)圖,該能力可以將圖片中被涂抹和斑駁褪色的部分,根據(jù)創(chuàng)作者的需要進(jìn)行填充。通過(guò)該插件可以實(shí)現(xiàn)圖片背景、人物主體改變、局部修改畫面等需求,能處理高達(dá)70%面積涂抹重繪。
通過(guò)騰訊混元DiT Inpainting插件改變圖片背景
通過(guò)騰訊混元DiT Inpainting插件實(shí)現(xiàn)多點(diǎn)重繪,將原來(lái)的深色貓咪改變?yōu)辄S色貓咪,并保持四肢和臉部毛發(fā)的一致性
通過(guò)騰訊混元DiT Inpainting插件實(shí)現(xiàn)局部細(xì)節(jié)修改,將原來(lái)的睜眼的人物變成閉眼
通過(guò)騰訊混元DiT Inpainting插件實(shí)現(xiàn)擴(kuò)圖
Lineart(線稿生圖)則可參考各種不同類型線條,創(chuàng)作真人、動(dòng)漫和建筑圖片,既可用戶建筑行業(yè)效果圖的生成,也可以給手稿上色作為創(chuàng)作參考。
Lineart插件可以接受由原有混元DiT插件canny提取的線稿,也能兼容預(yù)處理模型 anyline輸出的線稿,根據(jù)線稿生成精致的場(chǎng)景。
在建筑設(shè)計(jì)場(chǎng)景下,用lineart生成建筑設(shè)計(jì)效果圖后,還能搭配inpainting模型更換內(nèi)容、調(diào)整材質(zhì),最后使用tile模型放大輸出最終效果圖。在動(dòng)漫創(chuàng)作場(chǎng)景下,將原有動(dòng)漫圖片稍加反色處理輸入給模型,就能通過(guò)提示詞為角色上色。
使用騰訊混元DiT lineart插件生成建筑設(shè)計(jì)效果圖
使用騰訊混元DiT lineart插件給動(dòng)漫手稿上色
此前,騰訊混元DiT官方發(fā)布了能提取與應(yīng)用圖像的canny(邊緣)、depth(深度)、pose(人體姿勢(shì))等條件的三個(gè)首發(fā)ControlNet模型,開發(fā)者可直接使用其進(jìn)行推理。該三個(gè)ControlNet插件能實(shí)現(xiàn)通過(guò)線稿生成全彩圖、生成具有同樣深度結(jié)構(gòu)的圖、生成具有同樣姿態(tài)的人等能力。同時(shí),混元DiT也開源了ControlNet的訓(xùn)練方案,開發(fā)者與創(chuàng)作者可以訓(xùn)練自定義的ControlNet模型。
騰訊混元DiT官方上線的三個(gè)ControlNet插件效果演示
本次騰訊混元DiT新增的三款可控制插件ControlNet由混元DiT聯(lián)合社區(qū)模型制作者調(diào)參訓(xùn)練,選取了創(chuàng)作者最為常用的場(chǎng)景方向進(jìn)行制作。
三款ControlNet模型的加入,將擴(kuò)充混元DiT已有的ControlNet插件矩陣,并可互相組合搭配進(jìn)行創(chuàng)作。隨著騰訊混元DiT ControlNet生態(tài)的完善,并在ComfyUI等多種工具支持下,混元DiT模型的繪圖質(zhì)量、多樣性和可靠性大大提高,將更能激發(fā)使用者的創(chuàng)意,產(chǎn)出更多優(yōu)秀視覺(jué)作品。
眾多開發(fā)者關(guān)注,成最受歡迎國(guó)產(chǎn)DiT開源模型
今年5月,騰訊混元文生圖大模型宣布全面升級(jí)并對(duì)外開源,可供企業(yè)與個(gè)人開發(fā)者免費(fèi)商用。這是業(yè)內(nèi)首個(gè)中文原生的DiT架構(gòu)文生圖開源模型,支持中英文雙語(yǔ)輸入及理解。
作為首個(gè)中文原生DiT開源模型,混元DiT自全面開源以來(lái),一直持續(xù)建設(shè)開發(fā)者生態(tài)。
6月,混元DiT發(fā)布的專屬加速庫(kù),可將推理效率進(jìn)一步提升,生圖時(shí)間縮短75%;并進(jìn)一步開源了推理代碼;發(fā)布LoRA和ControlNet等插件。
與此同時(shí),模型易用性大幅提升,用戶可以通過(guò)Hugging Face Diffusers快速調(diào)用混元DiT模型及其插件,或基于Kohya和ComfyUI等圖形化界面訓(xùn)練與使用混元DiT。
7月4日,騰訊混元文生圖大模型(混元DiT)升級(jí)至1.2版本并宣布開源小顯存版本,僅需6G顯存即可運(yùn)行,對(duì)使用個(gè)人電腦本地部署的開發(fā)者十分友好;并新增對(duì)Kohya圖形化界面的支持,讓開發(fā)者可以低門檻地訓(xùn)練LoRA模型。
目前,在眾多開發(fā)者的支持下,混元DiT發(fā)布僅3個(gè)月,Github Star數(shù)已經(jīng)超過(guò)3.1k,成為最受歡迎的國(guó)產(chǎn)DiT開源模型。
相關(guān)文章
- 騰訊湯道生:打造智能化、全球化雙引擎,助力企業(yè)穩(wěn)增長(zhǎng)
- 2025騰訊全球數(shù)字生態(tài)大會(huì)定檔9月16日 萬(wàn)興科技擬出席騰訊云國(guó)際出海峰會(huì)
- 騰訊優(yōu)圖攜Youtu-Agent開源項(xiàng)目亮相上海創(chuàng)智學(xué)院首屆TechFest大會(huì)
- 騰訊音樂(lè)TMEA 盛典:以音樂(lè)共鳴鏈接生活,讓中國(guó)聲音走向世界
- 騰訊地圖即將發(fā)布AI新品,解鎖“AI+時(shí)空智能”產(chǎn)業(yè)新路徑
- 騰訊正式開源Youtu-GraphRAG,圖檢索增強(qiáng)技術(shù)迎來(lái)落地新突破
- 云原生應(yīng)用保護(hù)能力獲認(rèn)可!騰訊云再次入選權(quán)威研報(bào)代表廠商
- 騰訊云論文入選數(shù)據(jù)庫(kù)頂會(huì)VLDB 2025,REDSQL技術(shù)攻克NL2SQL難點(diǎn)
- 騰訊跨端開發(fā)框架Kuikly全面適配鴻蒙5并開源,助力應(yīng)用開發(fā)降本增效
- IDC MarketScape:騰訊云位居國(guó)內(nèi)生成式AI數(shù)據(jù)基礎(chǔ)設(shè)施“領(lǐng)導(dǎo)者”象限
- 騰訊Youtu-Agent開源!像聊天一樣生成Agent
- AI時(shí)代,架構(gòu)師如何破局成長(zhǎng)?騰訊云架構(gòu)師技術(shù)沙龍圓滿收官
- 騰訊會(huì)議打通騰訊元寶,“AI紀(jì)要”實(shí)現(xiàn)開會(huì)邊開邊總結(jié)
- 連續(xù)三年參展!騰訊游戲安全亮相Gamescom 2025并與韓國(guó)知名游戲廠商達(dá)成合作
- 海亮科技x騰訊教育 聯(lián)合亮相全球盛會(huì)!
- 騰訊云與全球手游巨頭Voodoo達(dá)成合作,共助小游戲品質(zhì)升級(jí)
人工智能企業(yè)
更多>>人工智能硬件
更多>>- 中科天璣支持CCF BigData 2025“數(shù)據(jù)智能計(jì)算”論壇圓滿召開——攜產(chǎn)界實(shí)踐洞見(jiàn)共探智能時(shí)代數(shù)據(jù)支撐新路徑
- 百年傳奇煥新:讓“RCA之聲”傳遍中國(guó)
- 在胡同與北海間流轉(zhuǎn)的光影 佳能EOS R50 V秋日氛圍感體驗(yàn)
- 一直戴,一直拍!魅族AI拍攝眼鏡StarV Snap發(fā)布
- “盎銳科技杯”2025建筑機(jī)器人技能大賽在滬啟動(dòng),助推智能建造實(shí)戰(zhàn)人才培養(yǎng)
- 國(guó)產(chǎn)芯開行業(yè)新局,至像Z35國(guó)產(chǎn)芯系列新品打印機(jī)賦能中國(guó)打印
- 神眸榮獲快手“品牌標(biāo)桿獎(jiǎng)”,以芯片級(jí)創(chuàng)新躋身行業(yè)前列
- AMD 推出 EPYC? 嵌入式 4005 處理器,助力低時(shí)延邊緣應(yīng)用
人工智能產(chǎn)業(yè)
更多>>- 騰訊啟動(dòng)AI應(yīng)用繁榮計(jì)劃,新一期AI共創(chuàng)營(yíng)報(bào)名企業(yè)超300家
- 首都機(jī)場(chǎng)“AI繪空港”大賽完美收官,卓特視覺(jué)以技術(shù)賦能創(chuàng)意未來(lái)
- 打造張江人工智能創(chuàng)新小鎮(zhèn),全國(guó)首個(gè)人工智能創(chuàng)新應(yīng)用先導(dǎo)區(qū)再添發(fā)展新引擎
- 人機(jī)共生 · 智啟未來(lái)——2025高交會(huì)亞洲人工智能與機(jī)器人產(chǎn)業(yè)鏈展主題發(fā)布
- 北京數(shù)基建發(fā)布“知行IntAct”混合智能體產(chǎn)品,以AI定義城市治理新范式
- 新時(shí)達(dá)“精耕小腦”,與大腦協(xié)同,加速具身智能垂直落地
- 亞洲愿景論壇 東軟蓋龍佳談AI與數(shù)據(jù)價(jià)值化重構(gòu)醫(yī)療未來(lái)
- 破解AI落地難題!北大這場(chǎng)特訓(xùn)營(yíng),為企業(yè)找到轉(zhuǎn)型“最優(yōu)解”
人工智能技術(shù)
更多>>- 外灘大會(huì)首發(fā)! 螞蟻密算推出AI密態(tài)升級(jí)卡 實(shí)現(xiàn)零改動(dòng)“即插即用”
- 騰訊優(yōu)圖攜Youtu-Agent開源項(xiàng)目亮相上海創(chuàng)智學(xué)院首屆TechFest大會(huì)
- 2025外灘大會(huì):王堅(jiān)暢談AI變革,普天科技錨定空天算力新賽道
- 騰訊正式開源Youtu-GraphRAG,圖檢索增強(qiáng)技術(shù)迎來(lái)落地新突破
- 聲網(wǎng)兄弟公司 Agora與OpenAI 攜手 助力多模態(tài) AI 智能體實(shí)現(xiàn)實(shí)時(shí)交互
- Qwen-Image-Edit 模型上線基石智算,圖像編輯更精準(zhǔn)
- 火山引擎多模態(tài)數(shù)據(jù)湖落地深勢(shì)科技,提升科研數(shù)據(jù)處理效能
- 斑馬AI大模型:為每個(gè)孩子提供專屬學(xué)習(xí)方案