解碼「天工SkyMusic」,填補AI音樂領(lǐng)域技術(shù)空白
2024-04-12 16:21:33AI云資訊3279
這幾周,全球無不對AI音樂大模型那”以假亂真“的音樂創(chuàng)作能力感到驚奇不已,甚至有人認為“AI將革新音樂產(chǎn)業(yè)”。
而位居這場革新風暴中心的,正是昆侖萬維推出的國內(nèi)唯一公開可用的AI音樂生成大模型——「天工SkyMusic」。
自開啟邀測以來,「天工SkyMusic」已經(jīng)在互聯(lián)網(wǎng)上刷爆了存在感,成為網(wǎng)友們改編、二創(chuàng)音樂的新晉網(wǎng)紅神器。
遲遲等不到的“音樂ChatGPT”時刻
相信大家在體驗「天工SkyMusic」時,都會有一個疑問:隔壁AI視頻生成大模型都開始輔助創(chuàng)作了,為什么「天工SkyMusic」這類AI音樂生成大模型才才嶄露頭角?
原因在于構(gòu)建生成高質(zhì)量音樂的AI大模型,所面臨的復(fù)雜度遠超想象。
一方面是技術(shù)路線的選擇,AI音樂生成大模型有兩種主流技術(shù)路線,符號音樂生成和大模型音樂音頻生成。前者以MIDI為主要流派,其本身不包含音頻文件,而是記錄音樂演奏的指令,比如哪個音符被播放、音量是多少、音符持續(xù)的時間等,不能生成直接聽的音樂。
學術(shù)與產(chǎn)業(yè)界在符號派的AI音樂生成上投入了大量研究,但是始終效果不佳。
相反,深度學習大規(guī)模音頻數(shù)據(jù)則通過大模型端對端的方案,直接生成包含樂器、人聲、旋律等音樂元素的完整音頻作品。它需要模型具備極高的模擬精確度、大規(guī)模的高品質(zhì)音頻數(shù)據(jù)集、龐大的算力支撐……
這是一條預(yù)期效果更好,但是難度非常高的技術(shù)路徑,業(yè)內(nèi)只有很少玩家展開研究。
同時,鑒于歌聲在音樂審美中的核心地位,AI對人聲歌唱逼真模擬的研究也尤為關(guān)鍵。遺憾的是,受限于技術(shù)發(fā)展,以往AI音樂生成模型更關(guān)注無人聲演唱的背景音樂(Background Music,BGM)領(lǐng)域,而非包含人聲演唱的Song領(lǐng)域,因此行業(yè)內(nèi)缺乏有效的解決方案。
因此在AI音樂生成領(lǐng)域,無論是OpenAI的JukeBox、Meta的MusicGen,還是Google的MusicLM,它們雖然逐步解決了AI音樂生成中的痛點,但距離生成高品質(zhì)且類型豐富的音樂作品還有一定距離。
「天工SkyMusic」自研發(fā)階段即確立目標,要開發(fā)一款輔助用戶創(chuàng)作高質(zhì)量音樂的工具。團隊毅然選擇了AI音樂生成大模型的道路,并決定重點攻克人聲歌唱難題,勇敢涉足AI音樂制作領(lǐng)域內(nèi)兩個最具挑戰(zhàn)的無人區(qū)。
「天工SkyMusic」架構(gòu)誕生記
面對大模型音樂音頻生成+人聲Song這兩個近乎空白的技術(shù)領(lǐng)域,昆侖萬維傾注了海量研發(fā)資源和算力算法投入,不斷試錯,終于自主研發(fā)出一套音樂音頻領(lǐng)域的大模型架構(gòu)。
這是一套類似Sora的DiT大模型架構(gòu),采用LLM+Diffusion的核心模塊組成。
其中,用戶輸入的參考音樂會被拆解為不同的Music Patches,由Large-scale Transformer負責譜曲,來學習Music Patches的上下文依賴關(guān)系,同時完成音樂可控性。
同時,Diffusion Transformer將負責大模型的“演唱”部分,通過LDM(Latent Diffusion Model)擴散模型讓Music Patches被還原成成44.1KHz的高品質(zhì)立體聲的音頻。
昆侖萬維這套高效、靈活且具有情感表達能力的音樂生成模型架構(gòu),填補了音頻生成+人聲Song這兩技術(shù)領(lǐng)域的空白,堪稱AI音樂生成領(lǐng)域的一大技術(shù)飛躍,也讓昆侖萬維公開「天工SkyMusic」技術(shù)原理圖的舉措更讓人敬佩,它不僅打破了行業(yè)內(nèi)的封閉狀態(tài),更為更是為整個產(chǎn)業(yè)鋪墊了一條可復(fù)現(xiàn)的技術(shù)路徑,大大降低整個AI音樂生成產(chǎn)業(yè)的研發(fā)風險。
AI音樂破曉:「天工SkyMusic」的中國式突破
從「天工SkyMusic」的技術(shù)分析中我們可以看到,昆侖萬維在研發(fā)過程中克服了諸多技術(shù)難題,為我們打造出一個真正意義上,能高效創(chuàng)作高品質(zhì)音樂的AI音樂生成大模型。在這里,我們可以生成時長80秒,采樣率44.1KHz的雙聲道立體聲歌曲,還可以通過歌詞控制歌曲的情緒變化,精確區(qū)分不同音樂結(jié)構(gòu)間的情感起伏,也可完成各種復(fù)雜歌唱技巧。
而且較之國外同類產(chǎn)品,「天工SkyMusic」最明顯的差異是在中文人聲歌唱上發(fā)音純正清晰,無明顯機械痕跡,效果逼真的程度足以“以假亂真”。這不僅讓中文歌詞韻味和情感表達更為出色,也在表達中國文化特有的意境與情感內(nèi)涵時,更加貼合國人的審美習慣與情感認同,形成獨有的差異化優(yōu)勢。
情感AGI待放:天工SkyMusic」引領(lǐng)情感創(chuàng)作變革
「天工SkyMusic」作為昆侖萬維 “All in AGI和AIGC”戰(zhàn)略下在音樂領(lǐng)域的先鋒之作,填補了傳統(tǒng)AGI側(cè)重于智力拓展而忽視情感維度的空白,標志著昆侖萬維在情感AGI研究中取得的重大突破。
如今,「天工SkyMusic」不僅降低音樂創(chuàng)作門檻,讓更多普通用戶能夠借助這款全民音樂創(chuàng)作工具的力量,更好地通過音樂這一媒介,表達自己的情感和創(chuàng)意。未來,隨著昆侖萬維在情感AGI技術(shù)上不斷的突破,「天工SkyMusic」將具備更多令人驚嘆的創(chuàng)作能力,亦有望成為輔助專業(yè)音樂創(chuàng)作者的利器。
相關(guān)文章
- 國產(chǎn)適配!新迪天工CAD成功通過中科方德適配認證
- 助力城市數(shù)字化轉(zhuǎn)型!垂天工業(yè)設(shè)計團隊再獲成功設(shè)計國際大獎
- 擁抱國產(chǎn)大模型,云捷亮數(shù)AI產(chǎn)品全面遷移至昆侖萬維天工開放平臺
- 昆侖萬維開源2千億稀疏大模型天工MoE,全球首創(chuàng)能用4090推理
- 昆侖萬維宣布天工AI每日活躍用戶(DAU)超過100萬
- 天工AI搜索解讀《如懿傳》的“招黑體質(zhì)”
- 天工一刻 | 一文看懂MoE混合專家大模型
- 驚艷了!天工AI真的能理解和回應(yīng)老WOWer的魔獸情結(jié)!
- 天工展翅 躍見非凡丨新迪數(shù)字2024新品發(fā)布會圓滿召開!
- 中國首個音樂SOTA模型「天工音樂大模型」今日公測
- 解碼「天工SkyMusic」,填補AI音樂領(lǐng)域技術(shù)空白
- 「天工SkyMusic」跨界喜劇,用實驗音樂探索笑聲與旋律的碰撞
- 一周后將顛覆AI界!「天工3.0」攜「天工SkyMusic」蓄勢待發(fā)
- 「天工SkyMusic」引爆全民音樂創(chuàng)作,1分鐘實現(xiàn)小白音樂夢想
- 「天工SkyMusic」顛覆創(chuàng)作體驗,引領(lǐng)全民步入音樂狂歡
- 以假亂真,天工音樂大模型帶來顛覆式AI體驗
人工智能企業(yè)
更多>>人工智能硬件
更多>>- 從心出發(fā),新品與新技術(shù)雙重進化,技嘉2025線下產(chǎn)品發(fā)布會強勢來襲
- 當“銀發(fā)”遇見“智眼”——神眸亮相2025深圳智慧養(yǎng)老展
- 訊飛同傳助力亞布力夏季年會,打破語言壁壘促全球?qū)υ?/a>
- 低空賦能,跨越山河,大疆運載無人機的甘孜答卷
- 預(yù)制菜又吵起來了?優(yōu)特智廚炒菜機新品發(fā)布會掀起中餐“現(xiàn)炒”熱潮
- 場景化落地部署人形機器人將超2000臺,眾擎機器人與多倫科技達成戰(zhàn)略合作
- 275W極限性能+第二代乾坤散熱!拯救者R9000P 2025至尊版成就電競創(chuàng)作雙巔峰
- 百年聲學品牌再創(chuàng)新!拜雅新品AMIRON 200 & AMIRON ZERO定義開放聆聽新方式
人工智能產(chǎn)業(yè)
更多>>- 打造張江人工智能創(chuàng)新小鎮(zhèn),全國首個人工智能創(chuàng)新應(yīng)用先導(dǎo)區(qū)再添發(fā)展新引擎
- 人機共生 · 智啟未來——2025高交會亞洲人工智能與機器人產(chǎn)業(yè)鏈展主題發(fā)布
- 北京數(shù)基建發(fā)布“知行IntAct”混合智能體產(chǎn)品,以AI定義城市治理新范式
- 新時達“精耕小腦”,與大腦協(xié)同,加速具身智能垂直落地
- 亞洲愿景論壇 東軟蓋龍佳談AI與數(shù)據(jù)價值化重構(gòu)醫(yī)療未來
- 破解AI落地難題!北大這場特訓營,為企業(yè)找到轉(zhuǎn)型“最優(yōu)解”
- 腦神經(jīng)成像提速數(shù)倍、AI練就“遺忘術(shù)”!2025螞蟻InTech獎頒發(fā)
- 一句話生成圖表!天禧智能體接入ChatExcel MCP Server讓數(shù)據(jù)處理變得如此簡單
人工智能技術(shù)
更多>>- 外灘大會首發(fā)! 螞蟻密算推出AI密態(tài)升級卡 實現(xiàn)零改動“即插即用”
- 騰訊優(yōu)圖攜Youtu-Agent開源項目亮相上海創(chuàng)智學院首屆TechFest大會
- 2025外灘大會:王堅暢談AI變革,普天科技錨定空天算力新賽道
- 騰訊正式開源Youtu-GraphRAG,圖檢索增強技術(shù)迎來落地新突破
- 聲網(wǎng)兄弟公司 Agora與OpenAI 攜手 助力多模態(tài) AI 智能體實現(xiàn)實時交互
- Qwen-Image-Edit 模型上線基石智算,圖像編輯更精準
- 火山引擎多模態(tài)數(shù)據(jù)湖落地深勢科技,提升科研數(shù)據(jù)處理效能
- 斑馬AI大模型:為每個孩子提供專屬學習方案