MIT又一突破!用AI過濾音源,讓音樂更悅耳
2018-07-09 15:26:13AI云資訊1781
一般利用均衡器可以將音樂中的低音部分調(diào)出來,但是麻省理工學(xué)院的計(jì)算機(jī)科學(xué)和人工智能實(shí)驗(yàn)室(Computer Science and Artificial Intelligence Lab,CSAIL)的研究人員發(fā)現(xiàn)了更好的解決方案。他們所研發(fā)的新系統(tǒng) PixelPlayer,能夠利用人工智能來區(qū)分和過濾聲音,讓音樂聽起來更洪亮或更柔和。
將指定視頻錄入經(jīng)過充分訓(xùn)練的 PixelPlayer,系統(tǒng)隨機(jī)能夠過濾伴奏,同時(shí)識別音源,接著計(jì)算圖像中每個像素的音量,然后通過“空間定位”確定產(chǎn)生相似音波的片段。
今年9月,德國慕尼黑即將舉行歐洲計(jì)算機(jī)視覺會議(European Conference on Computer Vision),會議中要發(fā)表的一篇新論文則詳細(xì)論述了“像素的聲音(The Sound of Pixels)”。麻省理工學(xué)院計(jì)算機(jī)科學(xué)和人工智能實(shí)驗(yàn)室的博士生,同時(shí)也是這篇論文的合著者 Zhao Hang 同學(xué)表示,“最好的情況就是,我們能識別出哪種樂器發(fā)出怎樣的聲音。”
PixelPlayer 的核心是一種基于樂器組合多模態(tài)訓(xùn)練的神經(jīng)網(wǎng)絡(luò),數(shù)據(jù)集采用了 Youtube 上 714 條未經(jīng)修剪且未經(jīng)標(biāo)記的視頻。其中,總時(shí)長為 60 小時(shí)的 500 條視頻用于訓(xùn)練,剩余的則用于驗(yàn)證和測試。在訓(xùn)練過程中,研究人員分別根據(jù)原聲吉他、大提琴、單簧管、長笛和其他樂器向系統(tǒng)饋入了算法。
這只是 PixelPlayer 多重機(jī)器學(xué)習(xí)框架的一個部分。經(jīng)過訓(xùn)練后的視頻分析算法將從剪輯幀中提取出視覺特征,這就是系統(tǒng)的第二個神經(jīng)網(wǎng)絡(luò),即音頻分析網(wǎng)絡(luò)。音頻分析網(wǎng)絡(luò)將聲音拆分為片段,并從中提取特征。最后,音頻合成網(wǎng)絡(luò)將把上述兩個網(wǎng)絡(luò)輸出的特定像素和聲波關(guān)聯(lián)起來。
PixelPlayer 進(jìn)行完全自監(jiān)督的學(xué)習(xí),人們無需對數(shù)據(jù)注釋,而且系統(tǒng)目前已經(jīng)能識別 20 種樂器。Zhao Hang 說,較大的數(shù)據(jù)集增強(qiáng)了系統(tǒng)的識別量,但識別樂器子類的能力卻不佳。系統(tǒng)也可以識別音樂元素,例如小提琴的諧波頻率。
研究人員認(rèn)為 PixelPlayer 可以進(jìn)行聲音剪輯,或者幫助機(jī)器人理解動物、車輛和其他物體所制造的環(huán)境聲音。他們寫到,“我們希望我們的工作能夠開辟新的研究途徑,從視覺和聽覺信號角度實(shí)現(xiàn)聲源分離”。相關(guān)文章
- DigiCert任命行業(yè)資深人士Amit Sinha為首席執(zhí)行官
- AISummit全球人工智能技術(shù)大會,洞悉AI技術(shù)的現(xiàn)在與未來
- 憑借微創(chuàng)植入式柔性腦機(jī)接口技術(shù) 腦虎科技榮登MIT TR50榜單
- 涵蓋 12 大 AI 熱點(diǎn)技術(shù)方向, AISummit 全球人工智能技術(shù)大會2022震撼來襲!
- WAVE SUMMIT 2022文心大模型完成體系布局 百度吳甜提出大模型產(chǎn)業(yè)落地關(guān)鍵路徑
- 十個大模型、六大發(fā)布 WAVE SUMMIT 2022飛槳持續(xù)夯實(shí)AI底座
- WAVE SUMMIT 2022將于5月20日召開 飛槳將迎來大規(guī)模升級
- 4月26日芯啟源將亮相全球首屆智能網(wǎng)卡峰會(SmartNICs Summit)
- MIT團(tuán)隊(duì)開發(fā)基于智能手表的系統(tǒng) 在佩戴者身體過熱時(shí)向其發(fā)出警告
- MIT研究人員發(fā)明可根據(jù)視角改變其外觀的3D打印物體
- TransCenter: MIT&INRIA開源多目標(biāo)物體跟蹤算法
- MIT研發(fā)高效解碼算法和芯片,可用于AR/VR
- 全城WAVE SUMMIT 提前預(yù)定,百度邀你共赴一場初夏的AI盛宴
- MIT和馬里蘭大學(xué)研究小組發(fā)現(xiàn)新的量子算法可破解非線性方程
- 讓病毒“說話”:MIT團(tuán)隊(duì)使用AI預(yù)測HIV及新冠病毒的突變方向
- openEuler Summit 2020成功召開,探索技術(shù)創(chuàng)新無限可能
人工智能企業(yè)
更多>>人工智能硬件
更多>>- 從心出發(fā),新品與新技術(shù)雙重進(jìn)化,技嘉2025線下產(chǎn)品發(fā)布會強(qiáng)勢來襲
- 當(dāng)“銀發(fā)”遇見“智眼”——神眸亮相2025深圳智慧養(yǎng)老展
- 訊飛同傳助力亞布力夏季年會,打破語言壁壘促全球?qū)υ?/a>
- 低空賦能,跨越山河,大疆運(yùn)載無人機(jī)的甘孜答卷
- 預(yù)制菜又吵起來了?優(yōu)特智廚炒菜機(jī)新品發(fā)布會掀起中餐“現(xiàn)炒”熱潮
- 場景化落地部署人形機(jī)器人將超2000臺,眾擎機(jī)器人與多倫科技達(dá)成戰(zhàn)略合作
- 275W極限性能+第二代乾坤散熱!拯救者R9000P 2025至尊版成就電競創(chuàng)作雙巔峰
- 百年聲學(xué)品牌再創(chuàng)新!拜雅新品AMIRON 200 & AMIRON ZERO定義開放聆聽新方式
人工智能產(chǎn)業(yè)
更多>>- 打造張江人工智能創(chuàng)新小鎮(zhèn),全國首個人工智能創(chuàng)新應(yīng)用先導(dǎo)區(qū)再添發(fā)展新引擎
- 人機(jī)共生 · 智啟未來——2025高交會亞洲人工智能與機(jī)器人產(chǎn)業(yè)鏈展主題發(fā)布
- 北京數(shù)基建發(fā)布“知行IntAct”混合智能體產(chǎn)品,以AI定義城市治理新范式
- 新時(shí)達(dá)“精耕小腦”,與大腦協(xié)同,加速具身智能垂直落地
- 亞洲愿景論壇 東軟蓋龍佳談AI與數(shù)據(jù)價(jià)值化重構(gòu)醫(yī)療未來
- 破解AI落地難題!北大這場特訓(xùn)營,為企業(yè)找到轉(zhuǎn)型“最優(yōu)解”
- 腦神經(jīng)成像提速數(shù)倍、AI練就“遺忘術(shù)”!2025螞蟻InTech獎頒發(fā)
- 一句話生成圖表!天禧智能體接入ChatExcel MCP Server讓數(shù)據(jù)處理變得如此簡單
人工智能技術(shù)
更多>>- 外灘大會首發(fā)! 螞蟻密算推出AI密態(tài)升級卡 實(shí)現(xiàn)零改動“即插即用”
- 騰訊優(yōu)圖攜Youtu-Agent開源項(xiàng)目亮相上海創(chuàng)智學(xué)院首屆TechFest大會
- 2025外灘大會:王堅(jiān)暢談AI變革,普天科技錨定空天算力新賽道
- 騰訊正式開源Youtu-GraphRAG,圖檢索增強(qiáng)技術(shù)迎來落地新突破
- 聲網(wǎng)兄弟公司 Agora與OpenAI 攜手 助力多模態(tài) AI 智能體實(shí)現(xiàn)實(shí)時(shí)交互
- Qwen-Image-Edit 模型上線基石智算,圖像編輯更精準(zhǔn)
- 火山引擎多模態(tài)數(shù)據(jù)湖落地深勢科技,提升科研數(shù)據(jù)處理效能
- 斑馬AI大模型:為每個孩子提供專屬學(xué)習(xí)方案