北電數(shù)智首席科學(xué)家竇德景:以數(shù)據(jù)可信定義AI終局
2024-07-12 16:35:33AI云資訊4140
2022年底,ChatGPT橫空問世,其優(yōu)秀、自然的語言交互能力給世界帶來極大震撼。此后,海內(nèi)外科技巨頭、研究機(jī)構(gòu)開啟大模型競賽,視頻、音樂、語言等多模態(tài)大模型不斷升級,各類AI應(yīng)用層出不窮,人工智能進(jìn)入大模型時代。
作為新時代基建,大模型已成為國家間科技乃至經(jīng)濟(jì)競爭的焦點。大模型參數(shù)正從百億級、千億級邁向萬億級,以數(shù)據(jù)為核心燃料的AI正加速向前。
然而,大模型在具體的落地過程中,仍面臨許多挑戰(zhàn)。大模型的訓(xùn)練和推理均需要高質(zhì)量數(shù)據(jù),目前國內(nèi)開源數(shù)據(jù)集遠(yuǎn)少于海外;高質(zhì)量數(shù)據(jù)則存在于數(shù)據(jù)煙囪中,難以發(fā)揮價值。一個安全、可信的數(shù)據(jù)空間,能為整個人工智能產(chǎn)業(yè)提供供得出、流得動的高質(zhì)量數(shù)據(jù),加速大模型落地真實場景。
7月3日,在2024年全球數(shù)字經(jīng)濟(jì)大會“互聯(lián)網(wǎng)3.0高層論壇”上,北電數(shù)智首席科學(xué)家竇德景教授作了《以數(shù)據(jù)可信定義AI終局》主題演講,分享對數(shù)據(jù)可信和AI產(chǎn)業(yè)發(fā)展的洞察。
北電數(shù)智首席科學(xué)家竇德景教授作主題演講
數(shù)據(jù)規(guī)模與質(zhì)量決定AI“上限”,數(shù)據(jù)可信成關(guān)鍵驅(qū)動力
人工智能從1956年在達(dá)特茅斯會議開啟研究至今,已發(fā)展近90年時間,經(jīng)過機(jī)器學(xué)習(xí)、深度學(xué)習(xí)兩個階段的發(fā)展后,2017年,生成式AI技術(shù)路線將人工智能的智能化程度推向新階段。
大模型和生成式AI可以在幾秒鐘內(nèi)自主生成完全原創(chuàng)的文本、圖像、音頻等內(nèi)容,具有強(qiáng)大的認(rèn)知和交互能力。生成式AI的模型應(yīng)用和參數(shù)也在以前所未有的速度猛增,如GPT3.5的參數(shù)為1,750億,到GPT4時,模型參數(shù)已達(dá)1.8萬億。
Scaling law(規(guī)模法則)已成行業(yè)共識,大模型的參數(shù)量和數(shù)據(jù)量在不斷擴(kuò)展,面向?qū)I(yè)領(lǐng)域的垂直模型也在數(shù)據(jù)質(zhì)量上不斷優(yōu)化。
無論是“質(zhì)”、還是“量”,作為大模型訓(xùn)練和生成式AI 推理的三大要素之一,數(shù)據(jù)的重要性不言而喻。
據(jù)IDC測算,2022-2027年,中國的數(shù)據(jù)量規(guī)模將由23.88ZB增長至76.6ZB,復(fù)合增速達(dá)26.3%。從數(shù)據(jù)規(guī)模看,我國數(shù)據(jù)量無疑處于世界一流水平。
但從數(shù)據(jù)質(zhì)量而言,與美國相比,在數(shù)據(jù)開源和市場流動角度,優(yōu)質(zhì)的中文數(shù)據(jù)集依然非常稀缺,大量數(shù)據(jù)散落在產(chǎn)業(yè)側(cè)或垂直系統(tǒng)內(nèi)。此外,非結(jié)構(gòu)化的數(shù)據(jù)也難以支持算法訓(xùn)練,這對于生產(chǎn)力的提質(zhì)增效有極大地制約。
高質(zhì)量數(shù)據(jù)的積累離不開一個可信的數(shù)據(jù)空間。北電數(shù)智首席科學(xué)家竇德景教授分享道,實現(xiàn)數(shù)據(jù)可信并非一蹴而就,它目前仍然面臨著諸多挑戰(zhàn),主要體現(xiàn)在四個方面:
·不知:因供需信息不對稱,數(shù)據(jù)種類與質(zhì)量不明確,導(dǎo)致數(shù)據(jù)在可用和匹配上遇到難題。
·不敢:在數(shù)據(jù)隱私和合規(guī)風(fēng)險影響下,企業(yè)對數(shù)據(jù)所有權(quán)和合規(guī)的顧慮較大,對數(shù)據(jù)流通較為謹(jǐn)慎。
·不能:企業(yè)在數(shù)據(jù)治理和開放共享上存在著能力或機(jī)制層面的不足。
·不會:企業(yè)在數(shù)據(jù)流通上仍然缺少適合的分析工具與應(yīng)用解決方案,產(chǎn)業(yè)也尚未形成和行業(yè)側(cè)協(xié)作的有價值方法。
構(gòu)建AI可信數(shù)據(jù)空間,重塑AI新格局
要想解決不知、不敢、不能、不會的數(shù)據(jù)難題,構(gòu)建數(shù)據(jù)可信的生態(tài)系統(tǒng),加快建設(shè)數(shù)據(jù)流通、共享、開放環(huán)境尤其重要。
以EOSC(歐洲開放云)科研項目為例,歐盟在關(guān)注到數(shù)據(jù)隱私后,成立了一個包含300萬種資源在內(nèi)的數(shù)據(jù)空間,覆蓋多個領(lǐng)域范圍,為180萬歐洲研究人員和7000萬科研人員提供跨國界和學(xué)科研究數(shù)據(jù)存儲、管理、分析和再利用服務(wù)。
這種數(shù)據(jù)流通、可信、開放的產(chǎn)業(yè)生態(tài),將極大促進(jìn)產(chǎn)業(yè)發(fā)展、繁榮。而對于國內(nèi)產(chǎn)業(yè)而言,打造數(shù)據(jù)可信的環(huán)境將會為AI產(chǎn)業(yè)發(fā)展、生態(tài)構(gòu)建提供重要發(fā)展土壤。
北電數(shù)智認(rèn)為,企業(yè)可以在技術(shù)可信層面,加快推進(jìn)建設(shè)安全可信的數(shù)據(jù)流通設(shè)施和數(shù)據(jù)安全設(shè)施,尤其是找到技術(shù)上完全自主可控和技術(shù)可信的方法,應(yīng)對數(shù)據(jù)問題。行業(yè)也可以通過開放服務(wù)促進(jìn)經(jīng)濟(jì)社會發(fā)展相關(guān)應(yīng)用場景落地,與產(chǎn)業(yè)協(xié)同,找到有價值的應(yīng)用場景,推動數(shù)據(jù)要素流通、融合,打造整體解決方案,快速構(gòu)建數(shù)據(jù)可信生態(tài)系統(tǒng)。
北電數(shù)智全棧信創(chuàng)的數(shù)據(jù)流通基礎(chǔ)設(shè)施和數(shù)據(jù)安全設(shè)施“紅湖·AI可信數(shù)據(jù)空間”,能為人工智能浪潮下促進(jìn)數(shù)據(jù)共享流通創(chuàng)造“安全可靠運(yùn)行環(huán)境”,提供AI時代高質(zhì)量數(shù)據(jù)服務(wù),推動大模型在行業(yè)落地。目前,公司正聚焦政務(wù)、先進(jìn)制造、交通、醫(yī)療、傳媒、教育等細(xì)分賽道打磨應(yīng)用場景。
以政務(wù)大模型場景為例,政務(wù)領(lǐng)域信息豐富,知識結(jié)構(gòu)復(fù)雜。用戶不僅需要傳統(tǒng)的知識檢索、互動問答等功能,還需要政務(wù)表格分析、政務(wù)文本撰寫等產(chǎn)品。北電數(shù)智與政府側(cè)技術(shù)部門合作,通過數(shù)據(jù)獲取、數(shù)據(jù)清洗、知識更新、表格內(nèi)容提取等方式獲取有效信息,建設(shè)行業(yè)知識庫,再通過幻覺檢測、安全圍欄、數(shù)據(jù)可信空間等技術(shù)對數(shù)據(jù)進(jìn)行有效分區(qū),最終提供全棧國產(chǎn)化的整體解決方案。
在北電數(shù)智看來,數(shù)據(jù)可信可以在五大維度上重塑AI新格局,推動AI產(chǎn)業(yè)發(fā)展和大模型的落地。
· 提升AI模型質(zhì)量和可靠性:為AI模型提供高質(zhì)量訓(xùn)練素材,有助于提高模型的準(zhǔn)確性、魯棒性和泛化能力。
·促進(jìn)AI技術(shù)的產(chǎn)業(yè)化應(yīng)用:為AI在政務(wù)、金融、醫(yī)療、制造等領(lǐng)域的落地應(yīng)用奠定基礎(chǔ)。
·推動AI倫理和治理的發(fā)展:為AI的倫理使用和有效治理提供基礎(chǔ),有助于構(gòu)建更加公平透明的AI生態(tài)系統(tǒng)。
·增強(qiáng)AI系統(tǒng)的安全性:有助于降低AI系統(tǒng)的安全風(fēng)險,減少數(shù)據(jù)泄露、深度偽造等新型安全威脅。
·重塑AI技術(shù)路線和產(chǎn)業(yè)模式:推動AI從碎片化、小模型向大模型、通用智能方向發(fā)展,重新定義了AI的產(chǎn)業(yè)模式和標(biāo)準(zhǔn)。
展望未來,數(shù)據(jù)可信將在增強(qiáng)數(shù)據(jù)安全性和隱私、保障算法的公平性和透明性、推動法律和倫理框架完善、加速產(chǎn)業(yè)化應(yīng)用、生態(tài)蓬勃繁榮等方面不斷促進(jìn)人工智能產(chǎn)業(yè)的發(fā)展。
未來,北電數(shù)智將基于“大算力、大數(shù)據(jù)、大模型”的AI全棧能力,以可信數(shù)據(jù)沙盒、隱私計算和區(qū)塊鏈、全鏈條可控等技術(shù)為核心,以AI工廠及芯片適配為依托,提供一體化“可信”解決方案。
相關(guān)文章
- 聯(lián)通數(shù)智“模型、數(shù)據(jù)、安全”三位一體,精彩亮相2025智博會
- 高評分低銷量?玩美數(shù)據(jù)借助Maxdiff揭露“溫和評價”背后的真相
- IDC MarketScape:騰訊云位居國內(nèi)生成式AI數(shù)據(jù)基礎(chǔ)設(shè)施“領(lǐng)導(dǎo)者”象限
- 膜小二三公紫勇闖中國日照極地!實測數(shù)據(jù)揭秘 “硬核” 隔熱防曬實力!
- AI+物流場景賦能 浙江大學(xué)CCAI寧波中心(城知科技)物流全鏈路數(shù)據(jù)監(jiān)測解決方案重磅發(fā)布
- 數(shù)據(jù)庫行業(yè)紅海角逐 萬里數(shù)據(jù)庫2025半年度營收逆勢翻倍
- 深入實施“人工智能+”,伊頓助力皓揚(yáng)數(shù)據(jù)打造 AI 算力中心標(biāo)桿
- 【喜訊】創(chuàng)鄰科技斬獲 VLDB 2025 最佳論文獎項,以圖智能與AI融合引領(lǐng)數(shù)據(jù)庫新時代
- 筑牢數(shù)字安全基石 小米通過國家級數(shù)據(jù)安全管理認(rèn)證
- 守護(hù)鐵路安全、提速智慧醫(yī)療,國產(chǎn)數(shù)據(jù)庫賦能國計民生
- 火山引擎多模態(tài)數(shù)據(jù)湖落地深勢科技,提升科研數(shù)據(jù)處理效能
- 秦淮數(shù)據(jù)作為首家AIDC企業(yè)榮登「2025福布斯中國最佳數(shù)智化雇主」
- 老板電器入選國家首批高質(zhì)量數(shù)據(jù)集建設(shè)試點,打造廚電行業(yè)“數(shù)據(jù)教科書”
- 2025數(shù)博會正式開幕,國有數(shù)據(jù)資產(chǎn)增值運(yùn)營高峰論壇成功舉辦
- 華為陶景文:數(shù)轉(zhuǎn)智改戰(zhàn)略是根本,數(shù)據(jù)是基礎(chǔ),智能是方向
- 95后CEO劉云濤數(shù)博會發(fā)言出圈:數(shù)據(jù)標(biāo)注是「碳基文明與硅基文明的對話」
人工智能企業(yè)
更多>>人工智能硬件
更多>>- 當(dāng)“銀發(fā)”遇見“智眼”——神眸亮相2025深圳智慧養(yǎng)老展
- 訊飛同傳助力亞布力夏季年會,打破語言壁壘促全球?qū)υ?/a>
- 低空賦能,跨越山河,大疆運(yùn)載無人機(jī)的甘孜答卷
- 預(yù)制菜又吵起來了?優(yōu)特智廚炒菜機(jī)新品發(fā)布會掀起中餐“現(xiàn)炒”熱潮
- 場景化落地部署人形機(jī)器人將超2000臺,眾擎機(jī)器人與多倫科技達(dá)成戰(zhàn)略合作
- 275W極限性能+第二代乾坤散熱!拯救者R9000P 2025至尊版成就電競創(chuàng)作雙巔峰
- 百年聲學(xué)品牌再創(chuàng)新!拜雅新品AMIRON 200 & AMIRON ZERO定義開放聆聽新方式
- 筑牢安全芯基石,紫光同芯無線充電鑒權(quán)芯片T9系列亮相2025(秋季)亞洲充電展
人工智能產(chǎn)業(yè)
更多>>- 人機(jī)共生 · 智啟未來——2025高交會亞洲人工智能與機(jī)器人產(chǎn)業(yè)鏈展主題發(fā)布
- 北京數(shù)基建發(fā)布“知行IntAct”混合智能體產(chǎn)品,以AI定義城市治理新范式
- 新時達(dá)“精耕小腦”,與大腦協(xié)同,加速具身智能垂直落地
- 亞洲愿景論壇 東軟蓋龍佳談AI與數(shù)據(jù)價值化重構(gòu)醫(yī)療未來
- 破解AI落地難題!北大這場特訓(xùn)營,為企業(yè)找到轉(zhuǎn)型“最優(yōu)解”
- 腦神經(jīng)成像提速數(shù)倍、AI練就“遺忘術(shù)”!2025螞蟻InTech獎頒發(fā)
- 一句話生成圖表!天禧智能體接入ChatExcel MCP Server讓數(shù)據(jù)處理變得如此簡單
- 外灘大會重磅發(fā)布:螞蟻百寶箱Tbox超級智能體亮相,實現(xiàn)分鐘級專業(yè)軟件交付
人工智能技術(shù)
更多>>- 外灘大會首發(fā)! 螞蟻密算推出AI密態(tài)升級卡 實現(xiàn)零改動“即插即用”
- 騰訊優(yōu)圖攜Youtu-Agent開源項目亮相上海創(chuàng)智學(xué)院首屆TechFest大會
- 2025外灘大會:王堅暢談AI變革,普天科技錨定空天算力新賽道
- 騰訊正式開源Youtu-GraphRAG,圖檢索增強(qiáng)技術(shù)迎來落地新突破
- 聲網(wǎng)兄弟公司 Agora與OpenAI 攜手 助力多模態(tài) AI 智能體實現(xiàn)實時交互
- Qwen-Image-Edit 模型上線基石智算,圖像編輯更精準(zhǔn)
- 火山引擎多模態(tài)數(shù)據(jù)湖落地深勢科技,提升科研數(shù)據(jù)處理效能
- 斑馬AI大模型:為每個孩子提供專屬學(xué)習(xí)方案