精品国产18久久久久久,一个人在线观看的www,亚洲一区二区久久久,成人国内精品久久久久影院vr,最近免费中文字幕大全高清大全1

聲網(wǎng)CEO趙斌:RTE將成為生成式AI時(shí)代AI Infra的關(guān)鍵部分

2024-11-07 16:19:40AI云資訊1227

10月25日,在 RTE2024 第十屆實(shí)時(shí)互聯(lián)網(wǎng)大會(huì)主論壇上,聲網(wǎng)創(chuàng)始人兼 CEO 趙斌發(fā)表了《實(shí)時(shí)互動(dòng)十年:從 WebRTC 到生成式 AI 時(shí)代的 RTE 》主旨演講。

趙斌認(rèn)為,生成式 AI 正在驅(qū)動(dòng) IT 行業(yè)發(fā)生大變革,這一趨勢(shì)主要體現(xiàn)在四個(gè)層面:終端、軟件、云以及人機(jī)界面。在這樣的時(shí)代背景下,生成式 AI 將會(huì)一如既往地助力 RTE 能力的進(jìn)化與普及,同時(shí)也將借助 RTE 能力以及 RTE 應(yīng)用的廣度與深度來實(shí)現(xiàn)自身進(jìn)化。

同時(shí),他也在分享中發(fā)布了聲網(wǎng) RTE+AI 能力全景圖。在全景圖中,聲網(wǎng)從實(shí)時(shí) AI 基礎(chǔ)設(shè)施、RTE+AI 生態(tài)能力、聲網(wǎng) AI Agent、實(shí)時(shí)多模態(tài)對(duì)話式 AI 解決方案、RTE+AI 應(yīng)用場(chǎng)景五個(gè)維度,清晰地呈現(xiàn)了當(dāng)前 RTE 與 AI 相結(jié)合的技術(shù)能力與應(yīng)用方案。趙斌表示,生成式 AI 與 RTE 結(jié)合帶來的場(chǎng)景創(chuàng)新,也將成為下一個(gè)十年的主題。

以下內(nèi)容基于趙斌演講全文整理:

感謝大家在金秋十月再次來到北京 RTE 大會(huì)的現(xiàn)場(chǎng),與各位嘉賓、講師一起探討 RTE 行業(yè)的現(xiàn)狀和未來。尤其要感謝來參會(huì)的開發(fā)者、工程師、產(chǎn)品經(jīng)理、創(chuàng)業(yè)者,在過去十年中,是你們與我們共同參與并見證了 RTE 行業(yè)波瀾壯闊的成長歷程。

在過去的十年里,RTE 能力成為了顛覆眾多行業(yè)發(fā)展與成長的核心力量。在社交泛娛樂領(lǐng)域,涌現(xiàn)出了多家以實(shí)時(shí)音視頻技術(shù)為底層能力的企業(yè),它們開創(chuàng)了新的玩法、場(chǎng)景和商業(yè)服務(wù),其中有不少已成功上市,使得 RTE 能力逐步廣泛應(yīng)用并普及至全球市場(chǎng)。

在在線教育領(lǐng)域,以 RTE 能力為支撐的 “線上課堂” 不僅曾是中國互聯(lián)網(wǎng)創(chuàng)業(yè)圈的熱門關(guān)注點(diǎn),還為體制內(nèi)教育 “三個(gè)課堂” 這一全國性政策提供了支持,并且在疫情期間發(fā)揮了不可或缺的作用。

在 IoT 領(lǐng)域,也出現(xiàn)了許多依托 RTE 能力而實(shí)現(xiàn)的新產(chǎn)品,例如兒童手表。VR/AR 設(shè)備進(jìn)化中,RTE 也賦能了眾多高價(jià)值功能。

在企業(yè)服務(wù)領(lǐng)域,從金融業(yè)的雙錄面簽到產(chǎn)業(yè)遠(yuǎn)程巡檢巡查、生產(chǎn)現(xiàn)場(chǎng)指導(dǎo)協(xié)同,以及快遞站點(diǎn)和調(diào)度中心的實(shí)時(shí)協(xié)同等場(chǎng)景,各行業(yè)都在通過RTE能力深度改造經(jīng)營方式。

過去十年,大家熟知的互聯(lián)網(wǎng)風(fēng)口也有很多離不開RTE能力的賦能和參與。社交泛娛樂、在線教育等行業(yè)的創(chuàng)業(yè)風(fēng)口,電商直播對(duì)電商行業(yè)格局的改變等等,其中很多都和實(shí)時(shí)互動(dòng)能力的使用和進(jìn)化有不可分割的關(guān)系。如今,在大模型和生成式 AI 時(shí)代,也將伴隨 RTE 能力的輔助與賦能走向成熟和應(yīng)用。

生成式 AI 時(shí)代 IT 行業(yè)四大變革趨勢(shì)

過去一年,通過與大模型以及 IT 行業(yè)同行、合作伙伴進(jìn)行深入的探討與交流,我們逐漸厘清了生成式 AI 能力將會(huì)如何改造和影響未來十年甚至二十年 IT 行業(yè)進(jìn)化的途徑與方法,并總結(jié)出了四大趨勢(shì),這些趨勢(shì)將會(huì)決定并影響整個(gè) IT 行業(yè)發(fā)展的進(jìn)程。

趨勢(shì)一:終端的進(jìn)化將以對(duì)大模型的能力支持為核心驅(qū)動(dòng)。在未來十到二十年,無論是 PC 還是智能手機(jī),必然會(huì)以如何更好地支持大模型能力在端上的應(yīng)用,以及推理能力的成熟和推理性能的提升為主要進(jìn)化軸線。

趨勢(shì)二:所有的軟件都可以且將會(huì)通過大模型重新實(shí)現(xiàn)。僅僅在現(xiàn)有軟件中運(yùn)用大模型能力進(jìn)行小改進(jìn)和補(bǔ)充是遠(yuǎn)遠(yuǎn)不夠的,而是要以大模型能力為核心,重新思考每個(gè)領(lǐng)域的軟件應(yīng)如何設(shè)計(jì)、如何實(shí)現(xiàn),以及最終會(huì)有怎樣的使用體驗(yàn)和效果。這便是從 “ Software with AI ” 到 “ AI Native Software ” 的根本轉(zhuǎn)變,也將改變行業(yè)的技術(shù)框架和技術(shù)能力進(jìn)化方式。

趨勢(shì)三:所有的云都需要具備對(duì)大模型的訓(xùn)練和推理能力。大模型出現(xiàn)后,對(duì)于云服務(wù)而言,在早期提出的三個(gè)基本能力之外,GPU 算力必然成為第四個(gè)關(guān)鍵能力。沒有這一能力,就很難成為一個(gè)真正意義上的大規(guī)模公有云服務(wù)。

趨勢(shì)四:人機(jī)界面從鍵盤、鼠標(biāo)、觸屏轉(zhuǎn)變?yōu)樽匀徽Z言對(duì)話界面(LUI)。自計(jì)算機(jī)出現(xiàn)的第一天起,人機(jī)界面就是一個(gè)持續(xù)進(jìn)化的話題。從窗口卡片,到鍵盤鼠標(biāo),以及當(dāng)下最主流的觸屏,都不如幾十年前科幻小說中就開始提出的自然語言人機(jī)對(duì)話界面更為易用、高效。多模態(tài)對(duì)話式智能體(Agent)的出現(xiàn),已經(jīng)滲透到 IoT 設(shè)備以及電腦、手機(jī)的各種軟件中,也將極快地改變這些設(shè)備中人機(jī)界面的使用體驗(yàn)。

以上四個(gè)趨勢(shì)定義了下個(gè)時(shí)代 IT 進(jìn)化的主題,也將成為 IT 進(jìn)化的核心驅(qū)動(dòng)力。在這樣的時(shí)代背景下,我們認(rèn)為生成式 AI 將會(huì)一如既往地助力 RTE 能力的進(jìn)化與普及,同時(shí)生成式 AI 也將借助 RTE 能力以及 RTE 應(yīng)用的廣度與深度來進(jìn)化自身。

我們對(duì)生成式 AI 的未來發(fā)展有兩個(gè)方向性的總結(jié):

其一,向多模態(tài)深度進(jìn)化。目前,文字所能提供的訓(xùn)練數(shù)據(jù)已基本被充分利用。語言作為聲音化的文字,所提供的信息和數(shù)據(jù)空間將會(huì)被放大很多倍。同時(shí),自然環(huán)境聲音和視覺數(shù)據(jù)的獲取與運(yùn)用,也將為大模型提供幾乎無限的數(shù)據(jù)空間,進(jìn)一步滿足大模型智能進(jìn)化的數(shù)據(jù)需求。

其二,多步推理。無論是思維鏈(CoT)還是多 Agent 協(xié)同的方式,都為依托推理引擎完成具有高智能、高復(fù)雜度的現(xiàn)實(shí)任務(wù)提供了清晰的機(jī)會(huì)。這必然會(huì)成為一個(gè)重要的發(fā)展方向,從而實(shí)現(xiàn)利用大模型完成許多人完成起來都頗具挑戰(zhàn)的任務(wù)。狹義的通用人工智能(AGI)有望在未來幾年內(nèi)通過多步推理的方式迅速變?yōu)楝F(xiàn)實(shí)。

回歸到生成式 AI 未來發(fā)展的兩大方向與 RTE 之間的關(guān)系。多模態(tài)大模型已逐步進(jìn)化到能夠提供高度擬人化的聽、說、看、寫能力。通過與多個(gè)行業(yè)伙伴的打磨和深度實(shí)驗(yàn),我們發(fā)現(xiàn)多模態(tài)對(duì)話體驗(yàn)存在兩個(gè)關(guān)鍵側(cè)面:

第一,是聲音體驗(yàn),包括延遲、語氣、情感、情緒、口音等,都是大模型參與人機(jī)對(duì)話時(shí)體驗(yàn)感知和評(píng)價(jià)的關(guān)鍵角度。

第二,人與 AI Agent 對(duì)話時(shí),最核心的互動(dòng)體驗(yàn)就是打斷。如果在對(duì)話過程中打斷體驗(yàn)不自然,出現(xiàn)搶話或者不知道如何順利開展下一段對(duì)話的情況,就會(huì)對(duì)多模態(tài)大模型的實(shí)用化產(chǎn)生嚴(yán)重影響和阻礙。

為了解決這一問題,我們發(fā)現(xiàn)現(xiàn)有 RTC 技術(shù)棧和基礎(chǔ)設(shè)施有大量改進(jìn)空間。只有通過改進(jìn),大模型才有機(jī)會(huì)在各種場(chǎng)景、形態(tài)、模型下大規(guī)模參與到和人的語言對(duì)話中,參與的來源也是從云到端再到更低延遲的邊緣進(jìn)行的。基于這些能力的改進(jìn)和普及,未來 RTE 必將成為生成式 AI 時(shí)代 AI 基礎(chǔ)設(shè)施(AI Infra)的關(guān)鍵部分。

很多智能都涉及所在領(lǐng)域的專業(yè)知識(shí)和信息,在完成復(fù)雜任務(wù)時(shí),這些專業(yè)信息和知識(shí)可能由于隱私、數(shù)據(jù)權(quán)屬、財(cái)產(chǎn)保密等原因,分布在云邊端的各個(gè)部分。當(dāng)它們協(xié)同完成任務(wù)時(shí),其中連接的延遲降低和可用性的穩(wěn)定保障就成了一個(gè)關(guān)鍵需求。實(shí)時(shí)互動(dòng)領(lǐng)域的軟件定義實(shí)時(shí)網(wǎng) SD-RTN?,對(duì)傳輸質(zhì)量的保證以及穩(wěn)定可靠的支持,將是其中必不可少的能力保障。

10 月初,聲網(wǎng)兄弟公司 Agora 作為語音 API 合作者,出現(xiàn)在了 OpenAI 發(fā)布的 Realtime API 公開測(cè)試版中。同時(shí),我們也很高興地宣布,聲網(wǎng)與 MiniMax 正在打磨國內(nèi)第一個(gè) Realtime API,這里給大家放個(gè)彩蛋。讓我們一起期待接下來 MiniMax 的正式發(fā)布。

Beyond GenAI 更多進(jìn)化與商業(yè)價(jià)值

生成式 AI 固然是宏大時(shí)代潮流中最重大的趨勢(shì)之一,但絕非全部,還有更多 IT 技術(shù)和產(chǎn)業(yè)進(jìn)化在推動(dòng) RTE 行業(yè)發(fā)展,不斷提供新的商業(yè)價(jià)值。

值得一提的是,去年Apple Vision Pro 正式發(fā)布,盡管行業(yè)第一手體驗(yàn)反饋褒貶不一,但我們認(rèn)為它依舊實(shí)現(xiàn)了實(shí)時(shí)互動(dòng)領(lǐng)域的重大邊界拓展。

Immersive Video在人的視覺體驗(yàn)上展現(xiàn)了全新的潛力,具備接近全息視覺體驗(yàn)的能力,給人所建立的真實(shí)感遠(yuǎn)遠(yuǎn)超越上一代 VR 設(shè)備。這種新的媒體形式也是未來創(chuàng)造“如聚一堂”互動(dòng)感覺的基礎(chǔ),這些進(jìn)展著實(shí)令人激動(dòng)。

我們很高興在行業(yè)內(nèi)率先推出支持 Vision Pro OS 的 SDK,與客戶和開發(fā)者共同創(chuàng)造眾多有趣的場(chǎng)景。例如 InSpaze,便是利用設(shè)備新能力開展社交的一次極有意義的探索。

隨著疫情的消退,WebRTC需求雖曾有明顯下降,但在 2023 年回歸穩(wěn)定且呈現(xiàn)穩(wěn)中有升的狀態(tài),整體用量是疫情前的四倍。

WebRTC 開源項(xiàng)目過去一年的進(jìn)化主要體現(xiàn)在一些具體能力點(diǎn)上,包括 AI 噪聲消除、AI 語音增強(qiáng)、支持 AV1 以及適配 AI Insertable Streams。

社交出海持續(xù)升溫,核心區(qū)域的視頻社交增長超過一倍。1V1、秀場(chǎng)直播、語聊房是最受青睞的三個(gè)社交出海場(chǎng)景;用量最大的區(qū)域?yàn)闁|南亞、中東和印度;增長最快的三大區(qū)域分別是東南亞、中東和南美地區(qū)。

2024 年是體育賽事大年,這也促使體育賽事直播應(yīng)用不斷進(jìn)化。數(shù)據(jù)顯示,本屆奧運(yùn)會(huì)相比上屆,通過手機(jī)和智能設(shè)備觀看直播的數(shù)量大幅提升。我們支持的云演播廳場(chǎng)景,可以實(shí)現(xiàn)更低的卡頓率、延遲,擁有更好的互動(dòng)體驗(yàn)和易用性。

在自動(dòng)駕駛領(lǐng)域,RTE 技術(shù)不僅應(yīng)用于 Robotaxi 這種自動(dòng)駕駛出租車上,在各種功能性車輛上的應(yīng)用也在加速落地,甚至比 Robotaxi 更快。

游戲大作的出現(xiàn)持續(xù)推動(dòng)游戲社區(qū)和游戲開黑使用場(chǎng)景的成長。“黑神話:悟空” 的推出使得游戲開黑業(yè)務(wù)呈現(xiàn)爆發(fā)式增長。

在全球市場(chǎng)上,許多被 AI 影響和改造的新場(chǎng)景和新案例也在持續(xù)演進(jìn)。例如,利用 AI 能力進(jìn)行視頻風(fēng)格化處理,可以將視頻改造成卡通等各種風(fēng)格;AI 呼叫中心,由于多模態(tài)和大模型智能的進(jìn)化,也開始加速替代人工客服;AI 智能嬰兒監(jiān)護(hù),除了過去的聽得見和看得見之外,AI 也在嘗試解讀嬰兒的哭聲究竟代表何種需求。

在更多領(lǐng)域,如高端酒店管家、線上劇本殺、虛擬主播等等,都是大模型和多模態(tài)能力進(jìn)化帶來的令人感到豐富多彩、耳目一新的創(chuàng)新。

RTE 產(chǎn)品也正朝著更加專業(yè)化的方向邁進(jìn)。近期,我們推出了面向?qū)崟r(shí)互動(dòng)的 Status Page。它提供了電信級(jí)的質(zhì)量保證,擁有分鐘級(jí)更新質(zhì)量保證狀態(tài)的能力。同時(shí),針對(duì)實(shí)時(shí)互動(dòng)對(duì)話體驗(yàn),無論是卡頓還是延遲,都能提供更為細(xì)致且清晰的指標(biāo)。我們期望將這樣的 Status Page 透明給所有開發(fā)者和客戶,以便為大家更好地提供對(duì)實(shí)時(shí)互動(dòng)服務(wù)狀態(tài)和能力的感知。

AI+RTE 推動(dòng)各行業(yè)場(chǎng)景創(chuàng)新與成熟

生成式 AI 技術(shù)正在結(jié)合新的專業(yè)能力滲透到各個(gè)場(chǎng)景,創(chuàng)造新場(chǎng)景、加速場(chǎng)景成熟以及降低生成場(chǎng)景的成本。

社交泛娛樂領(lǐng)域,過去一年 AI 寵物突然變成一個(gè)新的有趣玩法。

在線教育領(lǐng)域,生成式 AI 技術(shù)讓原本很難、很貴的服務(wù),變得算力化和平民化。例如 AI 題庫幾乎變成所有大模型都有的知識(shí),降低了利用題庫開展教育服務(wù)的門檻;AI 口語教學(xué)中,多模態(tài)大模型在語言能力上,已經(jīng)完全可以替代傳統(tǒng)口語老師,無論發(fā)音、語法、還是用詞表達(dá)等方面都表現(xiàn)的不錯(cuò);

AI 答疑老師基本也可以做到隨叫隨到,結(jié)合多模態(tài)能力,做到與真實(shí)答疑老師能力相當(dāng),甚至更有耐心。語言翻譯能力也隨著我們RTT實(shí)時(shí)翻譯產(chǎn)品功能的發(fā)布成為觸手可及的能力,當(dāng)前這一能力的使用價(jià)值仍然被遠(yuǎn)遠(yuǎn)低估。

AI 多語言交流,正在打破全球語言障礙,成為推進(jìn)全球化的新方式。

IoT 領(lǐng)域最值得關(guān)注的是大模型能力帶來的對(duì)話機(jī)器人的實(shí)用化,不僅更容易理解意圖,而是能夠提供實(shí)質(zhì)性、信息量豐富、且擁有高度智慧的答案。預(yù)計(jì)未來一年左右的時(shí)間,大家就會(huì)感受到各種對(duì)話機(jī)器人場(chǎng)景的實(shí)用性進(jìn)化。

可穿戴設(shè)備利用生成式 AI 能力成為爆品,比如 Meta 智能眼鏡憑借提供 LLAMA3 支持的對(duì)話能力,至少賣了300萬副。

具身智能機(jī)器人也逐漸在 AI 推動(dòng)下成為現(xiàn)實(shí),已經(jīng)沒有什么障礙可以妨礙機(jī)器人走路和生活。

AI 客服正在實(shí)質(zhì)性地替代人工客服,已經(jīng)不只一家創(chuàng)業(yè)公司在大規(guī)模采用 AI 客服,最讓人感到驚訝的是,不僅節(jié)省了人工客服成本,也提升了客服滿意度,這里面有很多值得關(guān)注的進(jìn)化潛力。

會(huì)議場(chǎng)景上,我們的 aPaaS 產(chǎn)品靈動(dòng)會(huì)議已經(jīng)把實(shí)時(shí)字幕、實(shí)時(shí)翻譯和智能會(huì)議紀(jì)要完全做在模板里,任何做會(huì)議協(xié)同甚至社交場(chǎng)景的開發(fā)者和創(chuàng)業(yè)者,都可以利用這一能力簡單打破語言障礙。

AI 對(duì)新場(chǎng)景的催化也讓人大開眼界,例如現(xiàn)在智能眼鏡對(duì)環(huán)境的理解、認(rèn)知,結(jié)合地理位置和自然對(duì)話能力已經(jīng)完全可以取代導(dǎo)盲犬,甚至更好用,這些都開創(chuàng)了以前從未有過的機(jī)會(huì)。

生成式 AI 的確為我們展現(xiàn)了無限的想象空間與諸多可能性,然而,生成式 AI 應(yīng)用的開發(fā)同時(shí)也面臨著諸多挑戰(zhàn)。

首先,基礎(chǔ)大模型和AI應(yīng)用之間的邊界是在哪里?過去一年,包括 Inflection、CharacterAI 以及很多估值10億美元以上的公司被收購,Perplexity 的搜索創(chuàng)新,也遭到了大模型公司和以搜索為主業(yè)的公司的強(qiáng)烈挑戰(zhàn)。那么,究竟哪些應(yīng)用才真正屬于創(chuàng)業(yè)者的機(jī)會(huì)呢?我們認(rèn)為,只有與垂直應(yīng)用所在的領(lǐng)域結(jié)合得越深,壁壘才會(huì)越高,應(yīng)用開發(fā)者也才越有機(jī)會(huì)。

其次,應(yīng)用開發(fā)的架構(gòu)與機(jī)制尚不明晰。在當(dāng)下這個(gè)時(shí)代,將大模型能力視作推理引擎或者知識(shí)庫,如何在此基礎(chǔ)上進(jìn)行應(yīng)用領(lǐng)域的知識(shí)推理和服務(wù),仍然是一個(gè)處于探索階段的話題。LangChain、RAG、SWARM 等框架僅僅是一種思路,雖然可以提供一定能力的支持,但還不夠成熟、不夠完備,更不用說易用性了,這些框架自身不斷變化的現(xiàn)象恰恰反映出其不成熟和不確定的特點(diǎn)。

RTE 10年 在場(chǎng)景創(chuàng)新中一路走來

過去的十年,是 RTE 行業(yè)從無到有逐步崛起的十年。十年前,RTE 行業(yè)處于 “三無狀態(tài)”,既無行業(yè)會(huì)議,又無專業(yè)書籍,也無專業(yè)媒體和社區(qū),而如今這些都已逐步建立起來。

在這十年的大會(huì)中,有超過 2000 位來自各領(lǐng)域的專家、講師參與分享,累計(jì)超過 4 萬人次的參會(huì)者親臨現(xiàn)場(chǎng)交流,累計(jì)影響的開發(fā)者超過 200 萬。

今年,我們非常高興地推出了行業(yè)首本系統(tǒng)介紹實(shí)時(shí)互動(dòng)的技術(shù)型科普?qǐng)D書《讀懂實(shí)時(shí)互動(dòng)》。通過這本書,讀者能夠窺探到過去十年實(shí)時(shí)互動(dòng)領(lǐng)域發(fā)展的關(guān)鍵節(jié)點(diǎn)以及其中的規(guī)律、脈絡(luò)和未來的可能性。

RTE 開發(fā)者社區(qū)始終是過去十年 RTE 行業(yè)成長的主旋律。我們欣喜地看到當(dāng)下各個(gè)開發(fā)者項(xiàng)目之間的技術(shù)交流與互動(dòng)達(dá)到了極為高頻和活躍的狀態(tài)。通過 RTE 開發(fā)者社區(qū),我們與大家共同打造一個(gè)技術(shù)共建、產(chǎn)品加速、交流連接的平臺(tái),與各個(gè)開發(fā)者一同把社區(qū)建設(shè)得更加繁榮。

十年征程,RTE 已從一個(gè)理念發(fā)展成為一個(gè)行業(yè)。然而,在如今的生成式 AI 時(shí)代,我們覺得所有過往都僅僅是未來的序章。憑借著 RTE 與 AI 能力結(jié)合的廣闊前景,我們有理由期待下一個(gè)更加波瀾壯闊、激動(dòng)人心的十年。希望在未來的發(fā)展進(jìn)程中,我們能繼續(xù)與大家攜手共進(jìn),開創(chuàng)生成式 AI 時(shí)代下 RTE 的嶄新篇章。


相關(guān)文章

人工智能企業(yè)

更多>>

人工智能產(chǎn)業(yè)

更多>>

人工智能技術(shù)

更多>>
AI云資訊(愛云資訊)立足人工智能科技,打造有深度、有前瞻、有影響力的泛科技媒體平臺(tái)。
合作QQ:1211461360微信號(hào):icloudnews