中文字幕日韩精品一区二区三区 ,99ri在线,综合亚洲av图片区

10月25日，在 RTE2024 第十屆實(shí)時(shí)互聯(lián)網(wǎng)大會(huì)主論壇上，聲網(wǎng)創(chuàng)始人兼 CEO 趙斌發(fā)表了《實(shí)時(shí)互動(dòng)十年：從 WebRTC 到生成式 AI 時(shí)代的 RTE 》主旨演講。

趙斌認(rèn)為，生成式 AI 正在驅(qū)動(dòng) IT 行業(yè)發(fā)生大變革，這一趨勢(shì)主要體現(xiàn)在四個(gè)層面：終端、軟件、云以及人機(jī)界面。在這樣的時(shí)代背景下，生成式 AI 將會(huì)一如既往地助力 RTE 能力的進(jìn)化與普及，同時(shí)也將借助 RTE 能力以及 RTE 應(yīng)用的廣度與深度來實(shí)現(xiàn)自身進(jìn)化。

同時(shí)，他也在分享中發(fā)布了聲網(wǎng) RTE+AI 能力全景圖。在全景圖中，聲網(wǎng)從實(shí)時(shí) AI 基礎(chǔ)設(shè)施、RTE+AI 生態(tài)能力、聲網(wǎng) AI Agent、實(shí)時(shí)多模態(tài)對(duì)話式 AI 解決方案、RTE+AI 應(yīng)用場(chǎng)景五個(gè)維度，清晰地呈現(xiàn)了當(dāng)前 RTE 與 AI 相結(jié)合的技術(shù)能力與應(yīng)用方案。趙斌表示，生成式 AI 與 RTE 結(jié)合帶來的場(chǎng)景創(chuàng)新，也將成為下一個(gè)十年的主題。

以下內(nèi)容基于趙斌演講全文整理：

感謝大家在金秋十月再次來到北京 RTE 大會(huì)的現(xiàn)場(chǎng)，與各位嘉賓、講師一起探討 RTE 行業(yè)的現(xiàn)狀和未來。尤其要感謝來參會(huì)的開發(fā)者、工程師、產(chǎn)品經(jīng)理、創(chuàng)業(yè)者，在過去十年中，是你們與我們共同參與并見證了 RTE 行業(yè)波瀾壯闊的成長歷程。

在過去的十年里，RTE 能力成為了顛覆眾多行業(yè)發(fā)展與成長的核心力量。在社交泛娛樂領(lǐng)域，涌現(xiàn)出了多家以實(shí)時(shí)音視頻技術(shù)為底層能力的企業(yè)，它們開創(chuàng)了新的玩法、場(chǎng)景和商業(yè)服務(wù)，其中有不少已成功上市，使得 RTE 能力逐步廣泛應(yīng)用并普及至全球市場(chǎng)。

在在線教育領(lǐng)域，以 RTE 能力為支撐的 “線上課堂” 不僅曾是中國互聯(lián)網(wǎng)創(chuàng)業(yè)圈的熱門關(guān)注點(diǎn)，還為體制內(nèi)教育 “三個(gè)課堂” 這一全國性政策提供了支持，并且在疫情期間發(fā)揮了不可或缺的作用。

在 IoT 領(lǐng)域，也出現(xiàn)了許多依托 RTE 能力而實(shí)現(xiàn)的新產(chǎn)品，例如兒童手表。VR/AR 設(shè)備進(jìn)化中，RTE 也賦能了眾多高價(jià)值功能。

在企業(yè)服務(wù)領(lǐng)域，從金融業(yè)的雙錄面簽到產(chǎn)業(yè)遠(yuǎn)程巡檢巡查、生產(chǎn)現(xiàn)場(chǎng)指導(dǎo)協(xié)同，以及快遞站點(diǎn)和調(diào)度中心的實(shí)時(shí)協(xié)同等場(chǎng)景，各行業(yè)都在通過RTE能力深度改造經(jīng)營方式。

過去十年，大家熟知的互聯(lián)網(wǎng)風(fēng)口也有很多離不開RTE能力的賦能和參與。社交泛娛樂、在線教育等行業(yè)的創(chuàng)業(yè)風(fēng)口，電商直播對(duì)電商行業(yè)格局的改變等等，其中很多都和實(shí)時(shí)互動(dòng)能力的使用和進(jìn)化有不可分割的關(guān)系。如今，在大模型和生成式 AI 時(shí)代，也將伴隨 RTE 能力的輔助與賦能走向成熟和應(yīng)用。

生成式 AI 時(shí)代 IT 行業(yè)四大變革趨勢(shì)

過去一年，通過與大模型以及 IT 行業(yè)同行、合作伙伴進(jìn)行深入的探討與交流，我們逐漸厘清了生成式 AI 能力將會(huì)如何改造和影響未來十年甚至二十年 IT 行業(yè)進(jìn)化的途徑與方法，并總結(jié)出了四大趨勢(shì)，這些趨勢(shì)將會(huì)決定并影響整個(gè) IT 行業(yè)發(fā)展的進(jìn)程。

趨勢(shì)一：終端的進(jìn)化將以對(duì)大模型的能力支持為核心驅(qū)動(dòng)。在未來十到二十年，無論是 PC 還是智能手機(jī)，必然會(huì)以如何更好地支持大模型能力在端上的應(yīng)用，以及推理能力的成熟和推理性能的提升為主要進(jìn)化軸線。

趨勢(shì)二：所有的軟件都可以且將會(huì)通過大模型重新實(shí)現(xiàn)。僅僅在現(xiàn)有軟件中運(yùn)用大模型能力進(jìn)行小改進(jìn)和補(bǔ)充是遠(yuǎn)遠(yuǎn)不夠的，而是要以大模型能力為核心，重新思考每個(gè)領(lǐng)域的軟件應(yīng)如何設(shè)計(jì)、如何實(shí)現(xiàn)，以及最終會(huì)有怎樣的使用體驗(yàn)和效果。這便是從 “ Software with AI ” 到 “ AI Native Software ” 的根本轉(zhuǎn)變，也將改變行業(yè)的技術(shù)框架和技術(shù)能力進(jìn)化方式。

趨勢(shì)三：所有的云都需要具備對(duì)大模型的訓(xùn)練和推理能力。大模型出現(xiàn)后，對(duì)于云服務(wù)而言，在早期提出的三個(gè)基本能力之外，GPU 算力必然成為第四個(gè)關(guān)鍵能力。沒有這一能力，就很難成為一個(gè)真正意義上的大規(guī)模公有云服務(wù)。

趨勢(shì)四：人機(jī)界面從鍵盤、鼠標(biāo)、觸屏轉(zhuǎn)變?yōu)樽匀徽Z言對(duì)話界面(LUI)。自計(jì)算機(jī)出現(xiàn)的第一天起，人機(jī)界面就是一個(gè)持續(xù)進(jìn)化的話題。從窗口卡片，到鍵盤鼠標(biāo)，以及當(dāng)下最主流的觸屏，都不如幾十年前科幻小說中就開始提出的自然語言人機(jī)對(duì)話界面更為易用、高效。多模態(tài)對(duì)話式智能體(Agent)的出現(xiàn)，已經(jīng)滲透到 IoT 設(shè)備以及電腦、手機(jī)的各種軟件中，也將極快地改變這些設(shè)備中人機(jī)界面的使用體驗(yàn)。

以上四個(gè)趨勢(shì)定義了下個(gè)時(shí)代 IT 進(jìn)化的主題，也將成為 IT 進(jìn)化的核心驅(qū)動(dòng)力。在這樣的時(shí)代背景下，我們認(rèn)為生成式 AI 將會(huì)一如既往地助力 RTE 能力的進(jìn)化與普及，同時(shí)生成式 AI 也將借助 RTE 能力以及 RTE 應(yīng)用的廣度與深度來進(jìn)化自身。

我們對(duì)生成式 AI 的未來發(fā)展有兩個(gè)方向性的總結(jié)：

其一，向多模態(tài)深度進(jìn)化。目前，文字所能提供的訓(xùn)練數(shù)據(jù)已基本被充分利用。語言作為聲音化的文字，所提供的信息和數(shù)據(jù)空間將會(huì)被放大很多倍。同時(shí)，自然環(huán)境聲音和視覺數(shù)據(jù)的獲取與運(yùn)用，也將為大模型提供幾乎無限的數(shù)據(jù)空間，進(jìn)一步滿足大模型智能進(jìn)化的數(shù)據(jù)需求。

其二，多步推理。無論是思維鏈(CoT)還是多 Agent 協(xié)同的方式，都為依托推理引擎完成具有高智能、高復(fù)雜度的現(xiàn)實(shí)任務(wù)提供了清晰的機(jī)會(huì)。這必然會(huì)成為一個(gè)重要的發(fā)展方向，從而實(shí)現(xiàn)利用大模型完成許多人完成起來都頗具挑戰(zhàn)的任務(wù)。狹義的通用人工智能(AGI)有望在未來幾年內(nèi)通過多步推理的方式迅速變?yōu)楝F(xiàn)實(shí)。

回歸到生成式 AI 未來發(fā)展的兩大方向與 RTE 之間的關(guān)系。多模態(tài)大模型已逐步進(jìn)化到能夠提供高度擬人化的聽、說、看、寫能力。通過與多個(gè)行業(yè)伙伴的打磨和深度實(shí)驗(yàn)，我們發(fā)現(xiàn)多模態(tài)對(duì)話體驗(yàn)存在兩個(gè)關(guān)鍵側(cè)面：

第一，是聲音體驗(yàn)，包括延遲、語氣、情感、情緒、口音等，都是大模型參與人機(jī)對(duì)話時(shí)體驗(yàn)感知和評(píng)價(jià)的關(guān)鍵角度。

第二，人與 AI Agent 對(duì)話時(shí)，最核心的互動(dòng)體驗(yàn)就是打斷。如果在對(duì)話過程中打斷體驗(yàn)不自然，出現(xiàn)搶話或者不知道如何順利開展下一段對(duì)話的情況，就會(huì)對(duì)多模態(tài)大模型的實(shí)用化產(chǎn)生嚴(yán)重影響和阻礙。

為了解決這一問題，我們發(fā)現(xiàn)現(xiàn)有 RTC 技術(shù)棧和基礎(chǔ)設(shè)施有大量改進(jìn)空間。只有通過改進(jìn)，大模型才有機(jī)會(huì)在各種場(chǎng)景、形態(tài)、模型下大規(guī)模參與到和人的語言對(duì)話中，參與的來源也是從云到端再到更低延遲的邊緣進(jìn)行的。基于這些能力的改進(jìn)和普及，未來 RTE 必將成為生成式 AI 時(shí)代 AI 基礎(chǔ)設(shè)施(AI Infra)的關(guān)鍵部分。

很多智能都涉及所在領(lǐng)域的專業(yè)知識(shí)和信息，在完成復(fù)雜任務(wù)時(shí)，這些專業(yè)信息和知識(shí)可能由于隱私、數(shù)據(jù)權(quán)屬、財(cái)產(chǎn)保密等原因，分布在云邊端的各個(gè)部分。當(dāng)它們協(xié)同完成任務(wù)時(shí)，其中連接的延遲降低和可用性的穩(wěn)定保障就成了一個(gè)關(guān)鍵需求。實(shí)時(shí)互動(dòng)領(lǐng)域的軟件定義實(shí)時(shí)網(wǎng) SD-RTN?，對(duì)傳輸質(zhì)量的保證以及穩(wěn)定可靠的支持，將是其中必不可少的能力保障。

10 月初，聲網(wǎng)兄弟公司 Agora 作為語音 API 合作者，出現(xiàn)在了 OpenAI 發(fā)布的 Realtime API 公開測(cè)試版中。同時(shí)，我們也很高興地宣布，聲網(wǎng)與 MiniMax 正在打磨國內(nèi)第一個(gè) Realtime API，這里給大家放個(gè)彩蛋。讓我們一起期待接下來 MiniMax 的正式發(fā)布。

Beyond GenAI 更多進(jìn)化與商業(yè)價(jià)值

生成式 AI 固然是宏大時(shí)代潮流中最重大的趨勢(shì)之一，但絕非全部，還有更多 IT 技術(shù)和產(chǎn)業(yè)進(jìn)化在推動(dòng) RTE 行業(yè)發(fā)展，不斷提供新的商業(yè)價(jià)值。

值得一提的是，去年Apple Vision Pro 正式發(fā)布，盡管行業(yè)第一手體驗(yàn)反饋褒貶不一，但我們認(rèn)為它依舊實(shí)現(xiàn)了實(shí)時(shí)互動(dòng)領(lǐng)域的重大邊界拓展。

Immersive Video在人的視覺體驗(yàn)上展現(xiàn)了全新的潛力，具備接近全息視覺體驗(yàn)的能力，給人所建立的真實(shí)感遠(yuǎn)遠(yuǎn)超越上一代 VR 設(shè)備。這種新的媒體形式也是未來創(chuàng)造“如聚一堂”互動(dòng)感覺的基礎(chǔ)，這些進(jìn)展著實(shí)令人激動(dòng)。

我們很高興在行業(yè)內(nèi)率先推出支持 Vision Pro OS 的 SDK，與客戶和開發(fā)者共同創(chuàng)造眾多有趣的場(chǎng)景。例如 InSpaze，便是利用設(shè)備新能力開展社交的一次極有意義的探索。

隨著疫情的消退，WebRTC需求雖曾有明顯下降，但在 2023 年回歸穩(wěn)定且呈現(xiàn)穩(wěn)中有升的狀態(tài)，整體用量是疫情前的四倍。

WebRTC 開源項(xiàng)目過去一年的進(jìn)化主要體現(xiàn)在一些具體能力點(diǎn)上，包括 AI 噪聲消除、AI 語音增強(qiáng)、支持 AV1 以及適配 AI Insertable Streams。

社交出海持續(xù)升溫，核心區(qū)域的視頻社交增長超過一倍。1V1、秀場(chǎng)直播、語聊房是最受青睞的三個(gè)社交出海場(chǎng)景;用量最大的區(qū)域?yàn)闁|南亞、中東和印度;增長最快的三大區(qū)域分別是東南亞、中東和南美地區(qū)。

2024 年是體育賽事大年，這也促使體育賽事直播應(yīng)用不斷進(jìn)化。數(shù)據(jù)顯示，本屆奧運(yùn)會(huì)相比上屆，通過手機(jī)和智能設(shè)備觀看直播的數(shù)量大幅提升。我們支持的云演播廳場(chǎng)景，可以實(shí)現(xiàn)更低的卡頓率、延遲，擁有更好的互動(dòng)體驗(yàn)和易用性。

在自動(dòng)駕駛領(lǐng)域，RTE 技術(shù)不僅應(yīng)用于 Robotaxi 這種自動(dòng)駕駛出租車上，在各種功能性車輛上的應(yīng)用也在加速落地，甚至比 Robotaxi 更快。

游戲大作的出現(xiàn)持續(xù)推動(dòng)游戲社區(qū)和游戲開黑使用場(chǎng)景的成長。“黑神話：悟空” 的推出使得游戲開黑業(yè)務(wù)呈現(xiàn)爆發(fā)式增長。

在全球市場(chǎng)上，許多被 AI 影響和改造的新場(chǎng)景和新案例也在持續(xù)演進(jìn)。例如，利用 AI 能力進(jìn)行視頻風(fēng)格化處理，可以將視頻改造成卡通等各種風(fēng)格;AI 呼叫中心，由于多模態(tài)和大模型智能的進(jìn)化，也開始加速替代人工客服;AI 智能嬰兒監(jiān)護(hù)，除了過去的聽得見和看得見之外，AI 也在嘗試解讀嬰兒的哭聲究竟代表何種需求。

在更多領(lǐng)域，如高端酒店管家、線上劇本殺、虛擬主播等等，都是大模型和多模態(tài)能力進(jìn)化帶來的令人感到豐富多彩、耳目一新的創(chuàng)新。

RTE 產(chǎn)品也正朝著更加專業(yè)化的方向邁進(jìn)。近期，我們推出了面向?qū)崟r(shí)互動(dòng)的 Status Page。它提供了電信級(jí)的質(zhì)量保證，擁有分鐘級(jí)更新質(zhì)量保證狀態(tài)的能力。同時(shí)，針對(duì)實(shí)時(shí)互動(dòng)對(duì)話體驗(yàn)，無論是卡頓還是延遲，都能提供更為細(xì)致且清晰的指標(biāo)。我們期望將這樣的 Status Page 透明給所有開發(fā)者和客戶，以便為大家更好地提供對(duì)實(shí)時(shí)互動(dòng)服務(wù)狀態(tài)和能力的感知。

AI+RTE 推動(dòng)各行業(yè)場(chǎng)景創(chuàng)新與成熟

生成式 AI 技術(shù)正在結(jié)合新的專業(yè)能力滲透到各個(gè)場(chǎng)景，創(chuàng)造新場(chǎng)景、加速場(chǎng)景成熟以及降低生成場(chǎng)景的成本。

社交泛娛樂領(lǐng)域，過去一年 AI 寵物突然變成一個(gè)新的有趣玩法。

在線教育領(lǐng)域，生成式 AI 技術(shù)讓原本很難、很貴的服務(wù)，變得算力化和平民化。例如 AI 題庫幾乎變成所有大模型都有的知識(shí)，降低了利用題庫開展教育服務(wù)的門檻;AI 口語教學(xué)中，多模態(tài)大模型在語言能力上，已經(jīng)完全可以替代傳統(tǒng)口語老師，無論發(fā)音、語法、還是用詞表達(dá)等方面都表現(xiàn)的不錯(cuò);

AI 答疑老師基本也可以做到隨叫隨到，結(jié)合多模態(tài)能力，做到與真實(shí)答疑老師能力相當(dāng)，甚至更有耐心。語言翻譯能力也隨著我們RTT實(shí)時(shí)翻譯產(chǎn)品功能的發(fā)布成為觸手可及的能力，當(dāng)前這一能力的使用價(jià)值仍然被遠(yuǎn)遠(yuǎn)低估。

AI 多語言交流，正在打破全球語言障礙，成為推進(jìn)全球化的新方式。

IoT 領(lǐng)域最值得關(guān)注的是大模型能力帶來的對(duì)話機(jī)器人的實(shí)用化，不僅更容易理解意圖，而是能夠提供實(shí)質(zhì)性、信息量豐富、且擁有高度智慧的答案。預(yù)計(jì)未來一年左右的時(shí)間，大家就會(huì)感受到各種對(duì)話機(jī)器人場(chǎng)景的實(shí)用性進(jìn)化。

可穿戴設(shè)備利用生成式 AI 能力成為爆品，比如 Meta 智能眼鏡憑借提供 LLAMA3 支持的對(duì)話能力，至少賣了300萬副。

具身智能機(jī)器人也逐漸在 AI 推動(dòng)下成為現(xiàn)實(shí)，已經(jīng)沒有什么障礙可以妨礙機(jī)器人走路和生活。

AI 客服正在實(shí)質(zhì)性地替代人工客服，已經(jīng)不只一家創(chuàng)業(yè)公司在大規(guī)模采用 AI 客服，最讓人感到驚訝的是，不僅節(jié)省了人工客服成本，也提升了客服滿意度，這里面有很多值得關(guān)注的進(jìn)化潛力。

會(huì)議場(chǎng)景上，我們的 aPaaS 產(chǎn)品靈動(dòng)會(huì)議已經(jīng)把實(shí)時(shí)字幕、實(shí)時(shí)翻譯和智能會(huì)議紀(jì)要完全做在模板里，任何做會(huì)議協(xié)同甚至社交場(chǎng)景的開發(fā)者和創(chuàng)業(yè)者，都可以利用這一能力簡單打破語言障礙。

AI 對(duì)新場(chǎng)景的催化也讓人大開眼界，例如現(xiàn)在智能眼鏡對(duì)環(huán)境的理解、認(rèn)知，結(jié)合地理位置和自然對(duì)話能力已經(jīng)完全可以取代導(dǎo)盲犬，甚至更好用，這些都開創(chuàng)了以前從未有過的機(jī)會(huì)。

生成式 AI 的確為我們展現(xiàn)了無限的想象空間與諸多可能性，然而，生成式 AI 應(yīng)用的開發(fā)同時(shí)也面臨著諸多挑戰(zhàn)。

首先，基礎(chǔ)大模型和AI應(yīng)用之間的邊界是在哪里?過去一年，包括 Inflection、CharacterAI 以及很多估值10億美元以上的公司被收購，Perplexity 的搜索創(chuàng)新，也遭到了大模型公司和以搜索為主業(yè)的公司的強(qiáng)烈挑戰(zhàn)。那么，究竟哪些應(yīng)用才真正屬于創(chuàng)業(yè)者的機(jī)會(huì)呢?我們認(rèn)為，只有與垂直應(yīng)用所在的領(lǐng)域結(jié)合得越深，壁壘才會(huì)越高，應(yīng)用開發(fā)者也才越有機(jī)會(huì)。

其次，應(yīng)用開發(fā)的架構(gòu)與機(jī)制尚不明晰。在當(dāng)下這個(gè)時(shí)代，將大模型能力視作推理引擎或者知識(shí)庫，如何在此基礎(chǔ)上進(jìn)行應(yīng)用領(lǐng)域的知識(shí)推理和服務(wù)，仍然是一個(gè)處于探索階段的話題。LangChain、RAG、SWARM 等框架僅僅是一種思路，雖然可以提供一定能力的支持，但還不夠成熟、不夠完備，更不用說易用性了，這些框架自身不斷變化的現(xiàn)象恰恰反映出其不成熟和不確定的特點(diǎn)。

RTE 10年在場(chǎng)景創(chuàng)新中一路走來

過去的十年，是 RTE 行業(yè)從無到有逐步崛起的十年。十年前，RTE 行業(yè)處于 “三無狀態(tài)”，既無行業(yè)會(huì)議，又無專業(yè)書籍，也無專業(yè)媒體和社區(qū)，而如今這些都已逐步建立起來。

在這十年的大會(huì)中，有超過 2000 位來自各領(lǐng)域的專家、講師參與分享，累計(jì)超過 4 萬人次的參會(huì)者親臨現(xiàn)場(chǎng)交流，累計(jì)影響的開發(fā)者超過 200 萬。

今年，我們非常高興地推出了行業(yè)首本系統(tǒng)介紹實(shí)時(shí)互動(dòng)的技術(shù)型科普?qǐng)D書《讀懂實(shí)時(shí)互動(dòng)》。通過這本書，讀者能夠窺探到過去十年實(shí)時(shí)互動(dòng)領(lǐng)域發(fā)展的關(guān)鍵節(jié)點(diǎn)以及其中的規(guī)律、脈絡(luò)和未來的可能性。

RTE 開發(fā)者社區(qū)始終是過去十年 RTE 行業(yè)成長的主旋律。我們欣喜地看到當(dāng)下各個(gè)開發(fā)者項(xiàng)目之間的技術(shù)交流與互動(dòng)達(dá)到了極為高頻和活躍的狀態(tài)。通過 RTE 開發(fā)者社區(qū)，我們與大家共同打造一個(gè)技術(shù)共建、產(chǎn)品加速、交流連接的平臺(tái)，與各個(gè)開發(fā)者一同把社區(qū)建設(shè)得更加繁榮。

十年征程，RTE 已從一個(gè)理念發(fā)展成為一個(gè)行業(yè)。然而，在如今的生成式 AI 時(shí)代，我們覺得所有過往都僅僅是未來的序章。憑借著 RTE 與 AI 能力結(jié)合的廣闊前景，我們有理由期待下一個(gè)更加波瀾壯闊、激動(dòng)人心的十年。希望在未來的發(fā)展進(jìn)程中，我們能繼續(xù)與大家攜手共進(jìn)，開創(chuàng)生成式 AI 時(shí)代下 RTE 的嶄新篇章。

精品国产18久久久久久,一个人在线观看的www,亚洲一区二区久久久,成人国内精品久久久久影院vr,最近免费中文字幕大全高清大全1

聲網(wǎng)CEO趙斌：RTE將成為生成式AI時(shí)代AI Infra的關(guān)鍵部分

相關(guān)文章

人工智能企業(yè)

人工智能硬件

人工智能產(chǎn)業(yè)

人工智能技術(shù)