搜狗首創(chuàng)語境引擎:AI同傳最強進化,PPT翻譯正確率猛升
2019-12-26 14:38:35AI云資訊897
“全球95%的信息是用英文所寫的,100%的國際商貿(mào)活動是用英文的,因此如何幫助中國人跟外國人進行更好的交流,這變成了一個重大的技術課題?!?
搜狗公司CEO王小川的這席話道出了多少中國人的心聲?
近日,王小川在某科技大會的演講中談到了“語言AI的未來構想”:我們作為做輸入法、搜索以語言為核心的公司,投了很多的力量來做相關的積累。
這里說的積累包含搜狗的OCR技術、NLP技術、知識圖譜技術等等,而這個積累的成果終于重磅亮相,它就是“搜狗同傳3.0”。搜狗同傳3.0在這場大會上的首秀驚艷四座,快速準確的同步翻譯王小川的演講內(nèi)容,感受下:
業(yè)內(nèi)首創(chuàng)多模態(tài)同傳,PPT翻譯正確率提升40.3%,搜狗同傳3.0如何實現(xiàn)“能聽會看會思考”?
在與搜狗AI交互技術部總經(jīng)理陳偉和項目負責人趙超溝通后我們得知,在2016年“互聯(lián)網(wǎng)大會”上,搜狗同傳1.0首次亮相時語音識別準確率已經(jīng)達到97%,機器翻譯準確率達到90%。
而3年后的今天,搜狗同傳3.0再次進化,PPT識別準確率提升21.7%,翻譯正確率提升40.3%,靠的就是秘密武器——“語境引擎”。
基于搜狗獨創(chuàng)的“語境引擎”,搜狗同傳3.0以“多模態(tài)”和“自主學習“為核心,加入視覺和思維能力,讓機器同傳不僅能聽,還首次具備了會看、會思考、會推理的能力,引領AI同傳進入了多模態(tài)認知時代。
能聽:準確識別講述內(nèi)容
會看:通過OCR、NLP等技術,實時捕捉并分析PPT核心詞
會思考:基于知識圖譜技術,廣泛擴展專業(yè)領域詞匯
其中,搜狗同傳3.0業(yè)內(nèi)首創(chuàng)利用視覺技術加持AI同傳,成功破解了大會同傳場景下,專業(yè)術語的識別和翻譯這個難題。
搜狗同傳產(chǎn)品總監(jiān)張晶晶介紹道:“用攝像頭或者數(shù)據(jù)線插在視頻上實時通過OCR捕捉演講人正在演講的PPT內(nèi)容,實時分析PPT核心關鍵詞,就增強了視覺的能力?!?
緊接著,在捕捉到核心關鍵詞后,利用搜狗的知識圖譜技術進行廣泛的拓展,把相關的詞語以及這個專業(yè)領域相關的詞語都拓展出來來加強語音識別和翻譯。這就是“能理解”。
在這樣一套系統(tǒng)下,搜狗同傳3.0可以更像一個專家和內(nèi)行一樣的去解讀和翻譯大會。具體來說,使現(xiàn)有AI同傳技術從3方面進行了提升:
更自然,從以往單純的語音識別,到現(xiàn)在去模擬人工同傳的工作方式,增加視覺和大腦擴散知識點的功能,形成一套全方位的感知系統(tǒng)。
更專業(yè),以往的AI同傳模型是通用的,現(xiàn)在通過這套系統(tǒng)形成了實時專屬的定制加強的能力,能夠實時捕捉PPT的內(nèi)容,補充演講專業(yè)領域的知識,并且針對每一個演講的模型定制,提升同傳效果。
更智能,以往模型訓練需要一個被動學習的過程,現(xiàn)在自動學習PPT的內(nèi)容,自動捕捉海量詞匯,確保同傳品質非常優(yōu)秀。
在專業(yè)術語多的大會上,搜狗同傳3.0的優(yōu)勢更加明顯,具體效果見下圖:
搜狗同傳2.0將圍棋專業(yè)術語“投子”識別為“投資”,而通過捕捉PPT內(nèi)容和知識圖譜的擴展,搜狗同傳3.0可以準確識別出來。
除了大會演講的同傳外,搜狗同傳3.0作為一套完整的技術體系正在更多的場景應用,比如記者采訪、跨國辦公會議、視頻直播、旅游出行、法院庭審等。
大廠紛紛押注AI同傳,為什么以搜索起家的搜狗更具優(yōu)勢?
這兩年,AI同傳市場很熱鬧,以百度、騰訊、訊飛為代表的大廠紛紛推出自家的AI同傳,也有一些被用在了世界級大會上。那么,作為最早一批入局AI同傳的搜狗優(yōu)勢在哪?又有什么不同的理念呢?
搜狗同傳一直代表著 AI 同傳領域頂級的水平,早在2018年的IWSLT國際口語機器翻譯評測大賽上,搜狗就擊敗訊飛、阿里、APPTEK、AFRL及KIT等國內(nèi)外頂尖對手,奪得冠軍,實力可見一斑。
在搜狗看來,未來面向人機交互一定是多模態(tài)的。其他公司的同傳主要以“語音識別+翻譯”為主,搜狗則步入了下一代,從語音跨到了多模態(tài),同時加入對于語音和知識的理解,讓AI同傳具備一定的認知能力。
其實,AI同傳面臨的挑戰(zhàn)主要有兩個:一是準確性,二是低延時。
越多的感官參與,理解就會越準確,對于AI同傳來說也是如此。今天的搜狗同傳把識別PPT加入其中,明天可能會調動更多“感官”,甚至把唇語識別也加入其中,提升翻譯的準確性。
此外,搜狗的兩大利器——搜索引擎和輸入法在提升準確性方面也派上了大用場。
“每天在搜狗輸入法上的語音識別總的次數(shù)在8億次以上,8億次以上語音請求數(shù)代表著每天差不多有30多萬小時的有效數(shù)據(jù),基于這樣的數(shù)據(jù)再進一步去學習,本身就使得我們的機器一直在不斷成長?!标悅ソ榻B到。
說話人開口講了半句話,同聲傳譯就要開始翻譯了。為了降低延時,搜狗同傳3.0做了一個基于上下流的解碼,通過一個信息模塊來實時檢測說話人什么時候斷句,再借助搜狗強大的知識圖譜迅速整理翻譯,這樣就可以大大降低延時。
搜狗同傳領先的不僅是技術,還有眼光。當前,搜狗AI的技術布局聚焦在自然交互和知識計算上。在語言之上提取出跟語言的關聯(lián)關系,讓機器產(chǎn)生人的“認知”能力,王小川稱之為知識計算。怎么更好的把從大量數(shù)據(jù)中抽取出的知識用在同傳中、怎么計算出更多的知識給同傳用,這正是搜狗同傳努力的方向。
搜狗同傳3.0的發(fā)布,是搜狗又一次在同傳領域的技術創(chuàng)新,讓AI同傳首次具備了視覺能力和思考能力,開啟了AI同傳行業(yè)全新的“多模態(tài)認知”時代。AI同傳替代人工同傳還會遠嗎?
相關文章
- 哈利波特手游聯(lián)動搜狗輸入法!表情包為何能火爆出圈?
- 騰訊搭建公益平臺免費開放無障礙輸入技術,搜狗輸入法發(fā)布眼動方案
- 金山文檔聯(lián)合搜狗輸入法推出定制皮膚 實力詮釋反差萌
- 完美適配Windows 11 搜狗輸入法智能輸入助手體驗再升級
- 召喚搜狗輸入法智能汪仔,精彩國慶節(jié)文案速度get
- 搜狗輸入法手機版五筆新升級:業(yè)界主流方案全支持
- 搜狗完成私有化交易 搜索和輸入法等保持搜狗品牌運營
- 搜狗宣布完成私有化交易并與騰訊完成合并
- 有口難言?搜狗輸入法教你如何在七夕支棱起來
- 七夕朋友圈狗糧吃太多 看搜狗輸入法如何教單身汪絕地反擊
- 真會玩:搜狗輸入法居然上線了這么多運動員表情包
- 跨界連線馬斯克,搜狗AI合成主播驚艷亮相“全球數(shù)字經(jīng)濟大會”
- 從搜狗輸入法智能汪仔的進化 看AI輸入法的蛻變進階之路
- 用搜狗輸入法心情模板 快速獲取朋友圈運動盛會加油文案!
- 搜狗輸入法小米定制版更新,“智能汪仔”變身MARA助手啦
- 越加油越熱愛!搜狗輸入法智能汪仔解鎖助威新姿勢
人工智能企業(yè)
更多>>人工智能硬件
更多>>- 低空賦能,跨越山河,大疆運載無人機的甘孜答卷
- 預制菜又吵起來了?優(yōu)特智廚炒菜機新品發(fā)布會掀起中餐“現(xiàn)炒”熱潮
- 場景化落地部署人形機器人將超2000臺,眾擎機器人與多倫科技達成戰(zhàn)略合作
- 275W極限性能+第二代乾坤散熱!拯救者R9000P 2025至尊版成就電競創(chuàng)作雙巔峰
- 百年聲學品牌再創(chuàng)新!拜雅新品AMIRON 200 & AMIRON ZERO定義開放聆聽新方式
- 筑牢安全芯基石,紫光同芯無線充電鑒權芯片T9系列亮相2025(秋季)亞洲充電展
- 中國移動將支持eSIM全系產(chǎn)品,釋放成長新動能
- 晟聯(lián)科:以高速互連接口IP方案賦能Scale-up 生態(tài)
人工智能產(chǎn)業(yè)
更多>>- 人機共生 · 智啟未來——2025高交會亞洲人工智能與機器人產(chǎn)業(yè)鏈展主題發(fā)布
- 北京數(shù)基建發(fā)布“知行IntAct”混合智能體產(chǎn)品,以AI定義城市治理新范式
- 新時達“精耕小腦”,與大腦協(xié)同,加速具身智能垂直落地
- 亞洲愿景論壇 東軟蓋龍佳談AI與數(shù)據(jù)價值化重構醫(yī)療未來
- 破解AI落地難題!北大這場特訓營,為企業(yè)找到轉型“最優(yōu)解”
- 腦神經(jīng)成像提速數(shù)倍、AI練就“遺忘術”!2025螞蟻InTech獎頒發(fā)
- 一句話生成圖表!天禧智能體接入ChatExcel MCP Server讓數(shù)據(jù)處理變得如此簡單
- 外灘大會重磅發(fā)布:螞蟻百寶箱Tbox超級智能體亮相,實現(xiàn)分鐘級專業(yè)軟件交付
人工智能技術
更多>>- 外灘大會首發(fā)! 螞蟻密算推出AI密態(tài)升級卡 實現(xiàn)零改動“即插即用”
- 騰訊優(yōu)圖攜Youtu-Agent開源項目亮相上海創(chuàng)智學院首屆TechFest大會
- 2025外灘大會:王堅暢談AI變革,普天科技錨定空天算力新賽道
- 騰訊正式開源Youtu-GraphRAG,圖檢索增強技術迎來落地新突破
- 聲網(wǎng)兄弟公司 Agora與OpenAI 攜手 助力多模態(tài) AI 智能體實現(xiàn)實時交互
- Qwen-Image-Edit 模型上線基石智算,圖像編輯更精準
- 火山引擎多模態(tài)數(shù)據(jù)湖落地深勢科技,提升科研數(shù)據(jù)處理效能
- 斑馬AI大模型:為每個孩子提供專屬學習方案