搶占AI翻譯賽道,搜索平臺為何不約而同發(fā)力NMT?
2018-06-11 13:35:48AI云資訊1218
不論是國外的谷歌,還是國內(nèi)的搜索巨頭百度、搜狗、360等,均把NMT作為AI翻譯的標配,翻譯集中的領(lǐng)域在中英互譯上,這是一個很有趣的現(xiàn)象。AI翻譯真的是塊肥肉嗎?為什么要發(fā)力NMT?
搜索公司在AI翻譯這個事上扎堆并不令人意外。
2016年,GNMT技術(shù)(谷歌的神經(jīng)網(wǎng)絡機器翻譯技術(shù),模仿人腦的神經(jīng)思考模式)全面布局于谷歌翻譯系統(tǒng)中,隨后,谷歌聲稱其AI翻譯的譯文質(zhì)量誤差降低了55%-85%,并且將此技術(shù)廣泛應用于網(wǎng)頁翻譯與手機應用。
國內(nèi),百度當時已經(jīng)研究出了可應用的SMT技術(shù)(統(tǒng)計機器翻譯),但得知NMT的橫空出世之后,便迅速調(diào)轉(zhuǎn)方向轉(zhuǎn)而研發(fā)NMT技術(shù),于是就有了BNMT應用于百度翻譯。盡管初時的百度翻譯速度很慢。但是,百度當時反應也佐證NMT的價值性。
搜狗、阿里、騰訊等公司也都有部署NMT領(lǐng)域,推出多款基于神經(jīng)網(wǎng)絡的在線翻譯和手機應用,在智能翻譯領(lǐng)域持續(xù)發(fā)力。360搜索也不愿落后,上線了基于NMT的360翻譯,以期與去年上線的360英文搜索形成合力,且還拉來了微軟旗下的搜索引擎Bing開展技術(shù)合作。
但是我們會發(fā)現(xiàn):不論是谷歌還是BAT,其智能翻譯從未能聲稱能替代人工翻譯,因為翻譯還必須考慮到到使用者的情感及文化背景。從2016年起至今的兩年時間里,對海量語料的深度學習逐漸成為AI開發(fā)的必修課,也成了巨頭們布局AI翻譯繞不過的“坎”。
搜索平臺不約而同發(fā)力NMT,為的是哪般?
前面說到,不論是國外的谷歌,還是國內(nèi)的搜索巨頭百度、搜狗、360等,均把NMT作為AI翻譯的標配,翻譯集中的領(lǐng)域在中英互譯上,這是一個很有趣的現(xiàn)象。AI翻譯真的是塊肥肉嗎?惹得誰也不愿意掉隊。
據(jù)統(tǒng)計表明:全球一共有73個國家,超10億人以英語為官方語言,而漢語則是世界使用人數(shù)最多的語言。因此,中英互譯本身的用戶基數(shù)市場就能引起巨頭們足夠的注意力了。
為什么要發(fā)力NMT?
這得從AI翻譯人類語言的方式說起,包含三種:
- 第一,基于規(guī)則的機器翻譯方法;
- 第二,基于實例的機器翻譯方法;
- 第三,基于統(tǒng)計的翻譯方法。
SMT與NMT都屬于第三種,從語料自動學習翻譯模型,結(jié)合大數(shù)據(jù)通過評分輸出翻譯結(jié)果。但是,SMT與NMT存在著顯著的差距。
SMT采用的模式是通過平行語料進行統(tǒng)計分析,翻譯的準確性則與語料的豐富度呈明顯的正相關(guān),但是存在著翻譯結(jié)果太過零散,片面生硬,語法語義混亂的劣勢。
而模仿人類神經(jīng)網(wǎng)絡構(gòu)建模型,NMT是以一個句子為基本的處理單元,好處在于翻譯過程中有著更好的語感,能降低SMT翻譯的關(guān)于“形態(tài)、句法、詞序”等方面出錯的概率。
因此,NMT在技術(shù)上恰巧可以有效彌補SMT的缺陷。而隨著語料不斷地加碼,AI翻譯的準確度也就高得多。
AI翻譯引進NMT技術(shù),就能精準識別“語境”嗎?
搜狗同傳翻譯在某次國際性會議上,聲稱其神經(jīng)網(wǎng)絡機器翻譯技術(shù)已達臨界點,并在進行大規(guī)模商用推廣。只是,搜狗的同傳還是在國際會議上出過爭議,結(jié)果不盡如人意。
即便在正式的場合能夠應對自如的搜狗,在非正式場合會是怎樣一種情況呢?
很多時候的中英交流多以口語化形式出現(xiàn),對“語境”的理解遠比“語法和詞匯”難得多。下文我們將就幾組語句進行討論,以下從搜狗、360搜索、百度以及谷歌四大平臺進行對比。
第一組:獻上我的膝蓋。
看看,最近這句網(wǎng)絡常用語各翻譯平臺的水平
- 谷歌:Offer my knee。
- 360:express my admiration。
- 百度:Offer my knees。
- 搜狗:Give me my knee。
測試結(jié)果是搜狗、百度、谷歌均傾向于單詞表面意思的翻譯,并未能結(jié)合具體的文化背景,360對于該網(wǎng)絡用語的解釋稍顯老練。
第二組:詩詞,選自杜甫的《登高》。
因其詩中主要是以諸多意象組成的意境,看翻譯能否反饋這種情感。
《登高》原文摘選:風急天高猿嘯哀,渚清沙白鳥飛回。
英語譯文:
有趣的是將各自翻譯的英文譯成中文時,沒有一個平臺能還原。而在詩歌的中譯英中360能夠結(jié)合“語境”處理詩中的意向要素,搜狗翻譯表達出了“悲愴”的情感,而百度翻譯和谷歌翻譯則完全是從字面上進行翻譯,破壞了詩的美好。
第三組:新聞,選自紅網(wǎng)。
語言簡練正式,但涉及的元素較多,對語法的要求性比較高。
原文:據(jù)長沙市住房和城鄉(xiāng)建設委員會網(wǎng)站顯示,2018年5月23日,長沙共計有兩個項目獲批預售證,均位于雨花區(qū),分別為五礦萬境藍山和創(chuàng)元時代。
譯文:
同一段新聞,出現(xiàn)了四種不同的譯法。同一語句中各家強調(diào)的點不一樣,譬如:首句的“長沙市住房和城鄉(xiāng)建設委員會”,360的翻譯結(jié)果更顯得專業(yè)并符合慣常表述。“長沙市”只是作為補充詞出現(xiàn),而搜狗、百度和谷歌的翻譯中,“長沙市”則是作為硬性的地名出現(xiàn)。
尤為值得注意的是:根據(jù)語境,“五礦萬境藍山”和“創(chuàng)元時代”都是樓盤名字,應當由漢語拼音直譯,只有360識別到這一點,搜狗、百度和谷歌三家都在“礦”、“藍山”、“創(chuàng)元”、“時代”等字眼上糾結(jié)。
從這三組中,我們能發(fā)現(xiàn)360偏好于基于“語境”的邏輯進行分詞,雖然也有做的不到位的,像針對詩詞這樣復雜的情感語句就無法準確傳達,但是在“流行語”優(yōu)勢明顯。
而谷歌和百度基本上是基于詞組進行斷句,因此,翻譯也是一個詞一個詞,尤其是對古詩詞的理解,谷歌就顯得比較憂愁了。
因此,AI翻譯的問題主要反映在三大方面:
- 第一,機器翻譯難以應對語言規(guī)則不統(tǒng)一的口語;
- 第二,AI翻譯難以結(jié)合文化語境進行理解,解析不出深層次的情感;
- 第三,針對較長的段落,以及較為復雜的語境,往往會出現(xiàn)語法問題多,語句出錯率高的毛病。
翻譯界老將何恩培曾講:
“機器翻譯一直被公認為人工智能領(lǐng)域最難的課題之一。而且語言背后的多元文化和復雜社會屬性,注定了語言規(guī)則不可能規(guī)律化”。
但是,中國有句老話:勤能補拙。
對于AI翻譯而言,最難的不是技術(shù),而是“語境”理解,而AI翻譯能力的級別高低又體現(xiàn)在這,集中體現(xiàn)了平臺喂養(yǎng)語料的資源狀況。AI翻譯能否“地道”,取決于以下幾點。
1. 訓練數(shù)據(jù)庫的內(nèi)容整體優(yōu)質(zhì)程度
這影響到翻譯準確程度,取決于信息資源的整合能力。不論是BAT,還是360、搜狗、有道等,都在注重內(nèi)容生態(tài)建設,搜狗有了騰訊微信入口搜索,360搶占了安全領(lǐng)域的數(shù)據(jù)來源。
但是,這不可能是一個完全開放的體系,沒有哪一家能夠整合整個互聯(lián)網(wǎng)的資源,各平臺訓練數(shù)據(jù)庫各有側(cè)重,AI翻譯特色也不盡相同,例如:360翻譯側(cè)重于地道的口語與流行語,百度翻譯則顯得大而全。
2. 開放平等的中外數(shù)據(jù)交流,或可加強AI的深度學習
國內(nèi)對標競品之間的合作相對較難,但中外數(shù)據(jù)交流卻是最好的互補。因此,百度上線過英文搜索產(chǎn)品,而360與微軟Bing有過技術(shù)合作。
此外,有了國界互譯也變得更有意義。因此,中外數(shù)據(jù)合作,或許對于文化背景的數(shù)據(jù)積淀有很好的補充,也是擴充深度學習的語料最直接的方式。
3. 需要準備大量的網(wǎng)絡語及口語語料
除了詩詞蘊含深厚文化底蘊外,網(wǎng)絡語和口語是與一個地域的文化最為接近的語言形態(tài),時下搜索引擎從被動搜索向主動的,基于用戶興趣的內(nèi)容推薦引擎轉(zhuǎn)型,這對于構(gòu)建口語語料訓練模型倒是一個不錯的嘗試。
總之,AI翻譯能夠精準識別“語境”是需要很長一段路要走!
相關(guān)文章
- 深耕AI翻譯領(lǐng)域,vivo全國機器翻譯大會斬獲佳績
- 詞典筆助力攻克英語學習難關(guān),訊飛AI翻譯筆八大時態(tài),一筆搞定
- 英語啟蒙從聽、說開始,科大訊飛AI翻譯筆專業(yè)、權(quán)威更有效
- 訊飛AI翻譯筆P20&P20 Plus正式發(fā)布:適齡同步學,四大工具合一
- 科大訊飛發(fā)布訊飛AI翻譯筆P20系列,適合自己的才是最好的
- 第四屆進博會成功舉辦 騰訊同傳連續(xù)4年提供AI翻譯服務
- 阿里云上線國際醫(yī)生交流平臺 支持11國語言AI翻譯
- 咪咕靈犀重磅推出會議翻譯直播功能,引燃AI翻譯行業(yè)新風口
- 進博會黑科技劇透:騰訊同傳展示AI翻譯成熟應用
- 科大訊飛發(fā)布AI翻譯四大標準,推七大行業(yè)AI翻譯功能
- HoloLens+AI翻譯,微軟演示多語種全息演講
- 小豹AI翻譯棒618全網(wǎng)銷量破13000臺 翻譯機市場銷量第一
- 科大訊飛發(fā)布訊飛翻譯機3.0,獨家7大行業(yè)AI翻譯
- 連續(xù)兩年支持金鼠標營銷節(jié) 搜狗同傳再度出任“AI翻譯官”
- AI翻譯機2018關(guān)鍵詞
- 領(lǐng)跑AI翻譯賽道,為什么說訊飛翻譯機改變了人們的出行方式?
人工智能企業(yè)
更多>>人工智能硬件
更多>>- 中科天璣支持CCF BigData 2025“數(shù)據(jù)智能計算”論壇圓滿召開——攜產(chǎn)界實踐洞見共探智能時代數(shù)據(jù)支撐新路徑
- 百年傳奇煥新:讓“RCA之聲”傳遍中國
- 在胡同與北海間流轉(zhuǎn)的光影 佳能EOS R50 V秋日氛圍感體驗
- 一直戴,一直拍!魅族AI拍攝眼鏡StarV Snap發(fā)布
- “盎銳科技杯”2025建筑機器人技能大賽在滬啟動,助推智能建造實戰(zhàn)人才培養(yǎng)
- 國產(chǎn)芯開行業(yè)新局,至像Z35國產(chǎn)芯系列新品打印機賦能中國打印
- 神眸榮獲快手“品牌標桿獎”,以芯片級創(chuàng)新躋身行業(yè)前列
- AMD 推出 EPYC? 嵌入式 4005 處理器,助力低時延邊緣應用
人工智能產(chǎn)業(yè)
更多>>- 騰訊啟動AI應用繁榮計劃,新一期AI共創(chuàng)營報名企業(yè)超300家
- 首都機場“AI繪空港”大賽完美收官,卓特視覺以技術(shù)賦能創(chuàng)意未來
- 打造張江人工智能創(chuàng)新小鎮(zhèn),全國首個人工智能創(chuàng)新應用先導區(qū)再添發(fā)展新引擎
- 人機共生 · 智啟未來——2025高交會亞洲人工智能與機器人產(chǎn)業(yè)鏈展主題發(fā)布
- 北京數(shù)基建發(fā)布“知行IntAct”混合智能體產(chǎn)品,以AI定義城市治理新范式
- 新時達“精耕小腦”,與大腦協(xié)同,加速具身智能垂直落地
- 亞洲愿景論壇 東軟蓋龍佳談AI與數(shù)據(jù)價值化重構(gòu)醫(yī)療未來
- 破解AI落地難題!北大這場特訓營,為企業(yè)找到轉(zhuǎn)型“最優(yōu)解”
人工智能技術(shù)
更多>>- 外灘大會首發(fā)! 螞蟻密算推出AI密態(tài)升級卡 實現(xiàn)零改動“即插即用”
- 騰訊優(yōu)圖攜Youtu-Agent開源項目亮相上海創(chuàng)智學院首屆TechFest大會
- 2025外灘大會:王堅暢談AI變革,普天科技錨定空天算力新賽道
- 騰訊正式開源Youtu-GraphRAG,圖檢索增強技術(shù)迎來落地新突破
- 聲網(wǎng)兄弟公司 Agora與OpenAI 攜手 助力多模態(tài) AI 智能體實現(xiàn)實時交互
- Qwen-Image-Edit 模型上線基石智算,圖像編輯更精準
- 火山引擎多模態(tài)數(shù)據(jù)湖落地深勢科技,提升科研數(shù)據(jù)處理效能
- 斑馬AI大模型:為每個孩子提供專屬學習方案