精品国产18久久久久久,一个人在线观看的www,亚洲一区二区久久久,成人国内精品久久久久影院vr,最近免费中文字幕大全高清大全1

騰訊CSIG:騰訊優(yōu)圖實(shí)驗(yàn)室AI手語(yǔ)識(shí)別研究白皮書(shū)

2019-05-19 16:05:54AI云資訊1286

據(jù)2017年北京聽(tīng)力協(xié)會(huì)預(yù)估數(shù)據(jù),我國(guó)聽(tīng)障人群數(shù)量約達(dá)到7200萬(wàn)。放眼世界,世界衛(wèi)生組織發(fā)布的最新數(shù)據(jù)顯示,全世界有共計(jì)約4.66億人患有殘疾性聽(tīng)力損失。盡管聽(tīng)障人群能夠憑借手語(yǔ)進(jìn)行交流,但在機(jī)場(chǎng)、民政等公共服務(wù)環(huán)境中仍然面臨溝通障礙等一些亟待解決的問(wèn)題。

秉承“科技向善”的技術(shù)價(jià)值觀,騰訊一直致力于通過(guò)AI等技術(shù)手段解決人類面臨的社會(huì)問(wèn)題。我們相信,科技能夠造福人類,人類應(yīng)該善用科技,努力去解決自身發(fā)展帶來(lái)的社會(huì)問(wèn)題。作為國(guó)內(nèi)計(jì)算機(jī)視覺(jué)人工智能領(lǐng)域的領(lǐng)先研究團(tuán)隊(duì),騰訊優(yōu)圖實(shí)驗(yàn)室近日攻堅(jiān)AI手語(yǔ)識(shí)別并取得突破性進(jìn)展,自研出一套基于結(jié)構(gòu)化特征學(xué)習(xí)的端到端手語(yǔ)識(shí)別算法,能夠識(shí)別日常手語(yǔ)并快速運(yùn)算出結(jié)果并把手語(yǔ)翻譯成為文字,有望為聽(tīng)障人群正常交流提供更多便利。

目前,騰訊優(yōu)圖實(shí)驗(yàn)室已經(jīng)與深圳市信息無(wú)障礙研究會(huì)達(dá)成合作,并于近日正式發(fā)布“優(yōu)圖AI手語(yǔ)翻譯機(jī)”,探索在機(jī)場(chǎng)、高鐵、民政等公共服務(wù)場(chǎng)所提供手語(yǔ)翻譯服務(wù)。未來(lái),騰訊優(yōu)圖希望能通過(guò)與聽(tīng)障者或手語(yǔ)使用者的深入接觸,擴(kuò)充數(shù)據(jù)容量,完善數(shù)據(jù)規(guī)范,根據(jù)不同的場(chǎng)景優(yōu)化識(shí)別算法,搭建出通過(guò)手語(yǔ)與聽(tīng)障人士無(wú)障礙溝通的完整系統(tǒng)和平臺(tái),用AI消除障礙,做有溫度的科技、無(wú)差別的科技。

一、潛在需求分析

(一)聽(tīng)障人士數(shù)量已達(dá)7200萬(wàn)

信息的接收與傳遞是包括人類在內(nèi)的任何有機(jī)體與世界最為基本的溝通方式,而對(duì)于聽(tīng)障人士來(lái)說(shuō),他們失去了聽(tīng)力這個(gè)認(rèn)識(shí)世界最為重要的感知途徑。世界衛(wèi)生組織最新數(shù)據(jù)顯示[1],目前全球約有4.66億人患有殘疾性聽(tīng)力損失,超過(guò)全世界人口的5%,估計(jì)到2050年將有9億多人(約十分之一)出現(xiàn)殘疾性聽(tīng)力損失。據(jù)北京聽(tīng)力協(xié)會(huì)2017年公開(kāi)數(shù)據(jù),估計(jì)中國(guó)殘疾性聽(tīng)力障礙人士已達(dá)7200萬(wàn)[2],相當(dāng)于北京市常住人口(約2200萬(wàn),2015年數(shù)據(jù))的3倍多,是我國(guó)少數(shù)民族人口中最多的民族壯族(約1500萬(wàn),2015年數(shù)據(jù))的近5倍,這其中還不包括輕中度聽(tīng)損的人口。

(數(shù)據(jù)來(lái)源:世界衛(wèi)生組織官網(wǎng))

(數(shù)據(jù)來(lái)源:2017年北京聽(tīng)力協(xié)會(huì)預(yù)估)

(二)無(wú)障礙普及率有待提升,聽(tīng)障人群需求被忽視

《2017年百城無(wú)障礙設(shè)施調(diào)查體驗(yàn)報(bào)告》顯示,我國(guó)無(wú)障礙設(shè)施整體普及率僅為40.6%[3],除了普及率較低,還存在部分無(wú)障礙設(shè)施被占用、維護(hù)不到位、設(shè)計(jì)存在問(wèn)題等情況。而與其他殘障人士不同的是,在現(xiàn)實(shí)生活中,聽(tīng)障者除了使用手語(yǔ)交流以外,與普通人幾乎沒(méi)有區(qū)別,這也正是聽(tīng)障者容易被忽視的原因之一。目前的公共環(huán)境設(shè)施、產(chǎn)品設(shè)計(jì)等往往忽略了聽(tīng)障者的特殊需求。聽(tīng)障者面臨的不僅僅是日常交流上的障礙,更多的是溝通障礙所衍生的諸多不便。

(聽(tīng)障人群痛點(diǎn)分析)

《光明日?qǐng)?bào)》的一篇報(bào)道曾指出[4],因?yàn)闇贤ㄕ系K,絕大部分的聽(tīng)障者都生活在自己封閉的小世界里,社會(huì)活動(dòng)參與度極低的他們往往會(huì)感到孤獨(dú)。雖然受過(guò)教育的聽(tīng)障者也能夠使用文字進(jìn)行交流,但是對(duì)于他們來(lái)說(shuō),手語(yǔ)是更易于使用和接受的交流方式,而我國(guó)目前致力于聽(tīng)障者專業(yè)服務(wù)的人士只有大約一萬(wàn)名,大部分公共服務(wù)并沒(méi)有配備專門的便利設(shè)施,這些都是聽(tīng)障者長(zhǎng)久以來(lái)面臨的迫切需求。

科技的進(jìn)步為大眾生活帶來(lái)諸多便捷,而對(duì)于愈發(fā)龐大的聽(tīng)障人群,他們的生存狀態(tài)需要得到社會(huì)的更多關(guān)注,他們迫切需要前沿科技為他們解決交流障礙帶來(lái)的諸多不便。

二、手語(yǔ)表達(dá)與AI技術(shù)結(jié)合的行業(yè)探索(一)各研究機(jī)構(gòu)展開(kāi)探索嘗試,技術(shù)落地存在諸多因素限制

手語(yǔ)翻譯的核心技術(shù)是手語(yǔ)識(shí)別(SLR)。這個(gè)技術(shù)就是指通過(guò)計(jì)算機(jī)算法,自動(dòng)區(qū)分手語(yǔ)表達(dá)中的各類手勢(shì)、動(dòng)作以及這些手勢(shì)和動(dòng)作之間的切換,最后將表達(dá)的手語(yǔ)翻譯成文字。傳統(tǒng)的方法通常會(huì)針對(duì)特定的數(shù)據(jù)集設(shè)計(jì)合理的特征,再利用這些特征進(jìn)行動(dòng)作和手勢(shì)的分類。受限于人工的特征設(shè)計(jì)和數(shù)據(jù)量大小,這些方法在適應(yīng)性、泛化性和魯棒性上都非常有限。

近年來(lái),大數(shù)據(jù)和深度學(xué)習(xí)極大推動(dòng)了人工智能算法的發(fā)展,尤其體現(xiàn)在計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理和音頻處理等領(lǐng)域,這助推了AI算法在許多應(yīng)用和場(chǎng)景中實(shí)現(xiàn)落地,許多研究員和工程師也開(kāi)始嘗試運(yùn)用深度學(xué)習(xí)和數(shù)據(jù)驅(qū)動(dòng)的算法來(lái)解決SLR的問(wèn)題。然而不同于大部分的計(jì)算機(jī)問(wèn)題,手語(yǔ)特有的地域性、復(fù)雜性和多樣性,不僅增加了數(shù)據(jù)采集和清洗的難度和成本,也使得這門技術(shù)哪怕在深度學(xué)習(xí)的幫助下也依然存在很大的挑戰(zhàn),難以被實(shí)際應(yīng)用。

目前,有研究機(jī)構(gòu)或單位針對(duì)解決聽(tīng)障人群溝通問(wèn)題的技術(shù)研究,但研究方向多集中在將文字轉(zhuǎn)化成手語(yǔ)方向,而“針對(duì)聽(tīng)障人群的手語(yǔ)識(shí)別轉(zhuǎn)化成文字”的方向因?yàn)榧夹g(shù)難度極大,尚鮮有技術(shù)方案落地。

(二)騰訊優(yōu)圖自研手語(yǔ)識(shí)別算法,推出“優(yōu)圖AI手語(yǔ)翻譯機(jī)”

騰訊優(yōu)圖結(jié)合聽(tīng)障人士手語(yǔ)表達(dá)的習(xí)慣采集了手語(yǔ)數(shù)據(jù),利用前沿的圖像序列分析技術(shù)自研了一套手語(yǔ)識(shí)別算法,推出“優(yōu)圖AI手語(yǔ)翻譯機(jī)”。AI手語(yǔ)翻譯機(jī)以普通攝像頭作為手語(yǔ)采集裝置,依托高性能計(jì)算機(jī)進(jìn)行后臺(tái)運(yùn)算,能夠?qū)崟r(shí)地將手語(yǔ)表達(dá)翻譯成文字。對(duì)于用戶而言,不需要攜帶任何額外裝置,只要面對(duì)攝像頭完成正常的手語(yǔ)表達(dá),就能從翻譯機(jī)中得到反饋回來(lái)的識(shí)別結(jié)果。

(優(yōu)圖AI手語(yǔ)翻譯機(jī)界面截圖)

三、優(yōu)圖AI手語(yǔ)翻譯技術(shù)解讀(一)算法優(yōu)勢(shì)

相比于此前的手語(yǔ)識(shí)別相關(guān)的產(chǎn)品和技術(shù)方案,我們的手語(yǔ)識(shí)別算法主要能夠?qū)崿F(xiàn)以下幾點(diǎn)優(yōu)勢(shì):

1.基于純RGB圖像序列

手語(yǔ)表達(dá)極具復(fù)雜性,一個(gè)手勢(shì)或者動(dòng)作幅度的小變化就可能會(huì)造成表達(dá)意思上很大的不同。因此,之前的很多產(chǎn)品或方法往往需要借助于一些額外的設(shè)備,例如使用Kinect攝像機(jī)的多種傳感器來(lái)提前獲取手語(yǔ)表達(dá)者的肢體關(guān)節(jié)點(diǎn)信息,又例如在手上攜帶傳感器手套、或配備EMG、IMU傳感器的手環(huán)來(lái)獲取手臂和手掌的活動(dòng)信息。這些額外的設(shè)備無(wú)形之中增加了使用的門檻,同時(shí)也帶來(lái)了一定的不便利性。

與此不同,我們的翻譯機(jī)不需要任何額外設(shè)備的幫助,用戶只需要一個(gè)普通的攝像頭(如手機(jī)攝像頭或普通網(wǎng)絡(luò)攝像頭)對(duì)手語(yǔ)表達(dá)者的表達(dá)過(guò)程進(jìn)行拍攝,翻譯機(jī)就可以完成識(shí)別翻譯的過(guò)程。

2.支持多樣性表達(dá)

手語(yǔ)極具地域性和多樣性。地域性即指不同地區(qū)(如深圳和廣州)對(duì)同一個(gè)詞可能存在不同的表達(dá)方式,同時(shí)由于個(gè)人習(xí)慣,即便是在同一個(gè)標(biāo)準(zhǔn)下,動(dòng)作的呈現(xiàn)也可能不盡相同。多樣性則體現(xiàn)在手語(yǔ)表達(dá)中,同一個(gè)動(dòng)作在不同的語(yǔ)境之中可能有著非常不一樣的意義,而同一個(gè)詞在不同的語(yǔ)境中又可以使用不同的動(dòng)作進(jìn)行表達(dá)。盡管這些情況非常常見(jiàn),多樣性的問(wèn)題在之前的產(chǎn)品或方法中是沒(méi)有被考慮進(jìn)去的。

我們首次將多樣性的問(wèn)題考慮到了算法識(shí)別的過(guò)程中,支持常見(jiàn)的多樣性表達(dá),用戶不需要針對(duì)翻譯機(jī)學(xué)習(xí)某種特定的詞與動(dòng)作之間的映射,根據(jù)自己平時(shí)的表達(dá)習(xí)慣進(jìn)行表達(dá)即可。

3.靈活的整句識(shí)別

聽(tīng)障人士進(jìn)行手語(yǔ)表達(dá)往往以句子為單位,表達(dá)完一個(gè)完整的句子之后才會(huì)出現(xiàn)停頓,在一個(gè)句子的不同詞之間很少會(huì)做停頓。然而之前的許多產(chǎn)品或算法實(shí)際上是以詞為單位進(jìn)行識(shí)別的,需要在詞與詞之間做出明顯的停頓。另外為了能夠?qū)⒄Z(yǔ)句進(jìn)行劃分,還可能需要設(shè)定特定的起始動(dòng)作和結(jié)束動(dòng)作,在每次表達(dá)開(kāi)始和結(jié)束時(shí)作為信號(hào)語(yǔ)句劃分的信號(hào)。這限制了使用的靈活性和流暢度。

與此不同,優(yōu)圖AI手語(yǔ)翻譯機(jī)能夠?qū)崿F(xiàn)整句的識(shí)別和翻譯,用戶表達(dá)的時(shí)候可以連貫將整個(gè)句子表達(dá)完。也不需要設(shè)定特定的結(jié)束或起始動(dòng)作,而是直接對(duì)用戶的動(dòng)作與否進(jìn)行判斷。

(二)實(shí)現(xiàn)方法

與聽(tīng)障人士手語(yǔ)表達(dá)高度符合的數(shù)據(jù)集、先進(jìn)的手語(yǔ)識(shí)別算法是翻譯機(jī)得以實(shí)現(xiàn)的有力支撐。

(手語(yǔ)識(shí)別算法總體框架圖)

1.更大更全的手語(yǔ)識(shí)別數(shù)據(jù)集

我們通過(guò)與社會(huì)相關(guān)機(jī)構(gòu)和聽(tīng)障人士的接觸了解了手語(yǔ)表達(dá)的特點(diǎn),并根據(jù)這些特點(diǎn)采集了自己的手語(yǔ)識(shí)別數(shù)據(jù)集。同時(shí)對(duì)數(shù)據(jù)進(jìn)行進(jìn)一步的分析和歸納,目前,AI手語(yǔ)翻譯機(jī)的數(shù)據(jù)集覆蓋了近千句日常表達(dá),900個(gè)常用詞匯,是最大的中文手語(yǔ)識(shí)別數(shù)據(jù)集。

不僅如此,采集數(shù)據(jù)集還考慮了手語(yǔ)的地域性和多樣性表達(dá),包含了不同的表達(dá)習(xí)慣和速度。這為進(jìn)一步提升我們算法的泛化能力提供了很好的基礎(chǔ)。

2.更強(qiáng)大的特征提取器

為了能夠在手語(yǔ)極具復(fù)雜性的表達(dá)中充分提起識(shí)別所需要的特征信息,我們結(jié)合了普通2D卷積網(wǎng)絡(luò)和3D卷積網(wǎng)絡(luò)的優(yōu)勢(shì),通過(guò)2D卷積網(wǎng)絡(luò)來(lái)提取手語(yǔ)中的手勢(shì)和身體姿勢(shì)等靜態(tài)信息,同時(shí)通過(guò)3D卷積網(wǎng)絡(luò)來(lái)提取手語(yǔ)中普遍存在的細(xì)微而快速的變換動(dòng)作的動(dòng)態(tài)信息,最后將這兩個(gè)信息相結(jié)合,產(chǎn)生我們最后的特征表達(dá)。

靜態(tài)和動(dòng)態(tài)信息的結(jié)合形成了很好的互補(bǔ),同時(shí)避免了信息過(guò)早的流失,在我們的實(shí)驗(yàn)中對(duì)我們識(shí)別效果的提升很有幫助。在充分利用了視頻中的動(dòng)、靜兩種信息之后,我們的算法也得以能夠利用單純的RGB視頻圖像就達(dá)到識(shí)別的目的,不需要借助額外的傳感器設(shè)備。

3.句子表達(dá)中挖掘詞級(jí)信息

雖然聽(tīng)障人士在進(jìn)行手語(yǔ)表達(dá)的時(shí)候是以句子為單位的,但是句子又是由不同的詞語(yǔ)組合而成的,因此從語(yǔ)法上來(lái)說(shuō),詞才是手語(yǔ)的最小表達(dá)單元。與此同時(shí),一個(gè)詞語(yǔ)的表達(dá)往往不是一個(gè)單一的動(dòng)作和手勢(shì),而是一些手勢(shì)和動(dòng)作的變換,這個(gè)過(guò)程有長(zhǎng)有短,之間也沒(méi)有刻意的停頓,因此往往掩蓋在了整個(gè)句子的表達(dá)之中。

為了將這些詞語(yǔ)表達(dá)的信息挖掘出來(lái),我們的算法在視頻幀與最后的輸出之間加入了詞級(jí)信息提取單元,詞級(jí)信息提取單元利用長(zhǎng)短時(shí)網(wǎng)絡(luò)充分考慮特征提取器所提取出的信息,并結(jié)合視頻中相鄰的信息計(jì)算出詞級(jí)的特征表達(dá)。這個(gè)單元幫助我們的算法能夠更好地在句子中找到詞語(yǔ)表達(dá)的邊界,并提升對(duì)各種地域性表達(dá)的總結(jié)能力。

4.單句切分并充分考慮句中上下文信息

我們的算法在提取詞級(jí)信息的基礎(chǔ)上還會(huì)充分將整句中的上下文信息進(jìn)行綜合考慮,然后再輸出最后的識(shí)別結(jié)果。這對(duì)識(shí)別手語(yǔ)中的多樣性表達(dá)非常重要,因?yàn)橥瑯拥膭?dòng)作只有放在上下文的語(yǔ)境中才能最后確定它的意思。

同時(shí),為了減少用戶在使用過(guò)程中的限制,我們?cè)谑终Z(yǔ)識(shí)別之前加入了人臉檢測(cè)和動(dòng)作檢測(cè)兩個(gè)模塊,用人臉檢測(cè)確定手語(yǔ)表達(dá)者的位置,然后用動(dòng)作檢測(cè)判斷他是否在做手語(yǔ)表達(dá)。三個(gè)模塊協(xié)同合作,最后讓翻譯機(jī)能夠自適應(yīng)地找到用戶的位置,并連貫識(shí)別用戶的一系列表達(dá)。

(與其他算法在兩個(gè)公開(kāi)手語(yǔ)識(shí)別數(shù)據(jù)集上的性能對(duì)比,數(shù)據(jù)顯示的是詞錯(cuò)率(WER),越低越好)

(三)落地條件限制及應(yīng)用方向

就目前來(lái)說(shuō),優(yōu)圖AI手語(yǔ)翻譯機(jī)仍處于實(shí)際應(yīng)用探索階段。主要受三個(gè)問(wèn)題限制,一是需要高性能計(jì)算機(jī),二是復(fù)雜環(huán)境背景的適應(yīng)性,三是語(yǔ)料庫(kù)進(jìn)一步拓展。

因此,我們將進(jìn)一步探索在一些公共事務(wù)場(chǎng)所如機(jī)場(chǎng)、民政等公共服務(wù)領(lǐng)域等提供無(wú)障礙溝通解決方案,方便聽(tīng)障人日常交流提供便利。

四、意義和愿景優(yōu)圖AI手語(yǔ)翻譯機(jī)是騰訊優(yōu)圖基于先進(jìn)的動(dòng)作識(shí)別和視頻分析算法對(duì)手語(yǔ)識(shí)別技術(shù)的一次擴(kuò)展和優(yōu)化。我們始終相信,作為AI技術(shù)的探索者,解決和優(yōu)化技術(shù)難題是團(tuán)隊(duì)?wèi)?yīng)肩負(fù)的責(zé)任和擔(dān)當(dāng),創(chuàng)造和傳播AI的價(jià)值和溫暖是團(tuán)隊(duì)?wèi)?yīng)秉持的使命和信仰。

我們將在未來(lái)對(duì)我們的AI手語(yǔ)翻譯機(jī)進(jìn)行持續(xù)的升級(jí)和優(yōu)化,讓AI手語(yǔ)翻譯機(jī)走進(jìn)聽(tīng)障人士的生活,在日常服務(wù)窗口、手語(yǔ)教育等場(chǎng)景中為聽(tīng)障人士帶來(lái)實(shí)實(shí)在在的便利。我們希望以手語(yǔ)翻譯機(jī)為媒介,深入接觸聽(tīng)障群體,進(jìn)一步了解手語(yǔ)和優(yōu)化我們的數(shù)據(jù)和識(shí)別算法,使我們的翻譯機(jī)能夠覆蓋更多的表達(dá)和場(chǎng)景。我們更希望我們的AI手語(yǔ)翻譯機(jī)能夠助力手語(yǔ)的普及和規(guī)范,增加社會(huì)對(duì)這個(gè)群體的關(guān)注度,幫助聽(tīng)障人士更好地融入社會(huì),讓他們能夠和我們一樣,更好地享受和體驗(yàn)技術(shù)創(chuàng)新和科技發(fā)展所帶來(lái)的紅利。

實(shí)際上,這并不是騰訊在AI+無(wú)障礙建設(shè)上的首次嘗試,騰訊一直在堅(jiān)持推動(dòng)“一個(gè)都不能少”和“信息無(wú)障礙”理念的傳播與落地。2018年12月3日,騰訊獲得了“聯(lián)合國(guó)教科文組織數(shù)字技術(shù)增強(qiáng)殘疾人權(quán)能獎(jiǎng)”。

騰訊自 2009 年起在信息無(wú)障礙方面率先展開(kāi)探索,截至目前,旗下QQ、QQ空間、微信、騰訊網(wǎng)、騰訊新聞、應(yīng)用寶、企鵝FM等大部分產(chǎn)品已針對(duì)障礙用戶實(shí)現(xiàn)專門優(yōu)化。騰訊旗下各類產(chǎn)品從社交、娛樂(lè)、新聞等多維度出發(fā),共同努力,為障礙人士構(gòu)建友好的信息社會(huì)。

感謝深圳市信息無(wú)障礙研究會(huì)及所有參與此次優(yōu)圖AI手語(yǔ)研究項(xiàng)目的團(tuán)隊(duì)和個(gè)人。

騰訊優(yōu)圖實(shí)驗(yàn)室

相關(guān)文章

人工智能企業(yè)

更多>>

人工智能硬件

更多>>

人工智能產(chǎn)業(yè)

更多>>

人工智能技術(shù)

更多>>
AI云資訊(愛(ài)云資訊)立足人工智能科技,打造有深度、有前瞻、有影響力的泛科技媒體平臺(tái)。
合作QQ:1211461360微信號(hào):icloudnews