精品国产18久久久久久,一个人在线观看的www,亚洲一区二区久久久,成人国内精品久久久久影院vr,最近免费中文字幕大全高清大全1

助力職場(chǎng)人辦公提效,金山辦公技術(shù)成果亮相中國(guó)圖象圖形大會(huì)

2023-05-15 16:02:24AI云資訊797

5月11日至14日,中國(guó)圖象圖形大會(huì)(CCIG 2023)在蘇州召開(kāi),大會(huì)以“圖象圖形·向未來(lái)”為主題,邀請(qǐng)了眾多國(guó)內(nèi)外院士、專家進(jìn)行高水平學(xué)術(shù)、技術(shù)報(bào)告,共同探討圖像圖形相關(guān)行業(yè)的發(fā)展趨勢(shì)、創(chuàng)新研究成果、關(guān)鍵技術(shù)探索,為行業(yè)提供前瞻性視角。金山辦公技術(shù)總監(jiān)熊龍飛出席大會(huì)“圖象圖形賦能產(chǎn)業(yè)論壇”,分享了金山辦公在文檔識(shí)別與技術(shù)領(lǐng)域的最新成果。

金山辦公技術(shù)總監(jiān)熊龍飛在大會(huì)上進(jìn)行主題分享

熊龍飛表示,目前用戶的PDF編輯需求中大約有35%是掃描件,如何讓編輯“掃描件PDF”更方便,是許多公司正在攻克的難題。作為其中的參與方之一,金山辦公內(nèi)部研發(fā)的通用圖像文檔識(shí)別與理解引擎系統(tǒng)——朱墨,已能夠解析彎曲變形、要素豐富、排版復(fù)雜、污染等挑戰(zhàn)下的圖像文檔,并可將版式和內(nèi)容信息解析成結(jié)構(gòu)化的文檔數(shù)據(jù),供給下游PDF編輯模塊使用。據(jù)悉,朱墨系統(tǒng)目前已上線WPS內(nèi)的PDF編輯功能,可讓用戶在編輯“掃描件PDF”時(shí)獲得幾乎與編輯Word文檔一樣的體驗(yàn)。

“‘掃描件PDF’本質(zhì)上是純圖片,其中的排版信息、字體信息均已丟失,因此想要編輯‘掃描件PDF’會(huì)面臨兩類挑戰(zhàn)?!毙荦堬w介紹,一類是由于PDF版式復(fù)雜,對(duì)象豐富,或文檔污染、變形、朝向錯(cuò)誤等導(dǎo)致的整體版式挑戰(zhàn);另一類則是保持字體、字號(hào)、字色及文字風(fēng)格統(tǒng)一,段落關(guān)系清晰,刪除文字后背景自然等在內(nèi)的細(xì)節(jié)保持挑戰(zhàn)。

熊龍飛還指出,朱墨系統(tǒng)在文檔識(shí)別過(guò)程中,會(huì)經(jīng)過(guò)前處理、版面分析、OCR識(shí)別、文字屬性識(shí)別、表格還原等多個(gè)環(huán)節(jié),首先把不標(biāo)準(zhǔn)的、變形的樣張進(jìn)行校正,把污染痕跡及摩爾紋等進(jìn)行去除;然后再通過(guò)版面分析,識(shí)別掃描件中的文字、圖像、段落等;之后再對(duì)文字部分進(jìn)行OCR識(shí)別以及識(shí)別文字的字體、字號(hào)、字色等,最后還會(huì)對(duì)表格等其他對(duì)象進(jìn)行結(jié)構(gòu)化識(shí)別。在經(jīng)過(guò)文檔識(shí)別后,朱墨系統(tǒng)還會(huì)通過(guò)大模型進(jìn)行信息及信息關(guān)系抽取,理解文字之間的關(guān)聯(lián),最終將一份掃描文件轉(zhuǎn)化為結(jié)構(gòu)化的文檔數(shù)據(jù)。

CCIG 2023展會(huì)現(xiàn)場(chǎng)

相關(guān)功能背后涉及的眾多算法模型,是金山辦公在文檔識(shí)別與技術(shù)領(lǐng)域的長(zhǎng)期積累。以文字與背景分離為例,金山辦公技術(shù)團(tuán)隊(duì)經(jīng)過(guò)多次實(shí)踐,最終采用了圖像分割的算法,該算法相較于常規(guī)二值化算法,能夠更好地在背景色復(fù)雜、分辨率較低、彩色文字等場(chǎng)景中準(zhǔn)確拆分掃描件PDF的文字與背景。

此外,在文字顏色識(shí)別中,金山辦公技術(shù)團(tuán)隊(duì)會(huì)先通過(guò)顏色增強(qiáng),再通過(guò)圖像識(shí)別,更加精準(zhǔn)識(shí)別掃描PDF中的字體顏色。為了更加方便PDF的后續(xù)編輯,金山辦公技術(shù)團(tuán)隊(duì)還通過(guò)OCR的CTC定位結(jié)果與單字檢測(cè)模型結(jié)果進(jìn)行結(jié)合,得到精確定位的單字位置框,使用戶在增加或刪除文字時(shí),文字與原始圖像位置仍能一一對(duì)應(yīng)。

而在文檔識(shí)別過(guò)程中,一旦發(fā)現(xiàn)PDF已經(jīng)被嚴(yán)重污染,系統(tǒng)便會(huì)重新生成一個(gè)新的PDF,以保證文件的編輯性及美觀性,而如果需要重新生成PDF文件,便會(huì)涉及到字體模仿、轉(zhuǎn)化、生成等技術(shù)路線。

熊龍飛表示,金山辦公始終秉持“技術(shù)立業(yè)”,不斷推動(dòng)相關(guān)技術(shù)的應(yīng)用落地,致力為用戶帶來(lái)更良好的辦公體驗(yàn)。在文檔識(shí)別與技術(shù)領(lǐng)域,目前金山辦公已解決掃描件PDF編輯難題,面向未來(lái),金山辦公還將不斷深入文檔識(shí)別與技術(shù)研發(fā),幫助更多用戶實(shí)現(xiàn)對(duì)海報(bào),截圖,甚至網(wǎng)圖等在內(nèi)的任意圖片的內(nèi)容編輯。

相關(guān)文章

人工智能企業(yè)

更多>>

人工智能硬件

更多>>

人工智能產(chǎn)業(yè)

更多>>

人工智能技術(shù)

更多>>
AI云資訊(愛(ài)云資訊)立足人工智能科技,打造有深度、有前瞻、有影響力的泛科技媒體平臺(tái)。
合作QQ:1211461360微信號(hào):icloudnews