突破復(fù)雜版面及圖表解析難題,合合信息“大模型加速器”再升級
2025-03-24 15:13:49AI云資訊11906
隨著大模型在社會應(yīng)用中逐漸普及,人們在享受便利的同時,也面臨著“AI 幻覺”產(chǎn)生的風(fēng)險。訓(xùn)練數(shù)據(jù)是影響大模型“認(rèn)知能力”的關(guān)鍵要素,近期,上海合合信息科技股份有限公司(簡稱“合合信息”)TextIn“大模型加速器 2.0”版本正式上線,基于領(lǐng)先的智能文檔處理技術(shù),對復(fù)雜文檔的版式、布局和元素進(jìn)行精準(zhǔn)解析及結(jié)構(gòu)化處理,從數(shù)據(jù)源頭降低大模型“幻覺”風(fēng)險,讓大模型在與人類的溝通中“更靠譜”。
圖說:“大模型加速器 2.0”文檔解析引擎助力知識庫理解手寫筆記示意圖
據(jù)悉,升級后的“大模型加速器”在復(fù)雜版面理解、表格及圖表處理、內(nèi)容溯源等能力上實現(xiàn)新突破,可精準(zhǔn)識別上千種文檔中的跨頁表格、合并單元格、密集表格、手寫字符及公式,解析穩(wěn)定率達(dá)99.99%,單頁處理耗時較行業(yè)可比產(chǎn)品降低超30%;可“逆還原”十余種專業(yè)圖表數(shù)據(jù),并將其轉(zhuǎn)化為大模型可理解的結(jié)構(gòu)化數(shù)據(jù)。此外,“大模型加速器 2.0”版本新增知識庫系列開源組件,助力醫(yī)療、制造、教育等行業(yè)開發(fā)者構(gòu)建個性化的知識庫。
文檔解析技術(shù)助力教育大模型建設(shè)
大模型需要不斷“吸收”正確的專業(yè)知識,才能應(yīng)對實際應(yīng)用問題。合合信息技術(shù)團(tuán)隊成員表示,在處理年報、論文、實驗室報告等專業(yè)文檔的過程中,一個符號的解析失誤,便可能“誤導(dǎo)”大模型,得出與事實相悖的結(jié)論??尚判缘娜笔В仓萍s了大模型在實際應(yīng)用場景中的縱深拓展。
賽爾教育科技發(fā)展有限公司(簡稱“賽爾教育”)系“中國教育和科研計算機網(wǎng)CERNET”的運營公司賽爾網(wǎng)絡(luò)的重要子公司,是教育國際化、教育信息化、數(shù)字化教育方案的提供商。賽爾教育CTO、教育數(shù)字化事業(yè)部總經(jīng)理楊林提到,教育行業(yè)中所涉及的文檔格式多樣,在內(nèi)容上也包含了表格、公式、手寫字符、多語言文字等信息。如何高效準(zhǔn)確地提取各類文檔中的文本信息,并非易事。
“教育行業(yè)的大模型建設(shè)工作中,數(shù)據(jù)的數(shù)量和質(zhì)量起著決定性作用。我們做了很多嘗試,模型的速度和準(zhǔn)確性都達(dá)不到要求,嚴(yán)重影響科研工作的進(jìn)展?!睏盍直硎荆袠I(yè)知識庫的構(gòu)建基于大量文檔的文本信息提取,需要高效率、高準(zhǔn)確率的工具。合合信息文檔解析技術(shù)提供了專業(yè)的技術(shù)支持和服務(wù),有效解決了文檔處理過程中的問題。
在“大模型加速器”的支持下,合合信息與賽爾教育共同協(xié)作,提升大模型對復(fù)雜版面、元素的“理解力”,使其按照人類正常的閱讀順序識別文檔結(jié)構(gòu),智能劃分標(biāo)題、段落、表格和圖表等內(nèi)容塊,幫助大模型理解版面、內(nèi)容間的對應(yīng)關(guān)系,減少AI“幻覺”現(xiàn)象。
圖說:圖表解析模塊將圖表還原為表格數(shù)據(jù)
除了復(fù)雜的版面布局,種類繁多、空間結(jié)構(gòu)復(fù)雜的圖表元素也是解析難點所在?!按竽P图铀倨?.0”圖表解析模塊可智能提取多種圖表中的關(guān)鍵數(shù)據(jù)點、坐標(biāo)軸信息、圖例說明等,在精準(zhǔn)解析不同類型圖表數(shù)據(jù)的基礎(chǔ)上,將其還原為一組完整的Excel表格數(shù)據(jù),作用于教育行業(yè)大模型微調(diào),學(xué)科知識庫建設(shè)、智能審閱等環(huán)節(jié)。
智能溯源讓大模型用得更“安心”
近期,多家券商機構(gòu)紛紛宣布接入大模型,幫助分析師、行業(yè)研究員等專業(yè)人士提高工作效率。為幫助用戶簡化專業(yè)文檔數(shù)據(jù)篩選和數(shù)據(jù)抽取流程,提升文檔內(nèi)容解讀效率與準(zhǔn)確率,“大模型加速器 2.0” 上線了知識庫產(chǎn)品組件,支持復(fù)雜文檔的智能問答、總結(jié)與檢索。
為了讓行業(yè)“安心”使用大模型,知識庫產(chǎn)品推出溯源功能,通過在“投喂”給知識庫的Markdown及JSON文件中標(biāo)記頁碼、坐標(biāo)等空間位置信息,實現(xiàn)對句子、段落的精確溯源,為用戶提供了一個快速檢驗的路徑。以財務(wù)分析為例,大模型在多份高達(dá)上千頁的財報文件中找到收入、利潤等關(guān)鍵數(shù)據(jù)后,券商分析師可利用溯源功能定位原表格,對信息進(jìn)行復(fù)核,防止錯誤、遺漏。
圖說:知識庫對財報數(shù)據(jù)所在表格進(jìn)行精準(zhǔn)溯源
目前,知識庫組件已面向開發(fā)者開源,幫助其根據(jù)自身需要快速構(gòu)建個性化行業(yè)知識庫。此前,合合信息已開源智能文檔處理“百寶箱”系列產(chǎn)品,解決文檔解析精度低、解析效果評估難等問題,開發(fā)者可根據(jù)研發(fā)需求靈活搭配使用。未來,“大模型加速器”將持續(xù)優(yōu)化迭代,助力大模型在各行各業(yè)中“百花齊放”。
相關(guān)文章
- Soul全雙工語音大模型升級 迭代人機交互體驗感
- 模型選型專題系列 | 業(yè)界首個!元景MaaS平臺上線《大模型選型說明書》
- 獲央視點贊 深蘭科技AI醫(yī)療大模型落地打浦橋街道社區(qū)服務(wù)中心
- 新達(dá)內(nèi)與百度智能云達(dá)成戰(zhàn)略合作 聯(lián)合培養(yǎng)人工智能大模型人才
- 斑馬AI大模型:為每個孩子提供專屬學(xué)習(xí)方案
- 打造廣東首個地方文獻(xiàn)專題處理AI大模型,南沙區(qū)圖書館“阿貝數(shù)字人”項目重磅上線!
- 商湯大裝置躋身中國大模型平臺市場頭部廠商,萬象平臺加速AI落地“最后一公里”
- DFRobot 亮相貿(mào)澤電子 elexcon 2025 展臺,展示與Qwen3 大模型融合的AI 應(yīng)用
- 曠視趙康:做大模型的“煉金術(shù)士”,讓AI在千行百業(yè)中兌現(xiàn)價值
- 云軸科技ZStack入選IDC大模型推理算力市場報告典型廠商
- 中國具身大模型初創(chuàng)公司眸深智能獲得IJCAI2025杰出論文獎,唯一獲獎大陸團(tuán)隊!
- 心率血氧監(jiān)測新玩法:行空板M10融合AI大模型,讓數(shù)據(jù)會“說話”
- 特斯拉在中國市場放棄xAI的Grok大模型 選擇接入DeepSeek AI技術(shù)
- 昇騰助力中科大團(tuán)隊實現(xiàn)MoE 稀疏大模型并行推理提速超30%
- 聚焦制造業(yè)智能化轉(zhuǎn)型 中國科學(xué)技術(shù)大學(xué)依托昇騰突破知識增強大模型關(guān)鍵技術(shù)
- 大模型推理成本居高不下,浪潮存儲幫你來突圍!
人工智能企業(yè)
更多>>人工智能硬件
更多>>- 中科天璣支持CCF BigData 2025“數(shù)據(jù)智能計算”論壇圓滿召開——攜產(chǎn)界實踐洞見共探智能時代數(shù)據(jù)支撐新路徑
- 百年傳奇煥新:讓“RCA之聲”傳遍中國
- 在胡同與北海間流轉(zhuǎn)的光影 佳能EOS R50 V秋日氛圍感體驗
- 一直戴,一直拍!魅族AI拍攝眼鏡StarV Snap發(fā)布
- “盎銳科技杯”2025建筑機器人技能大賽在滬啟動,助推智能建造實戰(zhàn)人才培養(yǎng)
- 國產(chǎn)芯開行業(yè)新局,至像Z35國產(chǎn)芯系列新品打印機賦能中國打印
- 神眸榮獲快手“品牌標(biāo)桿獎”,以芯片級創(chuàng)新躋身行業(yè)前列
- AMD 推出 EPYC? 嵌入式 4005 處理器,助力低時延邊緣應(yīng)用
人工智能產(chǎn)業(yè)
更多>>- 騰訊啟動AI應(yīng)用繁榮計劃,新一期AI共創(chuàng)營報名企業(yè)超300家
- 首都機場“AI繪空港”大賽完美收官,卓特視覺以技術(shù)賦能創(chuàng)意未來
- 打造張江人工智能創(chuàng)新小鎮(zhèn),全國首個人工智能創(chuàng)新應(yīng)用先導(dǎo)區(qū)再添發(fā)展新引擎
- 人機共生 · 智啟未來——2025高交會亞洲人工智能與機器人產(chǎn)業(yè)鏈展主題發(fā)布
- 北京數(shù)基建發(fā)布“知行IntAct”混合智能體產(chǎn)品,以AI定義城市治理新范式
- 新時達(dá)“精耕小腦”,與大腦協(xié)同,加速具身智能垂直落地
- 亞洲愿景論壇 東軟蓋龍佳談AI與數(shù)據(jù)價值化重構(gòu)醫(yī)療未來
- 破解AI落地難題!北大這場特訓(xùn)營,為企業(yè)找到轉(zhuǎn)型“最優(yōu)解”
人工智能技術(shù)
更多>>- 外灘大會首發(fā)! 螞蟻密算推出AI密態(tài)升級卡 實現(xiàn)零改動“即插即用”
- 騰訊優(yōu)圖攜Youtu-Agent開源項目亮相上海創(chuàng)智學(xué)院首屆TechFest大會
- 2025外灘大會:王堅暢談AI變革,普天科技錨定空天算力新賽道
- 騰訊正式開源Youtu-GraphRAG,圖檢索增強技術(shù)迎來落地新突破
- 聲網(wǎng)兄弟公司 Agora與OpenAI 攜手 助力多模態(tài) AI 智能體實現(xiàn)實時交互
- Qwen-Image-Edit 模型上線基石智算,圖像編輯更精準(zhǔn)
- 火山引擎多模態(tài)數(shù)據(jù)湖落地深勢科技,提升科研數(shù)據(jù)處理效能
- 斑馬AI大模型:為每個孩子提供專屬學(xué)習(xí)方案