解決文檔應用開發(fā)“水土不服”問題,合合信息智能文檔處理“百寶箱”亮相1024程序員節(jié)
2024-10-28 16:03:29AI云資訊2068
文檔是知識傳遞的載體,無論是大模型應用發(fā)展,還是與產(chǎn)業(yè)數(shù)字化息息相關的高質(zhì)量數(shù)據(jù)庫的建立,都離不開對于文檔數(shù)據(jù)的處理和分析。目前,越來越多的開發(fā)者開始關注文檔數(shù)據(jù)處理背后的“文檔解析”技術,用以實現(xiàn)自動化數(shù)據(jù)提取、優(yōu)化大模型訓練、開發(fā)智能文檔處理應用。
近期,第五屆長沙·中國1024程序員節(jié)在湖南長沙舉行。大會由湖南省工業(yè)和信息化廳、湖南湘江新區(qū)管理委員會、長沙市工業(yè)和信息化局、長沙信息產(chǎn)業(yè)園管委會和 CSDN 聯(lián)合打造。大會期間,合合信息面向廣大開發(fā)者,開放智能文檔處理“百寶箱”系列產(chǎn)品(簡稱“百寶箱”)免費體驗?!鞍賹毾洹备采w文檔處理流程多節(jié)點,支持批量、高效、準確解析多種版式的文檔材料,解決文檔解析精度低、解析效果評估難和大模型幻覺等問題,助力技術人員實現(xiàn)個性化、高效率的文檔類應用開發(fā)工作。
“百寶箱”為文檔應用開發(fā)提供個性化工具
文檔處理包含解析界面可視化、提取關鍵信息、解析效果測評等多個流程,每一節(jié)點都影響著數(shù)據(jù)解析的精度。在長沙·中國1024程序員節(jié)《模型與工具》論壇上,合合信息智能創(chuàng)新事業(yè)部研發(fā)總監(jiān)常揚介紹了智能文檔處理“百寶箱”三大產(chǎn)品,用維護穩(wěn)定、持續(xù)更新、可用性強的AI工具幫助開發(fā)者解決難題。
圖說 長沙·中國1024程序員節(jié)《模型與工具》論壇現(xiàn)場
據(jù)常揚介紹,對于廣大技術人員而言,一款能夠“開箱即用”的工具能夠讓開發(fā)事半功倍。為解決個人及中小型企業(yè)技術人員在開發(fā)過程中遇到的“水土不服”問題,合合信息發(fā)布了一組文檔解析界面前端可視化組件,開發(fā)者可使用相關界面對解析效果進行交互,包括提取各類解析元素,定位解析元素在文檔中的位置,還原展示各級目錄樹等。此外,相關組件還支持對結(jié)果進行編輯修正,方便使用者實現(xiàn)更高精度的解析效果,進行個性化開發(fā)。
圖說 文檔解析可視化前端界面
在文檔處理及大模型RAG應用時,文本向量模型對于檢索質(zhì)量和效率至關重要。“百寶箱”開源了合合信息自研的文本向量模型代碼——acge模型,曾于2024年3月榮登C-MTEB榜單第一名,支持長文檔嵌入檢索,兼顧效率和性能,有效提升大模型RAG應用效果。目前在開源機器學習社區(qū)和模型庫Hugging Face平臺上,acge模型單月下載量達30,423,助力越來越多的開發(fā)者優(yōu)化大模型性能。
本次大會上,“百寶箱”還為文檔解析工具的篩選配備了“游標卡尺”。當前市面上的文檔解析產(chǎn)品效果缺乏統(tǒng)一標準,為選擇一款合適的工具,開發(fā)者們要花費較長的時間進行對比測試?!鞍賹毾洹敝械摹拔臋n解析測評工具”從表格、段落、標題、閱讀順序、公式等多維度,為文檔解析工具篩選提供定量測評依據(jù)及服務,并提供雷達圖等可視化形式,方便開發(fā)者直觀地看到文本識別、解析和翻譯的結(jié)果,節(jié)省篩選時間。
圖說 表格數(shù)據(jù)解析效果測評指標
文檔智能解析為專業(yè)知識庫建設“打好地基”
技術只有和具體業(yè)務實踐相結(jié)合才能創(chuàng)造價值,在大會上,常揚分享了“智能文檔處理百寶箱”在知識庫搭建、智能文檔抽取、大模型預訓練語料與數(shù)據(jù)治理快速入庫以及文檔翻譯場景中的深度應用。
以工程制造業(yè)為例,知識庫的建立需要對產(chǎn)品設計方案、技術規(guī)格書、工藝流程圖、國家標準文件等在內(nèi)的多版式文檔進行分析,數(shù)據(jù)處理難度高。借助“百寶箱”及合合信息智能文檔處理技術,開發(fā)者可以篩選出合適的文檔解析工具并實現(xiàn)對復雜文檔信息的精準提取。面對數(shù)據(jù)來源不一致、數(shù)據(jù)更新不及時等問題,開發(fā)者還可以使用acge模型優(yōu)化知識庫信息構建、檢索和查詢效果。
除了中文文檔,包括生物醫(yī)藥、金融、外貿(mào)等行業(yè)在內(nèi)的專項知識庫還存在解析、翻譯多語種文檔的需求。不同語種之間不僅字體字形之間存在巨大差異,復雜語句切分也是一大難題。據(jù)悉,“百寶箱”可在保留文檔原有格式的基礎上做到批量、精確區(qū)分并提取多語種信息,前端組件提供審校修正功能,用戶可直接在界面上對解析結(jié)果進行優(yōu)化,助力提高翻譯質(zhì)量。未來,合合信息智能文檔處理“百寶箱”將始終追求更高的效率與準確率,從文檔解析到效果測評,為知識庫產(chǎn)品開發(fā)提供有力支持。
圖說 “百寶箱”在文檔翻譯場景中的應用
相關文章
- 《數(shù)據(jù)產(chǎn)業(yè)圖譜(2025)》權威發(fā)布,合合信息作為核心企業(yè)參編
- 合合信息聯(lián)合南京大學蘇州校區(qū)舉辦高校快閃日,共育AI未來人才
- 突破復雜版面及圖表解析難題,合合信息“大模型加速器”再升級
- 中國信通院攜手合合信息啟動“護證計劃”,AI鑒偽技術守護群眾身份安全
- 網(wǎng)安標委2024年“標準周”活動順利舉行,合合信息AI助力圖像鑒偽技術創(chuàng)新
- CCF-CV攜手合合信息打造技術分享論壇,聚焦大模型時代中的視覺安全前沿熱點
- 用AI“讀懂”專業(yè)文檔資料,合合信息助力出海企業(yè)規(guī)避侵權“陷阱”
- 解決文檔應用開發(fā)“水土不服”問題,合合信息智能文檔處理“百寶箱”亮相1024程序員節(jié)
- 做好個人信息保護“守門員”,合合信息入選首批PIA典型案例集
- 中國信通院攜手合合信息發(fā)布《文本圖像篡改檢測系統(tǒng)技術要求》
- 合合信息:破解大模型語料庫難題的引領者
- 合合信息AI技術賦能財務業(yè)績解讀
- 推進上市新階段 合合信息為高效學子搭建橋梁助力“金點子”落地
- 合合信息科創(chuàng)板IPO上市 專注于人工智能及大數(shù)據(jù)科技
- 合合信息IPO 以技術做橋梁助推學術成果轉(zhuǎn)化
- 合合信息上市:專注人工智能及大數(shù)據(jù)科技,C端產(chǎn)品月活過億
人工智能企業(yè)
更多>>人工智能硬件
更多>>- 從心出發(fā),新品與新技術雙重進化,技嘉2025線下產(chǎn)品發(fā)布會強勢來襲
- 當“銀發(fā)”遇見“智眼”——神眸亮相2025深圳智慧養(yǎng)老展
- 訊飛同傳助力亞布力夏季年會,打破語言壁壘促全球?qū)υ?/a>
- 低空賦能,跨越山河,大疆運載無人機的甘孜答卷
- 預制菜又吵起來了?優(yōu)特智廚炒菜機新品發(fā)布會掀起中餐“現(xiàn)炒”熱潮
- 場景化落地部署人形機器人將超2000臺,眾擎機器人與多倫科技達成戰(zhàn)略合作
- 275W極限性能+第二代乾坤散熱!拯救者R9000P 2025至尊版成就電競創(chuàng)作雙巔峰
- 百年聲學品牌再創(chuàng)新!拜雅新品AMIRON 200 & AMIRON ZERO定義開放聆聽新方式
人工智能產(chǎn)業(yè)
更多>>- 打造張江人工智能創(chuàng)新小鎮(zhèn),全國首個人工智能創(chuàng)新應用先導區(qū)再添發(fā)展新引擎
- 人機共生 · 智啟未來——2025高交會亞洲人工智能與機器人產(chǎn)業(yè)鏈展主題發(fā)布
- 北京數(shù)基建發(fā)布“知行IntAct”混合智能體產(chǎn)品,以AI定義城市治理新范式
- 新時達“精耕小腦”,與大腦協(xié)同,加速具身智能垂直落地
- 亞洲愿景論壇 東軟蓋龍佳談AI與數(shù)據(jù)價值化重構醫(yī)療未來
- 破解AI落地難題!北大這場特訓營,為企業(yè)找到轉(zhuǎn)型“最優(yōu)解”
- 腦神經(jīng)成像提速數(shù)倍、AI練就“遺忘術”!2025螞蟻InTech獎頒發(fā)
- 一句話生成圖表!天禧智能體接入ChatExcel MCP Server讓數(shù)據(jù)處理變得如此簡單
人工智能技術
更多>>- 外灘大會首發(fā)! 螞蟻密算推出AI密態(tài)升級卡 實現(xiàn)零改動“即插即用”
- 騰訊優(yōu)圖攜Youtu-Agent開源項目亮相上海創(chuàng)智學院首屆TechFest大會
- 2025外灘大會:王堅暢談AI變革,普天科技錨定空天算力新賽道
- 騰訊正式開源Youtu-GraphRAG,圖檢索增強技術迎來落地新突破
- 聲網(wǎng)兄弟公司 Agora與OpenAI 攜手 助力多模態(tài) AI 智能體實現(xiàn)實時交互
- Qwen-Image-Edit 模型上線基石智算,圖像編輯更精準
- 火山引擎多模態(tài)數(shù)據(jù)湖落地深勢科技,提升科研數(shù)據(jù)處理效能
- 斑馬AI大模型:為每個孩子提供專屬學習方案