精品国产18久久久久久,一个人在线观看的www,亚洲一区二区久久久,成人国内精品久久久久影院vr,最近免费中文字幕大全高清大全1

匯付天下AI應用丨LLM在投訴風險管控中的應用實踐

2025-05-14 09:13:49AI云資訊1461

一、前言

LLM(即Large Language Model,大語言模型)的通用能力在聊天、翻譯、文本生成/分類、情感分析、圖像描述等方面表現(xiàn)優(yōu)異,例如:DeepSeek-R1擅長數(shù)學、代碼和自然語言推理等復雜任務,百度文小言能支持多種方言的語音交互,Gemma3具備分析文本、圖像及短視頻的能力等。在數(shù)學、編程等很多領域,其知識已達到了博士水平。

但LLM的弱勢在于它只是一個由歷史數(shù)據(jù)預訓練出來的聰明“大腦”,它可以提升終端(電腦、手機等)的智能化水平,但它不會自主學習,不具備自主迭代更新知識儲備的能力,在職場上,我們需要的不是一個只會聊天的助手。因此需要給它加上控制各類工具的能力,如同給其安上“手腳”,組裝成一個虛擬機器人,這種進化后的LLM在業(yè)界被稱為Agent(即自主智能體),然而這只是極大地拓寬了應用邊界,其主體仍是LLM。

由中國創(chuàng)業(yè)公司Monica發(fā)布的全球首款通用Agent產(chǎn)品Manus,已在業(yè)界廣為流傳,它具備從自主規(guī)劃、思考、行動,執(zhí)行全流程任務并最終輸出完整成果,如:撰寫產(chǎn)研報告并輸出為pdf文件。同樣的閉源智能體項目還有OpenAI的Deep Research和Operator等,而知名的開源項目有OpenManus、OWL、Deep Searcher等。

但目前的Agent仍處在成長和探索階段,尚未出現(xiàn)一款完整、成熟、穩(wěn)定、被廣泛接受和傳播的產(chǎn)品,在許多真實場景中仍需做定制化的二次開發(fā),或者落地小型Agent,即讓LLM在限定規(guī)則下調(diào)用少量工具。

二、LLM在風險管控方案中的設計思路

LLM在風險管控中的應用方案大致可分為兩大類:封閉式方案、開放式方案。

封閉式方案:是指整體流程清晰和標準化、目標明確、有備選答案且可選項有限,追求可控、可解釋、高準確率為目標的業(yè)務方案。

開放式方案:通常應用于探索未知領域,無預設答案,無既定流程,目標也可以不用提前明確,需要進行發(fā)散思考,在反復試錯、驗證后最終獲得最優(yōu)解,答案通常不唯一,樣式可以靈活多樣。

在支付行業(yè)風險管理的應用實踐中,更多的是應用封閉式方案,從而保證“風險可控、管控合理且可解釋、標準化下的高準確率”的基本要求。而開放式方案主要適用在新型風險案件出現(xiàn)后的探索工作,去分析和嘗試個性化的策略方案。

如果方案中需加入Agent,則可通過“感知-規(guī)劃-行動-決策”的鏈路來設計:

·通過LLM來“規(guī)劃”和“決策”,當任務出現(xiàn)后,去識別意圖、分解需求、制定/協(xié)調(diào)/分配任務、確定使用何種工具,而待信息收集完整后,則做分析判斷并輸出決策和結論等。

·通過工具來“感知”和“行動”,通過網(wǎng)絡去獲取現(xiàn)實世界中實時、最新的輔助信息,與內(nèi)外部知識庫、數(shù)據(jù)庫做即時交互來補充所需信息等,通過工具來執(zhí)行各類代碼、操作各種文件、操作瀏覽器等。

另外,基于信息安全的基本要求,同時考慮到提示詞工程下開發(fā)訓練模型,需耗費巨量的token并產(chǎn)生不菲的費用,我們選擇公司內(nèi)部私有化部署LLM平臺。而在選取使用哪幾款LLM做私有化部署前,或者判斷哪款新面世的LLM是否有必要替代已部署的LLM,則可以通過外部API方式做小規(guī)模測試評估,然后再做出決策,從而兼顧性能和成本。

而在Agent應用上,若選擇私有化部署開源項目,缺點是需要較多人力做二次開發(fā)和維護,優(yōu)點是可以深度融入進現(xiàn)有的風險管控方案中。目前國內(nèi)已推出多款免費的閉源Agent項目,在網(wǎng)絡信息采集、匯總并撰寫報告方面的表現(xiàn)優(yōu)于閉源項目,因此在這方面的工作上可以選擇閉源項目。

三、LLM在投訴風險管控中的應用實踐

1.與現(xiàn)有投訴風險管控方案的比較

在LLM加入之前,我們已經(jīng)積累了很多標準化流程和成熟的應用案例,應用中使用多種機器學習算法和復雜的規(guī)則引擎。

“傳統(tǒng)范式”是借助“多種算法”和“代碼語言”來開發(fā)模型。如借助TF-IDF、TextRank等多種算法,并配上大量的代碼去綜合分析和挖掘關鍵詞,再借助StructBert模型對風險提示詞做評分,將多個同類評分做綜合判斷并輸出一種風險標簽,而多種投訴風險類型需對應開發(fā)多個模型,因此會產(chǎn)生多個子模型并行跑批。

在LLM加入之后,模型開發(fā)方面如同面臨一次“范式革命”,由自動化為主的“數(shù)字化”改造,合并升級成以LLM為主的“數(shù)智化”變革。

“新范式”是借助“多個LLM”和“自然語言”來開發(fā)模型(而隨著支持多模態(tài)的單個LLM逐步變強,其中“多個LLM”將降為“一個LLM”)。開發(fā)模型時,主要使用的是自己擅長的母語,并借助一個擅長文本模態(tài)的LLM來挖掘關鍵詞。而原來的“特征工程”則轉(zhuǎn)為“提示詞工程”,所開發(fā)的這一個LLM投訴風險分類模型是由大量的提示詞組成所需的自然語言指令。而這一個模型便可輸出多種風險分類標簽,因而不再需要開發(fā)多個子模型,故模型開發(fā)量大幅下降,代碼量大約只需要原來的5%。

2.應用LLM的封閉式方案介紹

為保證“新范式”仍能保持風險管理所要求的高準確度和穩(wěn)定性,在初期階段,需實施“雙軌制”模式,即現(xiàn)有的“傳統(tǒng)范式”繼續(xù)運行,“新范式”與其在同一體系內(nèi)同時運行,兩者同步優(yōu)化迭代。

這樣的模式雖然較“重”,但在“新范式”表現(xiàn)尚未充分時,仍是最穩(wěn)妥的模式。但到后續(xù)階段,可根據(jù)“新范式”的表現(xiàn)情況,逐步將其升至主導地位,直至最終可能棄用“傳統(tǒng)范式”。

全套的“雙軌制”模式如下圖所示:

“傳統(tǒng)范式”在圖中下方的第一條軌道上運行,投訴風險分類包含2個小模型:

(1)“基于詞庫的風險分類模型”,由一個包含1700多條邏輯組合的規(guī)則集,對11種風險投訴進行標簽判斷;

(2)“基于StructBert的風險分類模型”,該模型包含11種風險對應的11個子模型,而每個子模型也是由多個提示詞的評分來綜合判斷是否屬于該類風險并標注風險標簽。而這套復雜方案,會再次做綜合判斷并給出圖中的“風險標簽1”。

“新范式”在圖中上方的第二條軌道上運行,做投訴風險分類的模型只用1個,即“風險分類Agent”,這一個模塊即基于提示詞工程開發(fā)投訴風險分類模型,它在限定規(guī)則下,調(diào)用和執(zhí)行Python、SQL代碼,從內(nèi)部數(shù)據(jù)庫采集需判斷的投訴數(shù)據(jù),完成分類后將風險標簽傳輸回內(nèi)部數(shù)據(jù)庫中的指定數(shù)據(jù)表中,即產(chǎn)出圖中的“風險標簽2”。

“風險分類Agent”的提示詞工程不需要從零開始構建,可從“傳統(tǒng)范式”中提取并復用關鍵詞,比如民族資產(chǎn)解凍類詐騙,已被公布的此類項目名稱近上百種,可直接加進提示詞,對于投訴中包含此類項目的則直接判斷并標簽為“民族資產(chǎn)解凍類詐騙”;但對于需要語義理解的情況,則可通過定義、規(guī)則限制和引導LLM來做適當?shù)赝评砗团袛唷?

因為兩套方案的評判標準和開發(fā)模式有所不同,會使得判斷的結論也會出現(xiàn)不同,如圖中案例,風險標簽1為“電詐、洗錢”,風險標簽2為“電詐、電商經(jīng)營異常”,這時通過“專家投票模塊”來求同存異,留下相同的標簽并最終輸出標簽“電詐”。

對于出現(xiàn)不同標簽結論時,需使用“對齊機制”來保證兩套方案結論的高度一致性。比如,A模型的結論更準確,則通過人工分析A模型的判斷邏輯,調(diào)試和融入到B模型后,使兩者輸出相同結論。

本方案采用Multi-Agent框架,除了“風險分類Agent”外,還包含“RAG Agents”、“圖像認知Agent”、“文本修正Agent”、“行業(yè)分類Agent”,通過LLM的能力,同時強化“傳統(tǒng)范式”的智能化水平和模型效果。此框架為“標準框架”,實際應用中需根據(jù)不同風險投訴的特征和管控需要,對實施框架做對應的增減或調(diào)整,從而以最佳的模式去靈活應對各類風險投訴。

以下分別介紹各主要模塊:

1)RAG Agents

RAG(全稱為 Retrieval Argumented Generation),即檢索增強生成,是為了補充并增強LLM的能力,使其盡量和現(xiàn)實世界對齊的一種技術路線。而“RAG Agents”則由多個檢索增強生成的Agent組成,針對電詐、民族資產(chǎn)解凍類詐騙等,它們會定時去網(wǎng)絡上收集、學習最新的外部信息,匯總新增風險案件、風險項目名稱、關鍵詞等做成清單,經(jīng)由人工審核后,判斷是否需要加入進風險分類模型的判斷邏輯中,從而保證模型“與時俱進”。

2)圖像認知Agent

約20%的投訴因為文本投訴內(nèi)容未提供、表述不明確等原因?qū)е聼o法從文本投訴來判斷是否屬于風險投訴,但這些投訴同時提供了照片/截圖等圖像信息,而從圖像投訴中可以獲取到作為判斷風險的有用信息。因此需要“圖像認知Agent”來將圖像內(nèi)容分析、描述并轉(zhuǎn)換成文本內(nèi)容,并補充進文本投訴內(nèi)容中。雖然其中約95%的圖像投訴屬于糾紛,而非風險投訴,但這個Agent讓我們可以覆蓋到約20%的投訴風險管控盲區(qū)。

3)文本修正Agent

文本投訴會存在種種問題,而“圖像認知Agent”傳輸過來的文本信息也可能需要修正,而且兩塊的文本內(nèi)容需要有效地合并到一起,這時需要“文本修正Agent”來完成這項工作。

修正,一方面是讓LLM把錯別字、臟數(shù)據(jù)等進行清洗加工,比如“和網(wǎng)上街勺不相符,色1情視頻照片引導炸騙”,如果用傳統(tǒng)的算法,可能不一定能判斷出這條投訴涉及“色情、詐騙”,因為“色情”兩個字中間多了個“1”,而“詐騙”出現(xiàn)了錯別字“炸”。經(jīng)過LLM修正后,則改為“和網(wǎng)上介紹不相符,色情視頻照片引導,是詐騙”。

修正的另一個方面,則是翻譯各種語言,比如以下文本:??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????

因為一個公司需要配備懂得多種語言的多名員工去選取外文投訴做人工翻譯,然后才能實現(xiàn)對于該類語種的風險分類和管控,這樣的成本和人力耗費較高,而LLM出現(xiàn)后則僅靠一個大語言模型就可以解決這個翻譯工作,同時自動將翻譯結果返回到數(shù)據(jù)庫中。

這條例子,LLM的推理內(nèi)容會告知這是維吾爾文,翻譯后的內(nèi)容是“在群里看到一個被宣傳為高收益的投資建議后,我下載了該應用并支付了費用,但之后應用無法打開且錢也沒有退回”。而這將幫我們捕獲到一條投資理財類的詐騙投訴。

另外,還會出現(xiàn)投訴內(nèi)容都是英文大寫,沒有空格或符號隔開,只有一串英文的案例:ISAWAHIGHRETURNINVESTMENTPROJECTINTHEGROUPCHATCLAIMEDTOOFFERSUBSTANTIALPROFITSSOIDOWNLOADEDTHEAPPANDMADEAPAYMENTLATERTHEAPPSTOPPEDWORKINGANDICOULDNTWITHDRAWMYFUNDS

這時就算英文再好的員工也會覺得為難,但LLM則能輕而易舉的將其轉(zhuǎn)換成正常的英文內(nèi)容,如下:

I saw a high-return investment project in the group chat claimed to offer substantial profits. So I downloaded the app and made a payment. Later, the app stopped working and I couldn’t withdraw my funds.

然后,它會再將其翻譯成中文。因為作為示例用,可見這筆投訴內(nèi)容是之前那條維吾爾文投訴的英文版。

以上修正功能完成后,這個Agent可以讓我們覆蓋到約10%的投訴風險管控盲區(qū)。

4)行業(yè)分類Agent

因為不同行業(yè)的管控方式和力度不同,因此需要“行業(yè)分類Agent”做提前分類,從而保證投訴風險的精細化管控,而且在線下測試評估后發(fā)現(xiàn),若將行業(yè)分類Agent合并到風險分類Agent中,會導致提示詞過于繁多,其規(guī)則邏輯間會存在互相影響等問題,而且不易定位到導致誤判的原因點在哪里,就算讓LLM來幫你定位大堆提示詞中的優(yōu)化點,結果也不一定能盡如人意,因此不建議合并這2個Agent。

我們可以從大類開始分:線上行業(yè)、線下行業(yè)、不確定。然后再繼續(xù)下鉆,比如線上行業(yè),如話費充值類詐騙案件,歷史出現(xiàn)的風險案件主要集中在線上,因此對標簽為“線上行業(yè)-話費充值”的做強管控,而“線下行業(yè)-話費充值”則做弱管控,實現(xiàn)區(qū)分并做差異化管控。而類似賭博、色情類風險,則均需做強管控,因此可以不用關注行業(yè)分類結果。

應用成效:

“傳統(tǒng)范式”下的模型,其風險投訴覆蓋率約70%,基于該覆蓋率下的風險投訴分類準確率約97%;而今年Q1上線后的“新范式”的風險投訴覆蓋率能達到約98%,較原范式可提升28%,且在這個高覆蓋率下,其風險投訴分類準確率較原范式還能有所提升,能較穩(wěn)定地保持在99%左右。

而基于“新范式”下覆蓋的風險投訴標簽,針對商戶投訴風險管控所上線的風險處置類規(guī)則共86個,其中準實時規(guī)則共4個、離線規(guī)則共82個,在今年Q1的風險商戶處置量共1462個,較“傳統(tǒng)范式”提升約12%,該批處置類規(guī)則總體準確率約99%。

處置類規(guī)則準確率雖然很高,但犧牲了部分風險商戶的管控覆蓋,而這塊商戶最終表現(xiàn)是出險而需要被處置的。為了保證處置類規(guī)則的高準確率,此類規(guī)則的閾值設置相對偏高,這塊商戶在風險投訴量級和濃度未達一定程度、其他風險指標未到一定水平時,只做預警處理,因為沒觸達處罰標準而躲過了處置類規(guī)則的管控。若通過降低閾值來覆蓋到這部分商戶,則會連帶誤殺到優(yōu)質(zhì)商戶。因而會通過再次開發(fā)更精細化的管控規(guī)則,或通過其他維度的策略維度來更多地覆蓋到此塊風險商戶。

四、未來展望

LLM在“雙軌制”模式和Multi-Agent的結合下,其應用成效顯著,各項指標也達到了歷史新高,在管控指標上可以提升的空間已經(jīng)有限,但在其他方面仍有提升余地。

如“雙軌制”模式下的“重”體量,使其在人工維護成本上較高,在對齊時基于更準確的A模型來同時優(yōu)化B、C模型時,要耗費較多時間來讓不同類型的模型輸出相同結論,同時要做充分的驗證,像LLM開發(fā)的分類模型,需要至少近三個月的投訴樣本量做驗證,才能保證該提示詞工程的通用效果保持一致。

而LLM仍會出現(xiàn)偶爾的推理失誤,多數(shù)情況是因為提示詞寫的不夠嚴謹導致。而“傳統(tǒng)范式”維護成本相對更低,樣本回測方面的時效更快,比如調(diào)整判斷邏輯后,讓其在歷史一年的投訴數(shù)據(jù)上重新全量做風險分類,耗時約3分鐘,而LLM開發(fā)的模型,若一個月投訴量以20萬筆計算,20個進程并行跑批也要耗費至少15個小時才能完成風險分類。因此在短期內(nèi)還不能將該模式變“輕”。

LLM目前未具備自主學習能力,需要通過人工微調(diào)來優(yōu)化預訓練模型,而微調(diào)的工作量,以及對微調(diào)效果的驗證也需耗費較高的時間和人力成本。雖然已有一些嘗試性的方案出現(xiàn),但并沒有能夠真正應用在實際方案中。在自動微調(diào)能力未出現(xiàn)之前,這個也是亟待解決的問題之一。

但隨著技術的繼續(xù)發(fā)展和各種研究的深化迭代,以上問題也會被逐個解決。而本文主要分享LLM在投訴風險管控的應用實踐,我們將在未來的應用研究中,嘗試在更多的風險管控場景中將LLM融入其中,同時在運營、客服、營銷、法務、研發(fā)、人事、財務等方面做諸多的探索和研究。

相關文章

人工智能企業(yè)

更多>>

人工智能硬件

更多>>

人工智能產(chǎn)業(yè)

更多>>

人工智能技術

更多>>
AI云資訊(愛云資訊)立足人工智能科技,打造有深度、有前瞻、有影響力的泛科技媒體平臺。
合作QQ:1211461360微信號:icloudnews