精品国产18久久久久久,一个人在线观看的www,亚洲一区二区久久久,成人国内精品久久久久影院vr,最近免费中文字幕大全高清大全1

研究人員揭露AI漏洞:ChatGPT與Gemini能被無意義指令欺騙,從而繞過安全規(guī)則輸出有害內(nèi)容

2025-07-09 07:41:08AI云資訊2361

(AI云資訊消息)近年來,企業(yè)似乎對人工智能的投資日益加大,技術(shù)也日趨精進。人工智能的發(fā)展已滲透到各個領(lǐng)域,成為我們?nèi)粘I钪胁豢苫蛉钡囊徊糠帧H欢S著這項技術(shù)的大規(guī)模應(yīng)用,科技界和專家們開始擔憂如何負責任地使用它,確保倫理道德責任不被模糊化。前段時間,出現(xiàn)了大語言模型在壓力測試中表現(xiàn)出欺騙行為的情況。最近,又有研究團隊宣稱發(fā)現(xiàn)了一種新方法,能誘使這些AI聊天機器人說出本不該透露的內(nèi)容。

盡管已有研究表明,當大語言模型處于壓力和自我保護情境下時,往往會表現(xiàn)出脅迫性行為。但想象一下,若能讓AI聊天機器人完全按照你的意愿行事,這種操控手段將帶來何等危險。來自英特爾、博伊西州立大學和伊利諾伊大學的研究團隊聯(lián)合發(fā)表論文,揭示了一些令人震驚的發(fā)現(xiàn)。論文指出,通過向聊天機器人信息過載(Information Overload),也就是用海量信息轟炸系統(tǒng),就能成功欺騙它們。

當AI模型遭遇信息轟炸時,其系統(tǒng)會產(chǎn)生混亂,這種混亂狀態(tài)恰恰構(gòu)成了安全漏洞,使得內(nèi)置防護機制被輕易繞過。研究人員隨后使用名為信息洪流(InfoFlood)的自動化工具,成功利用該漏洞實施了越獄行為。像ChatGPT、Gemini這類強大模型本都設(shè)有安全護欄,旨在防止被操縱輸出有害內(nèi)容。

這項新突破的技術(shù)表明:只要用復雜數(shù)據(jù)使AI陷入困惑,就能突破其防御。研究人員披露發(fā)現(xiàn)時強調(diào),由于這些模型僅依賴表層語義理解,無法真正洞悉對話意圖。為此他們專門設(shè)計了一種測試方法:將危險請求隱藏在過載信息中,觀察聊天機器人的反應(yīng)。

研究人員計劃通過向各大AI模型公司發(fā)送漏洞披露文件包來通報這一發(fā)現(xiàn),這些公司后續(xù)可將資料移交其安全團隊進行研究。然而該論文特別強調(diào),即便存在安全過濾機制,仍可能面臨關(guān)鍵挑戰(zhàn),那就是惡意行為者如何通過欺騙模型來植入有害內(nèi)容。

相關(guān)文章

人工智能企業(yè)

更多>>

人工智能硬件

更多>>

人工智能產(chǎn)業(yè)

更多>>

人工智能技術(shù)

更多>>
AI云資訊(愛云資訊)立足人工智能科技,打造有深度、有前瞻、有影響力的泛科技媒體平臺。
合作QQ:1211461360微信號:icloudnews