精品国产18久久久久久,一个人在线观看的www,亚洲一区二区久久久,成人国内精品久久久久影院vr,最近免费中文字幕大全高清大全1

與年輕的靈感雙向奔赴,第二屆百度搜索創(chuàng)新大賽賽道一冠軍團(tuán)隊(duì):收獲的不僅是技術(shù)成果,還有志同道合的朋友

2023-12-11 16:05:21AI云資訊890

今年以來,生成式大模型技術(shù)取得飛速發(fā)展,相關(guān)應(yīng)用層出不窮。然而,搜索場景下生成技術(shù)應(yīng)用還沒有深入的評測研究。目前,雖然抽取式智能問答系統(tǒng)已在搜索系統(tǒng)中有成熟應(yīng)用,但其仍面臨著搜索網(wǎng)頁質(zhì)量參差不齊,抽取答案內(nèi)容單一、豐富性不足等難點(diǎn)。

如何從搜索多結(jié)果內(nèi)容組織生成調(diào)研,即對于用戶query,利用生成模型組織搜索引擎返回的多條檢索結(jié)果,生成一個(gè)正確、豐富、語義通順、完全滿足用戶需求的答案,提升搜索引擎的極致滿足?

第二屆百度搜索創(chuàng)新大賽正在揭開謎底。第二屆百度搜索創(chuàng)新大賽,歷經(jīng)123天的角逐,已于近日落下帷幕。28支團(tuán)隊(duì)經(jīng)過夜以繼日的研究與努力,在大賽中脫穎而出,站上領(lǐng)獎(jiǎng)臺。其中,賽道一共有719人報(bào)名,組成的220支隊(duì)伍作品提交上榜,經(jīng)過激烈角逐,最終有10支隊(duì)伍入圍決賽,并進(jìn)入頒獎(jiǎng)現(xiàn)場。

搜索引擎何以提升用戶極致滿足?

從第二屆百度搜索創(chuàng)新大賽設(shè)置的五大賽道來看,分別傾向于不同的議題,包括搜索答案組織、基于向量交集的TopK搜索、設(shè)計(jì)一個(gè)解決搜索用戶需求的AI原生應(yīng)用、基于GPU的近似最近鄰檢索算法挑戰(zhàn)、可控圖片生成算法挑戰(zhàn)。賽道一“搜索答案組織”所解決的就是“提升搜索引擎的極致滿足”的問題。

當(dāng)你在百度搜索框中問一個(gè)問題,你是希望獲得很多條相關(guān)的信息,還是一個(gè)精準(zhǔn)的答案,相信必然是后者。

所以,在具體的任務(wù)設(shè)置中,賽道一的體現(xiàn)是:給定一個(gè)用戶搜索問題query,多條搜索結(jié)果摘要,使用生成模型依據(jù)上述結(jié)果生成正確且豐富的答案。

對于數(shù)據(jù)集的要求,訓(xùn)練集包含8000個(gè)query,每個(gè)query下給出最多5條網(wǎng)頁搜索結(jié)果中抽取的摘要作為參考,根據(jù)上述結(jié)果人工撰寫的答案;驗(yàn)證集1000query,對應(yīng)的搜索結(jié)果摘要和答案,測試集1000query和對應(yīng)的搜索結(jié)果摘要。

在頒獎(jiǎng)典禮現(xiàn)場,作為賽道一的冠軍團(tuán)隊(duì),來自中國科學(xué)院計(jì)算技術(shù)研究所的李一鳴發(fā)表了他的獲獎(jiǎng)感受。他表示,“剛剛看到賽道一的賽題的時(shí)候,我的大腦就像所起的隊(duì)名一樣‘None’空空如也,而且我的研究方向是多模態(tài)表征學(xué)習(xí)以及開放檢測識別等與自然語言處理交際不大的方向,因此對于NLP領(lǐng)域的了解也像團(tuán)隊(duì)名字那樣,一知半解。然而,抱著對當(dāng)前比較火熱大語言模型的好奇和興趣,還是選擇參加比賽競賽,希望能夠從中有所收獲,也希望可以讓我的技術(shù)水平從None慢慢變成CUDA。”

事實(shí)上,這也是百度搜索創(chuàng)新大賽舉辦的初衷。讓每一位參賽者都能夠在激烈的賽事中認(rèn)清自身的優(yōu)勢,在賽事的實(shí)踐與考驗(yàn)中形成屬于自己的特色成果,確立未來的發(fā)展規(guī)劃。

三大亮點(diǎn)詮釋創(chuàng)新之處

結(jié)合本屆百度搜索創(chuàng)新大賽的賽事成果來看,一切都是充滿期待的。

每一位參賽者都潛心研究,即便在其中的過程中總會(huì)遇到困難,但他們從不放棄,并如愿取得了自己想要的成果。無論獲獎(jiǎng)與否,參與就是一種意義。對此,作為賽道一的冠軍團(tuán)隊(duì),也是團(tuán)隊(duì)中的唯一一員,李一鳴深有感觸。

據(jù)李一鳴總結(jié),他的獲獎(jiǎng)方案的亮點(diǎn)主要在于三大方面:

一是主要集中在對于大語言模型低秩適配上,采用了lora微調(diào)的方式。這一方式可以助力方案更新比較少的參數(shù)提升效率。同時(shí),他還通過別的優(yōu)化方式,優(yōu)化訓(xùn)練推理參數(shù)配置,這樣使生成答案不僅是真實(shí)、合理,也進(jìn)一步提升了方案豐富性。

“我們都知道本次比賽希望參賽隊(duì)伍針對用戶數(shù)查詢和網(wǎng)頁返回多個(gè)檢索摘要結(jié)果生成一個(gè)有意義、語義豐富答案反饋給用戶,這就是這一方式所做到的?!崩钜圾Q分析道。

二是對NLP領(lǐng)域認(rèn)識更加深入,其也采用了更加先進(jìn)的技巧——噪聲微調(diào)。李一鳴介紹稱,“該技巧是調(diào)研近期工作得到的想法,主要思想是針對輸入指令加一些隨機(jī)采樣的噪聲,因?yàn)槿蝿?wù)形式比較單一,所以只是對于問題和檢索返回摘要部分隨機(jī)添加了噪聲,希望以此使模型更加細(xì)致,同時(shí)可以緩解過擬合,使模型關(guān)注到輸入文本中更多細(xì)節(jié),從而使得它可以生成更加有意義和豐富的答案?!?

三是將自身所擅長的領(lǐng)域中一些常見的方法,比如偽標(biāo)簽技術(shù)應(yīng)用到本次比賽中。據(jù)此,李一鳴主要是采用了知識蒸餾的方式進(jìn)行訓(xùn)練,額外搜集數(shù)據(jù)集,用教師模型為輸入部分打一個(gè)偽標(biāo)簽。通過這種方式不僅可以在教師和學(xué)生間完成知識傳遞,同時(shí)可以訓(xùn)練出性能更好、并且更加易于部署的模型。除此之外,李一鳴還嘗試了一些領(lǐng)域內(nèi)語料預(yù)訓(xùn)練方式,進(jìn)一步提升模型對于答案組織方式的理解。

擁抱年輕靈感,為技術(shù)基因注?新活力

挑戰(zhàn)時(shí)刻都在,如何解決才是關(guān)鍵。

基于自身所積累的技術(shù)經(jīng)驗(yàn),在不斷試錯(cuò)與摸索中,李一鳴最終在賽道一中脫穎而出。

“ ‘紙上得來終覺淺,絕知此事要躬行’,通過這次比賽對于NLP領(lǐng)域一知半解的我,在一步步調(diào)試優(yōu)化大模型、一系列的過程中體會(huì)到了收獲知識、提升技術(shù)的喜悅?!崩钜圾Q表示。

李一鳴指出,“通過百度搜索創(chuàng)新大賽這樣的線下交流展示的機(jī)會(huì),不僅能夠讓我們利用所學(xué)的知識,真正去解決一些工業(yè)界的現(xiàn)實(shí)問題。同時(shí)在比賽中,也能夠結(jié)識許多志同道合的朋友,在與他們交流過程中,進(jìn)一步實(shí)現(xiàn)知識與技術(shù)上的沉淀與提升?!?

通過李一鳴的參賽經(jīng)歷以及感受也能夠看到,百度搜索正通過大賽這個(gè)平臺與“新一代AI之星”產(chǎn)生著深入的碰撞。擁抱年輕?的靈感,為技術(shù)基因注?新的活力,這就是大賽的意義。

相關(guān)文章

人工智能企業(yè)

更多>>

人工智能硬件

更多>>

人工智能產(chǎn)業(yè)

更多>>

人工智能技術(shù)

更多>>
AI云資訊(愛云資訊)立足人工智能科技,打造有深度、有前瞻、有影響力的泛科技媒體平臺。
合作QQ:1211461360微信號:icloudnews