以“前沿發(fā)明,引領(lǐng)AI產(chǎn)業(yè)新變革”為主題的“2024百度十大科技前沿發(fā)明”發(fā)布會(huì)日前在京舉行。此次發(fā)布會(huì)不僅展示了百度在人工智能領(lǐng)域的最新科技成果,還匯聚了眾多業(yè)界精英和專家,共同探討AI產(chǎn)業(yè)的未來(lái)發(fā)展。百度2024十大科技前沿發(fā)明,具體如下:
1、基于生成式大模型的智能體技術(shù)
該發(fā)明技術(shù)創(chuàng)新性地引入了思考模型,使智能體具備了任務(wù)規(guī)劃、工具調(diào)用、知識(shí)增強(qiáng)和反思進(jìn)化等多重能力。通過(guò)系統(tǒng)化的設(shè)計(jì)與核心能力的定向優(yōu)化,能夠低成本地支持不同應(yīng)用場(chǎng)景下智能體的規(guī)?;ㄔO(shè)與部署;通過(guò)建設(shè)大規(guī)模仿真能力,加速智能體構(gòu)建與分發(fā)。該技術(shù)系統(tǒng)已成功應(yīng)用于文心智能體平臺(tái)、商家智能體、文心快碼等多個(gè)重點(diǎn)場(chǎng)景,顯著提升了智能體的研發(fā)效率,降低了研發(fā)門(mén)檻。其中,商家智能體通過(guò)規(guī)劃+專家的多模型協(xié)同技術(shù)和大規(guī)模仿真技術(shù),提升反思、進(jìn)化和使用工具的能力,構(gòu)建AI營(yíng)銷能力;文心快碼依托代碼推薦和智能體系統(tǒng),與傳統(tǒng)DevOps工具鏈有機(jī)結(jié)合,推動(dòng)人機(jī)協(xié)同結(jié)對(duì)編程的深度探索與落地。
2、基于大模型高效訓(xùn)練框架的多模型協(xié)同進(jìn)化技術(shù)
該發(fā)明技術(shù)從工程和算法兩個(gè)角度攻克系列難題。工程架構(gòu)上,從混合并行策略、通信效率、計(jì)算存儲(chǔ)優(yōu)化全方位創(chuàng)新突破,顯著提升大語(yǔ)言模型訓(xùn)練性能,支撐文心全系列模型全流程高效穩(wěn)定訓(xùn)練。算法策略上,研發(fā)了大小模型協(xié)同的預(yù)訓(xùn)練技術(shù),攻克了模型間知識(shí)難以繼承的技術(shù)難題,改變了傳統(tǒng)模型的訓(xùn)練范式,降低了新模型訓(xùn)練成本?;谠摪l(fā)明構(gòu)建了各規(guī)模模型的技術(shù)壁壘,使文心大模型訓(xùn)練吞吐速度在過(guò)去一年提升了4.1倍,支持文心一言高效滿足不同需求的廣泛業(yè)務(wù),賦能千行萬(wàn)業(yè)。
3、基于大模型和知識(shí)檢索增強(qiáng)技術(shù)的多模態(tài)內(nèi)容創(chuàng)編一體的智能系統(tǒng)
本發(fā)明技術(shù)綜合運(yùn)用知識(shí)增強(qiáng)、多源內(nèi)容解析、融合式編輯、檢索增強(qiáng)文生圖等技術(shù),解決了專業(yè)長(zhǎng)文及多模態(tài)內(nèi)容生成質(zhì)量弱、創(chuàng)編無(wú)法共享容器、文生圖主體準(zhǔn)確性差等問(wèn)題。檢索增強(qiáng)文生圖,旨在通過(guò)智能判斷用戶需求自適應(yīng)處理參考圖,進(jìn)而基于混合模態(tài)的生圖系統(tǒng)顯著提升了生圖主體的一致性,有效彌補(bǔ)長(zhǎng)尾內(nèi)容刻畫(huà)不準(zhǔn)確的短板,整體效果遠(yuǎn)遠(yuǎn)超過(guò)文生圖原生系統(tǒng)。百度文庫(kù)已經(jīng)在基于用戶指令及上傳內(nèi)容實(shí)時(shí)生成行業(yè)研報(bào)、演示文稿、思維導(dǎo)圖、畫(huà)本漫畫(huà)并支持一站式編輯、跨模態(tài)轉(zhuǎn)換、通用/個(gè)性化生圖等復(fù)雜任務(wù)方面取得了顯著的效果提升。2024年8月,極光旗下月狐數(shù)據(jù)發(fā)布報(bào)告顯示,百度文庫(kù)智能PPT市場(chǎng)份額已達(dá)八成,近3月用戶規(guī)模復(fù)合增速達(dá)23%,增速遠(yuǎn)超行業(yè)水平。
4、支持規(guī)?;淖詣?dòng)駕駛定位和車道級(jí)地圖生成技術(shù)
該發(fā)明技術(shù)突破了傳統(tǒng)模式的效率和成本問(wèn)題,降低了地圖制圖成本95%,車道級(jí)道路里程超過(guò)360萬(wàn)公里,實(shí)現(xiàn)全國(guó)超過(guò)41000個(gè)城鄉(xiāng)鎮(zhèn)道路的全覆蓋?;诘貓D數(shù)據(jù)進(jìn)一步構(gòu)建的多模態(tài)傳感器融合的自動(dòng)駕駛高精定位技術(shù),精度達(dá)到厘米級(jí),極大提高了可量產(chǎn)性,將車端定位依賴的地圖包體積降低97.5%,可靠性達(dá)到99.9999%,全面支撐目前蘿卜快跑全無(wú)人駕駛的規(guī)?;\(yùn)營(yíng),在高架橋下、多層路、隧道等各種復(fù)雜困難場(chǎng)景實(shí)現(xiàn)全無(wú)人駕駛。
5、面向大模型智能化的個(gè)性化記憶機(jī)制
該發(fā)明技術(shù)創(chuàng)新性地提出了一套全面的記憶機(jī)制,涵蓋記憶加工、存儲(chǔ)、管理、觸發(fā)和利用五大模塊,賦予大模型個(gè)性化記憶能力。記憶加工借鑒人類海馬體機(jī)制,實(shí)現(xiàn)了對(duì)全場(chǎng)景用戶信息的深度理解和精準(zhǔn)加工;記憶管理支持用戶主動(dòng)與系統(tǒng)自動(dòng)的增刪改查,確保了記憶庫(kù)的實(shí)時(shí)更新與準(zhǔn)確;記憶觸發(fā)和利用,通過(guò)相關(guān)記憶的推測(cè)生成,輔助大模型產(chǎn)生更加擬人和個(gè)性化的回復(fù)。該發(fā)明技術(shù)已廣泛應(yīng)用于智能AI助手、數(shù)字人等場(chǎng)景。
6、基于大模型的超擬真數(shù)字人建模、驅(qū)動(dòng)與生成系統(tǒng)
該發(fā)明技術(shù)提出了一整套的超擬真數(shù)字人建模、驅(qū)動(dòng)和生成方案。針對(duì)真人數(shù)字人,研發(fā)了數(shù)據(jù)驅(qū)動(dòng)的人像建模、跨模態(tài)驅(qū)動(dòng)和人像視頻生成大模型,實(shí)現(xiàn)了自然、擬真的數(shù)字人內(nèi)容生產(chǎn),獨(dú)家支持大幅動(dòng)作&遮擋場(chǎng)景的直播人像克隆,并實(shí)現(xiàn)了首個(gè)全身智能驅(qū)動(dòng)直播間落地。針對(duì)超寫(xiě)實(shí)3D數(shù)字人,基于文心大模型研發(fā)了模態(tài)遷移和多智能體協(xié)作技術(shù),實(shí)現(xiàn)了分鐘級(jí)制作媲美影視大片、3A游戲的超寫(xiě)實(shí)數(shù)字人形象及運(yùn)營(yíng)內(nèi)容。本發(fā)明技術(shù)已廣泛地應(yīng)用于數(shù)字人直播、視頻生產(chǎn)、智能體等眾多真人和3D數(shù)字人的產(chǎn)品中。
7、基于大模型的生成式商業(yè)檢索系統(tǒng)
該發(fā)明技術(shù)變革了傳統(tǒng)的 “索引-召回-排序”流程,扁平化系統(tǒng)漏斗,減少信息損失,通過(guò)構(gòu)建索引學(xué)習(xí)任務(wù),將商業(yè)信息編碼進(jìn)模型參數(shù),實(shí)現(xiàn)“模型即索引”,利用大模型的理解和推理能力,實(shí)現(xiàn)“生成即檢索”,新范式顯著提升系統(tǒng)定向效率120%。該發(fā)明所涉及項(xiàng)目業(yè)界率先落地,實(shí)現(xiàn)大規(guī)模工業(yè)化應(yīng)用,生成式大模型結(jié)合商業(yè)搜索場(chǎng)景取得多項(xiàng)技術(shù)創(chuàng)新,創(chuàng)意豐富度提升37倍,創(chuàng)意質(zhì)量提升92%,獲得了顯著的業(yè)務(wù)收益和廣泛技術(shù)影響力。
8、大模型數(shù)據(jù)飛輪技術(shù)
該發(fā)明技術(shù)通過(guò)整合用戶反饋、執(zhí)行反饋和自監(jiān)督反饋等多來(lái)源和形式的信息,自動(dòng)識(shí)別模型缺陷并高效合成高質(zhì)量、多樣化的訓(xùn)練數(shù)據(jù)。同時(shí)結(jié)合多源反饋的強(qiáng)化學(xué)習(xí)方法,顯著提升了模型訓(xùn)練效果。該創(chuàng)新技術(shù)構(gòu)建了一個(gè)能夠持續(xù)自我改進(jìn)的數(shù)據(jù)飛輪,有效突破了大模型的數(shù)據(jù)瓶頸,降低了數(shù)據(jù)獲取成本,提高了大模型的適應(yīng)性和魯棒性,提升了模型在不同任務(wù)場(chǎng)景下的泛化能力,加速大模型持續(xù)進(jìn)化。
9、大模型高效推理技術(shù)
該發(fā)明技術(shù)提出的高效推理技術(shù),底層模型層基于飛槳框架,在推理架構(gòu)方向,結(jié)合主流的PrefixCaching、Lookahead、PagedAttention、PD分離等方向持續(xù)創(chuàng)新,并將各項(xiàng)技術(shù)高效結(jié)合,大幅提升模型吞吐和性能。在大模型壓縮方面,采用大模型無(wú)損量化技術(shù),通過(guò)激活自適應(yīng)分段平滑與權(quán)重聯(lián)動(dòng)重排等方法,在業(yè)內(nèi)率先實(shí)現(xiàn)了對(duì)百億千億級(jí)大模型的高效無(wú)損壓縮。該發(fā)明支持多種大模型壓縮和推理加速手段,目前已應(yīng)用于百度智能云千帆大模型平臺(tái)等核心業(yè)務(wù),減少模型推理的資源消耗,節(jié)省大模型部署成本超50%,提升模型性能,模型吞吐提升3-5倍。
10、用戶數(shù)據(jù)反饋驅(qū)動(dòng)的檢索生成系統(tǒng)
該發(fā)明技術(shù)提出的檢索生成系統(tǒng),能夠結(jié)合用戶行為反饋信號(hào),實(shí)現(xiàn)快速自我強(qiáng)化。通過(guò)滿意度建模和強(qiáng)化學(xué)習(xí)直接對(duì)齊用戶偏好,并利用用戶反饋觸發(fā)系統(tǒng)快速反思,解決了傳統(tǒng)數(shù)據(jù)應(yīng)用時(shí)專家反饋效率低和用戶偏好建模難的問(wèn)題?;谠摽蚣艿臋z索生成系統(tǒng)已覆蓋18%的搜索流量,廣泛應(yīng)用于文字、視頻、圖片等搜索場(chǎng)景。多元用戶反饋的規(guī)模大、可循環(huán)的特性,使系統(tǒng)能夠快速適應(yīng)數(shù)據(jù)、產(chǎn)品和環(huán)境的變化,幫助系統(tǒng)自動(dòng)化尋優(yōu),加速系統(tǒng)向理想狀態(tài)演進(jìn),具備極高的實(shí)用價(jià)值和市場(chǎng)競(jìng)爭(zhēng)力。
來(lái)源:環(huán)球網(wǎng)科技頻道