首 頁(yè) 頭條 聚焦 數(shù)據(jù)新聞 資訊 數(shù)字政協(xié) 數(shù)字經(jīng)濟(jì) 數(shù)字新基建 榜單排行

首頁(yè)>數(shù)據(jù)>資訊

并非越大越好,模型選擇要結(jié)合需求

2024年09月03日 13:59  |  作者:都芃  |  來(lái)源:科技日?qǐng)?bào) 分享到: 

4823031_lix_1724988132826_b

【AI世界】

8月底,微軟和英偉達(dá)相繼發(fā)布小型語(yǔ)言模型,引發(fā)業(yè)界熱議。兩家公司均稱(chēng),新發(fā)布的小模型能在算力資源消耗和功能表現(xiàn)之間取得平衡,甚至可以在某些方面媲美大模型。不僅如此,蘋(píng)果、美國(guó)開(kāi)放人工智能研究中心(OpenAI)等也發(fā)布了參數(shù)規(guī)模更小、性能更強(qiáng)的小型語(yǔ)言模型。

小模型通常指參數(shù)少、占用算力資源少、反應(yīng)速度快、可以本地化運(yùn)行的小型語(yǔ)言模型。在大模型競(jìng)爭(zhēng)日趨激烈的今天,多家人工智能企業(yè)及研發(fā)機(jī)構(gòu)為何另辟蹊徑,加碼小模型賽道?

大模型訓(xùn)練成本高

大模型賽道太“卷”了——這是部分業(yè)界人士對(duì)當(dāng)下大模型產(chǎn)業(yè)發(fā)展的評(píng)價(jià)。隨著各家人工智能廠(chǎng)商在大模型領(lǐng)域不斷加大投入,如今百億級(jí)甚至千億級(jí)參數(shù)的大模型已不再稀缺,大模型產(chǎn)品同質(zhì)化趨勢(shì)也愈發(fā)明顯。

但模型真的越大越好嗎?模型越大,意味著消耗的資源越多,成本越高。今年4月,OpenAI首席執(zhí)行官薩姆·奧爾特曼在麻省理工學(xué)院演講時(shí)提到,“我認(rèn)為我們正處于巨型模型時(shí)代的結(jié)尾”。在他看來(lái),未來(lái)人工智能新的進(jìn)步并非來(lái)自于越來(lái)越大的模型。

且不論運(yùn)行所需費(fèi)用,僅在訓(xùn)練階段,大模型就要花費(fèi)巨額成本。OpenAI前研究副總裁、人工智能初創(chuàng)公司Anthropic首席執(zhí)行官達(dá)里奧·阿莫迪曾提到,目前像GPT-4o這樣的模型訓(xùn)練成本約為1億美元,而當(dāng)下正在開(kāi)發(fā)的人工智能大模型訓(xùn)練成本則可能高達(dá)10億美元。他預(yù)計(jì),未來(lái)3年內(nèi),人工智能大模型的訓(xùn)練成本將上升至100億美元甚至1000億美元。

對(duì)于國(guó)內(nèi)大模型產(chǎn)品而言,成本同樣居高不下。百川智能創(chuàng)始人兼首席執(zhí)行官王小川曾提到,大模型每1億參數(shù)對(duì)應(yīng)訓(xùn)練成本在1.5萬(wàn)到3萬(wàn)元人民幣之間。一個(gè)千億級(jí)參數(shù)的大模型,單次訓(xùn)練成本在3000萬(wàn)至5000萬(wàn)元人民幣之間。

高端算力短缺等因素也是困擾國(guó)內(nèi)大模型發(fā)展的難題。2023年,科大訊飛與華為聯(lián)合發(fā)布首個(gè)全國(guó)產(chǎn)算力平臺(tái)“飛星一號(hào)”,以此為基礎(chǔ)訓(xùn)練出的訊飛星火大模型已實(shí)現(xiàn)自主可控。但整體來(lái)看,相比國(guó)際先進(jìn)水平,國(guó)內(nèi)大模型產(chǎn)品仍有較大提升空間。

此外,在應(yīng)用端,端側(cè)部署是目前人工智能大模型發(fā)展的熱門(mén)方向,但由于所需算力資源過(guò)于龐大,大模型幾乎無(wú)法在手機(jī)、人形機(jī)器人等小型終端上本地部署,限制了大模型的應(yīng)用場(chǎng)景。例如,在目前發(fā)布且有實(shí)際演示的模型中,10億參數(shù)量模型尚可在手機(jī)上運(yùn)行,一旦模型參數(shù)級(jí)別躍升至百億級(jí),在手機(jī)端運(yùn)行就變得非常吃力,幾乎無(wú)法正常使用。在許多場(chǎng)景下,模型規(guī)模越大并不一定能給用戶(hù)帶來(lái)更好的使用體驗(yàn),這也給小模型留下了更多發(fā)展空間。

小模型有多重優(yōu)勢(shì)

大多數(shù)小模型參數(shù)量在幾百萬(wàn)至數(shù)千萬(wàn),結(jié)構(gòu)也更簡(jiǎn)單。參數(shù)量縮小帶來(lái)的明顯改變是對(duì)功耗以及算力需求的降低。

目前主流旗艦手機(jī)的芯片算力可以達(dá)到40—50TOPS(1TOPS代表處理器每秒鐘可進(jìn)行1萬(wàn)億次操作)。若再疊加專(zhuān)門(mén)開(kāi)發(fā)的功耗控制策略,許多智能手機(jī)都能輕松“駕馭”小模型。

模型雖小,但在部分專(zhuān)門(mén)領(lǐng)域,其功能表現(xiàn)并不輸大模型。例如OpenAI推出的輕量化模型GPT-4o mini在常見(jiàn)的多輪對(duì)話(huà)等功能上,與GPT-4o表現(xiàn)不相上下。

針對(duì)當(dāng)下大模型存在的“幻覺(jué)”問(wèn)題,即機(jī)器可能輸出“無(wú)中生有”的內(nèi)容,小模型通過(guò)專(zhuān)注于學(xué)習(xí)某個(gè)細(xì)分領(lǐng)域的精華數(shù)據(jù),可降低不相關(guān)、意外或不一致的輸出風(fēng)險(xiǎn),顯著降低“幻覺(jué)”現(xiàn)象出現(xiàn)概率。

此外,相比部署在云上的大模型,小模型具有個(gè)性化程度高、響應(yīng)速度快等特點(diǎn),這使其更貼近用戶(hù)端需求。同時(shí),小模型的本地化部署也能更大程度保障用戶(hù)的數(shù)據(jù)控制權(quán)和隱私權(quán)。

大小模型協(xié)同發(fā)展

當(dāng)然,對(duì)于實(shí)現(xiàn)通用人工智能這一終極目標(biāo)而言,小模型遠(yuǎn)遠(yuǎn)不夠。小模型在當(dāng)下的快速發(fā)展,更多是企業(yè)出自平衡成本與用戶(hù)需求后的理性選擇。

科大訊飛副總裁、研究院院長(zhǎng)劉聰認(rèn)為,不能泛泛談大模型與小模型孰優(yōu)孰劣,必須結(jié)合具體使用場(chǎng)景來(lái)評(píng)估。他舉例說(shuō),如果只是讓人工智能寫(xiě)一個(gè)具體行業(yè)的文案,或是只對(duì)具體行業(yè)的文字進(jìn)行翻譯、潤(rùn)色等處理,一個(gè)中小規(guī)模的模型就完全夠用。但如果是在開(kāi)放信息環(huán)境中,對(duì)不特定的內(nèi)容進(jìn)行提取、識(shí)別、分析等操作,大模型的表現(xiàn)毫無(wú)疑問(wèn)將更好。

在劉聰看來(lái),大、小模型相結(jié)合或?qū)⒊蔀槲磥?lái)人工智能發(fā)展的重要方向,確定某一任務(wù)是使用大模型還是小模型更好,取決于其泛化性和效率要求?!皻w根結(jié)底要圍繞具體需求展開(kāi),這兩者不是非此即彼的關(guān)系?!彼f(shuō)。

具體在研發(fā)層面,大、小模型之間的關(guān)系更多是協(xié)作而非競(jìng)爭(zhēng)。當(dāng)下,許多科技巨頭的做法是先訓(xùn)練出通用能力足夠強(qiáng)的大模型,再借助大模型對(duì)數(shù)據(jù)進(jìn)行初步篩選處理。站在大模型“肩膀”上的小模型,可以用質(zhì)量更高、數(shù)量更少的數(shù)據(jù)完成訓(xùn)練,以更低成本實(shí)現(xiàn)不輸大模型的效果?!按竽P偷哪繕?biāo)是找到性能的天花板。以此為基礎(chǔ)再優(yōu)化小模型,和從零起步做一個(gè)小模型相比,效果完全不同?!眲⒙斦f(shuō)。(記者 都芃)

編輯:廖昕朔