AI在企業(yè)落地的最佳路徑:AI三層架構(gòu)

?智能總結(jié)通用型大模型因缺乏專業(yè)領(lǐng)域深度,難以針對(duì)具體應(yīng)用場(chǎng)景提供專業(yè)化解決方案,導(dǎo)致AI應(yīng)用價(jià)值無(wú)法充分實(shí)現(xiàn)。為此,本文提出“AI三層架構(gòu)”原創(chuàng)思路,聚焦于通用型大模型與任務(wù)型智能體之間的中介機(jī)制——特定領(lǐng)域型AI小模型平臺(tái),以解決廣度與深度的平衡問(wèn)題。該平臺(tái)通過(guò)知識(shí)蒸餾和微調(diào)技術(shù),將通用模型轉(zhuǎn)化為輕量、高效的垂域模型,繼承泛化能力的同時(shí)增強(qiáng)專業(yè)精準(zhǔn)性。文章以DeepSeek和釘釘為例,探討了架構(gòu)創(chuàng)新的可行性,強(qiáng)調(diào)企業(yè)專有數(shù)據(jù)在微調(diào)中的核心作用,認(rèn)為中介機(jī)制是推動(dòng)AI技術(shù)與商業(yè)場(chǎng)景深度融合、實(shí)現(xiàn)可持續(xù)競(jìng)爭(zhēng)優(yōu)勢(shì)的關(guān)
關(guān)聯(lián)問(wèn)題: AI三層架構(gòu)如何平衡廣度與深度?特定領(lǐng)域型AI小模型如何構(gòu)建?AI如何與商業(yè)場(chǎng)景深度融合?

導(dǎo)語(yǔ)
通用型大模型因缺乏專業(yè)領(lǐng)域的深度,因此無(wú)法對(duì)具體應(yīng)用場(chǎng)景存在的問(wèn)題提供有針對(duì)性的專業(yè)解決方案,導(dǎo)致AI應(yīng)用價(jià)值難以真正實(shí)現(xiàn)。為此,本文提出實(shí)現(xiàn)AI應(yīng)用價(jià)值的原創(chuàng)思路,即“AI三層架構(gòu)”,尤其對(duì)于介于通用型AI大模型與具體任務(wù)型AI智能體之間、發(fā)揮中介機(jī)制核心作用的特定領(lǐng)域型AI小模型平臺(tái)而言,探索如何更有效地將AI技術(shù)與應(yīng)用場(chǎng)景密切結(jié)合具有理論和實(shí)踐雙重意義。
以O(shè)penAI開(kāi)發(fā)的ChatGPT為代表的大語(yǔ)言模型似乎存在一個(gè)普遍問(wèn)題,即過(guò)于依賴海量數(shù)據(jù)和強(qiáng)大算力來(lái)追求模型參數(shù)規(guī)模的不斷擴(kuò)大。相比之下,DeepSeek展示了AI領(lǐng)域從“資源堆積”向“架構(gòu)創(chuàng)新”轉(zhuǎn)變的可行性。然而,所有AI大模型都具有一個(gè)根本缺陷,即廣而不專,或?qū)挾簧睢S捎谒鼈兙鶠橥ㄓ眯湍P停狈I(yè)領(lǐng)域的深度,因此無(wú)法對(duì)具體應(yīng)用場(chǎng)景存在的問(wèn)題提供有針對(duì)性的專業(yè)解決方案,導(dǎo)致AI應(yīng)用價(jià)值難以真正實(shí)現(xiàn)。為此,本文提出實(shí)現(xiàn)AI應(yīng)用價(jià)值的原創(chuàng)思路,即“AI三層架構(gòu)”,對(duì)介于通用型 (general-purpose)AI大模型與具體任務(wù)型(Task-specific)AI智能體之間、發(fā)揮中介機(jī)制核心作用的特定領(lǐng)域型(Domain-specific)AI小模型平臺(tái)而言,探索如何更為有效地將AI技術(shù)與應(yīng)用場(chǎng)景密切結(jié)合具有理論和實(shí)踐雙重意義。
具體而言,本文旨在探討如何從DeepSeek的成功經(jīng)驗(yàn)中(例如,蒸餾技術(shù)與混合專家技術(shù))得到啟發(fā),并以其為參考構(gòu)建特定領(lǐng)域型AI小模型平臺(tái),作為通用型AI大模型與應(yīng)用任務(wù)型AI智能體之間的中介機(jī)制,同時(shí)探討該中介機(jī)制的必要性與可能性。
問(wèn)題背景:AI亟需與商業(yè)應(yīng)用場(chǎng)景密切結(jié)合
生成式AI的每一次迭代升級(jí)都引發(fā)對(duì)技術(shù)邊界的重新審視。從參數(shù)量級(jí)躍遷到價(jià)值創(chuàng)造路徑,ChatGPT系列產(chǎn)品的演進(jìn)始終牽動(dòng)著商業(yè)應(yīng)用的敏感神經(jīng)。大模型在擴(kuò)展參數(shù)時(shí)面臨高昂的邊際成本,而AI商業(yè)化落地卻始終未能找到穩(wěn)定的盈利模式。這種困境的產(chǎn)生大致來(lái)自兩個(gè)方面的原因。
第一,由于OpenAI等通用型大模型開(kāi)發(fā)成本奇高,并且大多采用封閉系統(tǒng)(Closed System)的發(fā)展模式,導(dǎo)致高額的使用成本,從而限制了AI商業(yè)應(yīng)用場(chǎng)景的開(kāi)發(fā)。然而,新興的DeepSeek所采用的創(chuàng)新方式極大地降低了開(kāi)發(fā)成本,使通用型AI大模型的使用成本大大降低,尤其是其開(kāi)源系統(tǒng)(Open System)模式進(jìn)一步降低了所有成本。在理論上,這使得任何企業(yè)的內(nèi)部職能部門(如產(chǎn)品研發(fā)、市場(chǎng)銷售等)都可以接入通用型AI大模型,但其進(jìn)展依然緩慢。換言之,DeepSeek所提供的潛在機(jī)會(huì)(即成本大大降低)尚未找到快速變現(xiàn)的市場(chǎng)突破口。這是AI商業(yè)化落地困境的第一個(gè)原因。
第二,AI商業(yè)化落地尚未找到突破口,除了落地成本高企的問(wèn)題外(這已被DeepSeek所大體解決),更重要的原因是AI技術(shù)缺乏與商業(yè)應(yīng)用場(chǎng)景的密切結(jié)合。換言之,AI商業(yè)化落地缺乏突破口的主要原因已從技術(shù)高成本轉(zhuǎn)向應(yīng)用低效應(yīng)。為此,我們迫切需要構(gòu)建通用型AI大模型與商業(yè)應(yīng)用場(chǎng)景之間的中介機(jī)制,將兩者緊密融合在一起。為此,DeepSeek的成功經(jīng)驗(yàn)與新型應(yīng)用場(chǎng)景創(chuàng)新模式(即技術(shù)—市場(chǎng)雙向同步式共同創(chuàng)新)可為我們提供有益啟發(fā)。
中介機(jī)制的必要性主流觀點(diǎn)認(rèn)為,利用AI解決實(shí)際問(wèn)題的路徑有二:一是利用軟件工程在現(xiàn)有通用型大模型基礎(chǔ)上開(kāi)發(fā)AI智能體,在通用型大模型無(wú)法做出有效自主決策的地方,通過(guò)代碼“寫死”的方式將人類的經(jīng)驗(yàn)、知識(shí)嵌入流程中,即將代碼中的一些參數(shù)、路徑等“硬編碼”到程序中,預(yù)先在部分環(huán)節(jié)為AI智能體定下一個(gè)或數(shù)個(gè)選擇,以減少自主性來(lái)?yè)Q取程序運(yùn)行的穩(wěn)定性。二是等待更強(qiáng)大的AI大模型發(fā)布,使企業(yè)能夠以更少的軟件工程開(kāi)發(fā)AI智能體。
針對(duì)以上兩種路徑,一種觀點(diǎn)認(rèn)為從“資源堆積”向“架構(gòu)創(chuàng)新”注定徒勞無(wú)功,因此認(rèn)定開(kāi)發(fā)AI智能體的第一個(gè)路徑?jīng)]有實(shí)踐意義。該觀點(diǎn)持有者從AI發(fā)展歷史中觀測(cè)到一種普遍現(xiàn)象,即精心設(shè)計(jì)的專家系統(tǒng)最終都被純靠算力支撐的通用型模型打敗。因此,他們認(rèn)為,在AI飛速發(fā)展的時(shí)代,等待更強(qiáng)大的下一代通用型大模型發(fā)布優(yōu)于利用軟件工程彌補(bǔ)現(xiàn)有通用型大模型的不足,其原因可歸結(jié)為兩點(diǎn):一是路徑一所做出的軟件只能帶來(lái)短期效率提升,無(wú)法形成持續(xù)競(jìng)爭(zhēng)優(yōu)勢(shì),下一代更強(qiáng)大的通用型大模型可能會(huì)解決當(dāng)前短板,使企業(yè)基于AI的軟件開(kāi)發(fā)投入成為沉沒(méi)成本;二是路徑一會(huì)使AI發(fā)展陷入“低水平均衡陷阱”,如果企業(yè)能夠以低成本解決現(xiàn)有通用型大模型能力不足的問(wèn)題,那么市場(chǎng)就不會(huì)有動(dòng)力去支持AI公司花費(fèi)大量資源提升通用型大模型。
本文不贊同這種觀點(diǎn)。首先,技術(shù)存在廣度與深度兩大維度,其中任何單一維度不足以構(gòu)成企業(yè)持續(xù)競(jìng)爭(zhēng)優(yōu)勢(shì)的來(lái)源。通用型AI大模型具有廣度優(yōu)勢(shì),但缺乏深度優(yōu)勢(shì),即缺乏專業(yè)的獨(dú)特性與精準(zhǔn)性;而具體任務(wù)型AI智能體具有深度優(yōu)勢(shì),但缺乏廣度優(yōu)勢(shì)。因此,通用型AI大模型與具體任務(wù)型AI智能體各有千秋,形成取長(zhǎng)補(bǔ)短的相互依賴關(guān)系。其次,通用型AI大模型與具體任務(wù)型AI智能體兩者之間除互補(bǔ)關(guān)系外,還有相互排斥、具有張力的另一面。這是因?yàn)橥ㄓ眯虯I大模型過(guò)于強(qiáng)調(diào)通用性廣度,而相對(duì)忽略專業(yè)性深度。與此相反,具體任務(wù)型AI智能體過(guò)于強(qiáng)調(diào)專業(yè)性深度,相對(duì)忽略通用性廣度。因而,二者的有機(jī)整合需要一個(gè)中介機(jī)制——既需要與通用型AI大模型有交集,又要與具體任務(wù)型AI智能體有交集。為此,筆者提出一個(gè)原創(chuàng)概念,扮演中介機(jī)制角色:特定領(lǐng)域型AI小模型平臺(tái)。
具體而言,通用型AI大模型本質(zhì)上是非場(chǎng)景化的“知識(shí)庫(kù)+計(jì)算引擎”,而具體任務(wù)型AI智能體則是面向特定場(chǎng)景任務(wù)的特有工具,兩者對(duì)中介機(jī)制的需求主要體現(xiàn)在以下幾個(gè)方面。首先,通用型AI大模型主要依賴數(shù)學(xué)模型和統(tǒng)計(jì)方法,利用大數(shù)據(jù)、大算力訓(xùn)練形成的權(quán)重和參數(shù)來(lái)認(rèn)知和預(yù)測(cè)整體趨勢(shì),缺乏針對(duì)獨(dú)特專業(yè)場(chǎng)景等更具彈性的認(rèn)知和預(yù)測(cè)能力,因而略去了不同應(yīng)用場(chǎng)景之間的差異,導(dǎo)致其難以精準(zhǔn)適配特定應(yīng)用環(huán)境。其次,大模型訓(xùn)練強(qiáng)調(diào)泛化能力,以適用于盡可能廣泛的統(tǒng)一性抽象情境,在預(yù)設(shè)損失函數(shù)允許的范圍內(nèi)將異常值處理為噪聲誤差,以減輕大模型的擬合問(wèn)題。但是,實(shí)踐中偶然性與多樣性常比必然性與統(tǒng)一性的應(yīng)用價(jià)值更高,尤其是在創(chuàng)新方面。許多關(guān)鍵決策往往取決于偶然性或多樣性情況,需要將異常值處理為一種必要的正常情境模式。再次,通用型AI大模型的訓(xùn)練數(shù)據(jù)主要來(lái)源于公開(kāi)知識(shí)庫(kù),缺乏垂直領(lǐng)域和具體企業(yè)內(nèi)部的專用知識(shí)庫(kù),因此缺乏專業(yè)知識(shí)。最后,通用型AI大模型因其計(jì)算成本高昂,且在面對(duì)具體任務(wù)時(shí)往往存在冗余參數(shù),因而面向特定場(chǎng)景的效率和效能雙低,無(wú)法高效響應(yīng)特定需求。
為此,我們提出AI系統(tǒng)三層架構(gòu)作為原創(chuàng)的全新理論框架,該系統(tǒng)包括通用型AI大模型、特定領(lǐng)域型AI小模型平臺(tái)和具體任務(wù)型AI智能體(見(jiàn)圖1、表1)。其中,特定領(lǐng)域型AI小模型面向具體領(lǐng)域(包括學(xué)科、行業(yè)、職能、企業(yè)等),并具有平臺(tái)屬性——該平臺(tái)能夠支撐、賦能在具體領(lǐng)域內(nèi)開(kāi)發(fā)眾多具體任務(wù)型AI智能體。換言之,具體任務(wù)型AI智能體所賴以為基礎(chǔ)的平臺(tái)不是通用型AI大模型,而是特定領(lǐng)域型AI小模型平臺(tái)。


我們認(rèn)為,即使在AI快速發(fā)展的時(shí)代,期盼下一代能夠解決所有問(wèn)題的通用型AI大模型到來(lái)依舊是一出“等待戈多”的荒誕戲,企業(yè)試圖基于現(xiàn)有通用型AI大模型開(kāi)發(fā)AI智能體無(wú)論是對(duì)自身持續(xù)競(jìng)爭(zhēng)優(yōu)勢(shì)的形成或是對(duì)通用型AI大模型的發(fā)展都具有特殊意義。但是,由于缺少一種能夠在通用型大模型與具體任務(wù)型AI智能體之間高效整合與調(diào)節(jié)的中介機(jī)制,使得通用型AI大模型的計(jì)算能力與推理能力難以精準(zhǔn)賦能具體任務(wù)型AI智能體,進(jìn)而影響了整體AI系統(tǒng)的應(yīng)用落地。因此,如何構(gòu)建一種高效的中介機(jī)制(即特定領(lǐng)域型AI小模型平臺(tái)),使通用型大模型的通用能力更好地與具體任務(wù)型AI智能體有機(jī)結(jié)合,是實(shí)現(xiàn)AI應(yīng)用價(jià)值的關(guān)鍵所在,尤其是針對(duì)具體獨(dú)特應(yīng)用場(chǎng)景的特定價(jià)值而言,更是如此。
中介機(jī)制的可能性:構(gòu)建特定領(lǐng)域型AI小模型平臺(tái)AI系統(tǒng)發(fā)展的三要素包括數(shù)據(jù)、算力、算法,三要素對(duì)AI系統(tǒng)三層架構(gòu)的要求與限制有所不同。本文總結(jié)AI系統(tǒng)三層架構(gòu)的發(fā)展模式如下。
第一,通用型AI大模型發(fā)展的最大限制是算力,其次是數(shù)據(jù)。通用型大模型的核心基礎(chǔ)是能夠處理大數(shù)據(jù)的算力。其預(yù)訓(xùn)練需要處理海量數(shù)據(jù),在此過(guò)程中需進(jìn)行復(fù)雜的數(shù)學(xué)運(yùn)算和參數(shù)更新,這就要求擁有高性能的硬件設(shè)備,如GPU、TPU、NPU和專門的分布式計(jì)算架構(gòu)。雖然數(shù)據(jù)的數(shù)量和質(zhì)量對(duì)模型的表現(xiàn)至關(guān)重要,但沒(méi)有足夠的算力支持,即便擁有再多數(shù)據(jù),也難以將其高效轉(zhuǎn)化為有價(jià)值的模型參數(shù)。此時(shí),對(duì)通用型大模型的關(guān)鍵要求是普適性和通用性。因此,開(kāi)發(fā)通用型AI大模型的關(guān)鍵要素是強(qiáng)大算力和大數(shù)據(jù)。我們將此稱為特定領(lǐng)域或垂域AI-IasS(AI Infrastructure as Service)。
第二,特定領(lǐng)域型AI小模型平臺(tái)發(fā)展的最大限制是特定領(lǐng)域的專業(yè)數(shù)據(jù),其次是算法。這是因?yàn)樘囟I(lǐng)域內(nèi)部數(shù)據(jù)難以從公共網(wǎng)絡(luò)上收集,而高質(zhì)量的特定領(lǐng)域?qū)S脭?shù)據(jù)對(duì)于發(fā)展可靠、高效的特定領(lǐng)域型AI小模型平臺(tái)必不可少。通用型AI大模型訓(xùn)練所使用的絕大部分?jǐn)?shù)據(jù)是從互聯(lián)網(wǎng)的公域收集的,AI開(kāi)發(fā)人員通常無(wú)法訪問(wèn)私域數(shù)據(jù),如企業(yè)內(nèi)部數(shù)據(jù),因此對(duì)特定的細(xì)分領(lǐng)域的數(shù)據(jù)收集嚴(yán)重不足。如果企業(yè)要將通用型AI大模型應(yīng)用于特定任務(wù)型AI智能體開(kāi)發(fā),通用型AI大模型就必須采用專業(yè)數(shù)據(jù)與專業(yè)化算法,全面轉(zhuǎn)型成為特定領(lǐng)域型AI小模型平臺(tái)。因此,支撐特定任務(wù)型AI智能體的特定領(lǐng)域型AI小模型平臺(tái)需具備兩大特征,即專業(yè)性和精準(zhǔn)性。開(kāi)發(fā)特定領(lǐng)域型AI小模型平臺(tái)的關(guān)鍵要素是垂域?qū)I(yè)數(shù)據(jù)與算法。我們可以將此稱為特定領(lǐng)域或垂域AI-PasS(AI Platform as Service)。
第三,對(duì)于具體任務(wù)型AI智能體而言,其發(fā)展的最大限制是算法,其次是數(shù)據(jù)。這是因?yàn)锳I智能體的核心是能夠快速準(zhǔn)確地響應(yīng)外部需求。AI智能體的開(kāi)發(fā)致力于在工作流中嵌入特定領(lǐng)域型AI小模型平臺(tái)的自主決策能力,使工作流無(wú)需預(yù)設(shè)全部邏輯,即能在部分環(huán)節(jié)根據(jù)實(shí)時(shí)信息和環(huán)境變化動(dòng)態(tài)調(diào)整行為,這要求模型算法有很好的泛化能力,不僅在訓(xùn)練數(shù)據(jù)集上表現(xiàn)良好,更要能夠適應(yīng)全新的樣本集,避免過(guò)擬合或欠擬合。雖然私有知識(shí)庫(kù)能夠?yàn)樾∧P吞峁┴S富的上下文和背景知識(shí),顯著提升其在特定領(lǐng)域中的表現(xiàn),但實(shí)際任務(wù)場(chǎng)景中往往還會(huì)對(duì)模型算法提出更多額外的要求,如可解釋性、透明度與響應(yīng)速度。實(shí)踐中,這些因素往往是用戶判斷智能體是否值得信任的首要考量,有針對(duì)性的改善能夠有效避免使用者的算法厭惡。改善方式有二:一是在小模型層面對(duì)AI進(jìn)行針對(duì)性調(diào)優(yōu),二是在智能體固定工作流層面增加指定的過(guò)濾器,濾除那些可能引起負(fù)面效果的模型輸出。最終,任務(wù)型AI智能體最重要的能力就是時(shí)效性與靈活性。
總之,通用型AI大模型不適合企業(yè)在其基礎(chǔ)上直接構(gòu)建具體任務(wù)型AI智能體,作為開(kāi)發(fā)具體任務(wù)型AI智能體的基礎(chǔ),構(gòu)建企業(yè)專屬的特定領(lǐng)域型AI小模型平臺(tái)是必要的。
構(gòu)建特定領(lǐng)域型AI小模型的具體路徑主要包括知識(shí)蒸餾與微調(diào)兩個(gè)步驟,其底層邏輯源于混合專家模式(Mixture of Experts),即采用處理特定領(lǐng)域任務(wù)的“專家分工式大腦”模式,而非處理所有任務(wù)的、通用型的“全能大腦”模式,其核心思想如同醫(yī)院的分診系統(tǒng):每個(gè)患者(輸入數(shù)據(jù))由最擅長(zhǎng)的科室(專家模塊)處理,再匯總診斷結(jié)果。具體而言,通用型大模型可以由多個(gè)獨(dú)立的小型神經(jīng)網(wǎng)絡(luò)組成,每個(gè)獨(dú)立的小型神經(jīng)網(wǎng)絡(luò)作為專家專注學(xué)習(xí)特定數(shù)據(jù)的特征。
具體而言,作為特定領(lǐng)域型AI小模型平臺(tái)的垂域AI-PasS具有兩個(gè)關(guān)鍵要素。首先,AI-PasS包含至少一個(gè)或一系列垂域AI小模型。通用型AI大模型是利用參數(shù)儲(chǔ)存從海量數(shù)據(jù)中進(jìn)行學(xué)習(xí)的預(yù)訓(xùn)練模型,具備強(qiáng)大的泛化能力,但計(jì)算和存儲(chǔ)需求較高,在實(shí)際應(yīng)用中并不總是高效的。蒸餾(Distillation,也稱知識(shí)蒸餾)技術(shù)可以有效壓縮大模型的參數(shù),生成計(jì)算需求更低的輕量小模型,在降低成本的同時(shí)保持較強(qiáng)的垂域任務(wù)性能。領(lǐng)域相關(guān)蒸餾是蒸餾技術(shù)的一種變體,能夠從通用型AI大模型中提取垂域知識(shí),從而得到在垂域繼承通用型AI大模型表現(xiàn)的特定領(lǐng)域型AI小模型平臺(tái)。值得注意的是,垂類AI小模型平臺(tái)本質(zhì)上是面向特定垂直領(lǐng)域的另類“大模型”,在某一領(lǐng)域內(nèi)具備“通用”能力,更有效應(yīng)用專有數(shù)據(jù)解決具體實(shí)踐問(wèn)題。
為此,構(gòu)建特定領(lǐng)域型AI小模型的第一個(gè)步驟是蒸餾。知識(shí)蒸餾是一種機(jī)器學(xué)習(xí)技術(shù),旨在將預(yù)先訓(xùn)練的大型“教師模型”的知識(shí)轉(zhuǎn)移到較小的“學(xué)生模型”,訓(xùn)練出一個(gè)更為簡(jiǎn)潔的模型,用來(lái)模擬高度復(fù)雜的大規(guī)模神經(jīng)網(wǎng)絡(luò)模型。如圖2所示,該過(guò)程包括三個(gè)環(huán)節(jié)。

環(huán)節(jié)1:訓(xùn)練教師模型(Teacher Model),運(yùn)用大算力、大數(shù)據(jù)訓(xùn)練出一個(gè)通用大模型(大型人工神經(jīng)網(wǎng)絡(luò))。
環(huán)節(jié)2:由教師模型獲得其輸出的最終類別預(yù)測(cè)(硬標(biāo)簽)和預(yù)測(cè)概率分布(軟標(biāo)簽),如分類任務(wù)是識(shí)別“貓”“狗”“兔”,模型輸出的硬標(biāo)簽為[貓,狗,兔]= [0,1,0],將圖片判定為狗,作為硬輸出判斷依據(jù)的軟輸出可能是[貓,狗,兔]= [0.2,0.7,0.1],即70%概率為狗,20%概率為貓,10%概率為兔。這種軟輸出蘊(yùn)含了豐富的“類間知識(shí)”,通過(guò)此軟標(biāo)簽,學(xué)生模型可以更好地理解“狗”與其他動(dòng)物的區(qū)別。同時(shí),通過(guò)溫度系數(shù)(Temperature)來(lái)平滑輸出概率(縮小類間差異),使子模型能夠充分學(xué)習(xí)到類型間的邊界。
環(huán)節(jié)3:訓(xùn)練學(xué)生模型,即使用包含訓(xùn)練數(shù)據(jù)及相應(yīng)的大模型硬輸出和軟標(biāo)簽的組合損失函數(shù)來(lái)訓(xùn)練學(xué)生模型。簡(jiǎn)單來(lái)說(shuō),傳統(tǒng)深度學(xué)習(xí)的目標(biāo)是訓(xùn)練人工神經(jīng)網(wǎng)絡(luò)(即大型通用模型),使其預(yù)測(cè)結(jié)果盡可能貼近訓(xùn)練數(shù)據(jù)中的真實(shí)標(biāo)簽;蒸餾的核心目標(biāo),則是通過(guò)訓(xùn)練一個(gè)較小的學(xué)生網(wǎng)絡(luò)(小模型),使其在預(yù)測(cè)上盡量逼近教師網(wǎng)絡(luò)的輸出,從而繼承教師模型的知識(shí)。除算力需求小外,小模型還具有更強(qiáng)的可解釋性,相比之下,在擁有數(shù)千億參數(shù)的超大規(guī)模模型中,難以明確解讀神經(jīng)網(wǎng)絡(luò)各組成部分的具體作用。通過(guò)將大型“黑匣子”模型中學(xué)到的知識(shí)遷移到結(jié)構(gòu)更簡(jiǎn)潔的模型,有助于揭示模型決策的內(nèi)在邏輯,進(jìn)而為相關(guān)領(lǐng)域帶來(lái)更具變革性的認(rèn)知與洞察。
其次,AI-PasS集成一系列必要工具,先從通用型AI大模型中蒸餾獲得垂域AI小模型的雛型,然后借助企業(yè)專業(yè)私有數(shù)據(jù)對(duì)垂域AI小模型雛型進(jìn)行垂域特定場(chǎng)景下的微調(diào)(Fine-tuning),以此建立垂域AI小模型。AI-PasS主要面向各類企業(yè),賦能企業(yè)開(kāi)發(fā)、部署和管理具體任務(wù)型AI智能體,無(wú)需構(gòu)建和維護(hù)底層AI-IaaS的通用型AI大模型。
為此,構(gòu)建特定領(lǐng)域型AI小模型的第二步驟是微調(diào)。微調(diào)是一種在更小、更專業(yè)的數(shù)據(jù)集上重新訓(xùn)練人工神經(jīng)網(wǎng)絡(luò)的方法,目的是向模型賦予特定領(lǐng)域的專業(yè)信息與知識(shí),以適應(yīng)特定任務(wù)。微調(diào)常常采用監(jiān)督學(xué)習(xí)(Supervised Learning)的方法,需要對(duì)數(shù)據(jù)進(jìn)行預(yù)先整理和標(biāo)注,給定配對(duì)的輸入和輸出數(shù)據(jù);與此相反,大模型通常使用的是無(wú)監(jiān)督學(xué)習(xí)(Unsupervised Learning),在無(wú)需標(biāo)注的海量數(shù)據(jù)中自主學(xué)習(xí)數(shù)據(jù)結(jié)構(gòu)與內(nèi)在規(guī)律。通過(guò)微調(diào),小模型不僅能繼承通用大模型的泛化能力,還能更高效地適應(yīng)特定場(chǎng)景,實(shí)現(xiàn)通用模型的專業(yè)化增強(qiáng)。
除了微調(diào),針對(duì)具體任務(wù)所需要的模型優(yōu)化方法還包括提示工程(Prompt Engineering)與檢索增強(qiáng)生成(Retrieval Augmented Generation,RAG)。這三種方法的具體對(duì)比見(jiàn)表2。

提示工程是一種優(yōu)化提示(Prompt)的方法,旨在引導(dǎo)模型生成更符合預(yù)期的答案。大模型是通用的,理論上可以執(zhí)行所有任務(wù)(但實(shí)際是只有一定程度的多種任務(wù)),但并非專門針對(duì)某個(gè)特定任務(wù)進(jìn)行優(yōu)化。不同的提示會(huì)導(dǎo)致不同的回答,甚至微小的變化都可能影響模型的響應(yīng)質(zhì)量。提示工程通過(guò)調(diào)整輸入格式、結(jié)構(gòu)、示例等來(lái)改善模型的輸出,無(wú)需修改模型本身的參數(shù)。
檢索增強(qiáng)生成是一種結(jié)合新的信息檢索(Retrieval)和生成式AI(Generation)的方法,旨在提升(Augmented)通用型大模型的準(zhǔn)確性和信息豐富度。它通過(guò)從外部知識(shí)庫(kù)檢索訓(xùn)練通用型大模型信息以外的新信息,而非僅依賴其舊有知識(shí),再將這些信息作為額外的上下文補(bǔ)充傳遞給通用型大模型,使該大模型能夠基于實(shí)時(shí)更新的真實(shí)數(shù)據(jù)生成更準(zhǔn)確的回答,從而有效降低AI幻覺(jué)(Hallucination),得到更精準(zhǔn)的回答。
總的來(lái)說(shuō),提示工程和RAG兩種方式并未調(diào)整預(yù)訓(xùn)練模型的參數(shù),后續(xù)可以直接通過(guò)大模型的信息更新獲得大模型的全部能力。與此不同,微調(diào)模式意在構(gòu)建特定領(lǐng)域型AI小模型平臺(tái),雖然其基礎(chǔ)來(lái)自通用型AI大模型,但卻具備后者所不具備的特定專業(yè)的深化能力。一般而言,AI的底層基礎(chǔ)設(shè)施依然由AI專業(yè)公司完成(即通用型大模型AI-IasS),但非AI企業(yè)可以通過(guò)蒸餾技術(shù)將通用型大模型AI-IasS轉(zhuǎn)化成為特定領(lǐng)域型AI小模型平臺(tái)(AI-PaaS),即將通用型AI大模型設(shè)為教師模型,而企業(yè)級(jí)特定領(lǐng)域型AI小模型設(shè)為子模型。
綜上所述,從通用型AI大模型到特定領(lǐng)域型AI小模型平臺(tái),主要解決AI模型在廣度與深度兩大維度之間的平衡問(wèn)題。大模型的能力來(lái)源于強(qiáng)大算力對(duì)海量數(shù)據(jù)中普遍規(guī)律的提煉與總結(jié)。數(shù)據(jù)質(zhì)量越高,數(shù)量越多,算力越強(qiáng),大模型對(duì)通用規(guī)律的學(xué)習(xí)就越充分,通用能力也隨之增強(qiáng)。在此基礎(chǔ)上,通過(guò)結(jié)合私有數(shù)據(jù)庫(kù)進(jìn)行調(diào)優(yōu),可以進(jìn)一步強(qiáng)化AI模型在特定領(lǐng)域內(nèi)的表現(xiàn),就像是將一個(gè)“全科均衡發(fā)展的學(xué)生”培養(yǎng)成某一領(lǐng)域的“單科特長(zhǎng)生”,從而更好地適應(yīng)實(shí)際業(yè)務(wù)需求。在此類垂域AI小模型平臺(tái)基礎(chǔ)之上,可以更為有效地構(gòu)建具體任務(wù)型AI智能體,核心在于實(shí)現(xiàn)問(wèn)題分析與問(wèn)題解決二者的平衡。雖然這二者的發(fā)展都強(qiáng)調(diào)數(shù)據(jù)和算法的支撐,但側(cè)重點(diǎn)不同:AI小模型平臺(tái)更偏向于數(shù)據(jù)驅(qū)動(dòng),通過(guò)高質(zhì)量數(shù)據(jù)挖掘穩(wěn)定的規(guī)律,訓(xùn)練出具備泛化能力的模型參數(shù),實(shí)現(xiàn)決策自動(dòng)化;AI智能體則更側(cè)重于算法驅(qū)動(dòng),強(qiáng)調(diào)在動(dòng)態(tài)環(huán)境中根據(jù)用戶輸入和場(chǎng)景變化做出實(shí)時(shí)反饋,不僅要“會(huì)思考”,更要“會(huì)行動(dòng)”。
AI三層架構(gòu)的應(yīng)用實(shí)例:釘釘?shù)膬?yōu)勢(shì)與劣勢(shì)面向生產(chǎn)環(huán)境的特定領(lǐng)域AI小模型,不僅要參數(shù)更小、結(jié)構(gòu)更精,以便快速部署到云端與邊緣設(shè)備,更要在精準(zhǔn)性和響應(yīng)時(shí)效上達(dá)到工業(yè)級(jí)標(biāo)準(zhǔn)。因?yàn)樵趶?fù)雜的業(yè)務(wù)流程中,即便 1%的精度差異,也可能被后續(xù)環(huán)節(jié)放大數(shù)倍,導(dǎo)致巨額成本損失,甚至抵消AI所帶來(lái)的效率紅利。AI三層架構(gòu)的應(yīng)用核心在于,為特定業(yè)務(wù)場(chǎng)景構(gòu)建高效、輕量的小模型。為此,我們以釘釘為例進(jìn)一步說(shuō)明。釘釘作為阿里巴巴的企業(yè)級(jí)服務(wù)平臺(tái),憑借“煉丹爐”訓(xùn)練平臺(tái),為企業(yè)提供有效的蒸餾能力,但在后續(xù)的微調(diào)環(huán)節(jié)則只能充當(dāng)輔助角色。
構(gòu)建特定領(lǐng)域型AI小模型平臺(tái)的第一個(gè)步驟是從大模型中蒸餾出小模型。大模型和小模型的直觀差異在于參數(shù)量的大小,參數(shù)量直接決定了模型的部署成本。但參數(shù)量與“智能程度”并非嚴(yán)格正相關(guān),例如R1-Qwen32B蒸餾版模型只有320億參數(shù),卻能媲美原版的6710億參數(shù)模型。從Mixture-of-Experts(MoE)的角度看,通用型對(duì)應(yīng)“大模型”,擁有海量專家子網(wǎng)絡(luò);特定領(lǐng)域型對(duì)應(yīng)“小模型”,只保留在該領(lǐng)域被激活的專家。此直接剪枝雖能“瘦身”大模型(去除未激活的專家),但所得小模型在領(lǐng)域適配方面仍受限。理想方案是基于領(lǐng)域特性重新設(shè)計(jì)知識(shí)架構(gòu),蒸餾形成一個(gè)參數(shù)更小、結(jié)構(gòu)更精簡(jiǎn)、對(duì)接特定任務(wù)的小模型,即向“特定領(lǐng)域”知識(shí)結(jié)構(gòu)方向變“小”。此過(guò)程中,釘釘憑借其技術(shù)優(yōu)勢(shì),設(shè)計(jì)出更貼合特定領(lǐng)域需求的系統(tǒng)架構(gòu)、知識(shí)結(jié)構(gòu)和學(xué)習(xí)過(guò)程,在其“煉丹爐”模型訓(xùn)練平臺(tái)提供更多針對(duì)性的緊湊小模型。此外,小模型利于本地部署,可以提升私密性與便捷性。
構(gòu)建特定領(lǐng)域型AI小模型平臺(tái)的第二個(gè)步驟是在區(qū)間數(shù)據(jù)上對(duì)小模型進(jìn)行微調(diào)。大模型訓(xùn)練通常使用全量數(shù)據(jù),覆蓋整個(gè)樣本空間;特定任務(wù)的二次訓(xùn)練則多聚焦于私有/細(xì)分子集的數(shù)據(jù)。從概率分布看,全量數(shù)據(jù)比如骰子1~6中擲出3的概率是1/6;如果限定為“奇數(shù)”子集(1、3、5),則擲出3的概率變?yōu)?/3,即全量數(shù)據(jù)的概率分布和區(qū)間數(shù)據(jù)的概率分布不一定是一致的。這種數(shù)據(jù)結(jié)構(gòu)差異會(huì)導(dǎo)致預(yù)訓(xùn)練模型參數(shù)取值不同,進(jìn)而在相同問(wèn)題上給出不同回復(fù)。從用戶的尺度來(lái)看,其需要的知識(shí)更多的是挖掘自有數(shù)據(jù)展現(xiàn)出來(lái)的規(guī)律和模式,并利用相應(yīng)參數(shù)來(lái)做預(yù)測(cè),因此需要對(duì)模型做出進(jìn)一步的微調(diào)。在此過(guò)程中,高質(zhì)量數(shù)據(jù)的準(zhǔn)備是實(shí)現(xiàn)微調(diào)效果的重要因素,由于業(yè)務(wù)邏輯往往復(fù)雜且專業(yè),數(shù)據(jù)的收集、清洗、標(biāo)注與校驗(yàn)需要跨部門協(xié)作,以確保場(chǎng)景完整、不遺漏關(guān)鍵細(xì)節(jié),避免形成適用模型但不適用業(yè)務(wù)的模版數(shù)據(jù)集。釘釘可在這些方面提供輔助性幫助,但企業(yè)級(jí)AI小模型仍需企業(yè)采用自身專有數(shù)據(jù)進(jìn)行微調(diào),以此構(gòu)建特定領(lǐng)域型小模型。為此,我們特別強(qiáng)調(diào)專有企業(yè)數(shù)據(jù)的獨(dú)特重要性。
通過(guò)微調(diào)實(shí)現(xiàn)通用型AI大模型與企業(yè)特定數(shù)據(jù)的結(jié)合,是企業(yè)利用AI創(chuàng)造不可替代的獨(dú)特價(jià)值的關(guān)鍵所在(例如,利用獨(dú)特客戶數(shù)據(jù)是企業(yè)構(gòu)建競(jìng)爭(zhēng)壁壘的核心方式)。雖然基礎(chǔ)數(shù)據(jù)對(duì)構(gòu)建通用型AI大模型很關(guān)鍵,但更為重要的是各行業(yè)、企業(yè)和客戶的特有數(shù)據(jù)(例如,制藥公司的實(shí)驗(yàn)數(shù)據(jù)、金融機(jī)構(gòu)的交易數(shù)據(jù)、科技公司的用戶行為數(shù)據(jù)等)。這些專業(yè)數(shù)據(jù)包含獨(dú)一無(wú)二的信息和知識(shí),通用型AI大模型無(wú)法憑空獲取,因此需要微調(diào),將信息及對(duì)應(yīng)的知識(shí)內(nèi)化到小模型參數(shù)中。就是說(shuō),長(zhǎng)期積累的專有數(shù)據(jù)才是企業(yè)競(jìng)爭(zhēng)優(yōu)勢(shì)的核心來(lái)源,即企業(yè)的護(hù)城河。因此,特定領(lǐng)域型AI小模型才是AI應(yīng)用最有潛力的技術(shù)路線。在微調(diào)方面,釘釘最多只能提供輔助性服務(wù),而其核心工作還需企業(yè)自己完成。
關(guān)于作者 | 李平:東北財(cái)經(jīng)大學(xué)工商管理學(xué)院、廈門大學(xué)特聘講座教授;
熊天鋒:東北財(cái)經(jīng)大學(xué)工商管理學(xué)院博士研究生。
(本文轉(zhuǎn)載自清華經(jīng)管在職碩士 ,如有侵權(quán)請(qǐng)電話聯(lián)系13810995524)
* 文章為作者獨(dú)立觀點(diǎn),不代表MBAChina立場(chǎng)。采編部郵箱:news@mbachina.com,歡迎交流與合作。
備考交流
- 【MBAChina 官方社群矩陣】
- 涵蓋 199管理類聯(lián)考備考 · 復(fù)試調(diào)劑 · 博士申請(qǐng) · 中外合辦學(xué) 四大板塊。
- ??2027 MBA/MPA/MEM/MPAcc /EMBA聯(lián)考備考群
- ??2026 管理類聯(lián)考復(fù)試調(diào)劑群
- ??博士項(xiàng)目交流群
- ??中外合作辦學(xué)項(xiàng)目群
- ?? 添加微信:MBAChina001
- 備注【報(bào)考項(xiàng)目】,邀請(qǐng)您加入專屬交流群

掃碼關(guān)注我們
- 獲取報(bào)考資訊
- 了解院?;顒?dòng)
- 學(xué)習(xí)備考干貨
- 研究上岸攻略
最新動(dòng)態(tài)
活動(dòng)日歷
- 01月
- 02月
- 03月
- 04月
- 05月
- 06月
- 07月
- 08月
- 09月
- 10月
- 11月
- 12月
- 06/01 6月1日直播預(yù)告:香港理工大學(xué)SPEED學(xué)院_全新碩士課程專場(chǎng)!26fall入學(xué)!
- 06/03 6月3日活動(dòng)報(bào)名 | 北大光華-凱洛格國(guó)際EMBA項(xiàng)目Coffee Chat@上海
- 06/03 【活動(dòng)報(bào)名】中國(guó)科學(xué)技術(shù)大學(xué)科技商學(xué)院專題講座重磅開(kāi)啟!
- 06/04 6月4日 席位鎖定中 | 香港中文大學(xué)(深圳)MBM2027級(jí)招生說(shuō)明會(huì)
- 06/06 長(zhǎng)春理工大學(xué)2027級(jí)工商管理碩士(MBA)考生見(jiàn)面會(huì)
- 06/06 重磅!上財(cái)?shù)嗡呓?027級(jí)全日制金融碩士“新興金融探索日”活動(dòng)通知
- 06/06 深圳場(chǎng) | 清華-康奈爾雙學(xué)位金融MBA公開(kāi)課暨2027級(jí)招生說(shuō)明會(huì)報(bào)名中!
- 06/06 上海 | 紫荊課堂暨2027級(jí)清華MBA招生咨詢會(huì)報(bào)名開(kāi)啟!
- 06/06 浪潮已至|南科大科創(chuàng)MBA 2027級(jí)招生啟動(dòng)大會(huì)來(lái)了
- 06/06 活動(dòng)報(bào)名 | “迅策科技”校友企業(yè)參訪暨清華五道口金融EMBA深圳招生說(shuō)明會(huì)
熱門資訊
MBA院校號(hào)
掃碼關(guān)注 MBAChina
掃碼關(guān)注
EMBA







