蛋播视频一区,无码鲁丝一区二区,精品久久五月天,国产老熟女,五月草草在线观看,中文日韩欧美,情色一区二区三区,欧美日韩亚洲激情在线,亚洲制服在线香蕉

<strike id="82kym"></strike>

<abbr id="82kym"></abbr>

<strike id="82kym"></strike>

AI在企業(yè)落地的最佳路徑：AI三層架構(gòu)

清華大學(xué)經(jīng)濟(jì)管理學(xué)院

2026-02-09 14:53 瀏覽量: 2289

?智能總結(jié)

通用型大模型因缺乏專業(yè)領(lǐng)域深度，難以針對(duì)具體應(yīng)用場(chǎng)景提供專業(yè)化解決方案，導(dǎo)致AI應(yīng)用價(jià)值無(wú)法充分實(shí)現(xiàn)。為此，本文提出“AI三層架構(gòu)”原創(chuàng)思路，聚焦于通用型大模型與任務(wù)型智能體之間的中介機(jī)制——特定領(lǐng)域型AI小模型平臺(tái)，以解決廣度與深度的平衡問(wèn)題。該平臺(tái)通過(guò)知識(shí)蒸餾和微調(diào)技術(shù)，將通用模型轉(zhuǎn)化為輕量、高效的垂域模型，繼承泛化能力的同時(shí)增強(qiáng)專業(yè)精準(zhǔn)性。文章以DeepSeek和釘釘為例，探討了架構(gòu)創(chuàng)新的可行性，強(qiáng)調(diào)企業(yè)專有數(shù)據(jù)在微調(diào)中的核心作用，認(rèn)為中介機(jī)制是推動(dòng)AI技術(shù)與商業(yè)場(chǎng)景深度融合、實(shí)現(xiàn)可持續(xù)競(jìng)爭(zhēng)優(yōu)勢(shì)的關(guān)

關(guān)聯(lián)問(wèn)題： AI三層架構(gòu)如何平衡廣度與深度？特定領(lǐng)域型AI小模型如何構(gòu)建？AI如何與商業(yè)場(chǎng)景深度融合？

導(dǎo)語(yǔ)

通用型大模型因缺乏專業(yè)領(lǐng)域的深度，因此無(wú)法對(duì)具體應(yīng)用場(chǎng)景存在的問(wèn)題提供有針對(duì)性的專業(yè)解決方案，導(dǎo)致AI應(yīng)用價(jià)值難以真正實(shí)現(xiàn)。為此，本文提出實(shí)現(xiàn)AI應(yīng)用價(jià)值的原創(chuàng)思路，即“AI三層架構(gòu)”，尤其對(duì)于介于通用型AI大模型與具體任務(wù)型AI智能體之間、發(fā)揮中介機(jī)制核心作用的特定領(lǐng)域型AI小模型平臺(tái)而言，探索如何更有效地將AI技術(shù)與應(yīng)用場(chǎng)景密切結(jié)合具有理論和實(shí)踐雙重意義。

以O(shè)penAI開(kāi)發(fā)的ChatGPT為代表的大語(yǔ)言模型似乎存在一個(gè)普遍問(wèn)題，即過(guò)于依賴海量數(shù)據(jù)和強(qiáng)大算力來(lái)追求模型參數(shù)規(guī)模的不斷擴(kuò)大。相比之下，DeepSeek展示了AI領(lǐng)域從“資源堆積”向“架構(gòu)創(chuàng)新”轉(zhuǎn)變的可行性。然而，所有AI大模型都具有一個(gè)根本缺陷，即廣而不專，或?qū)挾簧睢Ｓ捎谒鼈兙鶠橥ㄓ眯湍Ｐ停狈I(yè)領(lǐng)域的深度，因此無(wú)法對(duì)具體應(yīng)用場(chǎng)景存在的問(wèn)題提供有針對(duì)性的專業(yè)解決方案，導(dǎo)致AI應(yīng)用價(jià)值難以真正實(shí)現(xiàn)。為此，本文提出實(shí)現(xiàn)AI應(yīng)用價(jià)值的原創(chuàng)思路，即“AI三層架構(gòu)”，對(duì)介于通用型（general-purpose）AI大模型與具體任務(wù)型（Task-specific）AI智能體之間、發(fā)揮中介機(jī)制核心作用的特定領(lǐng)域型（Domain-specific）AI小模型平臺(tái)而言，探索如何更為有效地將AI技術(shù)與應(yīng)用場(chǎng)景密切結(jié)合具有理論和實(shí)踐雙重意義。

具體而言，本文旨在探討如何從DeepSeek的成功經(jīng)驗(yàn)中（例如，蒸餾技術(shù)與混合專家技術(shù)）得到啟發(fā)，并以其為參考構(gòu)建特定領(lǐng)域型AI小模型平臺(tái)，作為通用型AI大模型與應(yīng)用任務(wù)型AI智能體之間的中介機(jī)制，同時(shí)探討該中介機(jī)制的必要性與可能性。

問(wèn)題背景：AI亟需與商業(yè)應(yīng)用場(chǎng)景密切結(jié)合

生成式AI的每一次迭代升級(jí)都引發(fā)對(duì)技術(shù)邊界的重新審視。從參數(shù)量級(jí)躍遷到價(jià)值創(chuàng)造路徑，ChatGPT系列產(chǎn)品的演進(jìn)始終牽動(dòng)著商業(yè)應(yīng)用的敏感神經(jīng)。大模型在擴(kuò)展參數(shù)時(shí)面臨高昂的邊際成本，而AI商業(yè)化落地卻始終未能找到穩(wěn)定的盈利模式。這種困境的產(chǎn)生大致來(lái)自兩個(gè)方面的原因。

第一，由于OpenAI等通用型大模型開(kāi)發(fā)成本奇高，并且大多采用封閉系統(tǒng)（Closed System）的發(fā)展模式，導(dǎo)致高額的使用成本，從而限制了AI商業(yè)應(yīng)用場(chǎng)景的開(kāi)發(fā)。然而，新興的DeepSeek所采用的創(chuàng)新方式極大地降低了開(kāi)發(fā)成本，使通用型AI大模型的使用成本大大降低，尤其是其開(kāi)源系統(tǒng)（Open System）模式進(jìn)一步降低了所有成本。在理論上，這使得任何企業(yè)的內(nèi)部職能部門（如產(chǎn)品研發(fā)、市場(chǎng)銷售等）都可以接入通用型AI大模型，但其進(jìn)展依然緩慢。換言之，DeepSeek所提供的潛在機(jī)會(huì)（即成本大大降低）尚未找到快速變現(xiàn)的市場(chǎng)突破口。這是AI商業(yè)化落地困境的第一個(gè)原因。

第二，AI商業(yè)化落地尚未找到突破口，除了落地成本高企的問(wèn)題外（這已被DeepSeek所大體解決），更重要的原因是AI技術(shù)缺乏與商業(yè)應(yīng)用場(chǎng)景的密切結(jié)合。換言之，AI商業(yè)化落地缺乏突破口的主要原因已從技術(shù)高成本轉(zhuǎn)向應(yīng)用低效應(yīng)。為此，我們迫切需要構(gòu)建通用型AI大模型與商業(yè)應(yīng)用場(chǎng)景之間的中介機(jī)制，將兩者緊密融合在一起。為此，DeepSeek的成功經(jīng)驗(yàn)與新型應(yīng)用場(chǎng)景創(chuàng)新模式（即技術(shù)—市場(chǎng)雙向同步式共同創(chuàng)新）可為我們提供有益啟發(fā)。

中介機(jī)制的必要性

主流觀點(diǎn)認(rèn)為，利用AI解決實(shí)際問(wèn)題的路徑有二：一是利用軟件工程在現(xiàn)有通用型大模型基礎(chǔ)上開(kāi)發(fā)AI智能體，在通用型大模型無(wú)法做出有效自主決策的地方，通過(guò)代碼“寫死”的方式將人類的經(jīng)驗(yàn)、知識(shí)嵌入流程中，即將代碼中的一些參數(shù)、路徑等“硬編碼”到程序中，預(yù)先在部分環(huán)節(jié)為AI智能體定下一個(gè)或數(shù)個(gè)選擇，以減少自主性來(lái)?yè)Q取程序運(yùn)行的穩(wěn)定性。二是等待更強(qiáng)大的AI大模型發(fā)布，使企業(yè)能夠以更少的軟件工程開(kāi)發(fā)AI智能體。

針對(duì)以上兩種路徑，一種觀點(diǎn)認(rèn)為從“資源堆積”向“架構(gòu)創(chuàng)新”注定徒勞無(wú)功，因此認(rèn)定開(kāi)發(fā)AI智能體的第一個(gè)路徑?jīng)]有實(shí)踐意義。該觀點(diǎn)持有者從AI發(fā)展歷史中觀測(cè)到一種普遍現(xiàn)象，即精心設(shè)計(jì)的專家系統(tǒng)最終都被純靠算力支撐的通用型模型打敗。因此，他們認(rèn)為，在AI飛速發(fā)展的時(shí)代，等待更強(qiáng)大的下一代通用型大模型發(fā)布優(yōu)于利用軟件工程彌補(bǔ)現(xiàn)有通用型大模型的不足，其原因可歸結(jié)為兩點(diǎn)：一是路徑一所做出的軟件只能帶來(lái)短期效率提升，無(wú)法形成持續(xù)競(jìng)爭(zhēng)優(yōu)勢(shì)，下一代更強(qiáng)大的通用型大模型可能會(huì)解決當(dāng)前短板，使企業(yè)基于AI的軟件開(kāi)發(fā)投入成為沉沒(méi)成本；二是路徑一會(huì)使AI發(fā)展陷入“低水平均衡陷阱”，如果企業(yè)能夠以低成本解決現(xiàn)有通用型大模型能力不足的問(wèn)題，那么市場(chǎng)就不會(huì)有動(dòng)力去支持AI公司花費(fèi)大量資源提升通用型大模型。

本文不贊同這種觀點(diǎn)。首先，技術(shù)存在廣度與深度兩大維度，其中任何單一維度不足以構(gòu)成企業(yè)持續(xù)競(jìng)爭(zhēng)優(yōu)勢(shì)的來(lái)源。通用型AI大模型具有廣度優(yōu)勢(shì)，但缺乏深度優(yōu)勢(shì)，即缺乏專業(yè)的獨(dú)特性與精準(zhǔn)性；而具體任務(wù)型AI智能體具有深度優(yōu)勢(shì)，但缺乏廣度優(yōu)勢(shì)。因此，通用型AI大模型與具體任務(wù)型AI智能體各有千秋，形成取長(zhǎng)補(bǔ)短的相互依賴關(guān)系。其次，通用型AI大模型與具體任務(wù)型AI智能體兩者之間除互補(bǔ)關(guān)系外，還有相互排斥、具有張力的另一面。這是因?yàn)橥ㄓ眯虯I大模型過(guò)于強(qiáng)調(diào)通用性廣度，而相對(duì)忽略專業(yè)性深度。與此相反，具體任務(wù)型AI智能體過(guò)于強(qiáng)調(diào)專業(yè)性深度，相對(duì)忽略通用性廣度。因而，二者的有機(jī)整合需要一個(gè)中介機(jī)制——既需要與通用型AI大模型有交集，又要與具體任務(wù)型AI智能體有交集。為此，筆者提出一個(gè)原創(chuàng)概念，扮演中介機(jī)制角色：特定領(lǐng)域型AI小模型平臺(tái)。

具體而言，通用型AI大模型本質(zhì)上是非場(chǎng)景化的“知識(shí)庫(kù)+計(jì)算引擎”，而具體任務(wù)型AI智能體則是面向特定場(chǎng)景任務(wù)的特有工具，兩者對(duì)中介機(jī)制的需求主要體現(xiàn)在以下幾個(gè)方面。首先，通用型AI大模型主要依賴數(shù)學(xué)模型和統(tǒng)計(jì)方法，利用大數(shù)據(jù)、大算力訓(xùn)練形成的權(quán)重和參數(shù)來(lái)認(rèn)知和預(yù)測(cè)整體趨勢(shì)，缺乏針對(duì)獨(dú)特專業(yè)場(chǎng)景等更具彈性的認(rèn)知和預(yù)測(cè)能力，因而略去了不同應(yīng)用場(chǎng)景之間的差異，導(dǎo)致其難以精準(zhǔn)適配特定應(yīng)用環(huán)境。其次，大模型訓(xùn)練強(qiáng)調(diào)泛化能力，以適用于盡可能廣泛的統(tǒng)一性抽象情境，在預(yù)設(shè)損失函數(shù)允許的范圍內(nèi)將異常值處理為噪聲誤差，以減輕大模型的擬合問(wèn)題。但是，實(shí)踐中偶然性與多樣性常比必然性與統(tǒng)一性的應(yīng)用價(jià)值更高，尤其是在創(chuàng)新方面。許多關(guān)鍵決策往往取決于偶然性或多樣性情況，需要將異常值處理為一種必要的正常情境模式。再次，通用型AI大模型的訓(xùn)練數(shù)據(jù)主要來(lái)源于公開(kāi)知識(shí)庫(kù)，缺乏垂直領(lǐng)域和具體企業(yè)內(nèi)部的專用知識(shí)庫(kù)，因此缺乏專業(yè)知識(shí)。最后，通用型AI大模型因其計(jì)算成本高昂，且在面對(duì)具體任務(wù)時(shí)往往存在冗余參數(shù)，因而面向特定場(chǎng)景的效率和效能雙低，無(wú)法高效響應(yīng)特定需求。

為此，我們提出AI系統(tǒng)三層架構(gòu)作為原創(chuàng)的全新理論框架，該系統(tǒng)包括通用型AI大模型、特定領(lǐng)域型AI小模型平臺(tái)和具體任務(wù)型AI智能體（見(jiàn)圖1、表1）。其中，特定領(lǐng)域型AI小模型面向具體領(lǐng)域（包括學(xué)科、行業(yè)、職能、企業(yè)等），并具有平臺(tái)屬性——該平臺(tái)能夠支撐、賦能在具體領(lǐng)域內(nèi)開(kāi)發(fā)眾多具體任務(wù)型AI智能體。換言之，具體任務(wù)型AI智能體所賴以為基礎(chǔ)的平臺(tái)不是通用型AI大模型，而是特定領(lǐng)域型AI小模型平臺(tái)。

我們認(rèn)為，即使在AI快速發(fā)展的時(shí)代，期盼下一代能夠解決所有問(wèn)題的通用型AI大模型到來(lái)依舊是一出“等待戈多”的荒誕戲，企業(yè)試圖基于現(xiàn)有通用型AI大模型開(kāi)發(fā)AI智能體無(wú)論是對(duì)自身持續(xù)競(jìng)爭(zhēng)優(yōu)勢(shì)的形成或是對(duì)通用型AI大模型的發(fā)展都具有特殊意義。但是，由于缺少一種能夠在通用型大模型與具體任務(wù)型AI智能體之間高效整合與調(diào)節(jié)的中介機(jī)制，使得通用型AI大模型的計(jì)算能力與推理能力難以精準(zhǔn)賦能具體任務(wù)型AI智能體，進(jìn)而影響了整體AI系統(tǒng)的應(yīng)用落地。因此，如何構(gòu)建一種高效的中介機(jī)制（即特定領(lǐng)域型AI小模型平臺(tái)），使通用型大模型的通用能力更好地與具體任務(wù)型AI智能體有機(jī)結(jié)合，是實(shí)現(xiàn)AI應(yīng)用價(jià)值的關(guān)鍵所在，尤其是針對(duì)具體獨(dú)特應(yīng)用場(chǎng)景的特定價(jià)值而言，更是如此。

中介機(jī)制的可能性：構(gòu)建特定領(lǐng)域型AI小模型平臺(tái)

AI系統(tǒng)發(fā)展的三要素包括數(shù)據(jù)、算力、算法，三要素對(duì)AI系統(tǒng)三層架構(gòu)的要求與限制有所不同。本文總結(jié)AI系統(tǒng)三層架構(gòu)的發(fā)展模式如下。

第一，通用型AI大模型發(fā)展的最大限制是算力，其次是數(shù)據(jù)。通用型大模型的核心基礎(chǔ)是能夠處理大數(shù)據(jù)的算力。其預(yù)訓(xùn)練需要處理海量數(shù)據(jù)，在此過(guò)程中需進(jìn)行復(fù)雜的數(shù)學(xué)運(yùn)算和參數(shù)更新，這就要求擁有高性能的硬件設(shè)備，如GPU、TPU、NPU和專門的分布式計(jì)算架構(gòu)。雖然數(shù)據(jù)的數(shù)量和質(zhì)量對(duì)模型的表現(xiàn)至關(guān)重要，但沒(méi)有足夠的算力支持，即便擁有再多數(shù)據(jù)，也難以將其高效轉(zhuǎn)化為有價(jià)值的模型參數(shù)。此時(shí)，對(duì)通用型大模型的關(guān)鍵要求是普適性和通用性。因此，開(kāi)發(fā)通用型AI大模型的關(guān)鍵要素是強(qiáng)大算力和大數(shù)據(jù)。我們將此稱為特定領(lǐng)域或垂域AI-IasS（AI Infrastructure as Service）。

第二，特定領(lǐng)域型AI小模型平臺(tái)發(fā)展的最大限制是特定領(lǐng)域的專業(yè)數(shù)據(jù)，其次是算法。這是因?yàn)樘囟I(lǐng)域內(nèi)部數(shù)據(jù)難以從公共網(wǎng)絡(luò)上收集，而高質(zhì)量的特定領(lǐng)域?qū)Ｓ脭?shù)據(jù)對(duì)于發(fā)展可靠、高效的特定領(lǐng)域型AI小模型平臺(tái)必不可少。通用型AI大模型訓(xùn)練所使用的絕大部分?jǐn)?shù)據(jù)是從互聯(lián)網(wǎng)的公域收集的，AI開(kāi)發(fā)人員通常無(wú)法訪問(wèn)私域數(shù)據(jù)，如企業(yè)內(nèi)部數(shù)據(jù)，因此對(duì)特定的細(xì)分領(lǐng)域的數(shù)據(jù)收集嚴(yán)重不足。如果企業(yè)要將通用型AI大模型應(yīng)用于特定任務(wù)型AI智能體開(kāi)發(fā)，通用型AI大模型就必須采用專業(yè)數(shù)據(jù)與專業(yè)化算法，全面轉(zhuǎn)型成為特定領(lǐng)域型AI小模型平臺(tái)。因此，支撐特定任務(wù)型AI智能體的特定領(lǐng)域型AI小模型平臺(tái)需具備兩大特征，即專業(yè)性和精準(zhǔn)性。開(kāi)發(fā)特定領(lǐng)域型AI小模型平臺(tái)的關(guān)鍵要素是垂域?qū)I(yè)數(shù)據(jù)與算法。我們可以將此稱為特定領(lǐng)域或垂域AI-PasS（AI Platform as Service）。

第三，對(duì)于具體任務(wù)型AI智能體而言，其發(fā)展的最大限制是算法，其次是數(shù)據(jù)。這是因?yàn)锳I智能體的核心是能夠快速準(zhǔn)確地響應(yīng)外部需求。AI智能體的開(kāi)發(fā)致力于在工作流中嵌入特定領(lǐng)域型AI小模型平臺(tái)的自主決策能力，使工作流無(wú)需預(yù)設(shè)全部邏輯，即能在部分環(huán)節(jié)根據(jù)實(shí)時(shí)信息和環(huán)境變化動(dòng)態(tài)調(diào)整行為，這要求模型算法有很好的泛化能力，不僅在訓(xùn)練數(shù)據(jù)集上表現(xiàn)良好，更要能夠適應(yīng)全新的樣本集，避免過(guò)擬合或欠擬合。雖然私有知識(shí)庫(kù)能夠?yàn)樾∧Ｐ吞峁┴S富的上下文和背景知識(shí)，顯著提升其在特定領(lǐng)域中的表現(xiàn)，但實(shí)際任務(wù)場(chǎng)景中往往還會(huì)對(duì)模型算法提出更多額外的要求，如可解釋性、透明度與響應(yīng)速度。實(shí)踐中，這些因素往往是用戶判斷智能體是否值得信任的首要考量，有針對(duì)性的改善能夠有效避免使用者的算法厭惡。改善方式有二：一是在小模型層面對(duì)AI進(jìn)行針對(duì)性調(diào)優(yōu)，二是在智能體固定工作流層面增加指定的過(guò)濾器，濾除那些可能引起負(fù)面效果的模型輸出。最終，任務(wù)型AI智能體最重要的能力就是時(shí)效性與靈活性。

總之，通用型AI大模型不適合企業(yè)在其基礎(chǔ)上直接構(gòu)建具體任務(wù)型AI智能體，作為開(kāi)發(fā)具體任務(wù)型AI智能體的基礎(chǔ)，構(gòu)建企業(yè)專屬的特定領(lǐng)域型AI小模型平臺(tái)是必要的。

構(gòu)建特定領(lǐng)域型AI小模型的具體路徑主要包括知識(shí)蒸餾與微調(diào)兩個(gè)步驟，其底層邏輯源于混合專家模式（Mixture of Experts），即采用處理特定領(lǐng)域任務(wù)的“專家分工式大腦”模式，而非處理所有任務(wù)的、通用型的“全能大腦”模式，其核心思想如同醫(yī)院的分診系統(tǒng)：每個(gè)患者（輸入數(shù)據(jù)）由最擅長(zhǎng)的科室（專家模塊）處理，再匯總診斷結(jié)果。具體而言，通用型大模型可以由多個(gè)獨(dú)立的小型神經(jīng)網(wǎng)絡(luò)組成，每個(gè)獨(dú)立的小型神經(jīng)網(wǎng)絡(luò)作為專家專注學(xué)習(xí)特定數(shù)據(jù)的特征。

具體而言，作為特定領(lǐng)域型AI小模型平臺(tái)的垂域AI-PasS具有兩個(gè)關(guān)鍵要素。首先，AI-PasS包含至少一個(gè)或一系列垂域AI小模型。通用型AI大模型是利用參數(shù)儲(chǔ)存從海量數(shù)據(jù)中進(jìn)行學(xué)習(xí)的預(yù)訓(xùn)練模型，具備強(qiáng)大的泛化能力，但計(jì)算和存儲(chǔ)需求較高，在實(shí)際應(yīng)用中并不總是高效的。蒸餾（Distillation，也稱知識(shí)蒸餾）技術(shù)可以有效壓縮大模型的參數(shù)，生成計(jì)算需求更低的輕量小模型，在降低成本的同時(shí)保持較強(qiáng)的垂域任務(wù)性能。領(lǐng)域相關(guān)蒸餾是蒸餾技術(shù)的一種變體，能夠從通用型AI大模型中提取垂域知識(shí)，從而得到在垂域繼承通用型AI大模型表現(xiàn)的特定領(lǐng)域型AI小模型平臺(tái)。值得注意的是，垂類AI小模型平臺(tái)本質(zhì)上是面向特定垂直領(lǐng)域的另類“大模型”，在某一領(lǐng)域內(nèi)具備“通用”能力，更有效應(yīng)用專有數(shù)據(jù)解決具體實(shí)踐問(wèn)題。

為此，構(gòu)建特定領(lǐng)域型AI小模型的第一個(gè)步驟是蒸餾。知識(shí)蒸餾是一種機(jī)器學(xué)習(xí)技術(shù)，旨在將預(yù)先訓(xùn)練的大型“教師模型”的知識(shí)轉(zhuǎn)移到較小的“學(xué)生模型”，訓(xùn)練出一個(gè)更為簡(jiǎn)潔的模型，用來(lái)模擬高度復(fù)雜的大規(guī)模神經(jīng)網(wǎng)絡(luò)模型。如圖2所示，該過(guò)程包括三個(gè)環(huán)節(jié)。

環(huán)節(jié)1：訓(xùn)練教師模型（Teacher Model），運(yùn)用大算力、大數(shù)據(jù)訓(xùn)練出一個(gè)通用大模型（大型人工神經(jīng)網(wǎng)絡(luò)）。

環(huán)節(jié)2：由教師模型獲得其輸出的最終類別預(yù)測(cè)（硬標(biāo)簽）和預(yù)測(cè)概率分布（軟標(biāo)簽），如分類任務(wù)是識(shí)別“貓”“狗”“兔”，模型輸出的硬標(biāo)簽為[貓，狗，兔]= [0，1，0]，將圖片判定為狗，作為硬輸出判斷依據(jù)的軟輸出可能是[貓，狗，兔]= [0.2，0.7，0.1]，即70%概率為狗，20%概率為貓，10%概率為兔。這種軟輸出蘊(yùn)含了豐富的“類間知識(shí)”，通過(guò)此軟標(biāo)簽，學(xué)生模型可以更好地理解“狗”與其他動(dòng)物的區(qū)別。同時(shí)，通過(guò)溫度系數(shù)（Temperature）來(lái)平滑輸出概率（縮小類間差異），使子模型能夠充分學(xué)習(xí)到類型間的邊界。

環(huán)節(jié)3：訓(xùn)練學(xué)生模型，即使用包含訓(xùn)練數(shù)據(jù)及相應(yīng)的大模型硬輸出和軟標(biāo)簽的組合損失函數(shù)來(lái)訓(xùn)練學(xué)生模型。簡(jiǎn)單來(lái)說(shuō)，傳統(tǒng)深度學(xué)習(xí)的目標(biāo)是訓(xùn)練人工神經(jīng)網(wǎng)絡(luò)（即大型通用模型），使其預(yù)測(cè)結(jié)果盡可能貼近訓(xùn)練數(shù)據(jù)中的真實(shí)標(biāo)簽；蒸餾的核心目標(biāo)，則是通過(guò)訓(xùn)練一個(gè)較小的學(xué)生網(wǎng)絡(luò)（小模型），使其在預(yù)測(cè)上盡量逼近教師網(wǎng)絡(luò)的輸出，從而繼承教師模型的知識(shí)。除算力需求小外，小模型還具有更強(qiáng)的可解釋性，相比之下，在擁有數(shù)千億參數(shù)的超大規(guī)模模型中，難以明確解讀神經(jīng)網(wǎng)絡(luò)各組成部分的具體作用。通過(guò)將大型“黑匣子”模型中學(xué)到的知識(shí)遷移到結(jié)構(gòu)更簡(jiǎn)潔的模型，有助于揭示模型決策的內(nèi)在邏輯，進(jìn)而為相關(guān)領(lǐng)域帶來(lái)更具變革性的認(rèn)知與洞察。

其次，AI-PasS集成一系列必要工具，先從通用型AI大模型中蒸餾獲得垂域AI小模型的雛型，然后借助企業(yè)專業(yè)私有數(shù)據(jù)對(duì)垂域AI小模型雛型進(jìn)行垂域特定場(chǎng)景下的微調(diào)（Fine-tuning），以此建立垂域AI小模型。AI-PasS主要面向各類企業(yè)，賦能企業(yè)開(kāi)發(fā)、部署和管理具體任務(wù)型AI智能體，無(wú)需構(gòu)建和維護(hù)底層AI-IaaS的通用型AI大模型。

為此，構(gòu)建特定領(lǐng)域型AI小模型的第二步驟是微調(diào)。微調(diào)是一種在更小、更專業(yè)的數(shù)據(jù)集上重新訓(xùn)練人工神經(jīng)網(wǎng)絡(luò)的方法，目的是向模型賦予特定領(lǐng)域的專業(yè)信息與知識(shí)，以適應(yīng)特定任務(wù)。微調(diào)常常采用監(jiān)督學(xué)習(xí)（Supervised Learning）的方法，需要對(duì)數(shù)據(jù)進(jìn)行預(yù)先整理和標(biāo)注，給定配對(duì)的輸入和輸出數(shù)據(jù)；與此相反，大模型通常使用的是無(wú)監(jiān)督學(xué)習(xí)（Unsupervised Learning），在無(wú)需標(biāo)注的海量數(shù)據(jù)中自主學(xué)習(xí)數(shù)據(jù)結(jié)構(gòu)與內(nèi)在規(guī)律。通過(guò)微調(diào)，小模型不僅能繼承通用大模型的泛化能力，還能更高效地適應(yīng)特定場(chǎng)景，實(shí)現(xiàn)通用模型的專業(yè)化增強(qiáng)。

除了微調(diào)，針對(duì)具體任務(wù)所需要的模型優(yōu)化方法還包括提示工程（Prompt Engineering）與檢索增強(qiáng)生成（Retrieval Augmented Generation，RAG）。這三種方法的具體對(duì)比見(jiàn)表2。

提示工程是一種優(yōu)化提示（Prompt）的方法，旨在引導(dǎo)模型生成更符合預(yù)期的答案。大模型是通用的，理論上可以執(zhí)行所有任務(wù)（但實(shí)際是只有一定程度的多種任務(wù)），但并非專門針對(duì)某個(gè)特定任務(wù)進(jìn)行優(yōu)化。不同的提示會(huì)導(dǎo)致不同的回答，甚至微小的變化都可能影響模型的響應(yīng)質(zhì)量。提示工程通過(guò)調(diào)整輸入格式、結(jié)構(gòu)、示例等來(lái)改善模型的輸出，無(wú)需修改模型本身的參數(shù)。

檢索增強(qiáng)生成是一種結(jié)合新的信息檢索（Retrieval）和生成式AI（Generation）的方法，旨在提升（Augmented）通用型大模型的準(zhǔn)確性和信息豐富度。它通過(guò)從外部知識(shí)庫(kù)檢索訓(xùn)練通用型大模型信息以外的新信息，而非僅依賴其舊有知識(shí)，再將這些信息作為額外的上下文補(bǔ)充傳遞給通用型大模型，使該大模型能夠基于實(shí)時(shí)更新的真實(shí)數(shù)據(jù)生成更準(zhǔn)確的回答，從而有效降低AI幻覺(jué)（Hallucination），得到更精準(zhǔn)的回答。

總的來(lái)說(shuō)，提示工程和RAG兩種方式并未調(diào)整預(yù)訓(xùn)練模型的參數(shù)，后續(xù)可以直接通過(guò)大模型的信息更新獲得大模型的全部能力。與此不同，微調(diào)模式意在構(gòu)建特定領(lǐng)域型AI小模型平臺(tái)，雖然其基礎(chǔ)來(lái)自通用型AI大模型，但卻具備后者所不具備的特定專業(yè)的深化能力。一般而言，AI的底層基礎(chǔ)設(shè)施依然由AI專業(yè)公司完成（即通用型大模型AI-IasS），但非AI企業(yè)可以通過(guò)蒸餾技術(shù)將通用型大模型AI-IasS轉(zhuǎn)化成為特定領(lǐng)域型AI小模型平臺(tái)（AI-PaaS），即將通用型AI大模型設(shè)為教師模型，而企業(yè)級(jí)特定領(lǐng)域型AI小模型設(shè)為子模型。

綜上所述，從通用型AI大模型到特定領(lǐng)域型AI小模型平臺(tái)，主要解決AI模型在廣度與深度兩大維度之間的平衡問(wèn)題。大模型的能力來(lái)源于強(qiáng)大算力對(duì)海量數(shù)據(jù)中普遍規(guī)律的提煉與總結(jié)。數(shù)據(jù)質(zhì)量越高，數(shù)量越多，算力越強(qiáng)，大模型對(duì)通用規(guī)律的學(xué)習(xí)就越充分，通用能力也隨之增強(qiáng)。在此基礎(chǔ)上，通過(guò)結(jié)合私有數(shù)據(jù)庫(kù)進(jìn)行調(diào)優(yōu)，可以進(jìn)一步強(qiáng)化AI模型在特定領(lǐng)域內(nèi)的表現(xiàn)，就像是將一個(gè)“全科均衡發(fā)展的學(xué)生”培養(yǎng)成某一領(lǐng)域的“單科特長(zhǎng)生”，從而更好地適應(yīng)實(shí)際業(yè)務(wù)需求。在此類垂域AI小模型平臺(tái)基礎(chǔ)之上，可以更為有效地構(gòu)建具體任務(wù)型AI智能體，核心在于實(shí)現(xiàn)問(wèn)題分析與問(wèn)題解決二者的平衡。雖然這二者的發(fā)展都強(qiáng)調(diào)數(shù)據(jù)和算法的支撐，但側(cè)重點(diǎn)不同：AI小模型平臺(tái)更偏向于數(shù)據(jù)驅(qū)動(dòng)，通過(guò)高質(zhì)量數(shù)據(jù)挖掘穩(wěn)定的規(guī)律，訓(xùn)練出具備泛化能力的模型參數(shù)，實(shí)現(xiàn)決策自動(dòng)化；AI智能體則更側(cè)重于算法驅(qū)動(dòng)，強(qiáng)調(diào)在動(dòng)態(tài)環(huán)境中根據(jù)用戶輸入和場(chǎng)景變化做出實(shí)時(shí)反饋，不僅要“會(huì)思考”，更要“會(huì)行動(dòng)”。

AI三層架構(gòu)的應(yīng)用實(shí)例：釘釘?shù)膬?yōu)勢(shì)與劣勢(shì)

面向生產(chǎn)環(huán)境的特定領(lǐng)域AI小模型，不僅要參數(shù)更小、結(jié)構(gòu)更精，以便快速部署到云端與邊緣設(shè)備，更要在精準(zhǔn)性和響應(yīng)時(shí)效上達(dá)到工業(yè)級(jí)標(biāo)準(zhǔn)。因?yàn)樵趶?fù)雜的業(yè)務(wù)流程中，即便 1%的精度差異，也可能被后續(xù)環(huán)節(jié)放大數(shù)倍，導(dǎo)致巨額成本損失，甚至抵消AI所帶來(lái)的效率紅利。AI三層架構(gòu)的應(yīng)用核心在于，為特定業(yè)務(wù)場(chǎng)景構(gòu)建高效、輕量的小模型。為此，我們以釘釘為例進(jìn)一步說(shuō)明。釘釘作為阿里巴巴的企業(yè)級(jí)服務(wù)平臺(tái)，憑借“煉丹爐”訓(xùn)練平臺(tái)，為企業(yè)提供有效的蒸餾能力，但在后續(xù)的微調(diào)環(huán)節(jié)則只能充當(dāng)輔助角色。

構(gòu)建特定領(lǐng)域型AI小模型平臺(tái)的第一個(gè)步驟是從大模型中蒸餾出小模型。大模型和小模型的直觀差異在于參數(shù)量的大小，參數(shù)量直接決定了模型的部署成本。但參數(shù)量與“智能程度”并非嚴(yán)格正相關(guān)，例如R1-Qwen32B蒸餾版模型只有320億參數(shù)，卻能媲美原版的6710億參數(shù)模型。從Mixture-of-Experts（MoE）的角度看，通用型對(duì)應(yīng)“大模型”，擁有海量專家子網(wǎng)絡(luò)；特定領(lǐng)域型對(duì)應(yīng)“小模型”，只保留在該領(lǐng)域被激活的專家。此直接剪枝雖能“瘦身”大模型（去除未激活的專家），但所得小模型在領(lǐng)域適配方面仍受限。理想方案是基于領(lǐng)域特性重新設(shè)計(jì)知識(shí)架構(gòu)，蒸餾形成一個(gè)參數(shù)更小、結(jié)構(gòu)更精簡(jiǎn)、對(duì)接特定任務(wù)的小模型，即向“特定領(lǐng)域”知識(shí)結(jié)構(gòu)方向變“小”。此過(guò)程中，釘釘憑借其技術(shù)優(yōu)勢(shì)，設(shè)計(jì)出更貼合特定領(lǐng)域需求的系統(tǒng)架構(gòu)、知識(shí)結(jié)構(gòu)和學(xué)習(xí)過(guò)程，在其“煉丹爐”模型訓(xùn)練平臺(tái)提供更多針對(duì)性的緊湊小模型。此外，小模型利于本地部署，可以提升私密性與便捷性。

構(gòu)建特定領(lǐng)域型AI小模型平臺(tái)的第二個(gè)步驟是在區(qū)間數(shù)據(jù)上對(duì)小模型進(jìn)行微調(diào)。大模型訓(xùn)練通常使用全量數(shù)據(jù)，覆蓋整個(gè)樣本空間；特定任務(wù)的二次訓(xùn)練則多聚焦于私有／細(xì)分子集的數(shù)據(jù)。從概率分布看，全量數(shù)據(jù)比如骰子1～6中擲出3的概率是1/6；如果限定為“奇數(shù)”子集（1、3、5），則擲出3的概率變?yōu)?/3，即全量數(shù)據(jù)的概率分布和區(qū)間數(shù)據(jù)的概率分布不一定是一致的。這種數(shù)據(jù)結(jié)構(gòu)差異會(huì)導(dǎo)致預(yù)訓(xùn)練模型參數(shù)取值不同，進(jìn)而在相同問(wèn)題上給出不同回復(fù)。從用戶的尺度來(lái)看，其需要的知識(shí)更多的是挖掘自有數(shù)據(jù)展現(xiàn)出來(lái)的規(guī)律和模式，并利用相應(yīng)參數(shù)來(lái)做預(yù)測(cè)，因此需要對(duì)模型做出進(jìn)一步的微調(diào)。在此過(guò)程中，高質(zhì)量數(shù)據(jù)的準(zhǔn)備是實(shí)現(xiàn)微調(diào)效果的重要因素，由于業(yè)務(wù)邏輯往往復(fù)雜且專業(yè)，數(shù)據(jù)的收集、清洗、標(biāo)注與校驗(yàn)需要跨部門協(xié)作，以確保場(chǎng)景完整、不遺漏關(guān)鍵細(xì)節(jié)，避免形成適用模型但不適用業(yè)務(wù)的模版數(shù)據(jù)集。釘釘可在這些方面提供輔助性幫助，但企業(yè)級(jí)AI小模型仍需企業(yè)采用自身專有數(shù)據(jù)進(jìn)行微調(diào)，以此構(gòu)建特定領(lǐng)域型小模型。為此，我們特別強(qiáng)調(diào)專有企業(yè)數(shù)據(jù)的獨(dú)特重要性。

通過(guò)微調(diào)實(shí)現(xiàn)通用型AI大模型與企業(yè)特定數(shù)據(jù)的結(jié)合，是企業(yè)利用AI創(chuàng)造不可替代的獨(dú)特價(jià)值的關(guān)鍵所在（例如，利用獨(dú)特客戶數(shù)據(jù)是企業(yè)構(gòu)建競(jìng)爭(zhēng)壁壘的核心方式）。雖然基礎(chǔ)數(shù)據(jù)對(duì)構(gòu)建通用型AI大模型很關(guān)鍵，但更為重要的是各行業(yè)、企業(yè)和客戶的特有數(shù)據(jù)（例如，制藥公司的實(shí)驗(yàn)數(shù)據(jù)、金融機(jī)構(gòu)的交易數(shù)據(jù)、科技公司的用戶行為數(shù)據(jù)等）。這些專業(yè)數(shù)據(jù)包含獨(dú)一無(wú)二的信息和知識(shí)，通用型AI大模型無(wú)法憑空獲取，因此需要微調(diào)，將信息及對(duì)應(yīng)的知識(shí)內(nèi)化到小模型參數(shù)中。就是說(shuō)，長(zhǎng)期積累的專有數(shù)據(jù)才是企業(yè)競(jìng)爭(zhēng)優(yōu)勢(shì)的核心來(lái)源，即企業(yè)的護(hù)城河。因此，特定領(lǐng)域型AI小模型才是AI應(yīng)用最有潛力的技術(shù)路線。在微調(diào)方面，釘釘最多只能提供輔助性服務(wù)，而其核心工作還需企業(yè)自己完成。

關(guān)于作者 | 李平：東北財(cái)經(jīng)大學(xué)工商管理學(xué)院、廈門大學(xué)特聘講座教授；

熊天鋒：東北財(cái)經(jīng)大學(xué)工商管理學(xué)院博士研究生。

內(nèi)容編輯：梁萍

(本文轉(zhuǎn)載自清華經(jīng)管在職碩士，如有侵權(quán)請(qǐng)電話聯(lián)系13810995524)

* 文章為作者獨(dú)立觀點(diǎn)，不代表MBAChina立場(chǎng)。采編部郵箱：news@mbachina.com，歡迎交流與合作。

贊

收藏

訂閱

備考交流

【MBAChina 官方社群矩陣】
涵蓋 199管理類聯(lián)考備考 · 復(fù)試調(diào)劑 · 博士申請(qǐng) · 中外合辦學(xué) 四大板塊。
??2027 MBA/MPA/MEM/MPAcc /EMBA聯(lián)考備考群
??2026 管理類聯(lián)考復(fù)試調(diào)劑群
??博士項(xiàng)目交流群
??中外合作辦學(xué)項(xiàng)目群
?? 添加微信：MBAChina001
備注【報(bào)考項(xiàng)目】，邀請(qǐng)您加入專屬交流群

免費(fèi)領(lǐng)取價(jià)值5000元MBA備考學(xué)習(xí)包購(gòu)買管理類聯(lián)考MBA/MPAcc/MEM/MPA大綱配套新教材

掃碼關(guān)注我們

獲取報(bào)考資訊
了解院?；顒?dòng)
學(xué)習(xí)備考干貨
研究上岸攻略

最新動(dòng)態(tài)

活動(dòng)日歷

2022年度

01月
02月
03月
04月
05月
06月
07月
08月
09月
10月
11月
12月

展開(kāi)

熱門資訊

MBA院校號(hào)

內(nèi)蒙古大學(xué)經(jīng)濟(jì)管理學(xué)院

最新動(dòng)態(tài):
內(nèi)蒙古師范大學(xué)商學(xué)院

最新動(dòng)態(tài):
天津財(cái)經(jīng)大學(xué)管理學(xué)院

最新動(dòng)態(tài):

MBAChina 掃碼關(guān)注

掃碼關(guān)注 MBAChina

EMBA 掃碼關(guān)注

掃碼關(guān)注
EMBA

昌平区| 乾安县| 双辽市| 华容县| 门头沟区| 射阳县| 陕西省| 政和县| 自贡市| 三江| 张家口市| 华安县| 东辽县| 台东县| 呼玛县| 合水县| 聂拉木县| 丹凤县| 曲麻莱县| 柳江县| 上虞市| 陇西县| 墨竹工卡县| 威信县| 湖口县| 邢台市| 尚义县| 泰兴市| 上林县| 易门县| 沅陵县| 桂东县| 乐陵市| 临湘市| 恩平市| 平度市| 喜德县| 都安| 翁源县| 奈曼旗| 汉寿县|

<tfoot id="4cwmi"><kbd id="4cwmi"></kbd></tfoot>