在這波針對DeepSeek開源推理模型熱烈討論的表象之外,倘若能排除地緣政治、人為意識型態的干擾,其實早在2024年底就有許多專業組織指出,人工智慧(AI)小語言模型將是今年持續成長的關鍵,相關技術發展或許比起預期快速,再次突顯開源模式的價值,但仍在原先所預測的發展路徑上。
|
相較於像ChatGPT 這種大型基礎語言模型,小語言模型在特定場景與任務的表現,很可能更符合企業的實際需求。 |
包括微軟(Microsoft)、亞馬遜(Amazon)、輝達(Nvidia)等公司,已迅速將其模型整合至雲端及企業開發平台;Meta的AI研究負責人也指出,如同Meta的Llama系列多採開源模式,允許開發者自由存取模型權重與參數,以便企業和開發者客製化應用,DeepSeek的崛起更證明了開源模型的價值。
相形之下,OpenAI既違背當初成立時的開源承諾,至今仍專注採取封閉模式為主,大部分模型為專有技術,並透過付費方式提供服務。當OpenAI執行長阿特曼(Sam Altman)在社群論壇Reddit線上問答活動,回覆網友提問時也坦言:「雖然這目前還不是我們的首要任務,內部正在討論是否將考慮公開部分模型權重和研究成果。但我個人認為過去OpenAI站在歷史錯誤一邊,需要重新思考開源策略。」
此外,根據台灣的人工智慧科技基金會表示,相較前兩年全球追逐更多的參數、更大的模型,但如今許多企業已經發現,相較於像 ChatGPT 這種大型基礎語言模型,小語言模型(SML, Small Language Models)在特定場景與任務的表現,很可能更符合企業的實際需求。《MIT Technology Review》也將 SLM列入2025年10大突破技術當中,無論在技術應用和實際需求都有跡可循。
其中相較於大眾所熟知的大語言模型,小語言模型專注於特定任務或場景,可以更專注、快速完成特定限定範圍的工作。相較之下,大語言模型雖然具備強大的跨領域知識整合與生成能力,有極佳能力處理多樣化、複雜性的問題。但是由於目前生成式AI需要依賴大量數據、昂貴的算力,加上台灣獨特的產業結果,經常無法符合中小企業的真實需求。
反之,如果要將生成式AI納入企業正式營運系統的一環,需要的不只是模型,更重要的是數據和其他現有系統的整合、專業足以維護運作的人才,並且將成本控制在可負擔範圍內,這是中小企業進入的第一個關卡;其次,是要用生成式AI來解決什麼問題,以及技術如何能恰如其分扮演的角色?最後是大語言模型的幻覺風險,以及在特定場景中的精確度不如小語言模型,構成了導入時嚴苛的考驗。
在生產線上進行設備狀態監控時,小語言模型可以快速檢測異常並發出警報,幫助企業避免停工損失。同時,企業可以根據自身需求對模型進行定製,並快速調整其功能以適應業務變化。這種靈活性使小語言模型成為短期專案或快速迭代場景的理想選擇,特別是在技術更新快、需求變化大的行業中。
且因為小語言模型模型所需算力資源遠低於大模型,讓企業不必投入龐大的硬體基礎設施部署,這對於中小型企業尤為重要。例如,某些邊緣計算場景中,小語言模型能在嵌入式設備上運作,或者配合一台 AI PC 即足夠,不需要倚賴昂貴的雲端或硬體設備。因此隱私安全也形成小語言模型的另一個顯著優勢,避免數據外傳而洩露的風險。
對於台灣而言,小語言模型更提供了軟硬體整合的絕佳機會。中華電信獨立董事簡立峰表示,小模型只要增加一點點邏輯推理,效能就會增加很多,也讓邊緣AI的應用更多元、範圍更廣,對於AI代理(AI Agent)與接下來火紅的AI機器人發展會有極大貢獻。