2025 / 06 / 26
神州問學(xué)團隊以絕對優(yōu)勢贏得亞馬遜云科技大語言模型全國聯(lián)賽冠軍

在人工智能技術(shù)持續(xù)演進的當(dāng)下,大模型競賽成為行業(yè)關(guān)注的焦點。人們普遍認為,參數(shù)越多、算力越強,模型的能力就越強。然而,在2025年6月19日的亞馬遜云科技大語言模型全球聯(lián)賽這一重要賽事中,神州數(shù)碼旗下神州問學(xué)團隊以絕對優(yōu)勢取得勝利,為行業(yè)提供了一個全新的視角:參數(shù)規(guī)模不等于能力上限,真正決定模型實戰(zhàn)表現(xiàn)的,是數(shù)據(jù)價值密度與流程創(chuàng)新能力的結(jié)合。

20221210003345.jpg

賽事背景:亞馬遜云科技規(guī)格最高的大語言模型全球競賽活動

亞馬遜云科技大語言模型全國聯(lián)賽的前身是自2018年推出以來,已經(jīng)吸引了超過56萬名開發(fā)者參與,覆蓋全球數(shù)千個活動和比賽的人工智能賽車競賽。2024年亞馬遜云科技在Invent 2024 期間推出了亞馬遜云科技大語言模型全國聯(lián)賽。在這次聯(lián)賽中,參賽選手的任務(wù)是利用所學(xué)的工具和技術(shù)對特定領(lǐng)域的Meta Llama 3.5B基礎(chǔ)模型進行定制化調(diào)整。提交的微調(diào)模型將與一個更大的70B參考模型對比,通過一種稱為“LLM-as-a-Judge”的方法來評估回答的質(zhì)量。如果微調(diào)后的模型所提供的答案被認為比更大規(guī)模的模型更加準(zhǔn)確和全面,那么參賽者將在相應(yīng)的問題上獲得勝利積分。神州數(shù)碼作為亞馬遜云科技中國區(qū)第一批通過GenAI能力認證的伙伴,受邀參加本次比賽。

絕境突圍:
小參數(shù)模型特定場景勝大模型

這場比賽的規(guī)則本身就極具挑戰(zhàn)性——使用僅3.5B參數(shù)的小模型,與70B級別的超大規(guī)模模型正面交鋒。而3.5B基礎(chǔ)模型本身存在以下問題:

• 語言劣勢:評測全部采用中文,而3.5B模型在中文理解方面存在明顯短板;

• 知識不對等:題目內(nèi)容聚焦于大模型行業(yè)的專業(yè)知識,這正是70B模型訓(xùn)練時的核心優(yōu)勢領(lǐng)域;

• 資源稀缺:可用原始數(shù)據(jù)僅有20條,微調(diào)時間只有短短3小時。

面對以上問題,神州問學(xué)團隊快速設(shè)置了一套系統(tǒng)化、精細化的技術(shù)方案,最終以53%的贏率取得第一輪勝利。

20221210003345.jpg
神州問學(xué)團隊提交的模型贏率53%位居第一

破局之道:
模型微調(diào)的三重絕招

針對3.5B模型在中文支持、邏輯推理、多跳任務(wù)和知識廣度上的四大短板,神州問學(xué)采取了三個關(guān)鍵策略:

• 知識蒸餾的“精準(zhǔn)手術(shù)刀”

神州問學(xué)團隊為蒸餾的知識設(shè)計了“問答—邏輯鏈—證據(jù)片段”的三元組知識形式,并通過多次人工和機器的交叉檢查確保注入到3.5B模型中的質(zhì)量。這一過程并非簡單的知識復(fù)制,而是像外科手術(shù)一樣精準(zhǔn)地提取并植入關(guān)鍵信息。同時,他們還構(gòu)建了“知識拓撲網(wǎng)”,補充相關(guān)文檔資料,從而有效擴展了小模型的知識覆蓋范圍。

• 思維鏈的“量子糾纏”改造

整場比賽只有三小時,為3.5B模型注入思維鏈?zhǔn)欠窨尚惺菍F隊整體戰(zhàn)略,技術(shù)方案,執(zhí)行力的考驗。神州問學(xué)團隊面對3.5B基模的天然不足,采用部分樣本輕思考的方案,對精選的樣本注入拆解問題、檢索概念、驗證邏輯、生成結(jié)論的能力,使3.5B模型在三小時內(nèi)具備了遠超其參數(shù)規(guī)模的推理能力。

• 動態(tài)提示詞的“戰(zhàn)場指揮官”系統(tǒng)

在下午進行的現(xiàn)場評測環(huán)節(jié),評委和觀眾共同見證了一場高水平的實時應(yīng)答比拼。面對6道題目,各參賽隊伍有60秒時間理解和設(shè)計提示詞。神州問學(xué)團隊以深厚的大模型落地經(jīng)驗面對6道題目分別給出了針對性的Prompt,在3.5B小模型200字小窗口的苛刻條件下對每一條問題都給出的優(yōu)質(zhì)回答,獲得現(xiàn)場評委和AI雙高分。在賽事中主持人隨機采訪的觀眾和評委對神州數(shù)碼團隊給出的方案贊不絕口。最后以179分取得絕對勝利。

20221210003345.jpg
神州問學(xué)團隊以179分位居第一

技術(shù)升維:
從賽場走向產(chǎn)業(yè)的啟示錄

過去我們習(xí)慣于“參數(shù)越大越好”的思維定式,但在實際業(yè)務(wù)中,700億參數(shù)的大模型雖然強大,卻往往存在大量冗余計算。相比之下,一個經(jīng)過知識提純、架構(gòu)銳化和持續(xù)進化的小模型,在部署成本、響應(yīng)速度和可控性方面更具優(yōu)勢。

這場比賽的勝利也彰顯了神州問學(xué)卓越的小模型調(diào)優(yōu)能力,當(dāng)行業(yè)沉迷于千億參數(shù)競賽時,神州數(shù)碼憑借深厚的產(chǎn)業(yè)洞察直指本質(zhì):企業(yè)級AI落地的核心矛盾,在于技術(shù)能力與場景痛點的精準(zhǔn)適配——而非算力的競賽。 其創(chuàng)新性架構(gòu)構(gòu)建了雙重認知引擎:以通用大模型為基座拓展認知廣度,以精調(diào)小模型為觸手穿透場景深度,再通過動態(tài)路由實現(xiàn)算力的智能協(xié)同。

這套"廣度奠基、深度攻堅、資源智配"的三位一體范式,助力企業(yè)AI的真正落地。

流程智慧,
驅(qū)動AI新階段

在這場以小博大的比賽中,神州問學(xué)展示的不只是技術(shù)實力,更是一種思維方式的轉(zhuǎn)變。AI的未來,不在于誰擁有最多的算力,而在于誰能用最少的資源創(chuàng)造最大的價值。

這不是一場偶然的勝利,而是一次對AI發(fā)展路徑的深度反思。隨著AI進入2.0時代,真正的競爭將不再局限于模型大小,而是轉(zhuǎn)向如何高效、精準(zhǔn)地解決實際問題。