福利加码,Gate 廣場明星帶單交易員三期招募開啟!
入駐發帖 · 瓜分 $30,000 月度獎池 & 千萬級流量扶持!
如何參與:
1️⃣ 報名成為跟單交易員:https://www.gate.com/copytrading/lead-trader-registration/futures
2️⃣ 報名活動:https://www.gate.com/questionnaire/7355
3️⃣ 入駐 Gate 廣場,持續發布交易相關原創內容
豐厚獎勵等你拿:
首發優質內容即得 $30 跟單體驗金
每雙周瓜分 $10,000U 內容獎池
Top 10 交易員額外瓜分 $20,000U 登榜獎池
精選帖推流、首頁推薦、周度明星交易員曝光
詳情:https://www.gate.com/announcements/article/50291
DeepSeek宣布新架構mHC,透過獨創的映射方法革新訓練穩定性
1月1日、DeepSeek 發布了最新的技術論文,提出了在大型語言模型訓練中具有革新性的方案。該論文以利用映射這一基本數學概念為核心,介紹了一種新的架構「Manifold Constrained Hyperconnectivity(mHC)」。業界普遍認為,這項技術可能為模型開發指明新的方向。
超連結網路技術的挑戰與創新解決方案
傳統的超連結網路(HC)技術,雖然具有高度的彈性,但在訓練過程中遇到嚴重問題。具體而言,因為違反了恒等映射的特性,導致訓練不穩定和擴展性的限制,這些問題成為開發大規模模型的重大障礙。
DeepSeek 發布的 mHC 架構為這些挑戰提供了創新的解決方案。研究團隊通過將 HC 的剩餘連接空間映射到特定的多樣體,成功恢復了失去的恒等映射特性。這一獨創的映射方法大幅提升了模型的基本穩定性。
多樣體映射帶來的技術革新與擴展性提升
mHC 架構的最大特色在於,結合嚴格的基礎設施優化,實現高效運作與卓越性能。與傳統的簡單剩餘連接不同,利用多樣體的複雜特性進行映射處理,使得訓練流程更加精緻。
這項技術革新預計將大幅提升訓練的穩定性,並顯著改善模型的擴展能力。根據 PANews 的報導,DeepSeek 的研究團隊預計,這個 mHC 架構將成為開發大規模模型的實用且有效的擴展工具。
拓撲架構設計的新理解與未來展望
本論文由謝振達(Zhenda Xie)、韋奕軒(Yixuan Wei)、曹歡奇(Huanqi Cao)三位研究員共同撰寫,DeepSeek 創始人梁文峰(Wenfeng Liang)亦為作者之一。研究團隊表示,通過此次 mHC 架構的開發,對拓撲架構設計的理解更加深入。
融合了複雜映射處理與多樣體概念的這一方法,展現了基礎模型演進的有希望的方向。業界普遍認為,這項技術在 AI 模型的下一代開發中可能扮演重要角色,未來的應用前景令人期待。