成人免费观看cn_亚洲五码在线观看视频_女人另类性混交zo_国产成人综合一区_黄色a级片免费看_女人高潮一级片_亚洲性生活网站_久久国产成人精品国产成人亚洲_日本三级福利片_欧美成人三级在线视频_成人午夜精品久久久久久久蜜臀_奇米影音第四色

首頁|必讀|視頻|專訪|運營|制造|監管|大數據|物聯網|量子|元宇宙|博客|特約記者
手機|互聯網|IT|5G|光通信|人工智能|云計算|芯片|報告|智慧城市|移動互聯網|會展
首頁 >> 人工智能 >> 正文

大模型新趨勢之MoE:現狀、挑戰及研究方向

2024年11月4日 07:19  天翼智庫  

2024年,全球主流企業加快推出MoE大模型,1-5月發布千億以上大模型均采用MoE優化架構,且數量超過近三年總和。MoE大模型架構憑借平衡大模型訓推成本和計算效率等優勢,更適合處理大規模數據和復雜任務,已成谷歌、OpenAI、阿里、騰訊等企業控制成本、提升模型性能、應對大模型“價格戰”的新方向。

MoE的內涵、優勢、發展歷程及主要玩家

MoE(Mixture of Experts,混合專家模型)是一種用于提升深度學習模型性能和效率的技術架構。其主要由一組專家模型和一個門控模型組成,核心思想是在處理任務時只激活部分專家模型,并通過門控模型控制專家模型的選擇和加權混合。簡言之,MoE在訓練過程通過門控模型實現“因材施教”,進而在推理過程實現專家模型之間的“博采眾長”。

圖1 MoE架構原理示意圖1

MoE的特征優勢是專家化、動態化、稀疏化,在模型研發成本、訓練/推理效率和整體性能之間實現最佳平衡。一是采用混合專家方法,各專家模型面向不同數據或任務進行針對性建模和處理,提升模型的準確性和專業能力,更好地適應多模態數據及復雜/特定任務計算。二是根據任務的需求靈活選擇并組合適宜的專家模型,使得模型能夠動態地適應不同的輸入樣本和任務場景,提高模型的靈活性、可解釋性和表達能力。三是只激活或使用部分專家模型,減少不必要的計算,提升模型計算速度并降低算力需求。研究表明,與稠密模型相比,MoE+指令調優僅使用1/3算力就能提升大模型性能約45%,縮短訓練時間2,且參數規模越大,效果越好。

MoE不是一種全新的技術,與Transformer融合邁過發展“拐點”。早期MoE主要作為一種集成學習方法,用于提升模型預測性能,如谷歌將MoE引入自然語言處理領域,提升機器翻譯性能。2020年,谷歌Gshard首次將MoE引入Transformer構建分布式并行計算架構,打開MoE發展新思路。之后,MoE逐漸進入規模發展階段,作為一種底層架構優化方法,與Transformer結合,陸續被用于推薦系統、自然語言處理、計算機視覺、多模態大模型等領域。

圖2 MoE模型發展歷程

基于Transformer的MoE已成大模型主流架構,國內外主流企業差異化推進MoE大模型布局和落地。2024年,全球MoE大模型數量呈爆發增長態勢。據公開統計,2024年1-5月全球發布MoE大模型數量約20個,超2021-2023三年總量(約10個),且以多模態大模型為主(占比約90%)。谷歌、OpenAI、阿里、華為、騰訊等大型企業側重利用MoE提升大模型性能和實用性。而Mistral AI、昆侖萬維、MiniMax、幻方量化等初創企業側重利用MoE低成本優勢搶占AI市場。

表1 部分公司MoE大模型布局及發布情況

MoE發展仍面臨挑戰

 1.訓練和微調面臨穩定性和可靠性挑戰。

訓練階段,MoE通過“條件計算”思想引入稀疏性,其將token分配給固定數量專家的離散特性帶來專家負載均衡問題,容易導致某些專家被過度利用,而其他專家未被充分利用,從而影響專家的專業化,降低模型性能。雖然這一問題,目前可以通過合并輔助損失函數等來緩解,但仍會導致模型訓練不穩定。微調階段,與稠密模型相比,稀疏模型的微調更容易產生過擬合問題,容易導致泛化能力不足,影響模型整體性能,如擁有1.6T參數量的MoE預訓練模型Switch Transformer,在SuperGLUE等常見基準上進行微調時,其整體性能卻落后于較小的模型3。

 2.大規模分布式部署難且通信成本高。

一方面,盡管MoE可以在模型參數總量不變的情況下降低計算需求,但仍需要將所有參數加載到內存中。因此,MoE對內存需求很高,需要將超大規模參數模型的專家層分別部署在不同設備以減少內存消耗,實際部署難度很大。另一方面,隨著MoE模型的參數規模/復雜度不斷提升,模型訓練期間的高效通信越來越重要。而模型復雜度與通信開銷之間的權衡一直是分布式訓練的重大問題4。MoE模型中專家之間的數據交換、并行訓練都需要機間all-to-all通信來實現,增加通信成本,且模型規模越大,通信成本越高。因此,在實際部署過程中,需要仔細設計通信策略和優化網絡拓撲,降低通信延遲和潛在的網絡擁塞。

 3.MoE架構存在原始缺陷、與現有架構集成難,部分關鍵技術仍有待攻關。

一是MoE仍存在知識混合、知識冗余等原始架構缺陷,容易導致專家同質化嚴重、專業化能力不足等問題。同時,根植于MoE的超參數調整、專家模型設計及協作、動態性適應數據變化、對數據噪聲相對敏感等技術難題仍有待解決。二是MoE架構設計很復雜,涉及網絡類型、專家數量選擇等多個方面。目前FFN、LSTM、CNN、Attention和LoRA等多種網絡架構已被用作專家模型,但各種網絡類型專家混合仍屬于新興研究領域。三是將MoE集成到現有模型框架中對于降低現有模型升級成本、推進MoE廣泛應用至關重要,但可能會損害模型性能,需要進一步優化并行預訓練和推理策略。

MoE未來重點研究方向

 1.通過優化MoE架構、改進門控算法等,提高模型性能和穩定性。

一是業界正在加快研發各種新型MoE架構,以提升模型性能或實用性。如清華和微軟聯合提出MH-MoE5,通過多頭機制彌補MoE原始缺陷,實現專家激活率由8.33%提升至90.71% ,提升模型高效擴展能力;華為提出全新LocMoE架構,并將其嵌入盤古大模型,提升模型通用性、可解釋性和易移植性等。二是多項研究表明,通過改進門控算法或調整訓練策略,能有效提升MoE模型穩定性及性能,如AdvMoE通過算法優化將門控模型和專家模型分開訓練,顯著提高MoE模型的對抗魯棒性和整體效率6;普林斯頓大學和Meta AI聯合提出一種Lory方法,引入因果分段路由策略和基于相似性的數據批處理技術,提升了模型的效率和專家專業化能力7。

 2.構建分布式訓練系統/軟件工具,提升MoE模型訓練效率、降低訓練門檻。

清華團隊發布FastMoE、FasterMoE、SmartMoE3等一系列分布式訓練系統,相比直接使用PyTorch,FastMoE可將訓練速度提升47倍;SmartMoE支持一鍵實現MoE模型分布式訓練,并優化模型訓練性能。微軟的DeepSpeed9系統提供端到端MoE訓練和推理解決方案,結合模型壓縮等技術,可提供更快、更便宜的MoE模型推理服務,與同等質量的密集模型相比,可加速4.5倍,成本降低9倍。斯坦福大學、微軟和谷歌聯合推出的MegaBlocks系統,面向單個GPU上運行多個專家的場景,提升MoE訓練效率,與最先進的Tutel庫相比,端到端訓練速度提升40%。

 3.利用模型蒸餾、硬件優化等技術,降低MoE模型部署難度。

一是通過模型蒸餾、任務級別路由等技術,保留模型性能同時降低模型復雜度。谷歌將Switch Transformer蒸餾回其對應的稠密模型,參數規模降低95%,成功保留了約30-40%的由稀疏性帶來的性能提升,加快了預訓練速度,且在推理過程中支持使用更小的模型。此外,通過任務級別路由技術將整個句子或任務直接路由到一個專家上面,或提取出用于特定服務的子網絡,有助于簡化模型結構。二是研究更適合稀疏計算的硬件優化技術,節省內存、加速計算。研究表明,塊稀疏Flash Attention注意力機制可以進一步減少GPU內存訪問次數,加快計算并節省顯存;結合PagedAttention構建vLLM11(一種LLM推理加速系統),可實現KV緩存零浪費且支持各請求間共享KV緩存,從而降低內存使用,并實現高效內存管理。

 4.通過系統性優化、共享專家、通信結構設計等,降低通信成本。

一是通過系統性優化,平衡模型復雜度與通信開銷,如ScMoE12使用一種通信重疊并行策略,克服分布式MoE模型中通信操作的固有依賴性對并行優化的阻礙,實現11%的訓練速度提升、15%的推理速度提升,且通信時間僅為8×A800-NVLink場景中標準MoE的15%。二是利用共享專家方法,減少分布式系統之間的數據傳輸,如DeepSeekMoE13采用共享專家、細顆粒度專家分割等策略,可有效解決MoE中的參數冗余、路由崩潰等問題,且在145B參數下,僅需約28.5%的計算量即可達到DeepSeek 67B的性能水平。三是通過通信結構設計,提升通信效率,如SCoMoE通過結構化全連接通信,鼓勵數據跨設備通信,結合標記聚類方法,提升了模型性能和效率。

結語

MoE為企業帶來平衡算力成本和計算效率、加快萬億/十萬億模型參數規模擴展、提升大模型實用性等機遇,但也帶來關鍵技術攻關、大規模工程部署、網絡拓撲優化等挑戰。未來應持續探索MoE架構設計、相關算法及策略改進、軟硬件協同優化等技術,加快推動MoE模型研發和業務賦能。同時,結合MOE模型分布式部署,探索千億/萬億參數規模大模型跨數據中心分布式訓練試點驗證。

注釋

1.來源:論文《Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer》

2.參考論文:《Mixture-of-Experts Meets Instruction Tuning: A Winning Combination for Large Language Models》

3.參考論文:《St-moe: Designing stable and transferable sparse expert models》

4.參考論文:《Gshard: Scaling giant models with conditional computation and automatic sharding》

5.參考論文:《Multi-Head Mixture-of-Experts》

6.參考論文:《Robust Mixture-of-Expert Training for Convolutional Neural Networks》

7.參考論文:《Lory: Fully Differentiable Mixture-of-Experts for Autoregressive Language Model Pre-training》

8.參考論文:《SMARTMoE: Effciently Training Sparsely-Activated Models through Combining Offine and Online Parallelization》

9.參考論文:《DeepSpeed-MoE: Advancing Mixture-of-Experts Inference and Training to Power Next-Generation AI Scale》

10.參考論文:《Flashattention: Fast and memory-efficient exact attention with io-awareness》

11.參考論文:《Efficient Memory Management for Large Language Model Serving with PagedAttention》

12.參考論文:《Shortcut-connected Expert Parallelism for Accelerating Mixture-of-Experts.》

13.參考論文:《Deepspeed-moe: Advancing mixture-of-experts inference and training to power next-generation ai scale.》

編 輯:章芳
飛象網版權及免責聲明:
1.本網刊載內容,凡注明來源為“飛象網”和“飛象原創”皆屬飛象網版權所有,未經允許禁止轉載、摘編及鏡像,違者必究。對于經過授權可以轉載,請必須保持轉載文章、圖像、音視頻的完整性,并完整標注作者信息和飛象網來源。
2.凡注明“來源:XXXX”的作品,均轉載自其它媒體,在于傳播更多行業信息,并不代表本網贊同其觀點和對其真實性負責。
3.如因作品內容、版權和其它問題,請在相關作品刊發之日起30日內與本網聯系,我們將第一時間予以處理。
本站聯系電話為86-010-87765777,郵件后綴為cctime.com,冒充本站員工以任何其他聯系方式,進行的“內容核實”、“商務聯系”等行為,均不能代表本站。本站擁有對此聲明的最終解釋權。
相關新聞              
 
人物
愛立信中國區總裁方迎:新質網絡創造新質價值
精彩專題
2024中國算力大會
2024年國際信息通信展
中國信科亮相2024年國際信息通信展
第25屆中國國際光電博覽會
CCTIME推薦
關于我們 | 廣告報價 | 聯系我們 | 隱私聲明 | 本站地圖
CCTIME飛象網 CopyRight © 2007-2024 By CCTIME.COM
京ICP備08004280號-1  電信與信息服務業務經營許可證080234號 京公網安備110105000771號
公司名稱: 北京飛象互動文化傳媒有限公司
未經書面許可,禁止轉載、摘編、復制、鏡像
成人免费观看cn_亚洲五码在线观看视频_女人另类性混交zo_国产成人综合一区_黄色a级片免费看_女人高潮一级片_亚洲性生活网站_久久国产成人精品国产成人亚洲_日本三级福利片_欧美成人三级在线视频_成人午夜精品久久久久久久蜜臀_奇米影音第四色
日韩精品欧美大片| 一区二区三区午夜视频| 国产欧美91| 日韩免费看片| 免费成人性网站| 精品国产亚洲一区二区三区| 激情久久久久久久| 日本久久二区| 激情自拍一区| 国产乱人伦精品一区| 国产高潮在线| 偷拍亚洲精品| 99视频精品全国免费| 91亚洲精品在看在线观看高清| 国产成人精品免费视| 丝袜a∨在线一区二区三区不卡| 国产精品一线| 久久国产精品99国产| 美女久久精品| 国产亚洲欧洲| 天堂√8在线中文| 欧美日一区二区在线观看| 久久麻豆精品| 韩日一区二区| 日本一区二区三区中文字幕| 鲁鲁在线中文| 国产精品v日韩精品v欧美精品网站 | 国产精品欧美日韩一区| 久久在线免费| 精品国产精品国产偷麻豆| 一本色道久久精品| 日韩电影免费网站| 欧美精品91| 亚洲免费毛片| 国产一区二区精品| 久久久久欧美精品| 捆绑调教美女网站视频一区| 久久国产精品亚洲77777| 日韩精品一卡| 精品久久国产一区| 国产乱论精品| 日韩午夜视频在线| 免费日韩av| 亚洲激情不卡| 亚洲少妇一区| 欧美日韩国产亚洲一区| 亚洲调教视频在线观看| 欧美片第1页| 日韩免费视频| 欧美xxxx中国| 国产精品mv在线观看| 日韩精选在线| 日本综合精品一区| 日韩精品一级| 欧美日韩一区二区三区在线电影 | 亚洲欧洲免费| 在线视频亚洲| 国产视频一区免费看| 成人福利视频| 天堂av在线| 午夜精品久久久久久久久久蜜桃| 日本欧美国产| 日韩av专区| 日韩国产欧美| 久久中文字幕二区| 国产精品av一区二区| 久久精品官网| 欧美~级网站不卡| 日韩一区二区免费看| 国产视频亚洲| 日韩中文字幕| 国产精品主播在线观看| 狂野欧美性猛交xxxx| 高潮一区二区| 99riav1国产精品视频| 狠狠色狠狠色综合日日tαg| 日韩中文字幕av电影| 国产视频一区二区在线播放| 精品美女久久| 欧美日韩国产传媒| 六月婷婷一区| 国产福利一区二区三区在线播放| 欧美国产另类| 中文字幕人成乱码在线观看| 美女亚洲一区| 日韩欧美中文字幕电影| 国产精品色婷婷在线观看| 精品久久精品| 99国产精品| 青青伊人久久| 中文在线а√天堂 | 天堂成人国产精品一区| 日韩亚洲精品在线观看| 精品一区视频| 欧美特黄视频| 国产日韩欧美三区| 亚洲精品在线影院| 在线精品观看| 国产理论在线| 亚洲精品一级二级三级| 欧美日韩一区二区国产| 色偷偷色偷偷色偷偷在线视频| 免播放器亚洲| 成人国产精品| 模特精品在线| 高清av一区| 亚洲制服一区| 日韩和的一区二在线| 日韩激情av在线| 欧美日韩亚洲在线观看| 欧美日一区二区在线观看| 99久久精品费精品国产| 国产精品入口久久| 麻豆成人在线| 成人久久久久| 麻豆视频一区二区| 男人的天堂亚洲一区| 欧美日韩视频免费观看| 日韩avvvv在线播放| 极品日韩av| 黄色在线观看www| 国产精品乱战久久久| 亚洲一区二区三区四区五区午夜| 麻豆精品av| 天堂久久av| 亚洲一区区二区| 久久久久一区| а√天堂中文在线资源8| 日韩av在线免费观看不卡| 亚洲免费观看| 中文av在线全新| 国产精品宾馆| 国产视频一区二区在线播放| 99国产精品久久久久久久| 亚洲不卡系列| 伊人久久国产| 神马久久午夜| 麻豆国产欧美一区二区三区| 国产欧美在线观看免费| 美女精品在线| 在线亚洲自拍| 欧美日韩视频一区二区三区| 久久视频一区| 91精品国产成人观看| 欧美丰满日韩| 国产一区日韩| 日韩av午夜在线观看| 在线国产精品一区| 亚洲在线国产日韩欧美| 午夜久久久久| 亚洲免费一区二区| 三级在线观看一区二区 | 国产精品88久久久久久| 亚洲成人va| 日韩成人亚洲| 91精品国产乱码久久久久久久| 色婷婷综合网| 日韩一区三区| 日韩美女一区二区三区在线观看| 精品一区二区三区中文字幕在线| 久久不卡日韩美女| 国产成人精品一区二区三区在线| 精品国产欧美日韩| 日韩美女一区二区三区在线观看| 色偷偷偷在线视频播放| 日韩精品麻豆| 9国产精品视频| 久久亚洲一区| 国产欧美激情| 国产一区二区三区四区大秀| 国产成人黄色| 久久久久蜜桃| 亚洲一区日韩| 日韩欧美中文字幕一区二区三区| 日本一区二区中文字幕| 久久a爱视频| 久久国产日本精品| 香蕉久久久久久久av网站| 亚洲不卡视频| 精品久久美女| 免费av一区| 日韩中文字幕视频网| 欧美极品中文字幕| 91精品国产91久久久久久黑人| aa国产精品| 国产极品久久久久久久久波多结野 | 久久av电影| 宅男在线一区| 欧美亚洲人成在线| 日韩大片在线播放| 丝袜美腿成人在线| 久久精品五月| 国产一级一区二区| 精品视频亚洲| 久久亚洲图片| 国产一区二区精品久| 婷婷亚洲五月| 麻豆久久久久久久| 亚洲精品1区2区| 久久精品国产99国产精品|