通義千問實現“全尺寸、全模態(tài)”開源

陳奇杰2023-12-01 19:12

經濟觀察網記者陳奇杰 12月1日，阿里云宣布通義千問720億參數模型Qwen-72B開源，一同開源的還有18億參數模型Qwen-1.8B和音頻大模型Qwen-Audio。加上之前開源的70億、140億參數的2款大語言模型，以及視覺理解模型Qwen-VL，通義千問實現了“全尺寸、全模態(tài)”開源。

“開源生態(tài)對促進中國大模型的技術進步與應用落地至關重要，通義千問將持續(xù)投入開源，希望成為‘AI時代最開放的大模型’，與伙伴們共同促進大模型生態(tài)建設。”阿里云CTO周靖人說道。

阿里云方面表示，此前中國大模型市場還沒出現足以對標國外Llama 2-70B的優(yōu)質開源模型，Qwen-72B抬升了開源大模型的尺寸和性能，是業(yè)界最強開源模型，填補了國內空白。基于Qwen-72B，大中型企業(yè)可開發(fā)商業(yè)應用，高校、科研院所可開展AI for Science等科研工作。

據周靖人稱，8月以來開源的大模型Qwen-7B（70億參數）、Qwen-14B（140億參數）和視覺理解模型Qwen-VL得到中小企業(yè)和個人開發(fā)者的青睞，累計下載量超過150萬，催生出150多款新模型、新應用。

本次開源的Qwen-72B性能更勝一籌，在10個權威基準測評中奪得開源模型最優(yōu)成績，在部分測評中超越閉源的GPT-3.5和GPT-4。據悉，Qwen-72B可以處理最多32k的長文本輸入，在長文本理解測試集LEval上取得了超越ChatGPT-3.5-16k的效果。研發(fā)團隊優(yōu)化了Qwen-72B的指令遵循、工具使用等技能，使之能更好地被下游應用集成。

用戶可在魔搭社區(qū)直接體驗Qwen系列模型效果，也可通過阿里云靈積平臺調用模型API（應用程序接口），或基于阿里云百煉平臺定制大模型應用。阿里云人工智能平臺PAI針對通義千問全系列模型進行深度適配，推出了輕量級微調、全參數微調、分布式訓練、離線推理驗證、在線服務部署等服務。

另外，發(fā)布會上的另一開源模型Qwen-1.8B則“向下探底”，成為中國尺寸最小的開源大模型，推理2K長度文本內容僅需3G顯存，可在消費級終端部署。

周靖人還提到，通義千問閉源模型也在持續(xù)進化，一個月前發(fā)布的通義千問2.0版閉源模型，最近已進階至2.1版，上下文窗口長度擴展到32k，代碼理解生成能力、數學推理能力、中英文百科知識、幻覺誘導抵抗能力分別提升30%、10%、近5%和14%，用戶可以在通義千問APP免費體驗最新版本的閉源模型。