
NVIDIA's brand new open-source model: three times the throughput, can run on a single card, and has achieved state-of-the-art inference

英偉達推出 Llama Nemotron Super v1.5 開源模型,專為複雜推理和智能體任務設計。該模型在科學、數學、編程等領域實現 SOTA 表現,吞吐量提升至前代的 3 倍,且可在單卡高效運行。採用神經架構搜索(NAS)技術,優化了準確率和效率,降低了運行成本。模型架構中包含跳過注意力機制和可變前饋網絡,提升了性能和效率。
眾所周知,老黃不僅賣鏟子(GPU),還自己下場開礦(造模型)。
英偉達最新推出的Llama Nemotron Super v1.5開源模型就專為複雜推理和 agnet 任務量身打造。
模型在科學、數學、編程及 agent 任務中實現 SOTA 表現的同時,還將吞吐量提升至前代的 3 倍,且可在單卡高效運行,實現更準、更快、更輕的 “既要又要還要”。

這是怎麼做到的?
模型介紹
Llama Nemotron Super v1.5 是 Llama-3.3-Nemotron-Super-49B-V1.5 的簡稱。它是 Llama-3.3-Nemotron-Super-49B-V1 的升級版本(該模型是 Meta 的 Llama-3.3-70B-Instruct 的衍生模型),專為複雜推理和智能體任務設計。
模型架構
Llama Nemotron Super v1.5採用神經架構搜索(Neural Architecture Search,NAS),使該模型在準確率和效率之間實現了良好的平衡,將吞吐量的提升有效轉化為更低的運行成本。
(注:NAS 的目標是通過搜索算法從大量的可能架構中找到最優的神經網絡結構,利用自動化方法替代人工設計神經網絡架構,從而提高模型的性能和效率。)

在 Llama Nemotron Super v1.5 中,NAS 算法生成了非標準、非重複的網絡模塊(blocks)。相較於傳統的 Transformer,其包含以下兩類變化:
- 跳過注意力機制(Skip attention):在某些模塊中,直接跳過了注意力層,或者只用一個線性層來代替。
- 可變前饋網絡(Variable FFN):在前饋網絡(Feedforward Network)中,不同模塊採用了不同的擴展/壓縮比。
由此,模型通過跳過 attention 或改變 FFN 寬度以減少 FLOPs,從而在資源受限時更高效地運行模型。
之後,研究團隊還對原始的 Llama 模型(Llama 3.3 70B Instruct)進行了逐模塊的蒸餾(block-wise distillation),通過對每個模塊構造多個變體,並在所有模塊結構中搜索組合,從而構建一個模型。
使它既能滿足在單個 H100 80GB 顯卡上的吞吐量和內存要求,又儘量減少性能損失。
訓練與數據集
模型首先在 FineWeb、Buzz-V1.2 和 Dolma 三個數據集共 400 億個 token 的訓練數據上進行了知識蒸餾(knowledge distillation,KD),重點關注英語單輪和多輪聊天。
在後訓練階段,模型通過結合監督微調(SFT)和強化學習(RL)的方法,以進一步提升模型在代碼、數學、推理和指令遵循等關鍵任務上的表現。
這些數據既包括來自公開語料庫的題目,也包含人工合成的問答樣本,其中部分題目配有開啓和關閉推理的答案,旨在增強模型對推理模式的辨別能力。
英偉達表示數據集將在未來幾周內發佈。
總的來説,Llama Nemotron Super V1.5 是一個通過 NAS 自動優化架構、精簡計算圖的 Llama 3.3 70B Instruct 變體。它針對單卡運行場景做了結構簡化、知識蒸餾訓練與後訓練,兼顧高準確性、高吞吐量與低資源佔用,特別適合英語對話類任務及編程任務的部署。
此外,在部署方面,英偉達延續了其一貫的生態優勢:
我們的 AI 模型專為在 NVIDIA GPU 加速系統上運行而設計和/或優化。通過充分利用 NVIDIA 的硬件(如 GPU 核心)和軟件框架(如 CUDA 庫),相比僅依賴 CPU 的方案,模型在訓練和推理階段實現了顯著的速度提升。
該模型現已開源。開發者可以在 build.nvidia.com 體驗 Llama Nemotron Super v1.5 或直接從 Hugging Face 下載模型。
One more thing
作為英偉達最新發布的開源大語言模型,Llama Nemotron Super v1.5 隸屬於英偉達 Nemotron 生態,該生態集成了大語言模型、訓練與推理框架、優化工具和企業級部署方案,旨在實現高性能、可控性強、易於擴展的生成式 AI 應用開發。

為滿足不同場景需求與用户定位,英偉達在此生態的基礎上推出了三個不同定位的大語言模型系列——Nano、Super 和 Ultra。

其中,Nano 系列針對成本效益和邊緣部署,適合部署在邊緣設備(如移動端、機器人、IoT 設備等)或成本敏感型場景(比如本地運行、離線場景、商業小模型推理)。
Super 系列則針對單個 GPU 上平衡的精度和計算效率,它可以在一張高性能 GPU(如 H100)上運行,不需要多卡或大型集羣。它的精度比 Nano 高,但比 Ultra 小巧,適合企業開發者或中型部署。我們上面提到的 Llama Nemotron Super v1.5 就屬於這一系列。
Ultra 則致力於數據中心的最大精度,專為在數據中心、超算集羣、多張 GPU上運行而設計,面向複雜推理、大規模生成、高保真對話等對精度要求極高的任務。
目前,Nemotron 已獲得 SAP、ServiceNow、Microsoft、Accenture、CrowdStrike、Deloitte 等企業支持或集成使用,用於構建面向企業級流程自動化和複雜問題解決的 AI 智能體平台。
此外,在 Amazon Bedrock Marketplace 中也能通過 NVIDIA NIM 微服務調用 Nemotron 模型,簡化部署流程,支持雲端、混合架構等多種運營方案。
本文作者:量子位,來源:量子位,原文標題:《英偉達全新開源模型:三倍吞吐、單卡可跑,還拿下推理 SOTA》
