在线体验 Nemotron 3 Super 与 Nano

在 Nemotron online(nemotron3)playground 里同时测试 Nemotron 3 Super 与 Nano,比较长上下文推理与吞吐表现;准备部署时可直接跳转论文、HuggingFace 模型卡或 GitHub 资源。这个试玩站把关键步骤放在一条清晰流程里,便于快速评估。

Nemotron 3 在线 Playground

在 Nemotron 3 Nano 与 Super 之间切换,实时对比模型表现。选择模型、输入问题,并在长上下文任务中测试 Nemotron 3 Super 的 API 风格提示词。

Nemotron 3 速览

在不增加算力成本的情况下扩展规模

Nemotron 3 保持高总参数量,同时每个 token 只激活少量专家,从而在 Super 与 Nano 上实现高效推理与长上下文能力。

120B / 12B

Super:总参数 120B,激活 12B

1M

上下文窗口最高 1M tokens

30B / 3.5B

Nano:总参数 30B,激活 3.5B

团队如何使用 Nemotron 3

实用评测路径

这些工作流是验证长上下文推理、智能体行为与吞吐表现的最快方式,帮助你在部署前做出判断。

长文档综合

在一个提示窗口内总结报告、法律文本与多章节研究。

多文件代码分析

让模型浏览大仓库、解释架构并提出重构建议。

智能体工具流程

测试多步规划与工具调用,覆盖研究、运维与自动化任务。

检索 + 1M 上下文

对比 RAG 与全量上下文,找到更适合的方案。

本地部署规划

评估量化目标、显存需求与延迟,决定上云或本地。

多语言评测

跨语言运行相同提示,测一致性与质量。

研究亮点

架构与基准可视化

来自论文与共享素材的图像,展示 Nemotron 3 架构与评测快照。

Nemotron 3 Super 架构图,突出混合 Mamba-Transformer 层
架构概览(来源:Nemotron-3 论文 PDF)。
Nemotron 3 Super 基准图,展示准确率与吞吐权衡
基准截图(来源:Nemotron-3 论文 PDF)。

Nemotron 3 论文图解

论文可视化

从论文中提取的关键结构图与基准曲线。

架构与路由

Nemotron 3 Nano 使用的 MoE 路由示意图。

论文将 Nemotron 3(Nano、Super、Ultra)描述为混合 Mamba-Transformer 的专家混合(MoE)系列,兼顾高吞吐与最高 1M token 上下文。

多数层交错使用 Mamba-2 与 MoE 模块,仅保留少量自注意力层;更大模型引入 LatentMoE 与 MTP 层,以提升质量和生成速度。

后训练使用多环境强化学习,增强推理能力、多步工具调用能力,以及预算可控推理能力。

Nemotron 3 MoE 路由图,展示专家选择流程细节
MoE 路由(基础)
Nemotron 3 Latent MoE 路由图,用于混合专家门控
Latent MoE 路由

精度-效率权衡

通过调整 token 预算,展示 Nemotron 3 Nano 的精度-效率权衡曲线。

推理阶段的预算控制可为思维链设置最大 token 预算。

当达到预算上限时,追加 `</think>` token,可基于已有思维轨迹继续生成最终回答。

下方曲线展示 token 预算变化时,精度与效率如何相互权衡。

Nemotron 3 AIME25 基准图,来自论文快照
AIME25
Nemotron 3 GPQA 基准图,来自论文快照
GPQA
Nemotron 3 LiveCodeBench 基准图,来自论文快照
LiveCodeBench
Nemotron 3 MMLU Pro 基准图,来自论文快照
MMLU Pro

Nemotron 3 官方资源

NVIDIA Nemotron 3 高效与开放智能资源

使用以下官方资源获取准确论文细节、HuggingFace 模型卡、GitHub 链接与 Super 基准背景。

Nemotron 3 official source logo for NVIDIA Research resources site

NVIDIA Nemotron 3 Research Lab

NVIDIA Nemotron 3 高效与开放智能概览、实验室与发布说明。

Nemotron 3 paper source logo for arXiv technical report library

Nemotron 3 paper on arXiv

Nemotron 3 论文正文,包含方法、训练与评测细节。

Nemotron 3 model card logo for Hugging Face Super download page

Nemotron 3 Super HuggingFace

Nemotron 3 Super 在 HuggingFace 的模型卡与下载。

Nemotron 3 model card logo for Hugging Face Nano download page

NVIDIA Nemotron 3 Nano 30B A3B FP8

Nemotron 3 Nano 30B A3B FP8 在 HuggingFace 的模型卡与下载。

Nemotron 3 official source logo for NVIDIA Developer Blog resource

Nemotron 3 Super benchmark blog

NVIDIA 开发者博客发布 Nemotron 3 Super 基准亮点与背景。

Nemotron 3 official source logo for NVIDIA white paper download

Nemotron 3 white paper PDF

Nemotron 3 白皮书 PDF,包含更深入的技术细节与设计说明。

Nemotron 3 架构亮点

混合 MoE + 长上下文推理

Nemotron 3 结合混合 Mamba-Transformer MoE 骨干、长上下文与稳健的后训练,面向高吞吐下的强智能体表现。

Nemotron 3 架构亮点

Nemotron 3 结合混合 Mamba-Transformer MoE 骨干、长上下文与稳健的后训练,面向高吞吐下的强智能体表现。

采用混合 Mamba-Transformer 的专家混合设计,在保持推理质量的同时提升吞吐。

Nemotron 3 architecture wireframe highlighting hybrid MoE and Mamba layers

选择合适的 Nemotron 3 模型

Nano 注重效率,Super 面向智能体规模

Nemotron 3 是一套模型家族:Nano 面向高效本地或边缘使用,Super 面向高端智能体推理,Ultra 提升准确率上限。Nano 与 Super 均为开放模型,支持长上下文,包括 NVIDIA Nemotron 3 Nano 30B A3B FP8。

选择合适的 Nemotron 3 模型

Nemotron 3 是一套模型家族:Nano 面向高效本地或边缘使用,Super 面向高端智能体推理,Ultra 提升准确率上限。Nano 与 Super 均为开放模型,支持长上下文,包括 NVIDIA Nemotron 3 Nano 30B A3B FP8。

  • Nemotron 3 Nano:总 30B / 激活 3.5B,最长 1M 上下文。
  • Nemotron 3 Super:总 120B / 激活 12B,最长 1M 上下文。
  • 全系采用混合 Mamba-Transformer MoE 架构。
  • 开放权重、技术报告与可复现的训练配方。
Pick the right model comparison

社区最常被问到的

来自 YouTube、Reddit、Perplexity AI 和 Artificial Analysis 的信号

社区讨论的需求集中在本地部署、长上下文记忆与智能体流程,同时希望有开放工具和更好的安全控制。

本地与离线部署

需要清晰的量化与显存需求说明,以及单卡或本地服务器运行指南。

长上下文记忆

在超长文档、代码库、多文件推理中保持稳定表现,不必频繁切块。

智能体工作流

更好的多智能体编排模板、工具调用与长任务流程。

吞吐与成本效率

生产推理需要高 tokens/s 与可预测的延迟。

开放生态工具

与 LangChain、AutoGen、以及本地 UI 集成,并提供复现结果的开放配方。

控制与多语言质量

减少过度限制,提升非英语场景的质量与一致性。

视频讲解

社区演示与初看

来自社区的快速视频,展示 Nemotron-3 Super 的实际表现和开发者测试重点。

来自你整理的 YouTube 笔记中的社区视频。

用清晰流程体验 Nemotron 3 Super 与 Nano

打开 playground 测试 Nemotron 3 Super 或 Nano,或 Nemotron 3 Super API,然后查看官方资源与模型细节。

常见问题

关于本站的问题

社区反馈

构建者持续提出的需求

本地 LLM 构建者

部署

需要更清晰的量化与显存指导,才能在单卡上跑 Super 或 Nano。

智能体开发者

流程

期待可扩展的多智能体模板与工具调用范式。

研究分析师

推理

需要 1M 上下文在大文档和代码库中依旧连贯。

成本敏感团队

效率

高吞吐与可预测的延迟,比花哨 UI 更重要。

工具集成者

生态

开放配方与 LangChain/AutoGen 的集成,是推动落地的最快路径。

创作者

控制

希望非英语场景更强,同时对对齐限制有更好控制。