在线体验 Nemotron 3 Super 与 Nano
Nemotron 3 速览
在不增加算力成本的情况下扩展规模
Nemotron 3 保持高总参数量,同时每个 token 只激活少量专家,从而在 Super 与 Nano 上实现高效推理与长上下文能力。
Super:总参数 120B,激活 12B
上下文窗口最高 1M tokens
Nano:总参数 30B,激活 3.5B
快速入口
直达大家最常搜索的页面
覆盖 Super 在线试玩、基准解读与 Ultra 状态等意图。
团队如何使用 Nemotron 3
实用评测路径
这些工作流是验证长上下文推理、智能体行为与吞吐表现的最快方式,帮助你在部署前做出判断。
长文档综合
在一个提示窗口内总结报告、法律文本与多章节研究。
多文件代码分析
让模型浏览大仓库、解释架构并提出重构建议。
智能体工具流程
测试多步规划与工具调用,覆盖研究、运维与自动化任务。
检索 + 1M 上下文
对比 RAG 与全量上下文,找到更适合的方案。
本地部署规划
评估量化目标、显存需求与延迟,决定上云或本地。
多语言评测
跨语言运行相同提示,测一致性与质量。
研究亮点
架构与基准可视化
来自论文与共享素材的图像,展示 Nemotron 3 架构与评测快照。


Nemotron 3 论文图解
论文可视化
从论文中提取的关键结构图与基准曲线。
架构与路由
Nemotron 3 Nano 使用的 MoE 路由示意图。
论文将 Nemotron 3(Nano、Super、Ultra)描述为混合 Mamba-Transformer 的专家混合(MoE)系列,兼顾高吞吐与最高 1M token 上下文。
多数层交错使用 Mamba-2 与 MoE 模块,仅保留少量自注意力层;更大模型引入 LatentMoE 与 MTP 层,以提升质量和生成速度。
后训练使用多环境强化学习,增强推理能力、多步工具调用能力,以及预算可控推理能力。


精度-效率权衡
通过调整 token 预算,展示 Nemotron 3 Nano 的精度-效率权衡曲线。
推理阶段的预算控制可为思维链设置最大 token 预算。
当达到预算上限时,追加 `</think>` token,可基于已有思维轨迹继续生成最终回答。
下方曲线展示 token 预算变化时,精度与效率如何相互权衡。




Nemotron 3 官方资源
NVIDIA Nemotron 3 高效与开放智能资源
使用以下官方资源获取准确论文细节、HuggingFace 模型卡、GitHub 链接与 Super 基准背景。
Nemotron 3 架构亮点
混合 MoE + 长上下文推理
Nemotron 3 结合混合 Mamba-Transformer MoE 骨干、长上下文与稳健的后训练,面向高吞吐下的强智能体表现。
Nemotron 3 架构亮点
Nemotron 3 结合混合 Mamba-Transformer MoE 骨干、长上下文与稳健的后训练,面向高吞吐下的强智能体表现。

选择合适的 Nemotron 3 模型
Nano 注重效率,Super 面向智能体规模
Nemotron 3 是一套模型家族:Nano 面向高效本地或边缘使用,Super 面向高端智能体推理,Ultra 提升准确率上限。Nano 与 Super 均为开放模型,支持长上下文,包括 NVIDIA Nemotron 3 Nano 30B A3B FP8。
选择合适的 Nemotron 3 模型
Nemotron 3 是一套模型家族:Nano 面向高效本地或边缘使用,Super 面向高端智能体推理,Ultra 提升准确率上限。Nano 与 Super 均为开放模型,支持长上下文,包括 NVIDIA Nemotron 3 Nano 30B A3B FP8。
- Nemotron 3 Nano:总 30B / 激活 3.5B,最长 1M 上下文。
- Nemotron 3 Super:总 120B / 激活 12B,最长 1M 上下文。
- 全系采用混合 Mamba-Transformer MoE 架构。
- 开放权重、技术报告与可复现的训练配方。

社区最常被问到的
来自 YouTube、Reddit、Perplexity AI 和 Artificial Analysis 的信号
社区讨论的需求集中在本地部署、长上下文记忆与智能体流程,同时希望有开放工具和更好的安全控制。
本地与离线部署
需要清晰的量化与显存需求说明,以及单卡或本地服务器运行指南。
长上下文记忆
在超长文档、代码库、多文件推理中保持稳定表现,不必频繁切块。
智能体工作流
更好的多智能体编排模板、工具调用与长任务流程。
吞吐与成本效率
生产推理需要高 tokens/s 与可预测的延迟。
开放生态工具
与 LangChain、AutoGen、以及本地 UI 集成,并提供复现结果的开放配方。
控制与多语言质量
减少过度限制,提升非英语场景的质量与一致性。
最新文章
来自 Nemotron 3 博客的最新更新
围绕长上下文、智能体与部署的简明实战文章。
视频讲解
社区演示与初看
来自社区的快速视频,展示 Nemotron-3 Super 的实际表现和开发者测试重点。
来自你整理的 YouTube 笔记中的社区视频。
用清晰流程体验 Nemotron 3 Super 与 Nano
打开 playground 测试 Nemotron 3 Super 或 Nano,或 Nemotron 3 Super API,然后查看官方资源与模型细节。
常见问题
关于本站的问题
社区反馈
构建者持续提出的需求
本地 LLM 构建者
部署需要更清晰的量化与显存指导,才能在单卡上跑 Super 或 Nano。
智能体开发者
流程期待可扩展的多智能体模板与工具调用范式。
研究分析师
推理需要 1M 上下文在大文档和代码库中依旧连贯。
成本敏感团队
效率高吞吐与可预测的延迟,比花哨 UI 更重要。
工具集成者
生态开放配方与 LangChain/AutoGen 的集成,是推动落地的最快路径。
创作者
控制希望非英语场景更强,同时对对齐限制有更好控制。



