体验 Kimi K2.5
原生多模态行动智能体模型 • 256K 上下文 • 即时/思考模式
Kimi K2.5 助手
256K 上下文 • 视觉+文本推理 • 智能体群
Fast Response
Get instant answers powered by our optimized infrastructure
Privacy First
Your conversations are secure and never used for training
Premium Features
Sign in to unlock API access and unlimited conversations
Kimi K2.5 关键指标
来自深度研究报告的核心规模与多模态能力概览。
总参数量
1T
稀疏 MoE 架构的容量规模
激活参数量
32B
按 token 激活的计算量
上下文窗口
256K
支持长上下文任务
视觉编码器
400M
MoonViT 视觉骨干
原生多模态智能体设计
报告将 Kimi K2.5 定位为“原生多模态视觉智能体模型”,把图像、视频与文本作为一等输入。2026 年的版本被描述为从对话模型转向行动智能体的战略升级,可并行协调工具与子智能体处理复杂任务。模型在 Kimi-K2-Base 基础上持续预训练约 15 万亿视觉与文本混合 tokens,奠定了“以视觉编程”、智能体搜索与长程执行的能力基础。
MoonViT 原生多模态
Kimi K2.5 集成 MoonViT 视觉编码器(约 4 亿参数),可原生处理高分辨率图像与视频。报告给出的上限为 4K 图像(4096×2160)与 2K 视频(2048×1080);支持 png、jpeg、webp、gif 等图像格式与 mp4、mpeg、mov、avi、flv、mpg、webm、wmv、3gpp 等视频格式。输入方式为 base64 与文件上传(不支持 URL)。视觉特征在投射到语言模型前进行空间-时间池化处理。
以视觉编程
报告强调“Coding with Vision”能力,K2.5 可将 UI 截图或屏幕录制转化为可运行的前端代码,生成 React 或 HTML/CSS,并输出更具美感的 UI 效果(例如滚动触发动画),为“视觉规格 → 可执行代码”提供直接通路。
自动化视觉调试
K2.5 可以将渲染结果截图与原始设计对照,自动发现差异并迭代修复,形成“感知—生成—验证”的闭环调试流程,提高前端还原度。
视觉逻辑推理
报告指出 K2.5 能在复杂图像上进行算法级推理。例如在 4.5 百万像素迷宫测试中,模型可识别起止点,编写 BFS 等算法并在图像上可视化路径,体现出视觉理解、算法推理与工具处理的协同能力。
智能体群编排
Agent Swarm 是报告中的核心创新:K2.5 可协调最多 100 个子智能体并行执行任务。该机制通过 PARL(并行智能体强化学习)缓解“串行塌缩”,并引入“关键步骤(Critical Steps)”作为并行执行的延迟优化指标。报告称在 Swarm 模式下可降低端到端运行时长约 80%,效率提升最高可达 4.5 倍。
智能体基准领先
报告展示 K2.5 在智能体与推理基准上的表现:BrowseComp(Swarm Mode)78.4%,HLE-Full(with tools)50.2%,AIME 2025 96.1%。这些结果用于说明其在智能体任务上的竞争力。
模型摘要
报告将 K2.5 描述为高效稀疏 MoE Transformer,强调在巨大参数容量下仅激活少量专家以实现高效推理。以下架构指标来自报告中的模型摘要,用于理解其性能基线。
万亿参数稀疏 MoE
总参数 1T、每 token 激活参数 32B,依靠稀疏激活在保持容量的同时降低计算开销。
384 专家与共享路由
384 个专家,每 token 选择 8 个专家并包含 1 个共享专家,提升表示密度与专业化能力。
61 层(含 1 层 Dense)
共 61 层结构,其中包含 1 个 Dense 层,用于提升整体稳定性与优化能力。
MLA 注意力与头数
Multi-head Latent Attention(MLA),64 个注意力头,注意力隐藏维度 7168,强调长上下文一致性。
MoE 隐藏维度 2048
每个专家隐藏维度为 2048,在效率与表达能力之间取得平衡。
160K 词表 + 256K 上下文
160K 词表与 256K 上下文窗口支撑长文档与多模态 tokens 的统一处理。
SwiGLU 激活函数
报告明确列出 SwiGLU 作为激活函数,与 MLA 与 MoE 路由共同构成核心技术栈。
基准表现与验证
报告重点展示 K2.5 在智能体、推理与多模态基准上的能力,这些结果被描述为 2026 年初评测表现,覆盖导航、工具推理与视觉理解等场景。
BrowseComp(Swarm Mode)78.4%
连续网页导航与综合能力基准,体现智能体群并行执行的优势。
HLE-Full(with tools)50.2%
在工具使用条件下的 Humanity's Last Exam 表现,强调长程推理能力。
AIME 2025 96.1%
数学推理类基准的高准确率表现。
OCRBench 92.3
文档智能与视觉文本理解基准,强调 OCR 能力。
MMMU-Pro 78.5 & VideoMMMU 86.6
多模态图像与视频推理基准表现。
MathVision 84.2
视觉数学推理与图像问题求解能力。
行业应用
报告给出了早期生产落地案例,覆盖金融、生命科学、法律与办公等高密度文档与工具链场景。
金融研究
报告举例称 AlphaEngine 等平台使用 K2.5 分析图表、执行 300 步工具调用并自动生成宏观报告,成本可降低约 60%。
生命科学
XtalPi 等团队利用 K2.5 读取化学公式并从科研文献中提取关键信息,加速研究流程。
法律与办公智能
用于合同审核与风险合规分析等高密度文档流程,并生成 PDF、幻灯片、表格等交付物。
视觉前端工程
将视觉规格转化为可运行 UI,并在视觉对齐中迭代优化,降低设计与工程协作成本。
智能体搜索工作流
通过并行智能体执行研究与验证步骤,提高多源信息综合的效率与速度。
开发者工具链
Kimi Code 与 VS Code、Cursor、Zed 等编辑器集成,支持图像/视频规格驱动的智能体工作流。
部署与优化
报告覆盖开源发布、API 接入与本地推理的关键策略,并给出多模态输入约束与工具生态建议。
原生 INT4 量化
K2.5 支持原生 INT4 量化,报告称在消费级硬件上可实现约 2 倍生成速度提升。
本地部署参考配置
报告给出多种推理配置:FP16/BF16 需 4× NVIDIA H200(或更多)并可达 >40 tokens/s;4-bit 动态 GGUF 配置在 256GB 统一内存下约 10–20 tokens/s;1.8-bit(Unsloth)在单卡 24GB GPU + MoE offload 条件下约 10 tokens/s;量化权重最低磁盘需求 >240GB。
OpenAI / Anthropic 兼容 API
K2.5 可通过 platform.moonshot.ai 以 OpenAI 与 Anthropic 兼容格式接入,便于无缝迁移现有应用。
Kimi Code 生态
Kimi Code CLI 与 VS Code、Cursor、Zed 集成,可直接在 IDE 中使用图像/视频规格驱动的智能体工作流。
视觉输入约束
支持 png、jpeg、webp、gif 图像与 mp4、mpeg、mov、avi、flv、mpg、webm、wmv、3gpp 视频;输入方式为 base64 与文件上传(不支持 URL);图像最高 4K,视频最高 2K。
能力与基准背景
报告列出 OCRBench 92.3、MMMU-Pro 78.5、VideoMMMU 86.6、MathVision 84.2,以及 SWE-Bench Verified 76.8、multilingual coding 73.0 等结果,用于说明多模态与编程能力边界。
Kimi K2.5 常见问题
基于报告的关键问题梳理,便于评估与选型。
Kimi K2.5 为什么被称为行动智能体模型?
报告强调 K2.5 是 2026 年 1 月的行动智能体转型版本,目标是并行执行复杂任务而非单线程对话,核心实现是 Agent Swarm 的并行编排能力。
Kimi K2.5 如何处理多模态输入?
K2.5 集成 MoonViT(约 4 亿参数)进行原生视觉处理,支持 4K 图像与 2K 视频,兼容多种格式。输入通过 base64 或文件上传,报告明确不支持 URL 输入。
Agent Swarm 有何不同?
Agent Swarm 允许最多 100 个子智能体并行执行任务。报告称其使用 PARL 与“关键步骤”指标优化并行效率,端到端时延可降低约 80%,效率提升最高可达 4.5 倍。
报告中有哪些关键基准成绩?
智能体推理基准包括 BrowseComp 78.4%(Swarm Mode)、HLE-Full(with tools)50.2%、AIME 2025 96.1%;多模态基准包括 OCRBench 92.3、MMMU-Pro 78.5、VideoMMMU 86.6、MathVision 84.2;软件工程方面报告给出 SWE-Bench Verified 76.8 与 multilingual coding 73.0。
K2.5 的部署方式有哪些?
报告指出可通过平台 API 接入,也提供本地部署路径与量化方案,并列出多种硬件配置与磁盘要求。
K2.5 在真实行业中的应用?
报告举例金融研究、生命科学与法律/办公场景的应用案例,用于说明 K2.5 在复杂文档与工具链流程中的可用性。
用 Kimi K2.5 构建应用
从 API 开始,或查看定价以扩展使用规模。