体验 Kimi K2.5

原生多模态行动智能体模型 • 256K 上下文 • 即时/思考模式

在线

•

由 Kimi K2.5 稀疏 MoE 驱动（总参 1T / 激活 32B / 384 专家）

Kimi K2.5 助手

256K 上下文 • 视觉+文本推理 • 智能体群

剩余 10 条免费消息

你好，我是 Kimi K2.5

原生多模态智能体模型，支持 256K 上下文与视觉+文本推理，面向工具驱动的工作流。

💡 试试问：

"解释量子计算"

🎯 或者试试：

"编写一个 Python 函数"

📝 甚至可以：

"帮我做作业"

🚀 还有更多：

"创建商业计划"

启用联网搜索 (仅限标准版/高级版)

⌘/Ctrl + Enter to send•Shift + Enter for new line

10 free messages

🚀

Fast Response

Get instant answers powered by our optimized infrastructure

🔒

Privacy First

Your conversations are secure and never used for training

💎

Premium Features

Kimi K2.5 关键指标

来自深度研究报告的核心规模与多模态能力概览。

总参数量

稀疏 MoE 架构的容量规模

激活参数量

32B

按 token 激活的计算量

上下文窗口

256K

支持长上下文任务

视觉编码器

400M

MoonViT 视觉骨干

核心特性

原生多模态智能体设计

报告将 Kimi K2.5 定位为“原生多模态视觉智能体模型”，把图像、视频与文本作为一等输入。2026 年的版本被描述为从对话模型转向行动智能体的战略升级，可并行协调工具与子智能体处理复杂任务。模型在 Kimi-K2-Base 基础上持续预训练约 15 万亿视觉与文本混合 tokens，奠定了“以视觉编程”、智能体搜索与长程执行的能力基础。

MoonViT 原生多模态

Kimi K2.5 集成 MoonViT 视觉编码器（约 4 亿参数），可原生处理高分辨率图像与视频。报告给出的上限为 4K 图像（4096×2160）与 2K 视频（2048×1080）；支持 png、jpeg、webp、gif 等图像格式与 mp4、mpeg、mov、avi、flv、mpg、webm、wmv、3gpp 等视频格式。输入方式为 base64 与文件上传（不支持 URL）。视觉特征在投射到语言模型前进行空间-时间池化处理。

以视觉编程

报告强调“Coding with Vision”能力，K2.5 可将 UI 截图或屏幕录制转化为可运行的前端代码，生成 React 或 HTML/CSS，并输出更具美感的 UI 效果（例如滚动触发动画），为“视觉规格 → 可执行代码”提供直接通路。

自动化视觉调试

K2.5 可以将渲染结果截图与原始设计对照，自动发现差异并迭代修复，形成“感知—生成—验证”的闭环调试流程，提高前端还原度。

视觉逻辑推理

报告指出 K2.5 能在复杂图像上进行算法级推理。例如在 4.5 百万像素迷宫测试中，模型可识别起止点，编写 BFS 等算法并在图像上可视化路径，体现出视觉理解、算法推理与工具处理的协同能力。

智能体群编排

Agent Swarm 是报告中的核心创新：K2.5 可协调最多 100 个子智能体并行执行任务。该机制通过 PARL（并行智能体强化学习）缓解“串行塌缩”，并引入“关键步骤（Critical Steps）”作为并行执行的延迟优化指标。报告称在 Swarm 模式下可降低端到端运行时长约 80%，效率提升最高可达 4.5 倍。

智能体基准领先

报告展示 K2.5 在智能体与推理基准上的表现：BrowseComp（Swarm Mode）78.4%，HLE-Full（with tools）50.2%，AIME 2025 96.1%。这些结果用于说明其在智能体任务上的竞争力。

模型摘要

报告将 K2.5 描述为高效稀疏 MoE Transformer，强调在巨大参数容量下仅激活少量专家以实现高效推理。以下架构指标来自报告中的模型摘要，用于理解其性能基线。

万亿参数稀疏 MoE

总参数 1T、每 token 激活参数 32B，依靠稀疏激活在保持容量的同时降低计算开销。

384 专家与共享路由

384 个专家，每 token 选择 8 个专家并包含 1 个共享专家，提升表示密度与专业化能力。

61 层（含 1 层 Dense）

共 61 层结构，其中包含 1 个 Dense 层，用于提升整体稳定性与优化能力。

MLA 注意力与头数

Multi-head Latent Attention（MLA），64 个注意力头，注意力隐藏维度 7168，强调长上下文一致性。

MoE 隐藏维度 2048

每个专家隐藏维度为 2048，在效率与表达能力之间取得平衡。

160K 词表 + 256K 上下文

160K 词表与 256K 上下文窗口支撑长文档与多模态 tokens 的统一处理。

SwiGLU 激活函数

报告明确列出 SwiGLU 作为激活函数，与 MLA 与 MoE 路由共同构成核心技术栈。

基准表现与验证

报告重点展示 K2.5 在智能体、推理与多模态基准上的能力，这些结果被描述为 2026 年初评测表现，覆盖导航、工具推理与视觉理解等场景。

BrowseComp（Swarm Mode）78.4%

连续网页导航与综合能力基准，体现智能体群并行执行的优势。

HLE-Full（with tools）50.2%

在工具使用条件下的 Humanity's Last Exam 表现，强调长程推理能力。

AIME 2025 96.1%

数学推理类基准的高准确率表现。

OCRBench 92.3

文档智能与视觉文本理解基准，强调 OCR 能力。

MMMU-Pro 78.5 & VideoMMMU 86.6

多模态图像与视频推理基准表现。

MathVision 84.2

视觉数学推理与图像问题求解能力。

应用场景

行业应用

报告给出了早期生产落地案例，覆盖金融、生命科学、法律与办公等高密度文档与工具链场景。

金融研究

报告举例称 AlphaEngine 等平台使用 K2.5 分析图表、执行 300 步工具调用并自动生成宏观报告，成本可降低约 60%。

生命科学

XtalPi 等团队利用 K2.5 读取化学公式并从科研文献中提取关键信息，加速研究流程。

法律与办公智能

用于合同审核与风险合规分析等高密度文档流程，并生成 PDF、幻灯片、表格等交付物。

视觉前端工程

将视觉规格转化为可运行 UI，并在视觉对齐中迭代优化，降低设计与工程协作成本。

智能体搜索工作流

通过并行智能体执行研究与验证步骤，提高多源信息综合的效率与速度。

开发者工具链

Kimi Code 与 VS Code、Cursor、Zed 等编辑器集成，支持图像/视频规格驱动的智能体工作流。

部署与优化

报告覆盖开源发布、API 接入与本地推理的关键策略，并给出多模态输入约束与工具生态建议。

原生 INT4 量化

K2.5 支持原生 INT4 量化，报告称在消费级硬件上可实现约 2 倍生成速度提升。

本地部署参考配置

报告给出多种推理配置：FP16/BF16 需 4× NVIDIA H200（或更多）并可达 >40 tokens/s；4-bit 动态 GGUF 配置在 256GB 统一内存下约 10–20 tokens/s；1.8-bit（Unsloth）在单卡 24GB GPU + MoE offload 条件下约 10 tokens/s；量化权重最低磁盘需求 >240GB。

OpenAI / Anthropic 兼容 API

K2.5 可通过 platform.moonshot.ai 以 OpenAI 与 Anthropic 兼容格式接入，便于无缝迁移现有应用。

Kimi Code 生态

Kimi Code CLI 与 VS Code、Cursor、Zed 集成，可直接在 IDE 中使用图像/视频规格驱动的智能体工作流。

视觉输入约束

支持 png、jpeg、webp、gif 图像与 mp4、mpeg、mov、avi、flv、mpg、webm、wmv、3gpp 视频；输入方式为 base64 与文件上传（不支持 URL）；图像最高 4K，视频最高 2K。

能力与基准背景

报告列出 OCRBench 92.3、MMMU-Pro 78.5、VideoMMMU 86.6、MathVision 84.2，以及 SWE-Bench Verified 76.8、multilingual coding 73.0 等结果，用于说明多模态与编程能力边界。

FAQ

Kimi K2.5 常见问题

基于报告的关键问题梳理，便于评估与选型。

Kimi K2.5 为什么被称为行动智能体模型？

报告强调 K2.5 是 2026 年 1 月的行动智能体转型版本，目标是并行执行复杂任务而非单线程对话，核心实现是 Agent Swarm 的并行编排能力。

Kimi K2.5 如何处理多模态输入？

K2.5 集成 MoonViT（约 4 亿参数）进行原生视觉处理，支持 4K 图像与 2K 视频，兼容多种格式。输入通过 base64 或文件上传，报告明确不支持 URL 输入。

Agent Swarm 有何不同？

Agent Swarm 允许最多 100 个子智能体并行执行任务。报告称其使用 PARL 与“关键步骤”指标优化并行效率，端到端时延可降低约 80%，效率提升最高可达 4.5 倍。

报告中有哪些关键基准成绩？

智能体推理基准包括 BrowseComp 78.4%（Swarm Mode）、HLE-Full（with tools）50.2%、AIME 2025 96.1%；多模态基准包括 OCRBench 92.3、MMMU-Pro 78.5、VideoMMMU 86.6、MathVision 84.2；软件工程方面报告给出 SWE-Bench Verified 76.8 与 multilingual coding 73.0。

K2.5 的部署方式有哪些？

报告指出可通过平台 API 接入，也提供本地部署路径与量化方案，并列出多种硬件配置与磁盘要求。

K2.5 在真实行业中的应用？

报告举例金融研究、生命科学与法律/办公场景的应用案例，用于说明 K2.5 在复杂文档与工具链流程中的可用性。

用 Kimi K2.5 构建应用

从 API 开始，或查看定价以扩展使用规模。