体验 Kimi K2.5

原生多模态行动智能体模型 • 256K 上下文 • 即时/思考模式

在线
由 Kimi K2.5 稀疏 MoE 驱动(总参 1T / 激活 32B / 384 专家)

Kimi K2.5 助手

256K 上下文 • 视觉+文本推理 • 智能体群

剩余 10 条免费消息

你好,我是 Kimi K2.5

原生多模态智能体模型,支持 256K 上下文与视觉+文本推理,面向工具驱动的工作流。

💡 试试问:

"解释量子计算"

🎯 或者试试:

"编写一个 Python 函数"

📝 甚至可以:

"帮我做作业"

🚀 还有更多:

"创建商业计划"

⌘/Ctrl + Enter to sendShift + Enter for new line
10 free messages
🚀

Fast Response

Get instant answers powered by our optimized infrastructure

🔒

Privacy First

Your conversations are secure and never used for training

💎

Premium Features

Sign in to unlock API access and unlimited conversations

Kimi K2.5 关键指标

来自深度研究报告的核心规模与多模态能力概览。

总参数量

1T

稀疏 MoE 架构的容量规模

激活参数量

32B

按 token 激活的计算量

上下文窗口

256K

支持长上下文任务

视觉编码器

400M

MoonViT 视觉骨干

核心特性

原生多模态智能体设计

报告将 Kimi K2.5 定位为“原生多模态视觉智能体模型”,把图像、视频与文本作为一等输入。2026 年的版本被描述为从对话模型转向行动智能体的战略升级,可并行协调工具与子智能体处理复杂任务。模型在 Kimi-K2-Base 基础上持续预训练约 15 万亿视觉与文本混合 tokens,奠定了“以视觉编程”、智能体搜索与长程执行的能力基础。

MoonViT 原生多模态

Kimi K2.5 集成 MoonViT 视觉编码器(约 4 亿参数),可原生处理高分辨率图像与视频。报告给出的上限为 4K 图像(4096×2160)与 2K 视频(2048×1080);支持 png、jpeg、webp、gif 等图像格式与 mp4、mpeg、mov、avi、flv、mpg、webm、wmv、3gpp 等视频格式。输入方式为 base64 与文件上传(不支持 URL)。视觉特征在投射到语言模型前进行空间-时间池化处理。

以视觉编程

报告强调“Coding with Vision”能力,K2.5 可将 UI 截图或屏幕录制转化为可运行的前端代码,生成 React 或 HTML/CSS,并输出更具美感的 UI 效果(例如滚动触发动画),为“视觉规格 → 可执行代码”提供直接通路。

自动化视觉调试

K2.5 可以将渲染结果截图与原始设计对照,自动发现差异并迭代修复,形成“感知—生成—验证”的闭环调试流程,提高前端还原度。

视觉逻辑推理

报告指出 K2.5 能在复杂图像上进行算法级推理。例如在 4.5 百万像素迷宫测试中,模型可识别起止点,编写 BFS 等算法并在图像上可视化路径,体现出视觉理解、算法推理与工具处理的协同能力。

智能体群编排

Agent Swarm 是报告中的核心创新:K2.5 可协调最多 100 个子智能体并行执行任务。该机制通过 PARL(并行智能体强化学习)缓解“串行塌缩”,并引入“关键步骤(Critical Steps)”作为并行执行的延迟优化指标。报告称在 Swarm 模式下可降低端到端运行时长约 80%,效率提升最高可达 4.5 倍。

智能体基准领先

报告展示 K2.5 在智能体与推理基准上的表现:BrowseComp(Swarm Mode)78.4%,HLE-Full(with tools)50.2%,AIME 2025 96.1%。这些结果用于说明其在智能体任务上的竞争力。

模型摘要

报告将 K2.5 描述为高效稀疏 MoE Transformer,强调在巨大参数容量下仅激活少量专家以实现高效推理。以下架构指标来自报告中的模型摘要,用于理解其性能基线。

万亿参数稀疏 MoE

总参数 1T、每 token 激活参数 32B,依靠稀疏激活在保持容量的同时降低计算开销。

384 专家与共享路由

384 个专家,每 token 选择 8 个专家并包含 1 个共享专家,提升表示密度与专业化能力。

61 层(含 1 层 Dense)

共 61 层结构,其中包含 1 个 Dense 层,用于提升整体稳定性与优化能力。

MLA 注意力与头数

Multi-head Latent Attention(MLA),64 个注意力头,注意力隐藏维度 7168,强调长上下文一致性。

MoE 隐藏维度 2048

每个专家隐藏维度为 2048,在效率与表达能力之间取得平衡。

160K 词表 + 256K 上下文

160K 词表与 256K 上下文窗口支撑长文档与多模态 tokens 的统一处理。

SwiGLU 激活函数

报告明确列出 SwiGLU 作为激活函数,与 MLA 与 MoE 路由共同构成核心技术栈。

基准表现与验证

报告重点展示 K2.5 在智能体、推理与多模态基准上的能力,这些结果被描述为 2026 年初评测表现,覆盖导航、工具推理与视觉理解等场景。

BrowseComp(Swarm Mode)78.4%

连续网页导航与综合能力基准,体现智能体群并行执行的优势。

HLE-Full(with tools)50.2%

在工具使用条件下的 Humanity's Last Exam 表现,强调长程推理能力。

AIME 2025 96.1%

数学推理类基准的高准确率表现。

OCRBench 92.3

文档智能与视觉文本理解基准,强调 OCR 能力。

MMMU-Pro 78.5 & VideoMMMU 86.6

多模态图像与视频推理基准表现。

MathVision 84.2

视觉数学推理与图像问题求解能力。

应用场景

行业应用

报告给出了早期生产落地案例,覆盖金融、生命科学、法律与办公等高密度文档与工具链场景。

金融研究

报告举例称 AlphaEngine 等平台使用 K2.5 分析图表、执行 300 步工具调用并自动生成宏观报告,成本可降低约 60%。

生命科学

XtalPi 等团队利用 K2.5 读取化学公式并从科研文献中提取关键信息,加速研究流程。

法律与办公智能

用于合同审核与风险合规分析等高密度文档流程,并生成 PDF、幻灯片、表格等交付物。

视觉前端工程

将视觉规格转化为可运行 UI,并在视觉对齐中迭代优化,降低设计与工程协作成本。

智能体搜索工作流

通过并行智能体执行研究与验证步骤,提高多源信息综合的效率与速度。

开发者工具链

Kimi Code 与 VS Code、Cursor、Zed 等编辑器集成,支持图像/视频规格驱动的智能体工作流。

部署与优化

报告覆盖开源发布、API 接入与本地推理的关键策略,并给出多模态输入约束与工具生态建议。

原生 INT4 量化

K2.5 支持原生 INT4 量化,报告称在消费级硬件上可实现约 2 倍生成速度提升。

本地部署参考配置

报告给出多种推理配置:FP16/BF16 需 4× NVIDIA H200(或更多)并可达 >40 tokens/s;4-bit 动态 GGUF 配置在 256GB 统一内存下约 10–20 tokens/s;1.8-bit(Unsloth)在单卡 24GB GPU + MoE offload 条件下约 10 tokens/s;量化权重最低磁盘需求 >240GB。

OpenAI / Anthropic 兼容 API

K2.5 可通过 platform.moonshot.ai 以 OpenAI 与 Anthropic 兼容格式接入,便于无缝迁移现有应用。

Kimi Code 生态

Kimi Code CLI 与 VS Code、Cursor、Zed 集成,可直接在 IDE 中使用图像/视频规格驱动的智能体工作流。

视觉输入约束

支持 png、jpeg、webp、gif 图像与 mp4、mpeg、mov、avi、flv、mpg、webm、wmv、3gpp 视频;输入方式为 base64 与文件上传(不支持 URL);图像最高 4K,视频最高 2K。

能力与基准背景

报告列出 OCRBench 92.3、MMMU-Pro 78.5、VideoMMMU 86.6、MathVision 84.2,以及 SWE-Bench Verified 76.8、multilingual coding 73.0 等结果,用于说明多模态与编程能力边界。

FAQ

Kimi K2.5 常见问题

基于报告的关键问题梳理,便于评估与选型。

1

Kimi K2.5 为什么被称为行动智能体模型?

报告强调 K2.5 是 2026 年 1 月的行动智能体转型版本,目标是并行执行复杂任务而非单线程对话,核心实现是 Agent Swarm 的并行编排能力。

2

Kimi K2.5 如何处理多模态输入?

K2.5 集成 MoonViT(约 4 亿参数)进行原生视觉处理,支持 4K 图像与 2K 视频,兼容多种格式。输入通过 base64 或文件上传,报告明确不支持 URL 输入。

3

Agent Swarm 有何不同?

Agent Swarm 允许最多 100 个子智能体并行执行任务。报告称其使用 PARL 与“关键步骤”指标优化并行效率,端到端时延可降低约 80%,效率提升最高可达 4.5 倍。

4

报告中有哪些关键基准成绩?

智能体推理基准包括 BrowseComp 78.4%(Swarm Mode)、HLE-Full(with tools)50.2%、AIME 2025 96.1%;多模态基准包括 OCRBench 92.3、MMMU-Pro 78.5、VideoMMMU 86.6、MathVision 84.2;软件工程方面报告给出 SWE-Bench Verified 76.8 与 multilingual coding 73.0。

5

K2.5 的部署方式有哪些?

报告指出可通过平台 API 接入,也提供本地部署路径与量化方案,并列出多种硬件配置与磁盘要求。

6

K2.5 在真实行业中的应用?

报告举例金融研究、生命科学与法律/办公场景的应用案例,用于说明 K2.5 在复杂文档与工具链流程中的可用性。

用 Kimi K2.5 构建应用

从 API 开始,或查看定价以扩展使用规模。