5月27日快手发布Keye-VL-2.0多模态模型视频理解评测全面超越Gemini

2026年5月27日,快手科技正式发布新版多模态大语言模型Keye-VL-2.0-30B-A3B。作为Keye家族最新一代30B级主力基座,该模型率先将DeepSeek Sparse Attention(DSA)机制引入多模态理解场景,成功解锁256K超长上下文深度感知能力,在长视频时序感知上实现几乎无损的推理效果。同日,快手发布2026年第一季度财报,可灵AI商业化进程加速,第一季度营业收入超人民币6.5亿元,同比增长超300%。

DSA首次落地多模态,破解长视频理解瓶颈

视频理解的核心痛点在于超长视觉上下文带来的指数级计算开销与关键信息稀释。Keye-VL-2.0-30B-A3B在底层架构上完成关键跨越,通过结合稀疏注意力与极具针对性的特征聚合,在处理长达小时级的视频序列时,能够在高噪环境下进行信息提纯,精准捕捉关键帧并理清动态规律。引入DSA架构与系统级工程优化后,模型长序列Prefill(预填充)阶段成本降低50%。更关键的是,随着输入视频上下文拉长,传统Full Attention的Decode计算量呈指数级暴增,而快手团队基于DSA的Decode成本曲线展现出极其平缓的增长态势。

快手团队同步打造了专为长视频、变长序列服务的训练Infra:通过可横向扩展的ExtraIO架构将IO独立部署、按需扩容,消除视频解码与抽帧带来的IO瓶颈;采用ViT–LM异构并行加两级负载均衡加ViT激活值零显存优化,破解计算与显存的均衡难题;基于FlashInfer、TileLang对变长序列模式下的DSA进行深度调优,长序列训练性能相比开源方案适配的Baseline直接翻倍。

TimeLens三项核心指标全面超越Gemini

该架构优势在细粒度视频时序理解最新基准TimeLens中得到极致验证。在日常动作时序解析(Charades-TimeLens)任务中,Keye-VL-2.0以58.4的mIoU对标实测最强视频理解闭源标杆Gemini 3 Flash(61.2);在视频动作定位(ActivityNet-TimeLens)任务中,凭借58.5的mIoU,全面超越官方数据Gemini-2.5-Pro(58.1)及实测数据Gemini 3 Flash(57.0);在高光时刻提取(QVHighlights-TimeLens)任务中,mIoU达到70.1,大幅超过实测Gemini 3 Flash(49.5)。在LongVideoBench综合长时序解析中,Keye-VL-2.0同样展现出对同级别甚至200B+超大参数开源基座的显著压制力。

在VideoMME V2评测中,模型从64帧扩展到512帧时准确率反而升至42.44%,打破"长上下文衰减"魔咒。

复杂场景推理:从陶杯工艺到电竞高光

在实际应用层面,Keye-VL-2.0展现出远超传统AI的深度推理能力。面对一段制作陶杯的工艺流程视频,模型直接输出了带有精确时间戳的工艺全拆解:从方解石原料处理(砸成小块、溪流冲洗),到煅烧制浆(土窑加木炭烧至约950℃、水飞工艺),再到陶土采集、拉坯塑形、配釉施釉、1200℃烧制及陈茶水氧化调整釉色,全程专业壁垒极高的手工工序全部准确识别,并与视频时间轴实现毫秒级咬合。

面对一段《王者荣耀》高燃对局视频,模型在判定高光时刻时,并未陷入"哪里有击杀提示就截取哪里"的机械逻辑,而是基于视觉张力、音画协同及电竞叙事进行深度理解:捕捉金色紫色光效交织的特效与"276""132"等动态伤害数值,跨模态读取底部英文歌词字幕与激烈对局的关联,结合"27 vs 35"判定己方劣势背景,精准提炼出"绝境翻盘"这一核心叙事节点,并与此前战斗片段进行全局对比排他论证。

首次解锁Agent协作机制,已落地核心业务

Keye-VL-2.0是Keye系列首次解锁Agent协作机制的模型,在Code、Tool、Search等复杂场景下展现出系统级协作与执行潜力。在SWE-bench Verified评测中跑通62.00基线,TAU2-Bench达到82.58。目前该模型已落地快手推荐、广告与内容生产等核心业务场景。

同日发布的财报显示,2026年第一季度快手总收入达337亿元,可灵AI年化收入运行率(ARR)近5亿美元,较去年3月的1亿美元一年内增长4倍。快手创始人兼CEO程一笑表示,将继续深化AI技术与业务场景的融合创新。