从“数据融合”迈向“原生架构”:商汤全新 NEO 架构,重新定义多模态模型效能边界

商汤科技携手南洋理工大学S-Lab,正式发布并开源全新多模态模型架构——NEO。该架构为SenseNova多模态模型奠定了新一代技术基础,标志着人工智能多模态技术迈入“原生架构”新时代。

NEO是行业首个可用的、实现深层融合的原生多模态架构。它突破传统“模块化”范式的限制,从底层设计上实现了视觉与语言的深度融合,在性能、效率和通用性方面取得整体突破,重新定义了多模态模型的效能边界。

一、打破瓶颈:从“拼凑”到“原生”

当前主流多模态模型多采用“视觉编码器+投影器+语言模型”的模块化设计。这类基于大语言模型扩展的方案虽能兼容图像输入,但本质上仍以语言为中心,图像与语言的融合停留在浅层数据层面。这种“拼凑”式架构不仅学习效率低,也制约了模型在需要精细图像理解或复杂空间推理场景中的能力。

NEO架构正是为解决这一瓶颈而生。早在2024年下半年,商汤便在国内率先实现多模态原生融合训练,并在相关评测中取得领先。此后,公司陆续推出SenseNova 6.0及6.5版本,持续提升多模态推理能力与性价比。此次发布的NEO架构,则彻底摒弃传统模块化思路,从零开始构建真正原生的多模态设计。

二、三大内核创新:视觉与语言的深层统一

NEO以极致效率与深度融合为核心,通过在注意力机制、位置编码和语义映射三方面的底层创新,实现视觉与语言能力的自然统一:

原生图块嵌入:通过独创的Patch Embedding Layer,建立从像素到词元的连续映射,更精细捕捉图像细节,突破主流模型的图像建模瓶颈。

原生三维旋转位置编码:解耦三维时空频率分配,视觉维度采用高频、文本维度采用低频,适配不同模态结构,并为视频理解等复杂场景预留扩展空间。

原生多头注意力:在统一框架下支持文本的自回归注意力与视觉的双向注意力,提升空间结构关联的利用率,增强图文混合推理能力。

配合创新的双阶段融合训练策略,NEO在保留语言推理能力的同时,从零构建了强大的视觉感知,解决了传统跨模态训练中语言能力受损的问题。

三、实测表现:高效数据利用,媲美顶尖性能

在多项测试中,NEO展现出显著的数据效率与性能优势:

极高数据效率:仅用业界同等性能模型约十分之一的数据量,即可开发出顶尖视觉感知能力,无需依赖海量数据或额外视觉编码器。

综合性能领先:在MMMU、MMB、MMStar等多项权威评测中,NEO均取得优异表现,综合性能优于其他原生架构模型。

优异推理性价比:尤其在0.6B-8B参数范围内,NEO在边缘端部署中表现突出,实现精度与效率的双重提升,大幅降低推理成本。

四、开源共建:构筑下一代AI基础设施

NEO架构支持任意分辨率与长图像输入,可无缝扩展至视频、具身智能等前沿领域,实现端到端的真正融合。其一体化设计为机器人交互、智能终端多模态响应、视频理解等多元化场景提供了坚实支撑。

目前,商汤已开源基于NEO架构的2B与9B规格模型,旨在推动开源社区在原生多模态领域的创新与应用。公司表示,将通过开源协作与场景落地双轮驱动,将NEO打造为可扩展、可复用的下一代AI基础设施,加速原生多模态技术的产业化与标准化进程。


关注获取内测资格

关注获取内测资格