英伟达推出了全模态大模型OmniVinci,该模型能够精准解析视频和音频,尤其擅长视觉和听觉信号的时序对齐。它拥有90亿参数规模,性能超越同级别甚至更高级别模型,训练数据效率是对手的6倍,大幅降低成本。在视频内容理解、语音转录、机器人导航等场景中,OmniVinci展现出卓越的多模态应用能力。

今年以来,开源大模型战场竞争激烈。中国大模型在全球范围内表现出色,如DeepSeek在代码与数学推理上的惊人表现,以及Qwen家族在多模态和通用能力上的全面发展,它们已成为全球AI从业者的重要参照物。就在人们以为这场基础模型开源浪潮将主要由顶尖互联网巨头和明星创业公司推动时,英伟达也亲自下场加入竞争。

英伟达发布了最强9B视频音频全模态大模型OmniVinci,并宣布开源。该模型在多个主流全模态、音频理解和视频理解榜单上展示了碾压对手的性能。英伟达将其定义为“全模态”,即一个能够同时理解视频、音频、图像和文本的统一模型。尽管参数规模仅为90亿,但其在多项关键的多模态基准测试中展现了极高的性能。

研究表明,声音为视觉任务引入了全新的信息维度,使模型在视频理解方面受益匪浅。从单纯依赖视觉到结合音频进行隐式多模态学习,再到引入全模态数据引擎实现显式融合,模型的表现呈阶梯式跃升。尤其是在采用显式学习策略后,多项指标上都出现了突破性进步。
