英伟达新架构引爆全模态大模型革命 OmniVinci强势开源[看点]

发布日期：2025-11-08 00:36:40 来源：互联网作者：亿席商务网浏览次数：142

核心提示：英伟达推出了全模态大模型OmniVinci，该模型能够精准解析视频和音频，尤其擅长视觉和听觉信号的时序对齐。它拥有90亿参数规模，性能超越同级别甚至更高级别模型，训练数据效率是对手的6倍，大幅降低成本

英伟达推出了全模态大模型OmniVinci，该模型能够精准解析视频和音频，尤其擅长视觉和听觉信号的时序对齐。它拥有90亿参数规模，性能超越同级别甚至更高级别模型，训练数据效率是对手的6倍，大幅降低成本。在视频内容理解、语音转录、机器人导航等场景中，OmniVinci展现出卓越的多模态应用能力。

英伟达新架构引爆全模态大模型革命

今年以来，开源大模型战场竞争激烈。中国大模型在全球范围内表现出色，如DeepSeek在代码与数学推理上的惊人表现，以及Qwen家族在多模态和通用能力上的全面发展，它们已成为全球AI从业者的重要参照物。就在人们以为这场基础模型开源浪潮将主要由顶尖互联网巨头和明星创业公司推动时，英伟达也亲自下场加入竞争。

英伟达新架构引爆全模态大模型革命 OmniVinci强势开源

英伟达发布了最强9B视频音频全模态大模型OmniVinci，并宣布开源。该模型在多个主流全模态、音频理解和视频理解榜单上展示了碾压对手的性能。英伟达将其定义为“全模态”，即一个能够同时理解视频、音频、图像和文本的统一模型。尽管参数规模仅为90亿，但其在多项关键的多模态基准测试中展现了极高的性能。

英伟达新架构引爆全模态大模型革命 OmniVinci强势开源

研究表明，声音为视觉任务引入了全新的信息维度，使模型在视频理解方面受益匪浅。从单纯依赖视觉到结合音频进行隐式多模态学习，再到引入全模态数据引擎实现显式融合，模型的表现呈阶梯式跃升。尤其是在采用显式学习策略后，多项指标上都出现了突破性进步。

　　以上是“英伟达新架构引爆全模态大模型革命 OmniVinci强势开源[看点]”的全部内容，希望对大家有所帮助。

免责声明：以上所展示的信息由网友自行发布，内容的真实性、准确性和合法性由发布者负责。亿席商务网对此不承担任何直接责任及连带责任。任何单位或个人如对以上内容有权利主张（包括但不限于侵犯著作权、商业信誉等），请与我们联系并出示相关证据，我们将按国家相关法规即时移除。

分享到：QQ空间新浪微博腾讯微博人人网微信

[ 资讯搜索 ] [ 加入收藏 ] [ 告诉好友 ] [ 打印本文 ] [ 违规举报 ] [ 关闭窗口 ]