由DeepSeek点燃的人工智能热潮仍在持续。面对这场热闹异常的“AI春节档”,全球大模型市场内的玩家们都在加速行动。近日,商汤科技联合创始人、执行董事及人工智能基础设施和大模型首席科学家林达华在一场闭门交流会上谈及了对DeepSeek的看法、算力需求、未来AI技术路径以及商汤未来的大模型计划。
林达华认为,DeepSeek不会降低市场对算力的需求,在可见的2025年内,整体算力需求仍将保持增长。特别是随着DeepSeek推理能力不断突破,它带动了下游应用市场的快速扩展,推理市场正呈现供不应求、快速增长的态势。DeepSeek是开源路线的坚持者,因此它的出圈也被认为是开源的胜利。开源不仅改变了全球AI和大模型的产业格局,还加速了技术的传播和普及。开源模型的追赶速度非常快,与顶尖闭源模型的差距正在迅速缩小。未来,大模型应用将从问答、文本改写等浅层工具转向替代行业中高价值的核心任务。大模型需要在特定行业任务上突破工业红线,才能实现规模化应用。开源只是技术价值链中的一环,而非全部。
关于DeepSeek的突破,林达华指出,DeepSeek有两个近期的版本:V3基础模型和R1推理模型。V3的核心亮点在于模型和系统垂直整合后的训练效率优化;而R1则是构建强推理能力的新算法路径。V3整体表现优秀,综合能力强,且在多项评测中表现突出。这主要归功于数据的多样性和高质量处理以及高效的训练方法。R1则采用了MoE架构,并通过负载均衡策略提升了训练效率。此外,R1选择了基于结果监督的强化学习路线,这一路径在内外部交叉验证中证明了其有效性。