英伟达新研究:上下文长度虚标严重,32K性能合格的都不多 - 社会 - 国内资讯 - 亿席商务网
标王 热搜: 广州  SEO  贷款  深圳    医院  用户体验  网站建设  机器人  贵金属 
 
 
当前位置: 首页 » 资讯 » 国内资讯 » 社会 » 正文

英伟达新研究:上下文长度虚标严重,32K性能合格的都不多

放大字体  缩小字体 发布日期:2024-06-04 00:07:51  来源:互联网  作者:亿席商务网  浏览次数:47
核心提示:英伟达最近的研究揭示了长上下文大模型存在虚标现象,涉及包括GPT-4在内的10个知名模型。这些模型宣称能处理128K乃至1M的上下文长度,但在英伟达设计的新指标“有效上下文”测试下,能维持32K有效长度的模型已显稀缺

英伟达新研究:上下文长度虚标严重,32K性能合格的都不多

英伟达最近的研究揭示了长上下文大模型存在虚标现象,涉及包括GPT-4在内的10个知名模型。这些模型宣称能处理128K乃至1M的上下文长度,但在英伟达设计的新指标“有效上下文”测试下,能维持32K有效长度的模型已显稀缺。这一新基准名为RULER,它通过检索、多跳追踪、聚合及问答四类共13项任务,评估模型处理长文本的真实能力,确保关注点在于模型的理解而非单纯的信息回忆。英伟达新研究:上下文长度虚标严重,32K性能合格的都不多。

RULER基准的独特之处在于减少了对模型预存“参数化知识”的依赖,增强了评测的公平性和全面性。例如,它不仅升级了传统的单一检索任务,还引入了多针检索、多值检索、多查询检索等复杂情景,以及模拟指代消解的变量追踪、词汇提取和抗干扰的长序列问答等挑战,全方位检验模型的长文本处理实力。

英伟达新研究:上下文长度虚标严重,32K性能合格的都不多

实验涵盖了从6B至8x7B参数规模不等的10个模型,包括GPT-4及其他开源模型如Command-R、Yi-34B等,最大上下文长度跨度从32K至1M。在RULER的严格测试下,尽管多数模型在其标称的长上下文范围内表现出色,但深入分析发现,仅Mixtral模型能在其声明的长度上持续超越基线性能。GPT-4在4K长度下展现出最佳性能,且在扩展至128K时性能下降最少。开源模型中,Command-R、Yi-34B及Mixtral因采用较大RoPE基频和更多参数,表现突出。

英伟达新研究:上下文长度虚标严重,32K性能合格的都不多

进一步的研究还探索了输入长度、任务复杂度对模型表现的影响,以及模型大小、架构对长上下文处理能力的作用。结果显示,增大训练上下文通常提升性能,但效果不恒定;模型规模扩大显著有利于长文本理解;非Transformer架构模型在此类任务上表现不及基于Transformer的模型。

英伟达新研究:上下文长度虚标严重,32K性能合格的都不多

对于那些渴望深入了解模型长文本处理能力局限及优化方向的研究者而言,英伟达的这项研究无疑提供了宝贵的洞见和实证基础。



 

  以上是“英伟达新研究:上下文长度虚标严重,32K性能合格的都不多”的全部内容,希望对大家有所帮助。


免责声明:以上所展示的信息由网友自行发布,内容的真实性、准确性和合法性由发布者负责。亿席商务网对此不承担任何直接责任及连带责任。任何单位或个人如对以上内容有权利主张(包括但不限于侵犯著作权、商业信誉等),请与我们联系并出示相关证据,我们将按国家相关法规即时移除。
 

[ 资讯搜索 ]  [ 加入收藏 ]  [ 告诉好友 ]  [ 打印本文 ]  [ 违规举报 ]  [ 关闭窗口 ]

 
 
本企业其他资讯

 
网站首页 | xml | top资讯 | 粤ICP备11090451号