DeepSeek开源新模型DeepSeek-OCR 探索视觉-文本压缩边界[看点] - 社会 - 国内资讯 - 亿席商务网
标王 热搜: 广州  SEO  贷款  深圳    医院  用户体验  网站建设  机器人  贵金属 
 
 
当前位置: 首页 » 资讯 » 国内资讯 » 社会 » 正文

DeepSeek开源新模型DeepSeek-OCR 探索视觉-文本压缩边界[看点]

放大字体  缩小字体 发布日期:2025-10-20 21:53:32  来源:互联网  作者:亿席商务网  浏览次数:140
核心提示:10月20日,人工智能团队DeepSeek AI发布了全新多模态模型 DeepSeek-OCR

10月20日,人工智能团队DeepSeek AI发布了全新多模态模型 DeepSeek-OCR。该模型以“探索视觉 - 文本压缩边界”为核心目标,从大语言模型视角重新定义了视觉编码器的功能定位,为文档识别、图像转文本等高频场景提供了兼顾精度与效率的新解决方案,受到技术领域和行业应用端的广泛关注。

DeepSeek开源新模型DeepSeek-OCR

DeepSeek-OCR采用分层设计的视觉编码方案,支持Tiny、Small、base、Large、Gundam五种尺寸配置,可根据不同硬件条件与场景需求灵活选择。Gundam版本特别针对大尺寸复杂文档进行了优化,采用了1024×640混合尺寸配置及专属裁剪模式,能更精准处理多栏排版、图文混杂的专业文档。

DeepSeek开源新模型DeepSeek-OCR 探索视觉-文本压缩边界

模型创新性地融合了SAM(Segment Anything Model)的图像分割能力和CLIP的视觉理解能力,并通过MlpProjector模块实现与语言模型的高效对接。这一设计不仅使模型能够精准提取文本内容,还能同步捕捉文字、表格、图像在原图中的空间布局信息,为后续结构化输出提供关键支撑,解决了传统OCR“只认文字、不识布局”的痛点。

DeepSeek开源新模型DeepSeek-OCR 探索视觉-文本压缩边界

DeepSeek-OCR展现出极强的多场景适应性。它既支持单张图像、PDF文档的单次处理,也能应对批量图像的高效识别,所有输出结果均支持Markdown格式,方便用户直接编辑或导入其他办公软件。模型内置边界框检测功能,可精准定位文本块、表格、插图在原图中的位置,结合动态裁剪策略,根据图像尺寸自动调整处理逻辑,在保证识别精度的同时大幅提升处理速度。



 

  以上是“DeepSeek开源新模型DeepSeek-OCR 探索视觉-文本压缩边界[看点]”的全部内容,希望对大家有所帮助。


免责声明:以上所展示的信息由网友自行发布,内容的真实性、准确性和合法性由发布者负责。亿席商务网对此不承担任何直接责任及连带责任。任何单位或个人如对以上内容有权利主张(包括但不限于侵犯著作权、商业信誉等),请与我们联系并出示相关证据,我们将按国家相关法规即时移除。
 

[ 资讯搜索 ]  [ 加入收藏 ]  [ 告诉好友 ]  [ 打印本文 ]  [ 违规举报 ]  [ 关闭窗口 ]

 
 
本企业其他资讯

 
网站首页 | xml | top资讯 | 粤ICP备11090451号