关闭广告

10倍压缩率,97%解码精度!DeepSeek开源新模型,为何赢得海内外关注

澎湃新闻123人阅读

DeepSeek开源新模型:用视觉模式实现上下文压缩。

10月20日,DeepSeek宣布开源最新大模型DeepSeek-OCR。所谓的OCR,据DeepSeek在论文中解释称,是通过光学2D映射压缩长上下文可行性的初步研究。DeepSeek-OCR由两部分组成:DeepEncoder和作为解码器的DeepSeek3B-MoE-A570M。DeepEncoder作为核心引擎,设计为在高分辨率输入下保持低激活,同时实现高压缩比,以确保视觉tokens数量优化且可管理。

通俗而言,这是一种视觉-文本压缩范式,通过用少量的视觉token来表示原本需要大量文本token的内容,以此降低大模型的计算开销。

据公布的论文名单显示,该项目由DeepSeek三位研究员Haoran Wei、Yaofeng Sun、Yukun Li共同完成,但这三位核心作者都颇为低调,其中一作作者Haoran Wei曾在阶跃星辰工作过,曾主导开发旨在实现“第二代 OCR”的GOT-OCR2.0系统。


DeepSeek-OCR的架构分为两部分。一是DeepEnco

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

德“派兵常驻立陶宛”计划被质疑

参考消息 浏览 14968

笔神作文称学而思AI大模型盗窃其数据,学而思回应:未使用其任何数据

三言科技 浏览 15421

欧洲高官频频访乌许援助 俄方回应:口头承诺

环球网资讯 浏览 11605

法式纯电钢炮 2026款标致E-308 GT新车图解

车质网 浏览 856

宫古岛海底发现日本自卫队直升机残骸

环球网资讯 浏览 17922

官方:拉什福德、芒特、波普因伤退出本期英格兰队

直播吧 浏览 18685

以色列防长与埃及防长就边境交火事件通电话

环球网资讯 浏览 16147

外国投资者7月美债持仓再创新高,加拿大、中国、印度持仓下降

华尔街见闻官方 浏览 913

火车相撞、大桥坍塌,印度基建怎么了

新京报 浏览 16367

21点中国U17女足战南美黑马!打平即世界杯出线 16强赛遇3大强队

我爱英超 浏览 66

男子晒"用26年的洗衣机"带火老国货 威力2天涨粉10万

极目新闻 浏览 77821

国务院已派督导检查组离京南下 上海市长龚正现场表态

政知新媒体 浏览 116998

售69.8万起 两款全新路虎卫士亮相成都车展

网易汽车 浏览 20066

布鲁斯-布朗:通过小迈克尔-波特买的11号 本以为他会要得更多

直播吧 浏览 12045

2023年全球最可靠汽车排名,冠亚军让人意外,路虎、特斯拉垫底

买车家 浏览 12020

你喝的奶茶上黑名单了吗?教你在家就能做的神仙饮品

Yuki女人故事 浏览 349

曹德旺投资百亿的大学,决定聘请计算机专家梅宏院士任校长

澎湃新闻 浏览 13851

女子浴室里遇裸男被吓到尖叫:他带着手机停留了8分钟

潇湘晨报 浏览 87091

GPT-4开始帮人创业:4天内已吸引近万美元投资并组建团队

澎湃新闻 浏览 18453

特朗普被曝已打新冠疫苗,今年1月时就悄悄完成了接种

趣看热点 浏览 272004

马德兴:扬帅一直强调纪律;国足队员时常提前15分钟到训练场

懂球帝 浏览 12117
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1