商汤科技发布多模态通用大模型“书生2.5”:拥有30亿参数,支持问答、识
感谢IT之家网友 航空先生 的线索投递!
,商汤科技于今日发布了多模态多任务通用大模型“书生2.5”,拥有 30 亿参数,号称是目前全球开源模型中 ImageNet 准确度最高、规模最大,同时也是物体检测标杆数据集 COCO 中唯一超过 65.0 mAP 的模型。
据介绍,“书生 2.5”的图文跨模态开放任务处理能力可为自动驾驶、机器人等通用场景任务提供高效精准的感知和理解能力支持。“书生”由商汤科技、上海人工智能实验室、清华大学、香港中文大学、上海交通大学于 2021 年 11 月首次共同发布,并持续联合研发。
改进方面,“书生 2.5”实现了通过文本来定义任务,从而可以灵活地定义不同场景的任务需求,并根据给定视觉图像和任务的提示性语句,给出相应的指令或作答,进而具备通用场景下的高级感知和复杂问题处理能力,比如图像描述、视觉问答、视觉推理和文字识别等。
在自动驾驶和居家机器人等通用场景下,“书生 2.5”可辅助处理各种复杂任务。
例如,在自动驾驶场景中,可以大幅提升场景感知理解能力,准确辅助车辆判断交通信号灯状态、道路标志牌等信息,为车辆决策规划提供有效信息输入。
除解决自动驾驶和居家机器人这类复杂问题的能力,“书生 2.5”通用大模型也可解决纷繁复杂的日常生活中的常见任务,满足各种需求。
除全图级别的以图生文,“书生 2.5”通用大模型同样可根据物体边框更精细化定位任务需求。
“书生 2.5”同时具备 AIGC“以文生图”的能力。可根据用户提出的文本创作需求,利用扩散模型生成算法,生成高质量、自然的写实图像。
例如,借助“书生 2.5”的以文生图能力帮助自动驾驶技术研发,通过生成各类真实的道路交通场景,如繁忙的城市街道、雨天拥挤车道、马路上奔跑的狗等,生成写实的 Corner Case 训练数据,进而训练自动驾驶系统对 Corner Case 场景的感知能力上限。
“书生 2.5”还可根据文本快速检索出视觉内容。
例如,可在相册中返回文本所指定的相关图像,或是在视频中检索出与文本描述最相关的帧,提高视频中时间定位任务的效率。此外还支持引入物体检测框,根据文本返回最相关的物体,实现开放世界视频或图像中物体检测及视觉定位。
即日起,“书生 2.5”多模态通用大模型已在商汤参与的通用视觉开源平台 OpenGVLab 开源,IT之家附 GitHub 仓库访问链接。
郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。
最新资讯
- 3月14日晚间4家公司出现利好消息 3月14日晚间共有4家上市公司发布重大利好消息,1家涉及工程中标,1家涉及股权激励,1家涉及子公司增资,1家设计成立合资
- “枫情德保·心柑情愿”2023年德保农产品区域公共品牌推介会暨线上销售推广活动举行 中国网浪潮消息:3月9日-13日,“枫情德保·心柑情愿”德保县农产品区域公共品牌推介会在重庆举行。本次推介会由德保县人民
- 蔚来:EC7、ES8将于4月18日上海车展正式上市,阿尔卑斯品牌将很快与 ,新出行采访到了蔚来销售运营助理副总裁浦洋,IT之家下面为大家摘选几段比较重要的内容。 对于多个车企甚至燃油车都开始降
- 华为新机工信部证件照出炉,后置采用圆形奥利奥三摄 ,现有一款型号为STG-AL00的华为4G新机通过了工信部入网审核,并且已经公布了新机证件照。 从照片来看,这款机型后
- 3月14日晚间3家公司出现利空消息 3月14日晚间共有3家上市公司发布利空消息,1家涉及股份减持,1家涉及股份冻结,1家涉及股份解除质押,具体涉及的上市公司
- 小米新手机以及平板电脑通过国家3C质量认证,有消息称小米13Ultra将 ,现有一款型号为2304FPN6DC的小米新机通过了国家3C质量认证,有数码博主称其为小米13Ultra。这款新机由蓝思
- 魅族20/Pro系列无界超前订突破35万预订单:支持36个月超长质保 ,魅族手机宣布,魅族20系列无界超前订突破35万预订单,活动圆满结束。魅族20新品全网预约现已开启。 根据此前魅族宣布
- 助力提升消费者金融素养交通银行开展“3·15”教育宣传活动 加强金融消费者权益保护工作,是贯彻以人民为中心的发展思想的具体体现,是维护金融秩序、防范和化解金融风险的重要内容,也是银