题图|商汤秒画ChatGPT风头还没过,OpenAI就放出GPT-4进一步巩固自己的地位,不仅提高了自身准确度,还融合了多模态模型,既能理解文本语义,也能理解图像或视频含义,让多模态AI再走一步。没人想缺席这场盛宴,国内已经有数十家企业宣布了自己的动作,并相继推出相关产品,除了布局多模态大模型,他们的目标也一致指向通用人工智能AGI,旨在改变千行百业
题图 | 商汤 秒画
ChatGPT风头还没过,OpenAI就放出GPT-4进一步巩固自己的地位,不仅提高了自身准确度,还融合了多模态模型,既能理解文本语义,也能理解图像或视频含义,让多模态AI再走一步。
没人想缺席这场盛宴,国内已经有数十家企业宣布了自己的动作,并相继推出相关产品,除了布局多模态大模型,他们的目标也一致指向通用人工智能AGI,旨在改变千行百业。
眼看国内产品一个接一个地落地,市场密切关注早就深耕AI领域的商汤的动态。4月10日,商汤分享了以“大模型+大算力”推进AGI(通用人工智能)发展战略布局,并公布了商汤在该战略下的“日日新SenseNova”大模型体系,那么,它究竟靠谱吗,又能为我们做什么?
从GPT到人机共智
市面上并不缺乏类ChatGPT产品,有些公司借风起势,有些公司用AI武装自己现有的产品,伴随着AI越来越被人触手可及,越来越多人开始发问,号称“胡说八道”生成器的这些产品究竟有什么用,全行业是否在进行一场作秀式狂欢。
事实上,以GPT-4为首的多模态大模型是AI走进千行百业前的一个节点,AI大模型是AI的第二次革命,从2012年开始,AI就是以深度学习不断突破应用的工业红线,并在每个垂直领域都出现“AI+场景”这样的应用,但每个场景都去做一个模型,不仅需要投入大量时间,还需要投入大量的成本。
通用AI大模型则能为AI范式带来变化,利用它可以以极低的成本和极高的效率,迅速覆盖千行百业,实现人机共智,这也是商汤为何不遗余力地投入到大模型这件事。
再以编程领域来看,事实上,现阶段开发人员存在许多枯燥的重复性工作,占用了大量更富有创造性的编程工作或是代码设计的时间。假若将GPT与编程相结合,让AI承担这些工作,就可以让开发人员拥有更多时间去创造对人们更有帮助的应用。
又比如说在短视频或广告领域,许多人拥有丰富的创意,但碍于缺乏美术功底或专业能力而很难将自己的设想变成现实。而在AI加持下,只需对它详细描述自己的创意,就能快速生成各种优质内容,极大地提高效率,让有才能的人不再被埋没。
当然,想要覆盖上述场景或更多天马行空的应用,视觉、文本、音频必须融会贯通,就像赋予人视力、听力,感知和理解地更多,才能更好地帮助产业化发展,而这就是行业所说的多模态,也是GPT-4所布局的重点。
据统计,人类文明产生的高质量语料数据共约为9万亿,随着语言模型消耗的数据量成倍增长,很快就会面临着高质量语料被消化完的局面。相比起来,人类80%的信息是通过眼睛获取的,人的神经元处理视觉和语言连接数比例是10:1,因此当GPT-4加入图像识别能力,就拥有了一图胜千言的能力。
对比国内国外在大模型领域上的布局,虽然存在差距,但实际并非遥不可及。大模型依托的是算法、算力和数据,只要掌握了这种能力,剩下的就是时间问题。
就比如说,让大模型去写故事,第一次可能并不会写出很优秀的作品,但如果跟它互动,自己一句,大模型一句,在不断训练过程中,它就能慢慢变成一个有趣有料的AI。又比如说,在向大模型提问时,可能不会直接给出正确答案,但在中途不断启发它,它就会逐渐学会答题的推理过程,从而越答正确率越高。
优秀的大模型就像有天赋的运动员一样,不需要一招一式地手把手教学,只要输出方法论和恰当的引导,就能够学会甚至创造新的动作。如果是资质平庸的大模型,通过勤奋和努力也能够达到一定水平,但这意味着需要更多教学时间。
相比英文,中文不仅更难理解,迄今为止的语料库也稍显逊色,如何将不同类型的语料知识融合,如何将不同领域知识调和出最佳性能的完美配比都将是国内相关企业需要面对的问题。那么商汤的“日日新SenseNova”能够解决这种问题吗?
造出来 用起来
本次,商汤推出自然语言处理、内容生成、自动化数据标注、自定义模型训练等多种大模型及能力。
技术日当日,商汤选择使用现场演示的方式展示了AI文生图创作、2D/3D数字人生成、大场景/小物体生成等一系列生成式AI模型及应用的情况,根据商汤的介绍,千亿参数的大语言模型未来主要面向B2B业务。
语言大模型应用平台“商量”,可以编故事、做心灵指导、解读PDF文档、理解中国传统文化,可以在医疗领域做导诊、问诊、健康咨询,还能在开发领域作为编程助手自动进行程序生成。
秒画、如影、琼宇、格物等生成式AI应用则成为短视频、直播产业的得力助手。通过秒画可以创作高质量的艺术作品;通过如影能实现高质量、无门槛、多风格的数字人创作;通过格物、琼宇可以实现高效、可交互、可编辑的物体和场景生成及漫游。以上这些人、物、环境,都可以在数字空间中无缝连接。
商汤在此前更多是在B端服务客户,如自动驾驶、智慧城市,商汤认为,AI或大模型发展最本质的是要解决生产力的进步问题。
比如说,在企业中,HR的简历分析筛选工作可以通过AI大模型快速完成;在自动驾驶领域,可以为数据闭环构建和半自动标注能力挖掘等方面提供帮助;在科研领域,无论是蛋白质药物研发,还是挖掘未来新材料,大模型技术都是必需的;在编程领域,接口编写、测试用例编写等枯燥编码工作都可交给大模型,未来程序员可以转向创意型或架构层面设计。
现在,商汤的大模型已覆盖公司核心业务,在智慧城市、智慧商业、智能汽车和智慧生活四大板块20多个场景实现了扎实的落地。借由现阶段的大模型体系,商汤正走向更远的AGI(通用人工智能)时代。未来商汤的通用人工智能大模型体系会覆盖视觉感知、语言理解、内容生成和推理决策四大方面。
一脉相承的技术
事实上,商汤发布大模型并非意料之外,而是一脉相承。作为一家成立之初,就紧密围绕AI作为主要业务的公司,而现在,八年技术沉淀,商汤有能力做,也必须追随现在的热点做大模型。
2019年,商汤就首次发布10亿参数视觉大模型。2022年,商汤发布320亿参数视觉大模型,是世界上迄今为止最大的视觉模型。同年,商汤研发出10亿参数的AIGC模型,能够支持文生图和图生图的各种功能。前不久,商汤开源了书生2.5,是拥有30亿参数的多模态模型。不同的模态的技术积累,促使商汤训练一个更加强大的多模态大模型。
大装置是商汤能够做好大模型的基础。业界普遍误认为商汤没有云,事实并非如此。早在2020年开始,商汤就在上海临港建设架构最大的人工智能的算力中心AIDC,2021年底竣工,2022年初开始投入使用。而到2022年的9月商汤正式发布了商汤AI大装置,它通过AI原生的云化基础设施对外提供服务。
AI大装置提供了支持大模型生产的一系列服务:一是提供处理大模型需要的自动化的数据标注,使标注效率提升百倍;二是大模型的推理部署,使得推理的效率可以提升100%以上;三是大模型的微调和增量训练,让给定大模型可在原本1/10成本下运行在商汤大装置上;四是附有一系列开源模型和开发者工具,使得开发者效率大规模提升。
要研发出优秀的模型,数据必不可少。商汤在众多行业内积累了丰富的高质量数据,也根据客户要求对这些数据进行各种各样任务标注。此外,商汤也向社区发布了用于真实感知、重建和生成的多模态数据集OmniObject3D,包含190类6000个物体, 可用于AIGC、渲染、大场景重建、物体重建等一系列产品技术中。
模型再好,没有经过千百万次的锤炼终归也只是初出茅庐的菜鸟,通用人工智能时代,模型参数量剧增,过往10年,最好的AI算法对于算力的需求增长超过了100万倍。但衡量算力能力和核心指标不是简单的数字,一方面是多卡并行状态下的有效利用率,即能够支撑大模型训练的实际算力;另一方面是系统能够持续稳定运行的时长。
现在,商汤SenseCore AI大装置可提供5000Petaflops算力,能够以最大4000卡规模集群进行单任务训练,可以训练参数量超5000亿的稠密模型,并做到七天以上不间断的稳定训练,今年的目标是能够在大装置上训练超过万亿参数的模型。
对于大模型的商业化,商汤有着自己的理解。商汤做了一整套工具、产品和解决方案,推进AI领域向全新大模型范式发展,把原本零散且定制化难的小作坊式的AI,变成了集中式且支持大规模应用生产的范式,让AI生产成本和应用成本急剧降低。
“从百亿参数到千亿参数到后面万亿参数,商汤的AI大模型每一步都可以用在实际的行业和产品里。通过飞轮效应的闭环,一来可以把模型越做越大,二来可以把模型越做越有用。”商汤科技联合创始人、大装置事业群副总裁陈宇恒对大模型的商业价值这样解答道。
不仅如此,商汤持续维持高比例的研发投入,2022年报中显示,商汤研发支出合计40亿元,同比增长11%;研发人效相比去年进一步提高90%,人均每年研发模型数9.35个;累计商用模型数提高了93%至6.7万个。
“苟日新,日日新,又日新”,技术日上,商汤不断强调这句出自儒家经典《礼记·大学》的名言,意为如果能够一天新,就应保持天天新,新了还要更新。这就像“日日新”大模型体系给产业带来的全新的生产力革命,在商汤科技已经将AGI的服务沁入企业生产及生活中,悄然掀起了一场生产力的革新风暴。
声明:本文内容来源自网络,文字、图片等素材版权属于原作者,平台转载素材出于传递更多信息,文章内容仅供参考与学习,切勿作为商业目的使用。如果侵害了您的合法权益,请您及时与我们联系,我们会在第一时间进行处理!我们尊重版权,也致力于保护版权,站搜网感谢您的分享!