找到相关的专题报道信息 - 世界机器人大会

精确率提升7.8%！首个多模态开放世界检测大模型MQ-Det登NeurIPS2023

新智元报道编辑：LRS【新智元导读】MQ-Det在已有基于文本查询的检测大模型基础上，加入了视觉示例查询功能，同时保留了高泛化性能和细粒度多模态查询，在ODinW-35基准上实现SOTA性能。目前的开放世界目标检测模型大多遵循文本查询的模式，即利用类别文本描述在目标图像中查询潜在目标，但这种方式往往会面临「广而不精」的问题。论文链接：https://arxiv.org/abs/2305...

智能设备 2023-10-19 02:15:01
百度李震宇：大模型将走向多模态，塑造完全自动驾驶的汽车机器人

雷递网乐天 10月17日百度创始人、董事长兼首席执行官李彦宏昨日在百度世界大会上表示：“未来的AI原生应用一定是多模态的，在信息世界之外，一定会重构物理世界，自动驾驶就是视觉大模型重构物理世界的一个典型应用。大模型会让百度的自动驾驶能力超越经验系统，更聪明地处理复杂场景，实现更广泛的时空覆盖。”在当天下午的百度世界大会2023“大模型‘重构’智能汽车”论坛上，百度集团资深副总裁、智能驾驶事业群组总裁李震宇表示：大模型的“智能涌现”带来理解、生成、推理、记忆等核心能力的突破，让汽车具有EQ和IQ，将重构智能汽车业态。未来的大模型还将走向多模态，塑造出完全自动驾驶的汽车机器人。萝卜快跑将越来越接近商业化盈利在智舱方面，语言大模型的上车，让人和车交互方式会从“命令式”升级到“对话式”，推动人车关系升级为人和虚拟人的关系。大模型将重构人车交互方式，让交互更加自然。以文心大模型为基础，百度Apollo为汽车座舱打造了专属大模型技术底座。人和车的交互不再需要复杂的按键操作，用语音就能操控，即便是七嘴八舌、多人指令、声音交织、连续对话的情况下，智能座舱也能理解每个人不同的需求，同时满足。目前，百度Apollo智舱大模型加持的产品将在极越01、凯迪拉克、别克、吉利银河等品牌车型中实现量产搭载。在智驾方面，通过Transformer和BEV等新技术彻底重构自动驾驶技术栈，感知能力获得代际感提升，加速纯视觉方案的成熟和普及。百度称，百度Apollo纯视觉高阶智驾方案可应用于高速、城市、泊车等全域场景，将在今年第四季度实现量产，这是国内首个纯视觉方案在城市场景落地。去掉激光雷达让整车成本更低，提升了市场竞争力。大模型还将走向多模态，重构物理世界，自动驾驶就是大模型重构物理世界的一个典型代表。大模型让自动驾驶超越经验系统，更聪明地处理复杂场景，实现更广泛的时空覆盖，塑造出完全自动驾驶的汽车机器人。百度称，百度自动驾驶出行服务平台萝卜快跑，已经是全球最大的自动驾驶出行服务商，累计提供了超过400万次服务。随着运营规模的不断扩大、技术水平的不断提升，成本更低的自动驾驶车辆的规模化部署，萝卜快跑将越来越接近商业化盈利。李震宇表示，百度在人工智能、深度学习等领域投入超过十年，在智能汽车领域也探索了十年，十年日拱一卒的技术积累、实践是百度Apollo信心和底气的来源。大模型让全无人自动驾驶真正落地，汽车智能化的浪潮也将快速到来。大模型“重构”智能汽车的三条关键路径近年来，智能驾驶在用户整体购车因素的占比快速上升，在“选购前最重视因素”占比从1.2%突破到30%，成为用户购车核心决策因素。智能汽车市场正处在规模化量产前夕，智能汽车底层智能化技术也在发生重构，让AI原生出行时代更快到来。李震宇认为，大模型对智能汽车行业的重构主要体现在三个方面。语言大模型上车，人车交互方式会从“命令式”升级到“对话式”；通过Transformer和BEV等新技术彻底重构自动驾驶技术栈，感知能力获得代际感提升，加速纯视觉方案的成熟和普及；未来的大模型还将走向多模态，塑造出完全自动驾驶的汽车机器人。会上还发布了多款智驾和舱驾融合产品。百度Apollo量产的Apollo Highway Driving Pro进一步演进，发布了新一代Apollo City Driving，使得使用场景从封闭道路升级到城市开放道路，功能场景无限接近全域。百度称，纯视觉城市领航高阶智驾产品Apollo City Driving Max将于2023年第四季度量产落地。与此同时，百度Apollo还行业首发了Apollo Robo-Cabin舱驾一体软芯融合智算平台，它是中国首个能够完成甚至是全球首个真正意义上在单SOC上实现了舱驾融合运行的平台。活动现场，百度Apollo与航盛签署战略合作，宣布将共同基于高通平台打造新一代舱驾融合产品。雷递由媒体人雷建平创办，若转载请写明来源。 ...

智能设备 2023-10-19 02:14:57
外媒：在电池竞赛中，中国如何将世界远远甩在后面

10月13日消息，在新书《气候资本主义》中，彭博社记者阿克沙特·拉蒂（Akshat Rathi）通过目前全球最大电池公司宁德时代的视角，解释了中国在电池市场占据主导地位的原因。以下为翻译全文：2018年7月，全球最大电池公司宁德时代首席执行官曾毓群与德国图林根州部长沃尔夫冈·蒂芬塞(Wolfgang Tiefensee)签署了一项协议，承诺这家中国制造业巨头将在德国建立第一家大型电动汽车电池工厂...

业界动态 2023-10-19 02:14:17
AI机器人上岗粘假睫毛：1小时搞定，收费90美元

6月12日消息，随着人工智能技术的发展，美容美发公司开始使用计算机视觉机器人为客户粘假睫毛、做美甲，比人类技师更快更安全，价格也更低。以下为翻译内容：在过去的八年时间里，阿什利·戴维斯(Ashley Davis)每隔两周就要花上150美元给自己接假睫毛...

业界动态 2023-06-13 11:00:16
群星璀璨！2023智源大会6月9日正式启航

风云激涌，星光熠熠！第五届北京智源大会将于6月9日启航！本届智源大会汇聚人工智能领域最关键的人物、最重要的机构、最核心的话题与最内行的观众，将为专业精英人士献上本年度人工智能的巅峰盛会。智源大会群星璀璨英雄荟萃：影响未来的关键问题讨论2023智源大会现场，将会有图灵奖得主Yann LeCun等领衔探讨大模型发展现状与未来趋势；图灵奖得主Joseph Sifakis，Midjourney创始人David Holz，中国工程院院士郑南宁，智源研究院理事长张宏江，清华大学智能产业研究院（AIR）院长张亚勤，智源研究院院长黄铁军，智源首席科学家、清华大学教授朱军等将进行一系列面向未来的特邀报告与尖峰对话。2023智源大会主席未来生命研究所创始人Max Tegmark，图灵奖得主Geoffrey Hinton、姚期智，OpenAI创始人Sam Altman，中国科学院院士张钹，UC伯克利分校教授Stuart Russell等嘉宾将进行一系列安全伦理问题和风险防范的讨论。AI生命科学方向的讨论将由诺贝尔化学奖得主 Arieh Warshe、2021年科学突破奖生命科学奖得主 David Baker、美国国家科学院和医学院双院士谢晓亮等顶尖专家引领探讨。星辰大海：纵览前沿研究趋势大模型的引爆人工智能概念不是偶然，算法的进步提供了重要支持。本届大会邀请过去一年领域突破的重要工作完成人，亲身讲解技术成果。如PaLM-E、OPT、NLLB、T5、Flan-T5、LAION-5B、RoBERTa等重要工作完成人届时将出席，其中多位将亲临北京，与现场观众面对面交流，讲解研究成果背后最激动人心的故事。大会还汇聚了国际明星团队，一览人工智能发展前沿趋势，如OpenAI、DeepMind、Anthropic、HuggingFace、Midjourney、Linux基金会等代表机构，以及Meta、Google、微软等企业，斯坦福、UC伯克利、MIT等学府齐聚一堂。深度研讨：最全面，最专业，最前沿两天3场特邀报告，13场专题论坛，百场精彩讨论。不同于对热度的追逐，智源大会极为注重为人工智能专业人士献上兼具专业深度与创意启发的思想交流体验，力争将每个值得探讨的话题拉到极致。6月9日首日议程包括基础模型前沿技术论坛，类脑计算论坛，视觉与多模态大模型论坛，具身智能与强化学习论坛，大模型新基建与智力运营论坛。智源大会主要议程6月10日议程包括生成模型论坛，AI系统论坛，基于认知神经科学的大模型论坛，AI生命科学论坛，AI安全与对齐论坛，自动驾驶论坛，AI开源论坛，智能的物质基础论坛。智源大模型全面开源，旗舰评测项目启航智源研究院是中国大模型研究的先行科研机构之一。在连创「中国首个+世界最大」纪录之后，「悟道3.0」迈向全面开源崭新阶段，将在大会上发布系列大模型研究成果。此外，智源研究院一直致力于通过开源开放，促进人工智能领域协同创新，构建大模型时代的「新 Linux 生态」。本次大会，「FlagOpen 大模型技术体系」也将带来大模型评测方面的最新进展，帮助大模型训练效率提升。 ...

智能设备 2023-06-08 11:13:15
Instagram被曝将引入AI聊天机器人拥有30种人物性格

6月7日消息，Meta正在加速采用生成式人工智能技术，并将其整合到包括广告在内的各种平台上。现在，该公司正在Instagram上测试一项新功能...

互联网 2023-06-07 07:40:29
吴恩达ChatGPT课爆火：AI放弃了倒写单词，但理解了整个世界

明敏杨净发自凹非寺量子位 | 公众号 QbitAI没想到时至今日，ChatGPT竟还会犯低级错误？吴恩达大神最新开课就指出来了：ChatGPT不会反转单词！比如让它反转下lollipop这个词，输出是pilollol，完全混乱。哦豁，这确实有点大跌眼镜啊。以至于听课网友在Reddit上发帖后，立马引来大量围观，帖子热度火速冲到6k。而且这不是偶然bug，网友们发现ChatGPT确实无法完成这个任务，我们亲测结果也同样如此。△实测ChatGPT（GPT-3.5）甚至包括Bard、Bing、文心一言在内等一众产品都不行。△实测Bard△实测文心一言还有人紧跟着吐槽， ChatGPT在处理这些简单的单词任务就是很糟糕。比如玩此前曾爆火的文字游戏Wordle简直就是一场灾难，从来没有做对过。诶？这到底是为啥？关键在于token之所以有这样的现象，关键在于token。token是文本中最常见的字符序列，而大模型都是用token来处理文本。它可以是整个单词，也可以是单词一个片段。大模型了解这些token之间的统计关系，并且擅长生成下一个token。因此在处理单词反转这个小任务时，它可能只是将每个token翻转过来，而不是字母。这点放在中文语境下体现就更为明显：一个词是一个token，也可能是一个字是一个token。针对开头的例子，有人尝试理解了下ChatGPT的推理过程。为了更直观的了解，OpenAI甚至还出了个GPT-3的Tokenizer。比如像lollipop这个词，GPT-3会将其理解成I、oll、ipop这三个部分。根据经验总结，也就诞生出这样一些不成文法则。1个token≈4个英文字符≈四分之三个词；100个token≈75个单词；1-2句话≈30个token；一段话≈100个token，1500个单词≈2048个token；单词如何划分还取决于语言。此前有人统计过，中文要用的token数是英文数量的1...

智能设备 2023-06-04 09:41:08
日本：敞开训练AI不用管版权，LeCun：机器学习天堂

西风发自凹非寺量子位 | 公众号 QbitAI大模型狂潮下，日本政府坐不住了。直接宣布：不会对训练AI所使用的数据实施版权保护。这也就意味着，训练AI可以使用任何数据。不管是非营利还是商业目的，不论是否是复制以外的行为，只要你能搞得到，你就可以用，甚至从非法网站获得的数据也可以用。连Yann LeCun看到消息后都发文表示：日本已经成为了机器学习的天堂。确实，不少日本学术界和商界人士那是敲锣打鼓。毕竟想要在全球大模型舞台上分得一杯羹，数据本就是一大关键要素。但这引起了动漫和艺术创作者的担忧。早在四个月前，日本参议院议员、职业漫画家赤松健在YouTube上发布了一个讲用AI进行图像生成的视频，就有提到过侵权问题，以及漫画师的担忧。在那时，就有日本画友认为：希望能开发出超越“Novel AI”的AI插图服务。当然，这个AI服务的训练数据集中不能使用未经授权的转载图片。但现在，对训练AI所使用的数据集的版权限制已放开。用无视版权的方式“弯道超车”其实，日本并不是第一次在版权保护上有所松懈。日本曾经因为过于严苛的版权保护，导致版权转让极为不便，需要遵循诸多条条框框，盗版问题也很严重。之后，日本在2019年修正了版权保护制度。即便如此，这次日本被爆在训练AI方面的大尺度政策，还是令人惊讶。Technomancers.ai报道称：似乎日本认为版权问题，尤其是与动漫和其它视觉媒体相关的版权问题，阻碍了该国在人工智能技术方面的进展。作为回应，日本决定全力以赴，选择无版权的方式来保持竞争力。尽管日本目前是世界第三大经济体，但自1990年代以来，日本的经济增长一直缓慢。此时，若人工智能可以得到有效发展，就有可能在短时间内将日本的GDP提高50%或者更多。对于日本来说，这是一个令人兴奋的前景。日本还试图把手伸向西方国家的数据库，这也是日本发展人工智能的关键。相较而言，日本的日语训练数据量明显少于西方可用的英语数据资源。日本拥有很受欢迎动漫等文化内容。在这点上，日本的立场似乎很明确：如果西方利用日本文化来训练AI，那么西方文化资源也应该可供日本训练AI。AI监管辩论还在继续TB级别的训练数据是维系大模型进化的一大核心要素。毕竟可用的高质量训练数据越多，AI 模型就越好。而关于大模型训练数据不透明等问题一直是大家讨论的热点。大模型的野蛮生长势必要带来人们对其安全合规的考量，侵权问题就是需要监管的问题之一。而此次日本这一举动也为监管辩论增添了转折。针对版权问题，美国版权局（USCO）在三月份也发布了新规。但并不是对版权进行保护，而是称：人工智能（AI）自动生成的作品不受版权法保护。因为，和人工参与创作的Photoshop作品不同，通过Midjourney、Stability AI、ChatGPT等平台生成的作品完全由AI自动完成，而且训练的数据是基于人类创作的作品，因此不受版权法保护。对此，你怎么看？参考链接：[1]https://technomancers...

智能设备 2023-06-03 10:08:55
奇富科技机器人团队语音论文入选INTERSPEECH2023

6月1日消息，近日，奇富科技机器人团队论文《Eden-TTS：一种简单高效的非自回归“端到端可微分”神经网络的语音合成架构》（Eden-TTS: A Simple and Efficient Parallel Text-to-speech Architecture with Collaborative Duration-alignment Learning）被全球语音与声学顶级会议INTERSPEECH 2023接收。据悉，INTERSPEECH是由国际语音通讯协会（International Speech Communication Association, ISCA）创办的语音信号处理领域顶级旗舰国际会议，是全球最大的综合性语音信号处理盛会，在国际上享有盛誉并具有广泛的学术影响力。奇富科技的论文研究成果为需要文本转语音的应用场景提供了创新的解决方案，提出了一种端到端可微的非自回归神经网络语音合成模型架构。基于文本音素时长与alignment的密切关系，论文提出了一种简单高效的alignment学习方式：首先采用一种新的energy-modulated注意力机制得到guided alignment，然后利用guided alignment计算音素的时长信息，最后通过音素的时长信息构建monotonic alignment。本方法无需外部的alignment信息，无需引入额外的alignment损失函数。对业务提效而言，这种端到端可微的方法使得各个模块可以方便地替换为各种类型的神经网络模块，从而具有良好的扩展性和稳定性。相比于主流的自回归模型，推理速度提升了10倍以上，能够满足实时语音合成的需求。根据进行的多人MOS评测，该方法的MOS分值达到了4.32分（满分为5分），合成语音的自然流畅程度接近于目前最优的自回归模型，显著优于同类型的非自回归模型。此外，与同类型方法相比，该方法可以节约50%以上的训练时间，显著提升模型训练效率。奇富科技在对话机器人领域一直坚持投入、坚持自研。就在两个月前，奇富科技另一篇音频论文《基于多粒度Transformer的多模态情绪识别》（Multilevel Transformer for Multimodal Emotion Recognition）被第48届IEEE声学、语音与信号处理国际会议(IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2023)接收。“我们很高兴在理解用户、优化表达方面取得了关键性的成果。随着奇富GPT对于公司各业务层的重构，我们已经极大提升了对于用户在文本上的理解能力，从语音到文本，再从文本回到语音，更好的识别是为了更好的表达和输出，我们将持续投入，用前沿技术重塑用户体验。”奇富科技首席算法科学家费浩峻表示。（一橙） ...

业界动态 2023-06-01 12:40:34
马斯克时隔半年重登“世界首富宝座”资产近2000亿美元

①特斯拉今年迄今的涨幅已达88.65%； ②马斯克目前的净资产约为1923亿美元，而法国富豪Arnault的净资产约为1866亿美元；财联社6月1日讯（编辑黄君芝）时隔半年，特斯拉首席执行官埃隆·马斯克（Elon Musk）重新获得了世界首富的头衔。截至周三美股收盘，特斯拉股价涨1...

智能设备 2023-06-01 10:45:27
苹果邀请开发者“编码新世界”，暗示即将推出RealityPro头显

IT之家 5 月 31 日消息，距离苹果公司的全球开发者大会（WWDC）只有不到一周的时间，苹果公司在其开发者网站上发布了一篇博客文章，暗示了即将推出的 Reality Pro 头戴式设备，邀请开发者关注并学习如何“编码新世界（Code new worlds）”。“编码新世界”这一标语是苹果公司今天才开始使用的，明显是对新软件平台的暗示...

智能设备 2023-05-31 10:53:49
中国科学院院士李静海：2022年中国数字经济规模达50.2万亿元，总量稳居世界第二

5月29日消息，近日中关村平行论坛“互联网3.0：未来互联网产业发展论坛”现场，中国科学院院士、北京市科学技术协会主席李静海发表主题演讲。他强调，2022年中国数字经济规模达50...

互联网 2023-05-29 16:34:32

网站分类

热门文章

热点

标签列表

分享到:

Copyright @ 2007~2024 All Rights Reserved.

Powered By 站长搜索