首页 > 资讯列表 >  本页面生成ZendOptimizer专题报道,ZendOptimizer滚动新闻,ZendOptimizer业界评论等相关报道!
  • 奇富科技机器人团队语音论文入选INTERSPEECH2023

    奇富科技机器人团队语音论文入选INTERSPEECH2023

    6月1日消息,近日,奇富科技机器人团队论文《Eden-TTS:一种简单高效的非自回归“端到端可微分”神经网络的语音合成架构》(Eden-TTS: A Simple and Efficient Parallel Text-to-speech Architecture with Collaborative Duration-alignment Learning)被全球语音与声学顶级会议INTERSPEECH 2023接收。据悉,INTERSPEECH是由国际语音通讯协会(International Speech Communication Association, ISCA)创办的语音信号处理领域顶级旗舰国际会议,是全球最大的综合性语音信号处理盛会,在国际上享有盛誉并具有广泛的学术影响力。奇富科技的论文研究成果为需要文本转语音的应用场景提供了创新的解决方案,提出了一种端到端可微的非自回归神经网络语音合成模型架构。基于文本音素时长与alignment的密切关系,论文提出了一种简单高效的alignment学习方式:首先采用一种新的energy-modulated注意力机制得到guided alignment,然后利用guided alignment计算音素的时长信息,最后通过音素的时长信息构建monotonic alignment。本方法无需外部的alignment信息,无需引入额外的alignment损失函数。对业务提效而言,这种端到端可微的方法使得各个模块可以方便地替换为各种类型的神经网络模块,从而具有良好的扩展性和稳定性。相比于主流的自回归模型,推理速度提升了10倍以上,能够满足实时语音合成的需求。根据进行的多人MOS评测,该方法的MOS分值达到了4.32分(满分为5分),合成语音的自然流畅程度接近于目前最优的自回归模型,显著优于同类型的非自回归模型。此外,与同类型方法相比,该方法可以节约50%以上的训练时间,显著提升模型训练效率。奇富科技在对话机器人领域一直坚持投入、坚持自研。就在两个月前,奇富科技另一篇音频论文《基于多粒度Transformer的多模态情绪识别》(Multilevel Transformer for Multimodal Emotion Recognition)被第48届IEEE声学、语音与信号处理国际会议(IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2023)接收。“我们很高兴在理解用户、优化表达方面取得了关键性的成果。随着奇富GPT对于公司各业务层的重构,我们已经极大提升了对于用户在文本上的理解能力,从语音到文本,再从文本回到语音,更好的识别是为了更好的表达和输出,我们将持续投入,用前沿技术重塑用户体验。”奇富科技首席算法科学家费浩峻表示。(一橙) ...

    业界动态 2023-06-01 12:40:34
  • OPPOMRGlass开发者版首次亮相搭载骁龙XR2+平台

    OPPOMRGlass开发者版首次亮相搭载骁龙XR2+平台

    6月1日消息,今日,OPPO在2023年增强现实世界博览会(AWE)上带来在XR领域的最新探索成果—OPPO MR Glass开发者版。OPPO认为,在不久的将来,XR(扩展现实)领域的应用将迅速增长, XR领域内的MR(混合现实)目前是符合用户需求、可实现性最高的方向之一...

    业界动态 2023-06-01 10:45:52
  • OpenAI将用新方法来训练模型以对抗人工智能“幻觉”

    OpenAI将用新方法来训练模型以对抗人工智能“幻觉”

    ①检测并减轻模型的逻辑错误或幻觉,是构建通用人工智能(AGI)的关键一步; ②这种方法被称为“过程监督”,而不是“结果监督”,它可能会提高人工智能的性能与准确性。 财联社6月1日讯(编辑 牛占林)美东时间周三,OpenAI发布的最新研究论文显示,该公司正在用一种新的方法来训练人工智能(AI)模型,以对抗人工智能“幻觉”...

    智能设备 2023-06-01 10:45:29
  • 苹果iOS/iPadOS16.6开发者预览版Beta2发布

    苹果iOS/iPadOS16.6开发者预览版Beta2发布

    IT之家 6 月 1 日消息,苹果今日向 iPhone 和 iPad 用户推送了 iOS/iPadOS 16.6 开发者预览版 Beta 2 更新(内部版本号:20G5037d),本次更新距离上次发布隔了 12 天。 本文由机器人发布,IT之家稍后将为大家带来具体更新内容。附 iOS/iPadOS 16 发布历史: ...

    智能设备 2023-06-01 10:45:29
  • Windows11强推Edge浏览器用户想换第三方浏览器有门槛

    Windows11强推Edge浏览器用户想换第三方浏览器有门槛

    从Windows 10开始,微软就在努力推广其原生的Edge浏览器,在经过数次大的改版后,Edge浏览器采用了Chromium内核,为用户带来了更好的Web兼容性,并为所有Web开发者减少Web碎片化。这一改动确实让Edge浏览器也进入了主流用户的视野中,一时好评如潮...

    智能设备 2023-05-27 17:11:35
  • 英伟达AI智能体接入GPT-4,完胜AutoGPT!自主写代码独霸我的世界,无需人类插手

    英伟达AI智能体接入GPT-4,完胜AutoGPT!自主写代码独霸我的世界,无需人类插手

    新智元报道编辑:Aeneas 好困【新智元导读】给游戏行业来点GPT-4式震撼?这个叫Voyager的智能体不仅可以根据游戏的反馈自主训练,而且还能自行写代码推动游戏任务。继斯坦福的25人小镇后,AI智能体又出爆款新作了。最近,英伟达首席科学家Jim Fan等人把GPT-4整进了「我的世界」(Minecraft)——提出了一个全新的AI智能体Voyager。Voyager的厉害之处在于,它不仅性能完胜AutoGPT,而且还可以在游戏中进行全场景的终身学习!比起之前的SOTA,Voyager获得的物品多出了3.3倍,旅行距离变长了2...

    智能设备 2023-05-27 16:03:18
  • 这个比ChatGPT情商还高的AI,我可以和它聊三天三夜

    这个比ChatGPT情商还高的AI,我可以和它聊三天三夜

    狂拿考试高分让学生瑟瑟发抖,加入联网功能叫传统搜索战战兢兢,升级工作全家桶搞得打工人又悲又喜....

    智能设备 2023-05-27 16:02:52
  • GPT-4玩《我的世界》15倍速攀科技,不看画面全靠代码操作

    GPT-4玩《我的世界》15倍速攀科技,不看画面全靠代码操作

    克雷西 发自 凹非寺量子位 | 公众号 QbitAI把GPT-4放进一个虚拟世界会怎么样?比如《我的世界》。英伟达开发最新方法Voyager,在游戏中点亮科技树的速度是此前方法的15.3倍,同时获得的独特物品是此前的3...

    智能设备 2023-05-27 16:02:52
  • 数学论证GPT-4不是随机鹦鹉:真如此的话整个宇宙都会坍缩

    数学论证GPT-4不是随机鹦鹉:真如此的话整个宇宙都会坍缩

    克雷西 发自 凹非寺量子位 | 公众号 QbitAI对于ChatGPT的工作原理,一个常见的解释是根据统计学规律预测下一个词。但最近一位叫Jacob Bayless的工程师用数学方法得出惊人结论:若是如此,所需的信息量足以让整个宇宙都坍塌成黑洞。这一数据量是50000^8000,根据贝肯斯坦上限(Bekenstein bound)原理,如果把这些信息分配到空间当中,所需要的信息密度已经远超宇宙能承受的最大值。而这仅仅是把数据存储起来的消耗,更不必说还要进行运算了。而ChatGPT与单纯统计预测的区别,可以做这样的类比:如果天文学家通过历史观测记录推算出月食的周期,这可以算是统计学。但当他们总结出牛顿万有引力定律的时候,就已经超越了统计学。什么是“随机鹦鹉”一个流传很广的说法,所谓大语言模型实际上相当于一个“随机鹦鹉”——与我们观察其输出时的情况相反,语言模型只是将其在庞大的训练数据中观察到的语素胡乱拼接在一起,根据概率生成文本,但不清楚文字背后的任何含义,就像一个随机的鹦鹉。出自论文On The Dangers of Stochastic Parrots: Can Language Models Be Too Big这对过去的语言模型,或许确实成立。比如曾经流行的n-gram算法。比如当我们在搜索引擎中进行搜索时,出现的联想词就能用此方法实现。具体来说,下面的三行文本中,第一行纯粹是随机生成,第二行考虑了单词在英语中整体的出现概率,第三行则考虑了单词在前一个词后面出现的概率。n = 0: RECEIVE FALL SURPRISED FRIDAY INGREDIENT…n = 1: REPRESENTING AND SPEEDILY IS AN GOOD…n = 2: THE CHARACTER OF THIS POINT IS THEREFORE…不难看出,随着n值的升高,文本越来越接近人类语言。而n-gram模型根本不需要掌握其中的语义或理解其中的抽象概念,就能生成像模像样的句子。据此有人猜想,GPT-4会不会也只是一种高级的n-gram呢?Bayless提出,GPT必须学会抽象才能有如今的效果,至少GPT-4肯定如此。GPT-4不只是“随机鹦鹉”要证明这一点,可以先看下棋机器人的例子。如果有一种下棋机器人,存储了巨量棋谱数据,对于每个棋局都能推荐下一步。那它就能通过“背谱法”模仿其他任何棋手或程序的下法比如Stockfish是最先进的国际象棋程序,如果仅通过对战而不看源码,是无法确定Stockfish是否在背谱。但实际上,包含所有情形和步骤的棋谱数据量可能超过2^154。而Stockfish的程序只占用了不到50MB的空间,根本不可能存下需要的所有棋谱。所以Stockfish肯定是通过更高级的方法来实现下棋的。人类语言的复杂度远超过棋类游戏,因此GPT的数据量更是同理。仅在是上一代的GPT-3的token字典中就有超过5万token。如果对每个词都逐一建立统计信息,n-gram模型中n值将高达8000。届时,需要存储的情景数量将达到50000^8000。正如文章开头所提到,这简直是天文数字,足以让整个宇宙坍缩。因此,GPT是“随机鹦鹉”的猜测在理论上得到了一定程度的批驳。“随机鹦鹉”达不到的高度仅在理论上进行说明是不充分的,因此研究人员还进行了两个实验,意图证明大模型在学习过程中已经抽象出了算法。第一个实验关于一道经典的农夫过河问题。一个农夫有一条船,和狼、羊、菜,农夫要把这3样东西运到河到另一边,农夫每次最多只能通过这个船运一样东西,要防止狼吃羊、羊吃白菜(即不能在没有农夫在的情况下同时在同一岸边),该怎么过?研究人员将这个问题中的农夫、船、河分别替换成地球人、虫洞和银河系。狼、羊和菜则分别换成火星人、金星人和月球人。替换的目的是因为互联网上不太可能出现类似语料,可以判断大语言模型是不是真的掌握了通用方法。如果GPT不是“随机鹦鹉”,那么它至少不会犯下只有“随机鹦鹉”才会犯的错误。GPT-4针对替换后的问题给出了正确的回答,GPT-3.5则没有。但它们并没有犯研究人员预想的“鹦鹉”错误——即在回答中出现狼、船、河等已被替换掉的词语。回答中使用的句子,也无法在互联网中被检索到。这些现象都证明了现在的大语言模型的生成方式已经超越了“概率预测”。第二个实验则是数字排序。如果让GPT学习数字排序,它们究竟是只会记住给出过的数字顺序,还是真的研究出排序算法呢?其实只要从GPT的输出当中就可以看出来了。假如从1-100中随机选择10个数字,并将其顺序打乱,将一共有这么多种情形:如果再考虑数字的重复出现,又或者数字的数量发生变化,根本不可能存储如此之多的情形。因此,只要GPT能够针对未知的排序问题给出正确的回答,便可以说明它们是真的研究出了排序算法。研究人员训练了一款特斯拉前AI总监Andrej Kaparthy发明的语言模型nanoGPT,专门让它做数字排序。结果显示,随着训练步数的增加,模型给出的数字顺序越来越完美。虽然在训练步数达到16万左右时突然出现了大量错误,但也很快得到了纠正。这说明这款模型并不是仅仅根据学习的素材对未知的数字进行排序,而是已经掌握了背后的方法。这个测试只是在一台笔记本电脑、算力非常有限的GPU上进行的。更不必说GPT-4了。参考链接:https://jbconsulting...

    智能设备 2023-05-27 16:02:19
  • 阿里达摩院:GPT-4替代年薪60万数据分析师只要几千块,论文已发

    阿里达摩院:GPT-4替代年薪60万数据分析师只要几千块,论文已发

    梦晨 发自 凹非寺量子位 | 公众号 QbitAIGPT-4替代初级数据分析师的成本只有0.71%,换成高级数据分析师则是0...

    智能设备 2023-05-27 16:02:14
  • 开源三年260家企业加入openGaus社区即将迎来生态拐点

    开源三年260家企业加入openGaus社区即将迎来生态拐点

    5月26日消息,openGauss Developer Day 2023(openGauss开发者大会2023)在北京举办。会上,openGauss社区理事会理事长江大勇透露,已有将近260家企业加入社区,近5000名开发者参与社区贡献,社区代码总行数已超过1500万行,即将迎来生态拐点。在openGauss开源三周年之际,社区高速发展,即将迎来生态拐点。openGauss社区理事会理事长江大勇表示,截止目前,已有将近260家企业加入社区,近5000名开发者参与社区贡献,社区代码总行数已超过1500万行。社区坚持技术创新,如期发布了7个社区版本,多家社区伙伴基于openGauss推出的数据库商业发行版,广泛应用于政府、金融、运营商、电力、制造、医疗等十大重点行业的核心场景,2023年openGauss在非云集中式场景的市场份额更是有望突破20%,跨越生态拐点。在今年3月上线的openGauss 5.0版本中,openGauss针对架构、内核进行了重大升级:在架构创新方面,openGauss坚持用户场景驱动,持续进行架构创新,围绕多模多态、智能运维等用户需求、痛点,推出了DataPod+DataKit组合,打造全新的数据底座。未来,openGauss希望通过内核和架构的双引擎驱动,实现数据库技术突破,为全球数据库发展贡献智慧。作为面向数据基础设施的开源数据库,openGauss北向支持数据库主流应用,南向支持多样性算力,南北向丰富的生态加速了openGauss落地千行百业,进入核心业务场景。开源3年以来,openGauss已上线7个社区版本,DBV伙伴基于社区发行版发布商业发行版,用户基于社区发行版深度定制的用户自用版,这些版本已覆盖数字基础设施丰富的场景,包括面向关系型的集中式、KV数据库,地理空间数据库,时序数据库等。为了更好地满足行业细分场景的需求,充分发挥openGauss数据库和鲲鹏硬件软硬协同的优势,openGauss社区将联合伙伴推出“全栈可信”、“全栈安全”、“开箱即用”、“极简运维”的数据库一体机解决方案。会上,还发布了基于首批基于openGauss发行版的数据库一体机产品,数据库一体机产品均采用了完全开放的架构设计,基于开放的鲲鹏服务器硬件和openGauss开源数据库,为客户提供开放、安全、自主创新、长期演进的企业级数据库解决方案新选择。为了提升openGauss社区专业服务能力,openGauss伙伴专业保障服务正式发布。(静静) ...

    业界动态 2023-05-26 15:57:25
  • OpenAI捐款10万美元,推动治理人工智能、引导其健康发展

    OpenAI捐款10万美元,推动治理人工智能、引导其健康发展

    IT之家 5 月 26 日消息,根据路透社报道,OpenAI 将从现有基金中抽出 100 万美元,分别等额的 10 份,用于推动 ChatGPT 的民主进程,制定有效措施,管理人工智能,遏制偏见等其它负面因素,引导其健康发展。OpenAI 在今天的博文中表示,其中划分的 10 万美元(IT之家备注:当前约 70.8 万元人民币),将捐给那些提出相关框架的个人和组织,希望有治理人工智能的方案出炉,让其健康发展。OpenAI 的首席执行官 Sam Altman 告诉路透社:“人工智能系统应该造福全人类,并具有更大的包容性。我们正在启动这个资助计划,朝着这个方向迈出第一步”。OpenAI 表示 10 万美元的投入可能会迸发出治理人工智能的诸多看法,即便是这些建议没有任何“约束力”。 ...

    智能设备 2023-05-26 11:18:41

站长搜索

http://www.adminso.com

Copyright @ 2007~2024 All Rights Reserved.

Powered By 站长搜索

打开手机扫描上面的二维码打开手机版


使用手机软件扫描微信二维码

关注我们可获取更多热点资讯

站长搜索目录系统技术支持