-
奇富科技机器人团队语音论文入选INTERSPEECH2023
6月1日消息,近日,奇富科技机器人团队论文《Eden-TTS:一种简单高效的非自回归“端到端可微分”神经网络的语音合成架构》(Eden-TTS: A Simple and Efficient Parallel Text-to-speech Architecture with Collaborative Duration-alignment Learning)被全球语音与声学顶级会议INTERSPEECH 2023接收。据悉,INTERSPEECH是由国际语音通讯协会(International Speech Communication Association, ISCA)创办的语音信号处理领域顶级旗舰国际会议,是全球最大的综合性语音信号处理盛会,在国际上享有盛誉并具有广泛的学术影响力。奇富科技的论文研究成果为需要文本转语音的应用场景提供了创新的解决方案,提出了一种端到端可微的非自回归神经网络语音合成模型架构。基于文本音素时长与alignment的密切关系,论文提出了一种简单高效的alignment学习方式:首先采用一种新的energy-modulated注意力机制得到guided alignment,然后利用guided alignment计算音素的时长信息,最后通过音素的时长信息构建monotonic alignment。本方法无需外部的alignment信息,无需引入额外的alignment损失函数。对业务提效而言,这种端到端可微的方法使得各个模块可以方便地替换为各种类型的神经网络模块,从而具有良好的扩展性和稳定性。相比于主流的自回归模型,推理速度提升了10倍以上,能够满足实时语音合成的需求。根据进行的多人MOS评测,该方法的MOS分值达到了4.32分(满分为5分),合成语音的自然流畅程度接近于目前最优的自回归模型,显著优于同类型的非自回归模型。此外,与同类型方法相比,该方法可以节约50%以上的训练时间,显著提升模型训练效率。奇富科技在对话机器人领域一直坚持投入、坚持自研。就在两个月前,奇富科技另一篇音频论文《基于多粒度Transformer的多模态情绪识别》(Multilevel Transformer for Multimodal Emotion Recognition)被第48届IEEE声学、语音与信号处理国际会议(IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2023)接收。“我们很高兴在理解用户、优化表达方面取得了关键性的成果。随着奇富GPT对于公司各业务层的重构,我们已经极大提升了对于用户在文本上的理解能力,从语音到文本,再从文本回到语音,更好的识别是为了更好的表达和输出,我们将持续投入,用前沿技术重塑用户体验。”奇富科技首席算法科学家费浩峻表示。(一橙) ...
业界动态 2023-06-01 12:40:34 -
苹果MagSafe磁吸充电器原型再曝光,共有8种颜色
IT之家 5 月 31 日消息,原型收藏家 Kosutami 日前晒出图片,表示苹果原计划为 MagSafe 充电器提供多彩设计。在今天发布的后续推文中,进一步表示苹果原本计划在 2020 年,推出 8 种颜色的 MagSafe 充电器...
手机互联 2023-05-31 07:54:33 -
苹果Magsafe磁吸充电器新品曝光,全新彩色设计
IT之家 5 月 29 日消息,知名苹果产品收藏家 Kosutami 昨日又有新动态,曝光了苹果采用多种配色设计的 Magsafe 磁吸充电器原型。▲图源 KosutamiKosutami 表示“彩色 Magsafe 磁吸充电器与此前的 MacBook 用充电线采用相同风格及配色设计,但颜色更饱和”...
智能设备 2023-05-29 10:15:45 -
Exynos2200加持!三星GalaxyS23FE规格曝光
消息源@Tech_Reve透露,三星将于今年年底推出 Galaxy S23 FE 手机,不会推出高通骁龙版本,而是搭载自家的 Exynos 2200 处理器。对此,外媒SamMyFans认为,主要原因是为了降低成本和维持利润。但考虑到 Galaxy S22 系列的不畅销,选择 Exynos 2200 处理器可能会影响到 Galaxy S23 FE 的销量。同时,Galaxy S23 FE 的其它规格信息也被曝光,包括6.4Gbps LPDDR5 6/8GB内存、UFS 3...
手机互联 2023-05-29 07:31:35 -
苹果或开放iPhone15系列15W无线充电,可使用未经认证的MagSafe充电器
苹果将会在今年秋天带来新一代iPhone 15系列智能手机,除了提供新功能及一些前瞻性的变化外,最大的不同可能是引入USB-C端口,放弃已使用十年的Lightning端口。对于不少用户来说,苹果的改变可以让充电变得更为简便一些,至少外出时可以选择少带一种线材...
手机互联 2023-05-25 23:49:43 -
专访NDV创始合伙人Jason:香港新政将使加密货币中心重回东方
界面新闻记者|司马林威随着香港虚拟资产新政即将落地,允许散户投资者交易比特币、以太坊等加密货币,香港作为亚洲加密货币潜在中心的引力越来越强。受此影响,金融机构加紧布局加密货币领域,其中亦不乏从知名投资机构、家办等转身跃入加密货币世界的创业者。他们年轻、出身金融背景、有丰富投资经验。在他们眼中,现在的加密货币正如2000年时的互联网、2012年时的移动互联网,是不可错过的黄金时机。出身蓝池资本、拥有十年VC和创投经历的黄宇——在Web3世界他更多以Jason的名字露面——正是这样一位典型代表。身为NextGen Digital Venture Limited(NDV)创始合伙人,今年35岁的Jason Huang毕业于北京大学经济学院,获经济学和历史双学位,曾先后任职于华兴资本、启明创投等机构。创业前他在蓝池资本——由马云以及蔡崇信等联合设立的家族办公室——负责中国投资。紧随香港逐步放开虚拟资产的交易与投资,NDV亦宣布旗下第一期专注于加密货币的Next Generation Fund获得又一笔500万美元的基石投资。NextGen一期基金由NDV与加密货币财富管理公司Metalpha Technology Holding Ltd(纳斯达克股票代码:MATH)合作成立,提供了一个受监管和合规的渠道,让投资者可以直接投资于Grayscale Investments LLC的产品,也可以通过与Grayscale产品相关的结构性衍生品进行间接投资。该基金正在从全球投资者中筹集1亿美元的资金,并在2023年3月获得了2000万美元的资金认购。NDV创始合伙人Jason于近日就该基金的成立初衷、投资策略、加密资产的合规配置等话题接受了界面新闻专访,并从全球宏观形势、加密货币行业的周期以及如何控制加密货币投资风险方面给出了他的思考。以下是专访内容,编后有一定删减。界面新闻:2022年FTX倒闭后,加密货币行业动荡不止,为什么会在这个节点离开家办,投身到加密货币投资领域?Jason:整个世界都在动荡,所以我一直在寻找,是否有更多方式能对冲风险。疫情后,我们观察到全球经济形势的不稳定性增加。美国作为储备货币发行权的拥有者,对其权力的滥用导致了流动性的过度泛滥、通胀的上升,进一步加剧了美元金融系统的不稳定性。所有这些因素都推动人们寻求多元化的资产配置。在长线的资产配置中,合规的重要性是大于收益的,也观察到目前市面上缺乏合规的渠道去配置这个资产类别,因此我决定转向加密货币投资领域。关于行业动荡,我的看法更多是“危中有机”。我是学历史的,所以习惯从历史中找规律和答案,今天加密货币经历的动荡和2000年互联网泡沫有相似之处。2000年初,互联网股票的泡沫在纳斯达克达到顶峰时,纳斯达克指数接近5000点,又在2002年底曾跌至1100点左右,下跌幅度达到了78%。但在这个危机后,苹果和亚马逊的股票都从低点反弹了几十甚至上百倍。今天的加密货币其实同理,高点回撤75%以后,相比起牛市时人声鼎沸状态下去追高,我更喜欢买在无人问津时,因为这是对LP和对自己最大的负责。界面新闻:VC和家办的经验对你管理加密货币基金有什么帮助?Jason:家办的经历让我更在意合规和现金回报。作为前LP,我明白在安全的前提下追求回报是LP的首要需求。我们的基金架构采用了香港9号牌,属于香港证监会监管下的基金,全流程合规而且安全。另外,基金运营周期设定为4年,与比特币的周期相一致,以实现适时退出并为LP提供现金回报。作为前TMT VC投资人,我相信强网络效应的产品有巨大的增长空间。当前比特币用户约1亿,其有潜力成为覆盖超过10亿用户的全球网络。比特币本身就是加密货币世界最大的超级应用。简而言之,家办经验使我理解LP需求,而VC背景让我看到市场的未来。比特币就像10年前的腾讯一样,它是一个高增长行业中的绝对头部资产,同时具有良好的流动性。这两方面的经验构成了我管理加密货币基金的核心思路:合规、适时退出,以及坚信网络效应的增长潜力。界面新闻:自加密货币诞生后,围绕着它的讨论与争议一直没有停过,你们如何定位以比特币为代表的加密货币?Jason:今天比特币更多是一种避险资产。我常常给人这么讲这样一个观点:事实上殖民主义在世界上从未消失过。第一代殖民帝国是大英帝国,他们统治世界的方法是开直营店,派总督去全世界各地收税。第二代殖民帝国是美国,他们的做法更先进,相当于是POS机+加盟店的模式去收铸币税,具体的做法就是印钞。我们今天看见的是,美元无限印钞这个行为应该是不可持续了。比特币的发明也是为了应对2008年美国过度印钞的一个产物。我们过去几年看到的美元过度发行、地缘政治的不确定性以及美国银行体系的不稳定性,所有这些因素均对比特币形成了积极的影响。随着美国持续印钞,会开始有更多国家不愿意继续被收割,与美元进行脱钩,进而逐渐形成一个比特币的共识网络。我们已经看到萨尔瓦多使用比特币作为储备货币了,这是一个很好的开始。界面新闻:但是在美联储的货币政策导向下,加密货币市值的波动性非常大,你们是否会担心其风险敞口?Jason:我们一直建议投资者将1%-5%的资产配置在比特币中,作为应对全球形势不确定的对冲策略。事实上,自2008年以来,美联储的资产负债表已经从约0.9万亿美元增长到今年的8...
区块链 2023-05-25 19:39:31 -
百度何俊杰:全线拥抱AI,百度移动生态要为十亿用户打造“PersonalAI”
5月25日消息,2023万象·百度移动生态大会上,百度集团资深副总裁、百度移动生态事业群组(MEG)总经理何俊杰提出,要以AI原生思维重构百度移动生态,全面“刷新”百度搜索、百度APP、百度文库、百度电商等产品与服务的用户体验,推动人机交互、内容生产、营销与商业三重变革。他表示,之前文心一言、ChatGPT等大语言模型是在让AI变“大”,移动生态的这次重构,就是要致力于让AI变“小”,变得更具体,变得人人可用。百度集团副总裁、搜索平台负责人肖阳提出基于“语义检索技术+大语言模型”的双重能力,引领搜索代际变革体验。百度搜索基于大模型创新打造的极致满足、“AI伙伴”、“AI BOT”等功能目前也正在内测中。搜索体验变革主要体现在三方面。在用户需求满足上,百度基于大语言模型和AI技术积累,让更多、更复杂的问题在第一条搜索结果中得到全面满足;在用户表达上,“AI伙伴”可以实现智能对话、多轮交互,极大降低了用户的输入表达门槛和成本;在信息边界的突破上,AI BOT为创作者、商家、机构、品牌等领域的内容、服务提供者们制作虚拟的AI分身,助力生态伙伴提升创作和服务效率。在过去一年,百度APP月活已达到6.57亿。百度信息分发平台总经理李小婉表示,百度APP今年将推出智能首页模式“一人一世界”,用户可以根据自己心意和习惯选择默认首页、大图首页、视频首页、小说首页等,满足更多元的个性化需求。 同时,她还首次展示了内测产品NEW APP,用新概念、新功能,以及一人一模型的未来远景。 目前产品的核心使用场景是对话,提问、聊天、发送指令等,用户还可指定不同“人设”的私人助理,了解用户的喜好和需求,随时对话交流,还可以给予有效建议,处理大小事务。此外,百度输入法也创新打造了AI“高情商沟通助手”,根据不同社交场景给出高情商聊天建议,为用户带来更加智能、高效的社交体验。2022年万象大会上,百度推出“创作者AI助理团”,至今已有45万创作者使用,产出超700万篇内容,累计分发量超过200亿。而在今年万象大会上,百度移动生态事业群组内容生态平台副总经理宋健介绍了全新升级的百度内容生态AIGC创作工具,AI笔记、AI成片、AI作画、AI BOT等功能将面向创作者开启内测体验,更多AI写作、AI数字人功能也即将上线,为创作者提供一站式AI创作方案,推动生产方式根本性变革。截止目前,超过600万创作者在百度创作与分享,创作者多元收入规模同比增长397%,商单收入、电商收入、付费订单量等多元业务均呈现高速增长态势。对创作者,百家号升级为“百度AI创作经营平台”,帮助创作者在AI提效、内容分发、多元变现、影响力建设等多个维度实现跨越性的突破。同时,百度推出创作者成长扶持计划“AI共创计划”,计划扶持10万创作者收入超30亿。“未来,谁拥有最佳的跟客户沟通的方式,谁就会拥有这个客户”,何俊杰指出。营销行业是AIGC的“先行示范区”,有机构预测,2022年,大型组织的营销信息2%由AI生成,到2025年,这一数据将上升到30%。据悉,百度从2014年开始,就在尝试“AIGC文本创意”。到目前,单条创意耗时从30分钟降到4分钟,AI辅助创作的文本创意每天生产14亿条,近七成企业都用到这个功能,近三分之一的创意展现都有AIGC参与。对于商家,百度副总裁、百度电商总经理平晓黎表示同步推出智能电商新品牌“百度优选”,发布了包含AI导购助手、电商AI主播制作平台、商家经营能力模型、商家成长体系、智能经营平台等一系列创新技术和智能商家经营方案。为助力商家和合作伙伴成长,平晓黎还发布百度电商超级生态计划,将助力1000个千万GMV爆款商品,100个年销售额过亿的商家,以及15个GMV过亿的服务商合作伙伴,与百度电商共同实现更大的生意机会。(一橙) ...
业界动态 2023-05-25 13:06:05 -
索尼发布新机Xperia1V,搭载双层晶体管像素堆叠式CMOS影像传感器
5月24日消息,在“Sony Expo 2023”展前媒体发布会上,索尼(中国)有限公司总裁吉田武司提出了索尼在华发展的愿景:“激发灵感与热情,与追梦者共创感动。”他表示,“中国有很多对未来充满热情和憧憬的追梦者,他们虽来自不同年龄层,不同领域,但他们都拥有勇于创新,不断突破极限的可贵的精神,这同样是索尼创业以来,传承至今的精神...
业界动态 2023-05-24 18:49:55 -
微软叠buff!CopilotAI助理链接Bing并可用于所有Windows应用
【网易科技5月24日报道】微软昨日在其年度 Build 开发者大会上宣布推出Windows Copilot系统级的AI助理,它集成了Bing搜索功能,并可用于Windows的所有应用。此外,微软同步引入了一系列其他AI增强功能,包括将Bing Chat插件扩展到Windows、引入新的混合AI循环以支持跨平台和跨Azure的AI开发、推出Dev Home以提高开发人员的工作效率,并在Microsoft Store中引入新的AI功能和体验...
智能设备 2023-05-24 09:40:19 -
三星秀出SensorOLED屏:业内首次屏幕内置指纹识别
5月23日消息,近日,三星对外展出了一款全新的屏幕面板:Sensor OLED。它与常规OLED面板相比,在显示方面并无差异,但它却是业内首款内置指纹传感器与心率传感器的OLED面板...
手机互联 2023-05-24 01:27:03 -
StableDiffusion动画版上线!支持文本图像视频多种输入方式
西风 发自 凹非寺量子位 | 公众号 QbitAIStable Diffusion也能生成视频了!你没听错,Stability AI推出了一款新的文本生成动画工具包Stable Animation SDK,可支持文本、文本+初始图像、文本+视频多种输入方式。使用者可以调用包括Stable Diffusion 2.0、Stable Diffusion XL在内的所有Stable Diffusion模型,来生成动画。Stable Animation SDK的强大功能一经展现,网友惊呼:哇哦,等不及想试试了!目前,Stability AI疑似还在对这个新工具进行技术优化,不久后将公开驱动动画API的组件源代码。3D漫画摄影风,不限时长自动生成Stable Animation SDK可支持三种创建动画的方式:1、文本转动画:用户输入文prompt并调整各种参数以生成动画(与Stable Diffusion相似)。2、文本输入+初始图像输入:用户提供一个初始图像,该图像作为动画的起点。图像与文本prompt结合,生成最终的输出动画。3、视频输入+文本输入:用户提供一个初始视频作为动画的基础。通过调整各种参数,根据文本prompt生成最终的输出动画。除此之外,Stable Animation SDK对生成视频的时长没有限制,但是长视频将需要更长的时间来生成。Stability AI发布了Stable Animation SDK后,有很多网友分享了自己测试效果,让我们一起看下吧:Stable Animation SDK可以设置许多参数,例如steps、sampler、scale、seed。还有下面这么多的预设风格可选择:3D模型、仿真胶片、动漫、电影、漫画书、数码艺术、增强幻想艺术、等距投影、线稿、低多边形、造型胶土、霓虹朋克、折纸、摄影、像素艺术。目前,动画功能API的使用是以积分计费的,10美元可抵1000积分。使用Stable Diffusion v1...
智能设备 2023-05-19 11:52:26 -
英伟达发布GeForceRTX4060/4060Ti:起售价分别为人民币2399元/3199元
英伟达宣布,推出基于Ada Lovelace架构的新一代主流GPU,包括GeForce RTX 4060、RTX 4060 Ti 8GB和RTX 4060 Ti 16GB三款,对应的官方建议零售价分别为299美元/人民币2399元、399美元/人民币3199元和499美元/人民币3899元。其中GeForce RTX 4060 Ti 8GB将于2023年5月23日晚上解禁,并在5月24日21点正式发售,而剩下两款显卡要等到7月份。值得一提的是,GeForce RTX 4060 Ti 8GB会有Founder Edition,也就是公版显卡,由京东商城独家发售。GeForce RTX 4060 Ti搭载了AD106-350(8GB)/351(16GB)GPU,采用PCIe 4.0 x8接口,完整版本芯片拥有36组SM、4608个CUDA核心、36个RT核心和144个Tenor核心,不过RTX 4060 Ti只开启了其中34组SM,也就是4352个CUDA核心、34个RT核心和136个Tensor核心。此外,还带有一个第8代NVENC编码器和一个第5代NVDEC解码器,支持AV1硬件编解码。GeForce RTX 4060 Ti的基础频率为2310 MHz,加速频率为2535 MHz,搭配8GB或16GB的GDDR6显存,显存位宽为128-bit,显存速率为18Gbps频率,显存带宽为288 GB/s,整卡功耗为160W。英伟达表示,通过32MB的L2缓存,显存等效带宽增大至554 GB/s。GeForce RTX 4060搭载了AD107-400 GPU,采用PCIe 4...
智能设备 2023-05-19 11:51:46