找到相关的专题报道信息 - 质量管理

GPT-4变笨引爆舆论！文本代码质量都下降，OpenAI刚刚回应了质疑

梦晨克雷西发自凹非寺量子位 | 公众号 QbitAI大模型天花板GPT-4，它是不是……变笨了？先是少数用户提出质疑，随后大量网友表示自己也注意到了，还贴出不少证据。有人反馈，把GPT-4的3小时25条对话额度一口气用完了，都没解决自己的代码问题。无奈切换到GPT-3.5，反倒解决了。总结下大家的反馈，最主要的几种表现有：以前GPT-4能写对的代码，现在满是Bug回答问题的深度和分析变少了响应速度比以前快了这就引起不少人怀疑，OpenAI是不是为了节省成本，开始偷工减料？两个月前GPT-4是世界上最伟大的写作助手，几周前它开始变得平庸。我怀疑他们削减了算力或者把它变得没那么智能。这就不免让人想起微软新必应“出道即巅峰”，后来惨遭“前额叶切除手术”能力变差的事情……网友们相互交流自己的遭遇后，“几周之前开始变差”，成了大家的共识。一场舆论风暴同时在Hacker News、Reddit和Twitter等技术社区形成。这下官方也坐不住了。OpenAI开发者推广大使Logan Kilpatrick，出面回复了一位网友的质疑：API 不会在没有我们通知您的情况下更改。那里的模型处于静止状态。不放心的网友继续追问确认“就是说GPT-4自从3月14日发布以来都是静态的对吧？”，也得到了Logan的肯定回答。“我注意到对于某些提示词表现不一致，只是由于大模型本身的不稳定性吗？”，也得到了“Yes”的回复。但是截至目前，针对网页版GPT-4是否被降级过的两条追问都没有得到回答，并且Logan在这段时间有发布别的内容。那么事情究竟如何，不如自己上手测试一波。对于网友普遍提到GPT-4写代码水平变差，我们做了个简单实验。实测GPT-4“炼丹”本领下降了吗？3月底，我们曾实验过让GPT-4“炼丹”，用Python写一个多层感知机来实现异或门。△ShareGPT截图，界面稍有不同让GPT-4改用numpy不用框架后，第一次给出的结果不对。在修改两次代码后，运行得到了正确结果。第一次修改隐藏神经元数量，第二次把激活函数从sigmoid修改成tanh。6月2日，我们再次尝试让GPT-4完成这个任务，但换成了中文提示词。这回GPT-4第一次就没有使用框架，但给的代码仍然不对。后续只修改一次就得到正确结果，而且换成了力大砖飞的思路，直接增加训练epoch数和学习率。回答的文字部分质量也未观察到明显下降，但响应速度感觉确实有变快。由于时间有限，我们只进行了这一个实验，且由于AI本身的随机性，也并不能否定网友的观察。最早4月19日就有人反馈我们在OpenAI官方Discord频道中搜索，发现从4月下旬开始，就不时有零星用户反馈GPT-4变差了。但这些反馈并未引发大范围讨论，也没有得到官方正式回应。5月31日，Hacker News和Twitter同天开始大量有网友讨论这个问题，成为整个事件的关键节点。HackerNews一位网友指出，在GPT-4的头像还是黑色的时候更强，现在紫色头像版在修改代码时会丢掉几行。在Twitter上较早提出这个问题的，是HyperWrite（一款基于GPT API开发的写作工具）的CEO，Matt Shumer。但这条推文却引发了许多网友的共鸣，OpenAI员工回复的推文也正是针对这条。不过这些回应并没让大家满意，反而讨论的范围越来越大。比如Reddit上一篇帖子提到，原来能回答代码问题的GPT-4，现在连哪些是代码哪些是问题都分不出来了。在其他网友的追问下，帖子作者对问题出现的过程进行了概述，还附上了和GPT的聊天记录。对于OpenAI声称模型从三月就没有改动过，公开层面确实没有相关记录。ChatGPT的更新日志中，分别在1月9日、1月30日、2月13日提到了对模型本身的更新，涉及改进事实准确性和数学能力等。但自从3月14日GPT-4发布之后就没提到模型更新了，只有网页APP功能调整和添加联网模式、插件模式、苹果APP等方面的变化。假设真如OpenAI所说，GPT-4模型本身的能力没有变化，那么这么多人都感觉它表现变差是怎么回事呢？很多人也给出了自己的猜想。第一种可能的原因是心理作用。Keras创始人François Chollet就表示，不是GPT的表现变差，而是大家度过了最初的惊喜期，对它的期待变高了。Hacker News上也有网友持相同观点，并补充到人们的关注点发生了改变，对GPT失误的敏感度更高了。抛开人们心理感受的差异，也有人怀疑API版本和网页版本不一定一致，但没什么实据。还有一种猜测是在启用插件的情况下，插件的额外提示词对要解决的问题来说可能算一种污染。△WebPilot插件中的额外提示词这位网友就表示，在他看来GPT表现变差正是从插件功能开始公测之后开始的。也有人向OpenAI员工询问是否模型本身没变，但推理参数是否有变化？量子位也曾偶然“拷问”出ChatGPT在iOS上的系统提示词与网页版并不一致。如果在手机端开启一个对话，它会知道自己在通过手机与你交互。会把回答控制在一到两句话，除非需要长的推理。不会使用表情包，除非你明确要求他使用。△不一定成功，大概率拒绝回答那么如果在网页版继续一个在iOS版开启的对话而没意识到，就可能观察到GPT-4回答变简单了。总之，GPT-4自发布以来到底有没有变笨，目前还是个未解之谜。但有一点可以确定：3月14日起大家上手玩到的GPT-4，从一开始就不如论文里的。与人类对齐让AI能力下降微软研究院发表的150多页刷屏论文《AGI的火花：GPT-4早期实验》中明确：他们早在GPT-4开发未完成时就得到了测试资格，并进行了长期测试。后来针对论文中很多惊艳例子，网友都不能成功用公开版GPT-4复现。目前学术界有个观点是，后来的RLHF训练虽然让GPT-4更与人类对齐——也就更听从人类指示和符合人类价值观——但也让它自身的推理等能力变差。论文作者之一、微软科学家张弋在中文播客节目《What’s Next｜科技早知道》S7E11期中也提到：那个版本的模型，比现在外面大家都可以拿得到的GPT-4还要更强，强得非常非常多。举例来说，微软团队在论文中提到，他们每隔相同一段时间就让GPT-4使用LaTeX中的TikZ画一个独角兽来追踪GPT-4能力的变化。论文中展示的最后一个结果，画得已经相当完善。但论文一作Sebastien Bubeck后续在MIT发表演讲时透露了更多信息。后来当OpenAI开始关注安全问题的时候，后续版本在这个任务中变得越来越糟糕了。与人类对齐但并不降低AI自身能力上限的训练方法，也成了现在很多团队的研究方向，但还在起步阶段。除了专业研究团队之外，关心AI的网友们也在用自己的办法追踪着AI能力的变化。有人每天让GPT-4画一次独角兽，并在网站上公开记录。从4月12日开始，直到现在也还没看出来个独角兽的大致形态。当然网站作者表示，自己让GPT-4使用SVG格式画图，与论文中的TikZ格式不一样也有影响。并且4月画的与现在画的似乎只是一样差，也没看出来明显退步。最后来问问大家，你是GPT-4用户么？最近几周有感到GPT-4能力下降么？欢迎在评论区聊聊。Bubeck演讲：https://www...

智能设备 2023-06-03 10:09:46
人行成都分行营业管理部实现数字人民币缴纳税费超亿元

本文转自：人民网-四川频道指导灵活就业参保人李女士通过手机银行，使用数字人民币完成5月的养老及医疗社保费缴纳。建行简阳花园街支行供图“通过数字人民币缴纳税费真是太方便了，让我们充分感受到了金融与科技变革带来的便捷办税体验。”近日，成都某科技公司通过数字人民币缴纳员工社保1笔、17.31万元，缴纳税款6笔、257...

区块链 2023-05-31 11:04:33
vivoY27手机现身GooglePlay管理中心：搭载天玑6020芯片

IT之家 5 月 31 日消息，vivo 在 5 月份非常忙碌，在中国和国际市场已经或将要推出一系列新智能手机，其中包括 vivo S17 系列、vivo Y36、vivo Y35m 和 vivo Y78，vivo V29 系列新手机也在筹备中。现在一款新的 vivo Y27 手机已现身 Google Play 管理中心。vivo Y27 5G 手机的型号为 V2248，这与最近推出的 vivo Y36 5G 型号相同，暗示 vivo Y27 可能只是这款手机的不同地区的更名版。vivo Y27 5G 手机将搭载联发科 MT6833 芯片，过去被称为天玑 700，但联发科的新命名预计是天玑 6020（IT之家注：两个主频 2.2GHz 内核和六个主频 2...

手机互联 2023-05-31 10:03:09
SQLServer的内存管理架构详解

目录一、Windows的虚拟内存管理器二、SQL Server 内存体系结构2.1、传统（虚拟）内存2...

数据库操作教程 2023-05-12 12:11:27
阅文集团管理层调整：程武辞职侯晓楠接任CEO

5月9日，阅文集团宣布管理层调整，现任阅文集团首席执行官程武因个人生活规划调整辞任目前管理职务，董事会委任阅文集团总裁侯晓楠出任阅文集团首席执行官。资料显示，程武和侯晓楠于2020年4月加入阅文，分别任职阅文集团首席执行官和阅文集团总裁...

互联网 2023-05-09 17:25:20
OpenAI推出Shap・E：基于文本数秒内生成高质量3D模型

IT之家5月9日消息，继文本生成图片模型DALL・E之后，OpenAI近日再次发布了Shap・E模型。用户可以输入文本，用于创建逼真且多样化的3D模型...

智能设备 2023-05-09 12:36:14
中国银行四川省分行落地“龙泉教培”数字人民币预付资金管理项目

来源：封面新闻4月27日，“龙泉教培”数字人民币预付资金管理项目（以下简称“龙泉教培项目”）在成都成功落地，是全国首批、全省首个实现数字人民币智能合约预付卡“元管家”面客推广。数字人民币“智能合约”技术具有透明可信、自动执行、强制履约的优点，与数字人民币相结合后可应用于条件支付、定时支付业务场景，有利于发挥资金监管职能，受到各行各业广泛关注...

区块链 2023-05-09 11:44:40
微软支持的行业组织推动AI监管：呼吁在立法基础上制定管理人工智能使用规则

4月25日消息，美国当地时间周一，微软支持的科技倡导组织商业软件联盟（BSA）公开发文，呼吁在国家隐私立法基础上制定管理人工智能使用的规则。BSA代表Adobe、IBM和甲骨文等商业软件公司...

业界动态 2023-04-25 08:09:22
第二届“长江杯”动力电池集成及管理技术挑战赛初赛在京举办

4月24日，第二届“长江杯”动力电池集成及管理技术挑战赛高校组初赛在北京唯实国际交流中心正式开启。中国汽车工程学会副秘书长张旭明，宜宾市委常委、副市长李翔，宜宾市政府副秘书长惠德宏，宜宾市科技局党组书记、局长赵兵兵及评审专家团队参加了活动...

智能设备 2023-04-24 18:02:18
第二届“长江杯”动力电池集成及管理技术挑战赛初赛在京举办

4月24日，第二届“长江杯”动力电池集成及管理技术挑战赛高校组初赛在北京唯实国际交流中心正式开启。中国汽车工程学会副秘书长张旭明，宜宾市委常委、副市长李翔，宜宾市政府副秘书长惠德宏，宜宾市科技局党组书记、局长赵兵兵及评审专家团队参加了活动...

智能设备 2023-04-24 18:02:16
美联储沃勒：美联储正与银行讨论管理人工智能风险

据路透社，美联储理事沃勒4月20日表示，随着越来越多的金融机构将人工智能用于客户服务应用、欺诈监控和承保，美联储与其监管的银行就管理与人工智能相关的风险进行了“定期讨论”。沃勒警告称，虽然人工智能可以为银行流程带来新的效率，但它也涉及新的风险...

区块链 2023-04-21 00:44:44
美联储沃勒：美联储正与银行讨论管理人工智能风险

财联社4月21日电，美联储理事沃勒4月20日表示，随着越来越多的金融机构将人工智能用于客户服务应用、欺诈监控和承保，美联储与其监管的银行就管理与人工智能相关的风险进行了“定期讨论”。沃勒警告称，虽然人工智能可以为银行流程带来新的效率，但它也涉及新的风险...

区块链 2023-04-21 00:44:44

网站分类

热门文章

热点

标签列表

分享到:

Copyright @ 2007~2025 All Rights Reserved.

Powered By 站长搜索