谷歌又闹大乌龙 Jeff Dean参与的新模型竟搞错Hinton生日

发表于 7月以前  | 总阅读数:677 次

然而,就在这张精心制作的“宣传图”上,竟藏着一个让人哭笑不得的bug!

请注意看Geoffrey Hinton的出生日期:

但实际上,Hinton出生于1947年……

虽然没有必然联系,但是Google自己的模型,竟然会把自家大佬的生日搞错?

马库斯同志看完直接就惊了:你们Google,没人负责审核的吗……

理论上,这篇拥有31位作者,外加Jeff Dean这种大佬参与的论文,不应该发生这种“低级错误”才对啊。

“复制”的时候“打错了”而已!

很快,论文的共同一作就在马库斯的推文下面进行了回复:“我们都知道,模型的输出并不总是符合事实。我们正在进行负责任的AI评估,一旦有了结果,我们将立即更新论文。”

没过多久,这位作者删除了上面那条推文,并更新留言称:“这只是在把模型的输出复制到Twitter上时,『打错了』而已。”

对此,有网友调侃道:“不好意思,你能不能给我翻译翻译,什么叫『复制』来着?”

当然,在查看原文之后可以发现,“图1”所示的生日,确实没错。

至于在宣传图中是如何从“1947”变成“1963”的,大概只有做图的那位朋友自己知道了。

随后,马库斯也删除了自己的这条推文。

世界重归平静,就像什么也没有发生一样。

只留下Google研究员自己推文下面的这条在风中飘摇——

扩展指令微调语言模型

既然误会解除了,我们就让话题重新回到论文本身上来吧。

去年,Google推出了一个参数量只有1370亿的微调语言网络FLAN(fine-tuned language net)。

https://arxiv.org/abs/2109.01652

FLAN是Base LM的指令调优(instruction-tuned)版本。指令调优管道混合了所有数据集,并从每个数据集中随机抽取样本。

研究人员称,这种指令调节(instruction tuning)通过教模型如何执行指令描述的任务来提高模型处理和理解自然语言的能力。

结果显示,在许多有难度的基准测试中,FLAN的性能都大幅超过了GPT-3。

这次,Google将语言模型进行拓展之后,成功刷新了不少基准测试的SOTA。

比如,在1.8K任务上进行指令微调的Flan-PaLM 540B,性能明显优于标准的PALM 540B(平均 + 9.4%),并且在5-shot的MMLU上,Flan-PaLM也实现了75.2%的准确率。

此外,作者还在论文中公开发布Flan-T5检查点。即便是与更大的模型(如PaLM 62B)相比,Flan-T5也能实现强大的小样本性能。

论文地址:https://arxiv.org/abs/2210.11416

总结来说,作者通过以下三种方式扩展了指令微调:

扩展到540B模型

扩展到1.8K的微调任务

在思维链(CoT)数据上进行微调

作者发现具有上述方面的指令微调显著提高了各种模型类(PaLM、T5、U-PaLM)、prompt设置(zero-shot、few-shot、CoT)和评估基准(MMLU、BBH、 TyDiQA、MGSM、开放式生成)。

这次的微调数据包括473个数据集、146个任务类别和1,836个总任务。

作者是通过结合之前工作中的四种混合(Muffin、T0-SF、NIV2 和 CoT),缩放(scale)成了下图中的1836个微调任务。

在研究中,微调数据格式如下图这样组合。研究者在有样本/无样本、有思想链/无思想链的情况下进行了微调。要注意的是,其中只有九个思维链(CoT)数据集使用CoT格式。

第四种微调数据的混合涉及CoT注释,作者用它来探索CoT注释的微调是否可以提高看不见的推理任务的性能。

作者从先前的工作中创建了9个数据集的新混合,然后由人类评估者手动为训练语料库编写CoT注释。这9个数据集包括算数推理、多跳推理(multi-hop reasoning)和自然语言推理等。

作者在广泛的模型中应用了指令微调,包括T5、PaLM和U-PaLM。对于每个模型,作者都采用了相同的训练过程,使用恒定的学习率,并使用Adafactor优化器进行了微调。

从下表中可以看出,用于微调的计算量仅占训练计算的一小部分。

作者根据模型的大小和微调任务的数量,在保留任务的性能上检测了缩放的影响。

作者从对三种大小的PaLM模型(8B/62B/540B)进行实验,从任务最少的混合开始,一次添加任务混合,然后再到任务最多的混合(CoT、Muffin、T0-SF 和 NIV2)。

作者发现,扩展指令微调后,模型大小和任务数量的扩展都会大大改善性能。

是的,继续扩展指令微调就是最关键的要点!

不过,在282个任务之后,收益开始略微变小。

从下表中可以看出,对于三种大小的模型,多任务指令微调后,相比没有微调时,性能有很大的提高,性能增益范围从9.4%到15.5%。

其次,增加微调数量可以提高性能,尽管大部分的改进来自282个任务。

最后,将模型规模增加一个数量级(8B→62B或62B→540B)会显著提高微调和非微调模型的性能。

为什么282个任务之后增益就变小了呢?有两种解释。

一是附加任务不够多样化,因此没有为模型提供新知识。

二是多任务指令微调的大部分收益,是因为模型学习更好地表达了它在预训练中已经知道的知识,而282个以上的任务并没有太大的帮助。

另外,作者还探讨了在指令微调混合中包含思想链(CoT)数据的效果。

可以看出,Flan-PaLM在所有评估基准上都优于PaLM。

不过令人惊讶的是,以前的指令微调方法(如FLAN,T0)显著降低了non-CoT的性能。

对此的解决方案是,只需在微调混合中添加9个CoT数据集,就可以在所有评估中获得更好的性能。

虽然思维链(Chain-of-Thought)prompting通常非常有效,但只能编写少量样本,而且零样本CoT并不总是有效果。

而Google研究者的CoT微调显著提高了零样本推理能力,比如常识推理。

为了展示方法的通用性,研究人员训练了T5、PaLM和U-PaLM。其中参数量的覆盖范围也非常广,从8000万到5400亿。

结果证明,所有这些模型都得到了显著提升。

在以往,开箱即用的预训练语言模型可用性通常都很差,比如对输入的prompt没有反应。

Google的研究者要求人类评估者来评估开放式生成问题的“模型可用性”。

结果显示,Flan-PaLM 的可用性比PaLM基础模型要高79%。

此外,指令微调还补充了其他的模型适应技术,比如UL2R。

同样的,Flan-U-PaLM取得了很多优秀的结果。

论文地址:https://arxiv.org/abs/2210.11399

Google的另一起“翻车”事件

可以说,刚刚发生的这个剧情,既视感相当强了!

没错,就在10月19日,当GooglePixel的官方账号试图挖苦苹果CEO库克时,被网友抓包:是用iPhone发的推文……

显然,这种事情早已不是第一次了。

2013年,T-Mobile的CEO就在Twitter上对三星Note 3赞不绝口,但用的是iPhone。

同样是2013年,黑莓的创意总监Alicia Keys在发布会上说,她已经抛弃了自己之前的iPhone,换了黑莓Z10。随后,就被发现用iPhone发推,甚至在被抓到后发推狡辩说是因为自己被黑了。

三星,也不例外:

而且,相比于Google的这次删推,三星当时做得更加决绝:直接删号!

看来,营销课程有必要加上这样的一条戒律了:如果你要推广一个产品,请不要用竞争对手的产品来做。

这并不是一个难以传授的信息,甚至还可以做得直白:在推销其他产品时,手里请不要拿着iPhone。

 相关推荐

谷歌警告员工:多回办公室工作,否则将影响绩效考核

据报道,谷歌昨日更新了“混合办公”政策,要求员工尽可能多地回办公室工作,否则将影响绩效考核。根据谷歌之前的政策,员工每周至少要有三天在办公室工作。但今日,谷歌又公布了更严格的政策,对员工的出勤情况进行记录,并将其列为绩效考核的一部分。如果员工长期不遵守规定,谷歌人力资源部门将会采取进一步的措施。

发布于:1天以前  |  39次阅读  |  详细内容 »

当Edge浏览器用户搜索“Chrome”时,微软“Bing Chat AI”打起必应广告

6月7日消息,当用户在今年2月使用Edge下载谷歌Chrome浏览器时,微软为Edge浏览器推出了全尺寸广告。现在,微软似乎又故技重施,但使用了新的方法。据外媒报道,在美国不同地区甚至美国以外的记者在Edge浏览器中输入“Chrome”时,它反而生成了看起来像Bing Chat AI的答案,但是内容和Chrome无关,而是一则关于必应搜索的广告,标题是“Bing:不仅仅是搜索的搜索引擎”。

发布于:2天以前  |  57次阅读  |  详细内容 »

Pixel Watch发生“烧屏” 用户只佩戴了一天就中招

一位网友在社交平台上发帖,称自己仅佩戴了一天,就发现谷歌Pixel Watch“烧屏”了。所谓“烧屏”,意思是指OLED显示器长时间显示某个静止的图像画面,留下残影的现象。Pixel Watch是谷歌今年10月份推出的新品,Wi-Fi版售价349.99美元(约合人民币2500元)。

发布于:7月以前  |  2005次阅读  |  详细内容 »

马斯克身价不到一年蒸发8000亿 比谷歌创始人总财富还多

特斯拉公司股价今年的暴跌已导致其CEO埃隆·马斯克(Elon Musk)的财富蒸发了逾1100亿美元(约合8000亿元人民币),比谷歌联合创始人谢尔盖·布林(Sergey Brin)的全部1070亿美元净资产还要多。

发布于:7月以前  |  723次阅读  |  详细内容 »

调查发现Google Play中的Android广告软件下载量超过2000万次

McAfee的安全研究人员发现了一组16个恶意的点击器应用,它们设法潜入Google Play即Android的官方应用商店。点击器应用是一类特殊的广告软件,它在不可见的框架中或在后台加载广告,然后通过让用户点击它们的方为其运营商创造收入。

发布于:7月以前  |  1359次阅读  |  详细内容 »

谷歌又闹大乌龙 Jeff Dean参与的新模型竟搞错Hinton生日

最近,谷歌研究员发布了关于指令微调的最新工作!然而却宣传图中出现了可笑的乌龙。几个小时之前,谷歌大脑的研究员们非常开心地晒出了自己最新的研究成果:“我们新开源的语言模型Flan-T5,在对1,800多种语言的任务进行指令微调后,显著提高了prompt和多步推理的能力。”

发布于:7月以前  |  678次阅读  |  详细内容 »

开发者利用魔改USB线解锁Pixel Watch的bootloader引导加载程序

Google Pixel 系列硬件的一个传统特色,就是允许解锁引导加载程序(bootloader)。本月随 Pixel 7 / 7 Pro 智能机一同亮相的初代 Pixel Watch 智能手表,也刚刚被证实了这一点。这意味着,Mod 爱好者们可以尝试给它刷入定制 ROM 。

发布于:7月以前  |  663次阅读  |  详细内容 »

美国民主党全国委员会起诉谷歌 称垃圾邮件过滤器阻断其竞选邮件

共和党全国委员会(RNC)已在加利福尼亚州的一家美国地方法院对Google提起诉讼,指控其将竞选邮件放入其数百万用户的垃圾邮件文件夹。Google上个月推出了一项试点计划,以防止竞选邮件被放入垃圾邮件。但美国全国委员会一直在批评该计划,认为它对政治邮件过滤的帮助不够。

发布于:7月以前  |  707次阅读  |  详细内容 »

[图]Google为Android端短信、电话和联系人三款应用带来全新图标

在预告 Google Messages 即将获得的十项改进之外,Google 还宣布为这款 SMS/RCS 应用、电话和联系人三款应用带来全新的图标。Google 已经推出了带有 messages.android_20221018_01_RC00.phone.openbeta_dynamic 版本的新消息图标。新版图标也在 Wear OS 上启用,您可以在此处注册该测试版。

发布于:7月以前  |  1556次阅读  |  详细内容 »

Google正增强Gmail的搜索体验

Google 正通过标签和相关结果等功能来改善 Gmail 中的搜索体验。Google Chat 也在本次更新中获得 AI 生成的摘要,Google Spaces 新增内联帖子等等。在 Android 和 iOS 端 Gmail 应用上,Google 将允许你“在特定的 Gmail 标签下搜索邮件”。

发布于:7月以前  |  1099次阅读  |  详细内容 »

谷歌拟14亿元投资自然语言软件公司Cohere

知情人士称,谷歌公司正在展开谈判,拟向人工智能(AI)创业公司Cohere投资至少2亿美元(约合14.5亿元人民币)。这再次表明,大型科技公司在AI领域的军备竞赛正在升级。Cohere成立于2019年,它所开发的自然语言处理软件可被开发者用于为企业构建AI应用,包括聊天机器人工具和其他可以理解人类语音和文本的功能。

发布于:7月以前  |  657次阅读  |  详细内容 »

Google上线开放源码项目GUAC 旨在促进供应链安全

软件供应链安全是目前很多议程中的重中之重,自从Log4j漏洞被发现和美国关于网络安全的行政命令下达以来更是如此。Google正在为一个新的开源项目寻求贡献者,该项目名为GUAC(理解工件构成的图形),虽然处于早期阶段,但准备改变该行业对软件供应链的理解方式。

发布于:7月以前  |  1092次阅读  |  详细内容 »

亚马逊称对Google的恐惧使供应商放弃了电视硬件上的合作

亚马逊表示,超过半数的硬件供应商表示,由于担心Google的报复,他们无法与该电子商务集团建立电视产品的制造关系,这使得与搜索巨头的紧张关系升级,而亚马逊与Google在多个业务上存在竞争。

发布于:7月以前  |  1326次阅读  |  详细内容 »

Google回应称印度反垄断命令将给消费者和企业带来"严重安全风险"

Google表示,印度竞争监管机构的命令是"对印度消费者和企业的重大挫折",它正在审查这一决定,以评估"下一步动作"。印度竞争委员会周四对Google罚款折合1.619亿美元,原因是与Android移动设备有关的反竞争行为,并命令采取一些补救措施,这可能迫使Google在该国对其商业战略进行根本性的改变。

发布于:7月以前  |  969次阅读  |  详细内容 »

[视频]Google预告Messages十项新特性 并启用全新图标

Google 在展开多项活动邀请苹果适配 RCS 之外,并未停止 Messages 应用的更新步伐。Google 在本周四发布的博文中,预告了 Messages 应用即将获得的 10 项功能,并为该应用提供了全新的图标。

发布于:7月以前  |  874次阅读  |  详细内容 »

美国得州起诉谷歌:非法收集用户生物特征信息

美国得克萨斯州宣布起诉谷歌,因为谷歌在未经用户许可的前提下非法收集生物特征数据。在此之前,得州已经因为网络隐私起诉过一些科技巨头。得州检察长派克斯顿(Ken Paxton)在声明中说,谷歌从得州居民手中收集大量生物特征信息,包括声纹、面部几何记录,这些信息是通过谷歌相册、谷歌助手等产品收集的。

发布于:7月以前  |  601次阅读  |  详细内容 »

谷歌被印度罚款1.6亿美元 存在Android相关垄断行为

据报道,印度反垄断监管机构“竞争委员会”(CCI)今日宣布,已对谷歌处以133.8亿卢比(约合1.6195亿美元的)罚款,原因是该公司存在与Android移动设备相关的反竞争行为。此外,CCI还要求谷歌不得向智能手机制造商提供任何激励措施,让他们独家预装谷歌的搜索服务。

发布于:7月以前  |  886次阅读  |  详细内容 »

谷歌让步?安卓和苹果之间的“大动作小表情”

北京时间10月20日消息,谷歌面向安卓用户的Messages应用程序终于在功能上更接近于苹果的iMessages:它现在不仅可以显示iPhone用户发送的“Tapback”表情符号,还可以让安卓用户用自己设定的表情符号快速回复。

发布于:7月以前  |  651次阅读  |  详细内容 »

AirPods Pro 2和Google Pixel存兼容问题:90秒后断连停止播放

AirPods Pro 2 上市之后,被很多人认为是业内最好的 TWS 耳机。和苹果其他产品不同,AirPods 型号能够很好地兼容 Android 设备,但遗憾的是由于 A2DP offloading 中存在的 BUG,导致 AirPods Pro 2 和 Pixel 设备存在兼容性问题。

发布于:7月以前  |  918次阅读  |  详细内容 »

Google闹笑话:使用iPhone发送Pixel营销推文

Google Pixel 官方Twitter账号发布的一条推文竟是用 iPhone 发布的,这多少影响了 Google 的形象。提姆·库克的官方Twitter账号于 10 月 18 日发布一条关于 M2 iPad Pro 的推文,Google Pixel 官方Twitter账号于 10 月 19 日转发该推文,并宣传自家的 Pixel 型号和 NBA。

发布于:7月以前  |  776次阅读  |  详细内容 »
 最新资讯
vivo德国官网下架所有产品 2天以前  |  44次阅读
 最热资讯