GPT-4是8x2200亿参数的混合模型?这个小道消息今天传疯了|即时
时间:2023-06-22 07:39:09来源:手机网易网

机器之心报道

编辑:吴昕


(相关资料图)

「GPT-4 的参数量高达 100 万亿。」相信很多人还记得这个年初刷屏的「重磅」消息和一张被病毒式传播的图表。

不过很快,OpenAI 的 CEO Sam Altman 就出来辟谣,证实这是一条假消息,并表示,「关于 GPT-4 的谣言都很荒谬。我甚至不知道这从何而起。」

实际上,许多人相信并传播这样的谣言是因为近年来 AI 社区不断在增加 AI 模型的参数规模。谷歌在 2021 年 1 月发布的 Switch Transformer 就把 AI 大模型参数量拉高到了 1.6 万亿。在此之后,很多机构也陆续推出了自己的万亿参数大模型。据此,人们有充分的理由相信,GPT-4 将是一个万亿参数的巨量模型,100 万亿参数也不是不可能。

虽然 Sam Altman 的辟谣帮我们去掉了一个错误答案,但他背后的 OpenAI 团队一直对 GPT-4 的真实参数量守口如瓶,就连 GPT-4 的官方技术报告也没透露任何信息。

直到最近,这个谜团疑似被「天才黑客」乔治・霍兹(George Hotz)捅破了。

乔治・霍兹因 17 岁破解 iPhone、21 岁攻陷索尼 PS3 而闻名,目前是一家研发自动驾驶辅助系统的公司(comma.ai)的老板。

最近,他接受了一家名为 Latent Space 的 AI 技术播客的采访。在采访中,他谈到了 GPT-4,称 GPT-4 其实是一个混合模型。具体来说,它采用了由 8 个专家模型组成的集成系统,每个专家模型都有 2200 亿个参数(比 GPT-3 的 1750 亿参数量略多一些),并且这些模型经过了针对不同数据和任务分布的训练。

在这段播客播出之后,PyTorch 创建者 Soumith Chintala 表示自己似乎听过同样的「传闻」,很多人可能也听过,但只有 George Hotz 在公开场合将其说了出来。

「混合模型是你在无计可施的时候才会考虑的选项,」George Hotz 调侃说,「混合模型的出现是因为无法让模型的参数规模超过 2200 亿。他们希望模型变得更好,但如果仅仅是训练时间更长,效果已经递减。因此,他们采用了八个专家模型来提高性能。」至于这个混合模型是以什么形式工作的,George Hotz 并没有详细说明。

为什么 OpenAI 对此讳莫如深呢?George Hotz 认为,除了苹果之外,大部分公司保密的原因都不是在隐藏什么黑科技,而是在隐藏一些「不那么酷」的东西,不想让别人知道「只要花 8 倍的钱你也能得到这个模型」。

对于未来的趋势,他认为,人们会训练规模较小的模型,并通过长时间的微调和发现各种技巧来提升性能。他提到,与过去相比,训练效果已经明显提升,尽管计算资源没有变化,这表明训练方法的改进起到了很大作用。

目前,George Hotz 关于 GPT-4 的「爆料」已经在推特上得到了广泛传播。

有人从中得到了灵感,声称要训练一个 LLaMA 集合来对抗 GPT-4。

还有人说,如果真的像 George Hotz 说的那样,GPT-4 是一个由 8 个 2200 亿参数的专家模型组合的混合模型,那很难想象背后的推理成本有多高。

需要指出的是,由于 George Hotz 并未提及消息来源,我们目前无法判断以上论断是否正确。有更多线索的读者欢迎在评论区留言。

标签:

最新
  • GPT-4是8x2200亿参数的混合模型?这个小道消息今天传疯了|即时

    机器之心报道编辑:吴昕GeorgeHotz:除了苹果之外,大部分公司保密的原

  • 康熙生命中最重要的女人之一:苏麻喇姑_天天报道

    康熙皇帝是清朝的一位伟大皇帝,他的一生中有三个重要的女人:孝庄太皇

  • 辞职后医保如何处理?医保断了3个月就清零了吗?

    辞职后医保如何处理?辞职后医保可以选择以灵活就业方式缴纳,也可以

  • 世界速看:2023河北高考一分一段表公布 历史类成绩排名出炉

    2023河北高考一分一段表是根据同科类每一个分数的人数比例来划分的,以

  • 天涯明月刀职业如何选择?天涯明月刀哪个职业最强? 环球热资讯

    天涯明月刀职业如何选择?1、丐帮:输出能力很强,而且技能附带各种

  • 天天快看:上海医药是中药龙头吗?上海医药股票为什么不涨?

    上海医药是中药龙头吗?不是。上海医药是国内医药工业和商业龙头,

  • 【天天报资讯】股市中有哪些技术指标?股市中技术指标分别代表什么?

    股市中有哪些技术指标?股市中技术指标分别代表什么?以下是小编为您

  • 最新:ST鹏博士:计划采购包括英伟达在内的多个硬件厂商生产的芯片 用于数据存储和数据生产等工作

    证券时报e公司讯,ST鹏博士6月19日在互动平台表示,目前公司计划采购包

  • 天天观察:郑州“小升初”现场报名6月18日、19日集中报名,郑州小升初报名时间

    市教育局近日发布提醒,郑州2023年小升初,返郑小学毕业生、进城务工人

  • 电脑玩dnf蓝屏怎么办?电脑蓝屏怎么解决? 短讯

    电脑玩dnf蓝屏怎么办?方法一1、按下快捷键win+R,输入下图运行码。2

  • 英雄联盟云石福袋怎么玩-英雄联盟云石福袋玩法介绍

    英雄联盟云石福袋怎么玩?这是英雄联盟最近新出的游戏活动之一,完成以

  • 下班快回家!厦门发布暴雨蓝色预警信号_今亮点

    厦门网讯综合“厦门天气在线”微博消息,今日:暖切北抬,辐合明显,天

  • 华夏大地是什么意思 华夏大地是成语吗|世界微头条

    1、华夏大地是指中华大地。华夏是指中国,而华夏大地就是中国的大地。

  • 三大运营商营收规模第三大地市分公司公布!深圳电信实至名归

    运营商财经网讯在前不久公布的“2023三大运营商地市分公司百强榜”中

  • 售价8.99万元起 钇为3全球上市 重新定义纯电A级车-当前热议

    6月16日,超强后浪钇为3全球上市。作为江淮钇为的代表作和首款产品,钇

  • 高温下的关怀,辽源300余名环卫工人收到“清凉大礼包” 世界焦点

    炎炎夏日,为了让高温作业下的环卫工人感受一丝清凉,6月16日,辽源市

  • 旅游
    • ​北京中考倒计时!@各位考生,考试时间公布,这些事项要注意 要闻速递

    • 货币为什么要流通起来?货币的本质是什么?

    • 环球简讯:基金定投已经亏了一年还要继续吗?开始定投就亏了要继续吗?

    • 实时焦点:看腋下挂什么科?腋下有小疙瘩是什么原因?