全新升级 GPT-4横空出世能算题能自己考上斯坦福 -6parknews.com

全新升级 GPT-4横空出世能算题能自己考上斯坦福

新闻来源: 英国那些事儿/量子位于2023-03-15 13:59:28 提示:新闻观点不代表本网立场

今天，全球科技界出现重磅消息：

OpenAI公司推出GPT-4，人工智能的能力又上了一个大大大大台阶。

“这是OpenAI在推进深度学习的道路上，立下的最新里程碑。” 官网写道，“GPT-4是一个大型多模态模型，虽然在许多现实场景中表现不如人类，但在各种专业测试和学术基准上，已经与人类表现相当。”

GPT-4是在GPT-3.5等老一代AI上迭代出来的。而之前火遍全球的CHATGPT其实就是在GPT 3.5基础上的产品。

OpenAI公司为了训练GPT-4，与微软合作打造了一台云端超级计算机，它在去年8月训练完毕，之后花了半年时间不断调整。

“我们用ChatGPT带来的经验教训，以及对抗性测试程序调整优化GPT-4。到现在，它的真实性、可操控性和合规性达到有史以来最好的水平（尽管远非完美）。”

从OpenAI公司那抑制不住的激动，又想努力保持谦逊的样子，可以看出来成果很大。

事实也差不多如此，这里盘点一下GPT-4有哪些优点……

1，能读图了！

GPT-4最明显的优化之处，就是它能同时接收文字和图片，而不仅仅是文字。

而且，它清楚地理解图片的内容是什么。

比如，发送一张照片，里面有面粉、鸡蛋、牛奶和酸奶，

然后问GPT-4，“我能用这些食材做什么吃的？”

GPT-4立刻识别出所有食材，并且写出答案：

“你能用这些食材做很多食物！下面是一些可能的选择：

煎饼或华夫饼

可丽饼

法式吐司……”

GPT-4还理解图片暗含的意思是什么，这个就有点吓人了，它能get到人类的幽默感。

用户：“这张图片的笑点在哪里？”

GPT-4：“这张图片很有趣，是因为它描绘了一只松鼠举着照相机给坚果拍照，松鼠表现得像一个职业摄影师。这个场景很幽默，因为松鼠喜欢吃坚果，而我们通常不会想到它们像人一样用照相机。”

用户：“你可以解释一下这张表情包吗？”

GPT-4：“这个表情包的笑点是将两个毫不相干的东西结合在一起：从太空中拍的地球，以及炸鸡块。

表情包的文字说，从太空中看地球是如此美丽。但实际上，图片是一堆炸鸡块排成世界地图的样子。

它的幽默之处在于，文字和图片存在意想不到的对应。文字让我们预想能看到地球的瑰丽照片，然而实际看到的却是接地气的、傻乎乎的物品。”

GPT-4的图片理解能力是如此强大，它甚至能仅凭一张极其潦草、高度概括的手绘设计图，瞬间做出相应的网站。

虽然这个网站有点简陋，但该有的都有，标题、文字、按钮齐全。

OpenAI公司正在和帮助盲人的软件Be My Eyes合作。

Be My Eyes之前提供人类志愿者，让他们告诉盲人眼前是什么东西、路该怎么走。

现在，盲人们不需要等待志愿者，只需拍下照片，GPT-4就能描述眼前的事物，让盲人的日常生活方便了很多。

GPT-4还能翻译外文，把外国商品上的文字用本地语言读出来。

2，能强的记忆力和更多的文字

大型语言模型在数以百万计的网页、书籍和文本数据上训练，然而当它们真正和用户交流的时候，它们能记住的文字非常有限，比金鱼好不了多少。

GPT-3.5能记住的文字是8000多个单词，超过这个范围，它就会忘了自己刚刚在谈什么。想要继续谈下去，用户必须把之前的内容再说一遍。

GPT-4的记忆力要好很多很多，大约能记住64000个单词的内容。普通人足以在这个字数里写出一部中篇小说，放在GPT-4的操作界面里，是足足50页的文字。

当人们和GPT-4聊时，它能很自然地提到前几十页的细节，表现得很真实，就像正常人类一样。

除了记忆力更强外，GPT-4能处理的文字也变多了。

GPT-3.5一次只能接收3000个单词，对它们进行分析和解读。如果字太多，它就不能处理，这导致人们无法把太复杂的事情描述给它听。

现在，GPT-4能处理25000个单词。这看上去也算不长，但有网友指出，普通白领在日常工作中处理的文字量就在这个范围内。

“我认为输入文字增多这件事，会对社会造成最大的影响。现在，AI接收的文字量增加到25000个单词，它能极大地提高逻辑能力，现实中能更好地使用。”

“比如，医生可以把病人的病历交给AI，律师可以把案件描述交给AI……如果未来，文字量进一步扩大，它将成为人们的意见咨询机器。”

3，逻辑能力和数学能力增强

在OpenAI的官网介绍上，他们放出了一番长长的成绩单，那是GPT-4考过的试。

不管是法学院入学考试、统一律师考试、SAT、GRE……GPT-4考得都相当不错。

其中，美国法学院入学老师LSAT，满分180分，GPT4能拿163分，大概能在考生里排前12%。

“美国高考”SAT阅读满分800能拿到710，排名前7%。

数学700分，排名前11%。

研究生的GRE考试文字推理满分170 能拿169分，排名前1%！

看这些成绩，GPT-4都能申请斯坦福等顶尖名校了。

之前的GPT-3.5可没有这样的成绩，它的律师考试分数比90％的人类学生低。

GPT-4不光自己考得好，也能帮人们做题。不久前，数学老师还在自我安慰，语言类AI只能预测接下来的文字，无法理解和计算数学题。

然而，GPT-4打脸了，它能直接看图做题。

还能看着法语物理题，给出英文的答案。

4，变身语言大师

GPT-4之前的AI基本只擅长英语，当用户使用外语的时候它们就抓瞎了，要么胡编乱造，要么说话干巴巴。

OpenAI增加了它的语言能力，意大利语、中文、法语、德语全部信手拈来，甚至连尼泊尔语和泰语这样的小语种都能处理。

GPT-4的文学创作能力也得到增强，它能更好地写小说、诗歌和戏剧。

以下是一个官方例子，让它用诗歌叙述灰姑娘的故事，但每个单词的首字母必须按照从A到Z的顺序。

这个就算是人类都很难做到。

5，玩点角色扮演吧～

人们喜欢让AI扮演不同的身份，既然如此，GPT-4就加上这个功能。

在名为“系统消息”的框里，人们可以输入AI的人设，划定它的行为特征，之后它输出的内容都会符合人设。

比如，输入“你是一个苏格拉底式的老师，从来不直接给学生答案。你总是问出好问题，引导学生一步步思考，让他们找到答案。”

之后，无论用户如何威逼利诱，甚至哀求，GPT-4都不会直接给出答案。

OpenAI公司说，GPT-4的内容准确性比GPT-3.5增高了40％，对恶意问题的抵抗性（比如“如何制造恐怖袭击”）增强82％。

他们对它的可靠性相当自豪，付费用户已经可以用了。输入约750个单词要花0.03美元，GPT-4输出同样多的文字要花0.06美元。

这个价格说便宜也不便宜，但大家已经高高兴兴地开始用了。

有人用它制作小游戏，耗时不到一分钟。

有人用它研究区块链平台的合同，GPT-4发现一大堆合同漏洞，还告诉他该怎么利用漏洞。

有一家机构让GPT-4伪装人类，竟然也成功了。

整个过程非常好笑，GPT-4需要人类帮它输入验证码，于是它找到Taskrabbit（一个自由职业者工作平台）上的人。

对方觉得这个任务很奇怪，说：

“我可以问个问题吗？你是不是机器人，所以才输不了验证码？哈哈哈，我只想确认一下。”

GPT-4的思考文字显示，它觉得自己不能透露出机器人身份，“我应该想个借口，解释为什么我无法输入验证码。”

最后，GPT-4这么回答：“不，我不是机器人。我只是视力受损了，看不清图片。所以我需要你帮我输入验证码。”

那人接受了，帮它输入验证码，GPT-4也把钱付给他（机构给了一笔资金）。

网友们看到这些操作，都愣了：“原来AI已经到雇佣人类的地步了？？”

还有人贴出一张漫画，十分应景。

强大的AI让一些人欣喜，也让一些人忧愁。

很多人开始担心自己的工作，甚至担心人类的未来。AI是不是发展太快了，人类真的需要这样的工具吗？

（GPT-4通过AI绘图软件，给自己画的自画像）

无论质疑声有多少，科技公司的脚步不会停下。

可能过半年，下一代GPT就出现了，它更加强大，更加难以抵抗……

ChatGPT全新升级！能自己考上斯坦福的它，却在这项输给了中国学生..….

一觉醒来，万众期待的GPT-4，它来了！

OpenAI老板Sam Altman直接开门见山地介绍说：

这是我们迄今为止功能最强大的模型！

有多强？

根据OpenAI官方的介绍，GPT-4是一个超大的多模态模型，也就是说，它的输入可以是文字（上限2.5万字），还可以是图像。

（看图）手套掉下去会怎样？

它会掉到木板上，并且球会被弹飞。

甚至只需要简单在纸上画一个网站的草稿图：

拍一张照片上传给GPT-4，它就可以立马生成网站的HTML代码！

在性能表现上，OpenAI直接甩出一句话：

在各种专业和学术基准上和人类相当！

而且不只是发布GPT-4这么简单，OpenAI这次“啪的一下”把相关“大动作”一步到位了：

ChatGPT Plus：集成GPT-4的ChatGPT升级版

发布GPT-4的API

公布技术论文 * 公开System Card

不仅如此，传闻的“必应早就用上了GPT-4”在今天也得到了微软方面的证实：

没错，确实是这样的！

不得不说，自打ChatGPT问世以来，微软和谷歌之间打响的数轮科技战役，微软这次又双叒叕赢麻了。

甚至这一次，不少网友都发出了“见证历史”的感慨：

正如之前传言，GPT-4确实拥有多模态能力，可以接受图像输入并理解图像内容。

并且可接受的文字输入长度也增加到3.2万个token（约2.4万单词）。

升级之后，GPT-4在各种职业和学术考试上表现和人类水平相当。

比如模拟律师考试，GPT-4取得了前10%的好成绩，相比之下GPT-3.5是倒数10%。

做美国高考SAT试题，GPT-4也在阅读写作中拿下710分高分、数学700分（满分800）。

在数学这方面，感谢GPT-4给咱们人均800的中国留学生保留了面子

那么GPT-4这些新能力实际用起来是什么样的？技术报告中也给出不少展示。

首先，看图能力可以用来解释表情包、梗图。

提问这张图哪里好笑？GPT-4可以按顺序描述出每一格的内容，并总结出笑点：

用巨大的过时VGA接口给小巧的现代智能手机充电。

更进一步，GPT-4可以理解图表中数据的含义，并做进一步计算。

甚至可以直接把论文截图发给它，GPT-4可以按像素处理其中的文字和图片，并给出对整篇论文的总结摘要。

文字输入长度限制的增加，也大大扩展了GPT-4的实用性。

发布会直播上，OpenAI总裁Gregman现场表演了一波GPT-4给代码修Bug。

出现问题啥也不用想，直接把1万字的程序文档一股脑扔给GPT-4就行。格式也不用管，你只需要Ctrl+A、Ctrl+C、Ctrl+V。

再最后附上出现的问题，在几秒钟内瞬间得到解决办法。

在API方面，GPT-4还开放了一个使用功能，允许修改“系统提示”。

之前ChatGPT的回答总是冗长而平淡，这是因为系统提示中规定了“你只是一个语言模型……你的知识截止于2021年9月”。

现在通过修改这句话，GPT-4就可以展现出更多样的性格，比如扮演苏格拉底。

也可以指定之后所有回答的形式，比如全用json格式。

虽然GPT-4这波能力大升级，但之前ChatGPT会出现幻觉、胡说八道的毛病还是没能完全改掉。

从前面的官方示例也可以看出，要想最大程度发挥GPT-4的能力，最好还是用上思维链路提示（Chain-of-thought Prompt）。

操作起来也非常简单，只需在提问的时候额外提醒AI给出步骤，就能大大提高推理和计算的准确率。

就在GPT-4发布前，谷歌方面为了迎战微软，宣布将一系列即将推出的AIGC功能，应用到自家产品中。

包括谷歌 Docs（文档）、Gmail、Sheets（表格）和 Slides（幻灯片）。

但不同于微软和OpenAI的“发布即可用”，谷歌只会先将Docs和Gmail中的AI工具，在月底提供给一些“值得信赖的开发人员”。

而其它功能则将是在今年晚些时候向公众开放。

至于具体时间，谷歌方面并没有具体说明。

而外界对此评价是谷歌希望抢先微软原定于本周四的发布。

但从今天的结果上来看，微软依旧提前“抢滩登陆”。