立即注册找回密码

QQ登录

只需一步,快速开始

微信登录

微信扫一扫,快速登录

手机动态码快速登录

手机号快速注册登录

搜索

图文播报

查看: 269|回复: 5

[分享] OpenAI 发布 GPT-4,有哪些技术上的优化或突破?

[复制链接]
发表于 2025-6-12 16:13 | 显示全部楼层 |阅读模式
回复

使用道具 举报

发表于 2025-6-12 16:14 | 显示全部楼层
在这个历史性的时刻,回答个问题,留下自己作为历史见证人的足迹。
GPT4的技术报告里很明确地指出了三个新的方向:
第一,LLM最前沿研究的封闭化或小圈子化。技术报告里说了,出于竞争以及安全等方面的考虑,未公布模型规模等技术细节。从GPT 2.0的开源,到GPT 3.0的只有论文,再到ChatGPT连论文也没有,直到GPT 4.0的技术报告更像效果评测报告。一个很明显的趋势是,OpenAI做实了CloseAI的名号,之后OpenAI的LLM最前沿研究不会再放出论文。
在这个情形下,其它技术相对领先的公司有两种选择。一种是做更极致的LLM开源化,比如Meta貌似选择了这条道路,这一般是竞争处于劣势的公司作出的合理选择,但是往往相关技术不会是最前沿的技术;另外一种选择是跟进OpenAI,也选择技术封闭化。Google之前算是LLM的第二梯队,但在“微软+OpenAI”的一顿组合拳下,现在局面有点狼狈不堪。GPT 4.0去年8月就做好了,估计现在GPT 5.0正在炼丹过程中,这么长的时间窗口,结果Google都能落到目前这个局面,想想Transformer、CoT等非常关键的一些研究都是自己做出来的,竟沦落至此,不知一众高层作何感想。Google在后面能快速跟进,维持在第二梯队应该问题不大,很可能比第三名技术也领先很多。出于竞争关系考虑,我猜Google大概率会跟进OpenAI走技术封闭的路线,最先进的LLM技术优先用来炼属于自己的丹,而不是写成论文放出来普惠大众尤其是普惠OpenAI。而这很可能导致LLM最前沿研究的封闭化。
从现在算起,国内在经过一阵时间后(要做到ChatGPT的6到7折应该比较快,要追平估计要较长时间),必然被迫进入自主创新的局面。从最近三个月国内的各种情况看,将来会如何?大概率不太乐观。当然,这个关肯定很难,但必须得过,只能祝愿有能力且有初心者尽力加油了。
第二,GPT 4技术报告里提到的LLM模型的“能力预测(Capability Prediction)”是个非常有价值的新研究方向(其实之前也有个别其它资料,我记得看过,但是具体哪篇记不起来了)。用小模型来预测某些参数组合下对应大模型的某种能力,如果预测足够精准,能够极大缩短炼丹周期,同时极大减少试错成本,所以无论理论价值还是实际价值巨大,这个绝对是非常值得认真研究具体技术方法的。
第三,GPT 4开源了一个LLM评测框架,这也是后面LLM技术快速发展非常重要的方向。尤其对于中文,构建实用的中文LLM评测数据和框架具备特别重要的意义,好的LLM评测数据可以快速发现LLM目前存在的短板和改进方向,意义重大,但是很明显目前这块基本处于空白状态。这个对于资源要求其实没那么高,适合很多机构去做,不过确实是个辛苦活。
除了GPT 4技术报告里明确指出的三个方向,因为最近LLM各方面新闻比较多,顺手再写两个其它技术方向。
首先,斯坦福大学最近在Meta的7B 开源LLaMA基础上,加上Self Instruct技术构造的Alpaca,也代表了一个技术方向。如果归纳下,这个方向可以被称为“低成本复现ChatGPT”的方向。所谓Self Instruct,就是采取一定技术手段,不用人工标注Instruct,而是从OpenAI的接口里,好听点叫“蒸馏”出Instruct,也就是不用人标注,而是ChatGPT作为teacher,给你的Instruct打上标注结果。这个把Instruct标注成本直接打到了几百美金的基准,时间成本就更短了。再加上模型7B规模也不大,所以可以看成一种“低成本复现ChatGPT”的技术路线。
我估计国内早就有不少人采取这个技术路线了。毫无疑问,这是一条捷径,但是走捷径有好处有坏处,具体不展开谈了。在追赶ChatGPT的过程中,先把成本打下来去复现ChatGPT到七八成,我个人还是觉得可行也支持的,毕竟穷人有穷人的玩法。当然,追求把模型做小,效果又不怎么往下掉,如果能扎扎实实去做,是非常具有价值的。
另外,具身智能毫无疑问会是LLM下一阶段的重点研究方向。这方面的代表就是前阵子Google放出来的PaLM-E了。目前的GPT 4,我们可以认为人类创造出了一个超级大脑,但还是把它封锁在GPU集群里。而这个超级大脑需要一个身体,GPT 4要和物理世界发生联系、交流和互动,并在物理世界中获得真实的反馈,来学会在真实世界里生存,并根据真实世界的反馈,利用比如强化学习来学习在世界游走的能力。这个肯定是最近的将来最热门的LLM研究方向。
多模态LLM给予了GPT 4以眼睛和耳朵,而具身智能给予GPT 4身体、脚和手。GPT 4和你我发生一些联系,而依托于GPT 4本身强大的学习能力,这个事情估计很快会出现在我们身边。
如果你细想,其实还有很多其它有前途的方向。我的个人判断是:未来5到10年,将会是AGI最快速发展的黄金十年。如果我们站在未来30年的时间节点,当我们回顾这10年时,我们中一定会有人,想起下面的诗句:“懂得,但为时太晚,他们使太阳在途中悲伤, 也并不温和地走进那个良夜。”
回复 支持 反对

使用道具 举报

发表于 2025-6-12 16:15 | 显示全部楼层
第四次工业革命的开端没跑了。
无数的旧职业将消亡, 新职业诞生, 这就是工业革命.
<hr/>第一部分考试就开幕雷击:


最左边那条, 先修微积分, 大致相当于国内同济高数上册.
提升幅度巨大, 实现了从零到一的突破, SAT Math 也有小幅提升.
之前几乎是零分, 被人嗤笑两位数加减乘除都不会.
下面还有个看图一步步解物理题的,  看的我一愣一愣的, 这不就是拍照解题终极版.


很遗憾国内把拍照搜题技术给干掉了.
<hr/>第二个长绿条, 律师统考(Uniform Bar Exam), 统考不说有多关键吧, 也是重要门槛之一, 这就给你踏破了.
图里没有的, 但是也获得了满分的 AP 课程有, 宏观经济(AP Macroeconomics), 微观经济(AP Microeconomics), 生物(AP Biology), 心理(AP Psychology),  统计(AP Statistics)
也就是说, 完全能当一个优秀高中毕业生或者学废了的大学生用了.
这就引发了一个尖锐的问题, 那这些考试的意义是什么?
如果你按照这些考试的标准去招人, 其实还不如用 AI.
那你培养这些人的目的是什么? 毕业就让他们失业吗?
<hr/>

第二部分刷榜, 用硬实力告诉你这东西有多离谱, 没啥好说的.
第三部分还是刷榜, VQA 视觉问答任务, 跨界和别的 SOTA 对比, 单看数据没打赢
但是 0-shot 吊打别人 few shot, 啊这....
你知道谁喜欢卷 0-shot 吗? 自动驾驶...
<hr/>第四部分, 改善了喜欢自信说出错误答案的问题.
用的词是显著改善(significantly reduces hallucinations), 后面测测是不是真的.


这部分非常感谢各位人类标记员, 笑..
所以国内的大模型得跟上啊, 多少人工多少智能, 人家几个亿的用户帮忙标注.
<hr/>后面是训练过程, 没啥用, 你按照这东西能训出来?
回复 支持 反对

使用道具 举报

发表于 2025-6-12 16:16 | 显示全部楼层
相关论文和blog已经有很多人分析了,这里不再赘述,而是讲一下实际使用体验(包括ChatGPT Plus w/ GPT4 和 OpenAI 的直播 demo,以及社交媒体上的使用报告)。

在ChatGPT Plus上,我让GPT4讲解如何逐步求导一个相对复杂的函数。这是先前模型不擅长的(虽然 GPT3 Turbo有了一定提升):(1)数学问题(2)长程的逻辑推导

对于完全一样的问题,这是 GPT-3.5 Turbo 的回答:



这是 GPT-4的:




虽然两者的回答都是正确的,但是可以很明显地看到GPT-4的回答逻辑性和一致性要强的多,是真正地在“分步解题”。这解释了为何GPT-4在各类数学和其他理科的测试中成绩远超GPT-3。
此外GPT-4可以完成非常复杂的“受限任务”,比如说根据上面的内容写一个“函数求导之诗”,并且要求用词的开头从A到Z,不允许重复,还要押韵:



可以看到GPT4在保证内容基本切题的前提下尽可能地完成了,这个真的是秒杀我。
GPT3.5只能说完全没有满足这个约束:


最让我震惊的是(因为我完全没有指望它能有一点点靠谱,因为印象中GPT的中文能力比英文弱的多,对于古诗词之类的更是一窍不通):


而且注意到GPT4是严格按照金木水火土的顺序排字的,虽然有些输出不能说完全对,但是靠谱程度已经让人感到惊讶了。
此外GPT-4自动生成的对话标签也是合理的:



GPT-3.5只能说完全没有希望:


Hinton 很快发了一个关于GPT-4推,包含了一个比喻,让我们试试GPT-4的解释如何:






GPT-3.5只能说意料之中,而GPT-4让我自愧不如。
下面再说说OpenAI现场demo的例子。
首先,它的编程能力有所提高,只要把报的错告诉它,它就会自动改正。注意到这里报的错并不是GPT4自己写错了,而是用的库更新了API造成的问题。GPT4能够根据有限的错误内容自动使用新的API,即使它完全没有学过相关资料。
另外大家都知道,GPT4支持图片输入了。但是它做到什么程度了呢?——(1)你可以直接把它当作OCR的替代(2)解释图片笑话自然不在话下(3)你可以画一个潦草的网页设计,然后让GPT4根据这个图片,生成出真正的网页,并且还满足你附加的要求:







此外,GPT4可以为你完成复杂的报税,并附有完整的计算过程和条款解释:



GPT-3.5是没有指望的,因为(1)繁琐的16页税务相关文件超出了GPT-3的4096 tokens的限制,也就是太长了(2)就凭GPT-3.5的数学和逻辑推理水平,几乎没有可能正确完成如此复杂的计算。
最后再说说网上看到的神奇应用:

(1)自动律师函——但凡来一个骚扰电话,就自动总结骚扰内容和侵犯的相关法律,生成一个律师函告你然后靠这个自动挣钱(理论上告一次自动能赚到$1500,然后因为不需要有人给你写律师函了,你可以省掉不少律师费)。有趣的是,DoNotPay是一家从事“诉讼自动化”的事务所,在GPT-4出现之前就和不少律师产生了(利益)纠纷,现在正在互相撕扯。如果之后DoNotPay用GPT-4打赢了自己的官司,那就真的妙不可言了。


(2)自动指出区块链合约的漏洞(这个漏洞是真的,而且先前被利用过)


(3)之后GPT-4会和New Bing结合。这个意料之中




(4)自动生成简单的游戏,一发入魂(GPT-3.5需要后期修改,不能一次整体成功)


最后,GPT-4去年底(或者最早去年8月)已经完成了。OpenAI在blog和论文中避免谈及训练和模型结构等一切细节,毫无疑问意图是保持领先优势,造成技术壁垒。
此外一个花絮:Greg在演示中花了很多时间拍照上传图片包括打开各种网站和APP,然后由衷地说了一句“我感觉GPT-4是这个演示中最容易使用的东西”。
回复 支持 反对

使用道具 举报

发表于 2025-6-12 16:16 | 显示全部楼层
接下来还有一堆发布(
以及和一些人贩卖过自己不成熟的观点:zero-shot image understanding已经不是梦了,也就意味着L4自动驾驶技术已经出来了
回复 支持 反对

使用道具 举报

发表于 2025-6-12 16:17 | 显示全部楼层
更新点paper的内容吧,直接省流打字:

  • 还是单向transformer,rlhf finetuned。剩下的你想知道的实现细节,就不说了
  • 当你还在谈emergence,他很多地方已经做到predictable,都是跟scaling law一致的,当然他用coding相关的评测那我确实无话可说,但打破inverse scaling这点也挺有趣..
  • 秀结果,甚至都没啥好看的,包括他们mitigate他们所说的limitations
  • rlhf很有用这个点博客提到,第六章讲风险安全问题有所展开(提到了一个叫rule-based reward models的东西,然后说是a set of zero-shot GPT-4 classifiers...,绷不住了)
<hr/>谢邀!将最新的文章直接投递到这个问题吧。以下是正文:

正准备睡觉,收到同事群里GPT-4出来的消息。迅速扫了一眼博客,在这里做个简单解读。注:由于作者在深夜写作过程中写作情绪逐渐失控,请各位读者见谅。
GPT-4这次GPT-4的放送非常全面,且内容量极度爆炸!首先是一篇署名OpenAI的98页的tech report,然后是一个60页的system card,给了ChatGPT Plus抢先体验的机会,同时还有API的waitlist(又准备暴击),马上还有一个震撼的demo视频,还有一个全新的OpenAI Eval(解决评测老大难…)。但是,加起来快200页的东西,居然没透露什么技术细节,我服了……
我来点截图让大家感受下阵容之强大,组织之恐怖。。。






言归正传,我们看下这篇博客讲了什么逆天的故事。
GPT-4是什么?GPT-4是一个大规模的多模态模型,做的事情很朴素,就是接收图像和文本的输入,输出文本。如果这故事放到别的地方,可能大家觉得不过尔尔。但OpenAI的作品,你绝对不敢不往下看。它谦虚地说道,目前比人类还是稍微差点,但在很多职业和学术benchmark上达到匹敌人类的水平。匹敌人类的说法,现在也经常听见。但它继续说道,目前已经在模拟考试上取得前10%的排名,而那个震撼全球的ChatGPT背后的GPT-3.5居然垫底10%。。
GPT-4并非一蹴而就,足足花了半年时间(即便只是align半年这也过于快了……)去做alignment的迭代(详见此前他们alignment相关的工作),实现了最好的模型的事实性、可控性的表现。即便如此,他们依然谦虚地说,though far from perfect…
基建方面它也着重讨论,整个DL的基建都跟Azure重新搞了一遍。好的,工程人家都不知道领先我们多少。他们GPT-4难得可以稳定训练,效果甚至可预测(for us at least! 貌似谦虚,其实说的就是我领先你们好几代)。
能力

GPT-4除了多模态以外,它的核心点是,相比GPT-3.5,如果只是常规的交流,那估计没太大差,但是如果说遇到非常复杂的指令,GPT-4的理解能力和创造力远超3.5。他们做了一大堆实验,来向大家展示GPT-4比GPT-3.5强太多,反正就是一通爆做奥赛和AP的题目。结果直接一图一表秀死大家:




NLP“传统”任务也给你撸一遍,上来就十几个点,MMLU打到这水平让人怎么顶。。


顺便告诉大家,这还是一个全面爆锤谷歌的多语言的超巨。把MMLU做个多语言版本,然后继续秀图:


接下来是最新的理解视觉信息的能力。它集中解决输入图文数据,回答文本的问题,考虑什么图像生成视频生成的可以退了。那要说这个我本来是很熟的,但看到它的coverage,我慌了,举个例子,这家伙直接看物理题然后think step by step把题做了。。




喜欢打榜?我0-shot直接来个VQA 77让大家伙体验一下实力:


可控性方面,其实主要讲的是对AI模型的多种方面特征的控制。举个例子,ChatGPT你觉得很单调,但是GPT-4更可控,想要什么人格都可以(Good luck to you, Noam),并且友善暗示不怕你越狱之类的话(没太明白这个友情提示)。




这就不太惊艳了,略显常规。哎,也行吧, 读文章也让人喘口气。
局限性

最后是limitations。首先,它还会hallucinate,但是,已经比之前ChatGPT这种菜鸡好很多了,truthfulqa也提升很多(你越谦虚我越来气)。GPT-4的base模型比GPT-3.5就好那么点,但是上了RLHF就有了巨大提升,且它现在不会随便讲套话应付差事。


哎,顺便说一嘴,它今天说的limitations,可能已经被解决了。因为,这可是去年的工作啊……

回复 支持 反对

使用道具 举报

发表回复

您需要登录后才可以回帖 登录 | 立即注册 微信登录 手机动态码快速登录

本版积分规则

关闭

官方推荐 上一条 /3 下一条

快速回复 返回列表 客服中心 搜索 官方QQ群 洽谈合作
快速回复返回顶部 返回列表