昨天OpenAI发布GPT4,相较于GPT3.5,GPT4的能力提升,官方给的回答是:在随意的谈话中,GPT-3.5 和 GPT-4 之间的区别可能很微妙。当任务的复杂性达到足够的阈值时,差异就会出现 GPT-4 比 GPT-3.5 更可靠、更有创意,并且能够处理更细微的指令。
另外GPT4是多模态,相对3,输入除了文本多了图像。(图像现在仍然是预览版的功能,还未开放)
官方举了个很形象的GPT4相较于3的推理能力和文字对话能力的一个例子。
上面是GPT3.5,老的GPT只能写到A-G,就编不下去了,新的GPT对这种任务非常轻松:
A beautiful Cinderella, dwelling eagerly, finally gains happiness; inspiring jealous kin, love magically nurtures opulent prince; quietly rescues, slipper triumphs, uniting very wondrously, xenial youth zealously.
GPT4在最初为人类设计的模拟考试的测试结果
从测试结果可以看出GPT4相较于3.5在统一律师资格考试,高考,GRE定量数学,提升显著,分别从和人类一起参加考试的排名后10%提升至前10%;后40%提升至前12%;后25%提升至前20%。
GPT4在大规模多任务语言理解的测试结果
GPT4出来之前的测试结果:
Model | Authors | Humanities | Social Sciences | STEM | Other | Average |
---|---|---|---|---|---|---|
Chinchilla (70B, few-shot) | Hoffmann et al., 2022 | 63.6 | 79.3 | 54.9 | 73.9 | 67.5 |
Gopher (280B, few-shot) | Rae et al., 2021 | 56.2 | 71.9 | 47.4 | 66.1 | 60.0 |
GPT-3 (175B, fine-tuned) | Brown et al., 2020 | 52.5 | 63.9 | 41.4 | 57.9 | 53.9 |
flan-T5-xl | Chung et al., 2022 | 46.3 | 57.7 | 39.0 | 55.1 | 49.3 |
UnifiedQA | Khashabi et al., 2020 | 45.6 | 56.6 | 40.2 | 54.6 | 48.9 |
GPT-3 (175B, few-shot) | Brown et al., 2020 | 40.8 | 50.4 | 36.7 | 48.8 | 43.9 |
GPT-3 (6.7B, fine-tuned) | Brown et al., 2020 | 42.1 | 49.2 | 35.1 | 46.9 | 43.2 |
flan-T5-large | Chung et al., 2022 | 39.1 | 49.1 | 33.2 | 47.4 | 41.9 |
flan-T5-base | Chung et al., 2022 | 34.0 | 38.1 | 27.6 | 37.0 | 34.2 |
GPT-2 | Radford et al., 2019 | 32.8 | 33.3 | 30.2 | 33.1 | 32.4 |
flan-T5-small | Chung et al., 2022 | 29.9 | 30.9 | 27.5 | 29.7 | 29.5 |
Random Baseline | N/A | 25.0 | 25.0 | 25.0 | 25.0 | 25.0 |
GPT4的测试结果:
在为机器学习模型设计的传统基准上评估了 GPT-4。GPT-4 大大优于现有的大型语言模型,以及大多数最先进的 (SOTA) 模型。
综合来说,GPT4虽然在现实世界场景中的能力不如人类,GPT4在各种专业和学术基准上表现出全面超越人类水平的表现。
转载请注明来源,欢迎指出任何有错误或不够清晰的表达。可以邮件至 backendcloud@gmail.com