GPT4在各种专业和学术基准上表现出全面超越人类水平的表现

昨天OpenAI发布GPT4,相较于GPT3.5,GPT4的能力提升,官方给的回答是:在随意的谈话中,GPT-3.5 和 GPT-4 之间的区别可能很微妙。当任务的复杂性达到足够的阈值时,差异就会出现 GPT-4 比 GPT-3.5 更可靠、更有创意,并且能够处理更细微的指令。

另外GPT4是多模态,相对3,输入除了文本多了图像。(图像现在仍然是预览版的功能,还未开放)

官方举了个很形象的GPT4相较于3的推理能力和文字对话能力的一个例子。

上面是GPT3.5,老的GPT只能写到A-G,就编不下去了,新的GPT对这种任务非常轻松:

A beautiful Cinderella, dwelling eagerly, finally gains happiness; inspiring jealous kin, love magically nurtures opulent prince; quietly rescues, slipper triumphs, uniting very wondrously, xenial youth zealously.

GPT4在最初为人类设计的模拟考试的测试结果

从测试结果可以看出GPT4相较于3.5在统一律师资格考试,高考,GRE定量数学,提升显著,分别从和人类一起参加考试的排名后10%提升至前10%;后40%提升至前12%;后25%提升至前20%。

GPT4在大规模多任务语言理解的测试结果

GPT4出来之前的测试结果:

Model Authors Humanities Social Sciences STEM Other Average
Chinchilla (70B, few-shot) Hoffmann et al., 2022 63.6 79.3 54.9 73.9 67.5
Gopher (280B, few-shot) Rae et al., 2021 56.2 71.9 47.4 66.1 60.0
GPT-3 (175B, fine-tuned) Brown et al., 2020 52.5 63.9 41.4 57.9 53.9
flan-T5-xl Chung et al., 2022 46.3 57.7 39.0 55.1 49.3
UnifiedQA Khashabi et al., 2020 45.6 56.6 40.2 54.6 48.9
GPT-3 (175B, few-shot) Brown et al., 2020 40.8 50.4 36.7 48.8 43.9
GPT-3 (6.7B, fine-tuned) Brown et al., 2020 42.1 49.2 35.1 46.9 43.2
flan-T5-large Chung et al., 2022 39.1 49.1 33.2 47.4 41.9
flan-T5-base Chung et al., 2022 34.0 38.1 27.6 37.0 34.2
GPT-2 Radford et al., 2019 32.8 33.3 30.2 33.1 32.4
flan-T5-small Chung et al., 2022 29.9 30.9 27.5 29.7 29.5
Random Baseline N/A 25.0 25.0 25.0 25.0 25.0

GPT4的测试结果:

在为机器学习模型设计的传统基准上评估了 GPT-4。GPT-4 大大优于现有的大型语言模型,以及大多数最先进的 (SOTA) 模型。

综合来说,GPT4虽然在现实世界场景中的能力不如人类,GPT4在各种专业和学术基准上表现出全面超越人类水平的表现。


转载请注明来源,欢迎指出任何有错误或不够清晰的表达。可以邮件至 backendcloud@gmail.com