GPT-4数学再提30分，代码解析器任督二脉被打开，数学意志力登SOTA

时间：2024-01-17 12:20:07

低到73.54%，再结合计量相当多表决后进一步降低到84.32%，相对于之前SOTA降低了30%以上。

△在MATH统计数据集上的生存率（%）

在MATH统计数据集的各个孙子任务中的，提议作法均取得很大降低，相对于之下是在高难度级别的作答中的效果更加值得注意。例如在中的级李群（Intermediate Algebra）作答中的，取而代之的GPT-4示例Objective-C生存率为50.1%，采用新的作法后降低到74.4%。

除此之外，研究工作技术人员还在GSM8K、MMLU-Math、MMLU-STEM等统计数据集上展开了测试。

△在GSM8K统计数据集上的表现

上表可以说明了，采用测试引导计量相当多候选人的作法还可以很大减少并不需要频域的解路径比例（Sampled paths），在GSM8K统计数据集上只并不需要5个路径就达到97%的生存率。

△在MMLU统计数据集上的表现

针对各有不同难度的作答（下绘出a）以及各有不同型式作答（下绘出b）的测试中的，采用新的作法后生存率都有了大幅提高。

△除此以外曲线上的四个点分别对应于采用Prompt 1、Prompt 2、BasicPrompt、CSV Prompt得到的结果。

研究工作技术人员还发现GPT-4示例Objective-C的示例采用阈值降低与生存率降低正方面。随着作答难度的增加，示例采用阈值稳步上升。这说明在较难的逻辑学情况上，更加频繁地采用示例很关键。

此外，值得注意的是，尽管添加基于示例的自我测试可以降低每个单独作答型式的性能，但改进的程度也因作答型式而异，从7.6%到非常少0.6%差不多。

研究工作技术人员宣称：

都有是几何图形情况的准确性非常少降低了0.6%，原本GPT-4示例Objective-C的准确性也只有54.0%，在各个作答型式中的总称较低的。这种差异可能是因为克服几何图形情况通常并不需要多模态，低于了本文研究工作区域内。

论文传送门：

参考重定向：[1]_akhaliq/status/1691734872329699813?s=20[2]

— 完 —

量孙子位 QbitAI · 头条号签约

。