上海人工智能实验室AI高考评测结果出炉，数学科目全体学生不及格

2025-04-23 16:59:32 股票分析 facai888

35|0条评论

评测背景与过程揭秘

上海人工智能实验室近日公布了AI高考评测结果，引发业界广泛关注。此次评测采用全国新课标I卷，确保评测的“闭卷”性。值得注意的是，参与评测的所有开源模型开源时间均早于高考，使得评测更具真实性。同时，成绩由具有高考评卷经验的教师人工评判，力求接近真实阅卷标准。

在语文科目上，大模型的表现可谓是喜忧参半。主观题回答相对凌乱，过程具有迷惑性，甚至出现过程错误却得到正确答案的情况。虽然大模型在语文科目上存在一定局限性，但其在现代文阅读理解能力方面表现普遍较强。

然而，在数学科目上，大模型的表现却不容乐观。平均得分率仅有36%，参与测试的大模型无一及格。尽管大模型的公式记忆能力较强，但在解题过程中无法灵活引用，成为其的一大短板。

在英语科目上，大模型的表现相对较好。作文普遍存在因超出字数限制而扣分的情况，而人类考生多因为字数不够扣分。此外，部分模型由于不适应题型，在七选五、完形填空等题型得分率较低。

上海人工智能实验室AI高考评测结果出炉，数学科目全体学生不及格

此次评测涉及多个开源模型，包括Qwen2-72B、GPT-4o、书生・浦语2.0文曲星等。其中，Qwen2-72B、GPT-4o及书生・浦语2.0文曲星成为本次大模型高考的前三甲，得分率均超过70%。然而，在数学科目上，这些模型的得分率却相对较低。

阅卷教师对大模型表现进行了整体分析，为模型能力提升策略提供参考。例如，模型的现代文阅读理解能力普遍较强，但不同模型的文言文阅读理解能力差距较大。针对这一问题，建议模型开发者加强对文言文阅读理解能力的训练。

尽管大模型在高考评测中存在一些不足，但其在人工智能领域的发展前景依然广阔。未来，随着技术的不断进步，大模型在各个领域的应用将越来越广泛，为人类生活带来更多便利。

上海人工智能实验室AI高考评测结果出炉，为我们揭示了AI在高考领域的应用现状。虽然大模型在某些科目上存在不足，但其在其他领域仍具有巨大潜力。相信在不久的将来，大模型将为教育、医疗、金融等领域带来更多惊喜。

在全国新课标I卷的严格评测中，上海人工智能实验室成功地将AI助教应用于高考数学科目，为这场传统的选拔考试注入了科技新力量。

AI助教的闪耀表现，为我们展示了AI技术在我国教育领域的强大潜力。在AI与高考的融合道路上，我们期待更多创新实践，共同见证教育变革的力量。

MORE>

热门推荐网友点评

最近发表