上海人工智能实验室近日公布了AI高考评测结果,引发业界广泛关注。此次评测采用全国新课标I卷,确保评测的“闭卷”性。值得注意的是,参与评测的所有开源模型开源时间均早于高考,使得评测更具真实性。同时,成绩由具有高考评卷经验的教师人工评判,力求接近真实阅卷标准。
在语文科目上,大模型的表现可谓是喜忧参半。主观题回答相对凌乱,过程具有迷惑性,甚至出现过程错误却得到正确答案的情况。虽然大模型在语文科目上存在一定局限性,但其在现代文阅读理解能力方面表现普遍较强。
然而,在数学科目上,大模型的表现却不容乐观。平均得分率仅有36%,参与测试的大模型无一及格。尽管大模型的公式记忆能力较强,但在解题过程中无法灵活引用,成为其的一大短板。
在英语科目上,大模型的表现相对较好。作文普遍存在因超出字数限制而扣分的情况,而人类考生多因为字数不够扣分。此外,部分模型由于不适应题型,在七选五、完形填空等题型得分率较低。
此次评测涉及多个开源模型,包括Qwen2-72B、GPT-4o、书生・浦语2.0文曲星等。其中,Qwen2-72B、GPT-4o及书生・浦语2.0文曲星成为本次大模型高考的前三甲,得分率均超过70%。然而,在数学科目上,这些模型的得分率却相对较低。
阅卷教师对大模型表现进行了整体分析,为模型能力提升策略提供参考。例如,模型的现代文阅读理解能力普遍较强,但不同模型的文言文阅读理解能力差距较大。针对这一问题,建议模型开发者加强对文言文阅读理解能力的训练。
尽管大模型在高考评测中存在一些不足,但其在人工智能领域的发展前景依然广阔。未来,随着技术的不断进步,大模型在各个领域的应用将越来越广泛,为人类生活带来更多便利。
上海人工智能实验室AI高考评测结果出炉,为我们揭示了AI在高考领域的应用现状。虽然大模型在某些科目上存在不足,但其在其他领域仍具有巨大潜力。相信在不久的将来,大模型将为教育、医疗、金融等领域带来更多惊喜。
在全国新课标I卷的严格评测中,上海人工智能实验室成功地将AI助教应用于高考数学科目,为这场传统的选拔考试注入了科技新力量。
AI助教的闪耀表现,为我们展示了AI技术在我国教育领域的强大潜力。在AI与高考的融合道路上,我们期待更多创新实践,共同见证教育变革的力量。