百家号:开云体育平台网址-复旦大学公布高考数学大模型评测结果讯飞星火、通义千问名列前茅完胜GPT-4o-常文广的个人网站

近日，复旦飞星复旦大学NLP（自然语言处理）实验室LLMEVAL团队发布了2024年高考数学大模型评测结果，大学大模其中讯飞星火和通义千问表现突出，公布高考果讯分别在高考数学新I卷和高考数学新II卷中分列前两名，数学胜而GPT-4o则在两份考卷的型评评测中均位列第三。复旦NLP团队表示，测结全新出炉的火通高考试题具备高度的独创性和保密性，是义千用来评测大模型的绝好评测集合。在全国高考数学新Ⅰ卷中，问名通义千问和讯飞星火对14道数学客观题的列前准确率达到70%以上，大幅领先GPT-4o的茅完57%，字节豆包、复旦飞星智谱清言、大学大模百川等大模型紧随其后，公布高考果讯准确率超过50%，数学胜百度文心一言、腾讯元宝、Kimi等大模型准确率低于50%。而在全国高考数学新Ⅱ卷的评测中，讯飞星火、通义千问、GPT-4o准确率均超过60%，字节豆包、GLM4、腾讯元宝紧随其后，正确率在55%以上；文心一言、kimi等其他国产大模型正确率在55%以下。值得一提的是，数学能力一直是GPT-4o的重要能力模块。OpenAI在5月14日的发布会上推出GPT-4o时，曾特别强调其数学能力，并在现场演示了包含实时图像识别和语音能力在内的在线教学场景。从复旦大学NLP实验室公布的评测结果可以看出，讯飞星火和通义千问对数学问题的深入理解能力、分析能力和推理能力已经超过GPT-4o，使其在高考数学试题的解答上具有更高的准确率。有网友幽默地评论道：“看来做数学题还是咱中国人的强项。”