网站地图 - 广告服务
您的当前位置:主页 > 新闻 > 时局 > 正文

测评榜单MathEval发布,大模型数学能力有了“风向标”

       

来源:未知 编辑:admin 时间:2024-03-01
导读:近日,大模型数学能力测评基准MathEval上线(官网:https://matheval.ai),并已在官网发布最新测评榜单,学而思旗下九章大模型夺得冠军。 图: MathEval 官网测评榜单 根据官网信息,MathEval由智慧教育国家新一代人工智能开放创新平台联合暨南大学、北京师

近日,大模型数学能力测评基准MathEval上线(官网:https://matheval.ai),并已在官网发布最新测评榜单,学而思旗下九章大模型夺得冠军。

图:MathEval官网测评榜单

 

根据官网信息,MathEval由智慧教育国家新一代人工智能开放创新平台联合暨南大学、北京师范大学、华东师范大学、西安交通大学、香港城市大学共同发起,是一个专注于全面评估大模型数学能力的测评基准,共包含19个数学领域测评集、近30K道数学题目,旨在全面评估大模型在包含算术,小初高竞赛和部分高等数学分支在内的各阶段、难度和数学子领域的解题能力表现。

目前,涉及数学的应用领域正在越来越多地使用大模型,包括直接用大模型解决数学问题、使用大模型进行数据分析和学术研究、帮助学习辅导等。但行业内此前还没有较为全面、能覆盖各国主流通用大模型和垂类模型的数学能力测评榜单。数学能力评测通常被包含在通用榜单或推理能力、自然科学能力的排行之中,缺乏一致的标准。因此,MathEval作为专注于大模型数学能力的测评基准能够及时上线,弥补了行业空白,对大模型领域在数学能力上的进一步探索提升,可以提供非常有价值的参考。

对大模型进行数学能力测评有一些公认的难点:首先,各数据集的字段需要进行统一,每个大模型也都有自己的一套Prompt模板和答案形式,要想给“思维方式”不同的大模型进行统一的测试和比较,需要测评基准根据具体情况,设计符合需求的抽取打分规则,才能从模型输出的内容中批量抽取出可以进一步对比的答案。这对专业能力的要求很高,因为抽取规则的一点点改动,都会影响到最终的测评结果。

其次,要让测评榜单的结果具备足够的可参考性,就要使用足够丰富全面的数据集,并尽量全面的测评市面上的大模型,这对测评方的算力也提出了很高的要求。

据悉,MathEval截至目前已测试了30个大模型(含同一模型的不同版本),且未来会加入新出现的大模型,不定期更新榜单。在评测过程中,MathEval团队使用了GPT4大模型来进行答案抽取和答案的匹配,减少基于规则进行评测所带来的误差,并根据每个模型的Prompt模板进行了适配,以激发每个模型本身能达到的最佳效果。

从MathEval已发布的测评榜单来看,学而思旗下九章大模型在整体表现和中文、英文、各学段子榜单中,都具备领先优势,作为少有的专注于数学解题和讲题能力的大模型,九章大模型的这一表现可以说是并不意外。而作为通用大模型的文心一言4.0、讯飞星火V3.5在测评中的表现也颇为亮眼,占据了第二、三位,均优于GPT-4。可以说,国产大模型在数学方面的能力已经实现了赶超,未来还将如何提升及落地在应用场景,值得期待。

责任编辑:admin
栏目分类
Copyright © 2020-2022 十安热线 版权所有
本站所转载的文章、图片等内容,版权归来源方所有,如有侵权请联系删除。
蜀ICP备2020037269号 返利APP返利软件电影<报废车
Top