AI大模型,谁最强?
如何才能真正评估大模型的真实实力?这是个在 AI 界备受关注的热门话题。当前业内常见的操作是将大模型投入各大权威基准测试去刷分,只要谁得分高,谁就敢自信宣称自己是最强的。但不得不说,这种做法存在问题,它有点类似于考试前划重点,多复习几遍分数自然就高,难免会给人带来误导。
数学方面
涵盖了过去 12 个月的高中数学竞赛问题(如 AMC12、AIME、USAMO、IMO、SMC)以及更难版本的 AMP 问题。瞧瞧这些问题,简直让人怀疑它们是不是从数学天才的梦幻中窃取而来的!编码
包含通过 LiveCodeBench 从 Leetcode 和 AtCoder 生成的代码问题,以及一个新颖的代码完成任务。这简直是程序员版的高考啊。
推理
涵盖了 Big - Bench Hard 中 Web of Lies 的更难版本、bAbI 中 PathFinding 的更难版本以及 Zebra Puzzles。感觉就像是推理小说中的谜题在向你招手。
语言理解
包含三个任务:Connection 单词谜题、拼写修正任务和电影梗概重组任务,这些均来自 IMDb 和 Wikipedia 上的最新电影。这些任务宛如语言学家的午夜狂欢。
指令执行
包括四个任务,要求对《卫报》的最新新闻文章进行释义、简化、总结或编写故事,并需遵循一到多个指令或在响应中加入特定元素。这着实给 AI 模型们上了一堂高强度的指令遵循训练课。
数据分析
包括使用 Kaggle 和 Socrata 最新数据集的三个任务:表格转换(在 JSON、JSONL、Markdown、CSV、TSV 和 HTML 之间)、预测哪些列可以用来连接两个表格,以及预测数据列的正确类型注释。这简直是数据科学家的心头好!
通过这种多维度的综合方式,LiveBench 能够有效地评估大型语言模型在不同任务中的表现,确保评估结果的公平性与可靠性。
本文采摘于网络,不代表本站立场,转载联系作者并注明出处:https://www.iotsj.com//kuaixun/3430.html