2024全球AI大比拼，最新排行榜出炉！

AI大模型，谁最强？

如何才能真正评估大模型的真实实力？这是个在 AI 界备受关注的热门话题。当前业内常见的操作是将大模型投入各大权威基准测试去刷分，只要谁得分高，谁就敢自信宣称自己是最强的。但不得不说，这种做法存在问题，它有点类似于考试前划重点，多复习几遍分数自然就高，难免会给人带来误导。

2023 年 6 月 13 日，AbacusAI 宣称，其与 AI 界的超级大咖杨立昆（Yann LeCun）以及英伟达团队联手，推出了一款新事物——LiveBench AI，还号称它是“全球首个无法作弊的 LLM 基准测试”，这相当于给 AI 模型们举行了一场货真价实的考试！LiveBench 的评判方法独具特色。其任务设置十分全面，当下涵盖了 18 个任务，分布于六大类别：数学、编码、推理、语言理解、指令执行以及数据分析。每个任务均属于以下两种类型当中的一种：信息源任务：诸如基于近期 Kaggle 数据集的数据分析问题，又或者是纠正最新 arXiv 摘要里的拼写错误。这简直像是给模型们展开的实时突击测验。增强版基准任务：属于更具挑战性或者更加多样化的现有基准任务版本，例如来自 Big-Bench Hard、IFEval、bAbI 或者 AMPS 的任务。这些任务仿若高级别的期末考试，难度大幅提升！

数学方面

涵盖了过去 12 个月的高中数学竞赛问题（如 AMC12、AIME、USAMO、IMO、SMC）以及更难版本的 AMP 问题。瞧瞧这些问题，简直让人怀疑它们是不是从数学天才的梦幻中窃取而来的！

编码

包含通过 LiveCodeBench 从 Leetcode 和 AtCoder 生成的代码问题，以及一个新颖的代码完成任务。这简直是程序员版的高考啊。

推理

涵盖了 Big - Bench Hard 中 Web of Lies 的更难版本、bAbI 中 PathFinding 的更难版本以及 Zebra Puzzles。感觉就像是推理小说中的谜题在向你招手。

语言理解

包含三个任务：Connection 单词谜题、拼写修正任务和电影梗概重组任务，这些均来自 IMDb 和 Wikipedia 上的最新电影。这些任务宛如语言学家的午夜狂欢。

指令执行

包括四个任务，要求对《卫报》的最新新闻文章进行释义、简化、总结或编写故事，并需遵循一到多个指令或在响应中加入特定元素。这着实给 AI 模型们上了一堂高强度的指令遵循训练课。

数据分析

包括使用 Kaggle 和 Socrata 最新数据集的三个任务：表格转换（在 JSON、JSONL、Markdown、CSV、TSV 和 HTML 之间）、预测哪些列可以用来连接两个表格，以及预测数据列的正确类型注释。这简直是数据科学家的心头好！

通过这种多维度的综合方式，LiveBench 能够有效地评估大型语言模型在不同任务中的表现，确保评估结果的公平性与可靠性。

此外由中国科学技术信息研究所和北京大学共同研制的《2023 全球人工智能创新指数报告》已发布。该报告表明，当下全球人工智能的发展态势呈现出美国全面领先、美中两强引领的总体格局。在 2023 年，美国以 74.71 的总分遥遥领先，而中国的总分为 52.69 分，位居第二，且比排名第三的英国高出将近 15 分。

人工智能的竞争重点主要集中在算力、算法以及数据等几个方面。在算力这一方面，美国的英伟达是最大的 AI 芯片制造商，其对中国实施限售。总体而言，美国的高端算力芯片数量是中国的好几倍，并且差距正在逐渐扩大。中国和美国之间高层次人才数量的差距在逐步减小，顶会顶刊论文、高影响力的人工智能开源项目等高质量科研成果的数量明显增多，人工智能企业数量以及风险投资额均保持全球第二的位置。

本文采摘于网络，不代表本站立场，转载联系作者并注明出处：https://www.iotsj.com//kuaixun/3430.html

2024全球AI大比拼，最新排行榜出炉！

相关推荐

联系我们