1. 首页 > 快讯

2024全球AI大比拼,最新排行榜出炉!


AI大模型,谁最强?

如何才能真正评估大模型的真实实力?这是个在 AI 界备受关注的热门话题。当前业内常见的操作是将大模型投入各大权威基准测试去刷分,只要谁得分高,谁就敢自信宣称自己是最强的。但不得不说,这种做法存在问题,它有点类似于考试前划重点,多复习几遍分数自然就高,难免会给人带来误导。

2023 年 6 月 13 日,AbacusAI 宣称,其与 AI 界的超级大咖杨立昆(Yann LeCun)以及英伟达团队联手,推出了一款新事物——LiveBench AI,还号称它是“全球首个无法作弊的 LLM 基准测试”,这相当于给 AI 模型们举行了一场货真价实的考试!LiveBench 的评判方法独具特色。其任务设置十分全面,当下涵盖了 18 个任务,分布于六大类别:数学、编码、推理、语言理解、指令执行以及数据分析。每个任务均属于以下两种类型当中的一种:信息源任务:诸如基于近期 Kaggle 数据集的数据分析问题,又或者是纠正最新 arXiv 摘要里的拼写错误。这简直像是给模型们展开的实时突击测验。增强版基准任务:属于更具挑战性或者更加多样化的现有基准任务版本,例如来自 Big-Bench Hard、IFEval、bAbI 或者 AMPS 的任务。这些任务仿若高级别的期末考试,难度大幅提升!

数学方面

涵盖了过去 12 个月的高中数学竞赛问题(如 AMC12、AIME、USAMO、IMO、SMC)以及更难版本的 AMP 问题。瞧瞧这些问题,简直让人怀疑它们是不是从数学天才的梦幻中窃取而来的!

编码

包含通过 LiveCodeBench 从 Leetcode 和 AtCoder 生成的代码问题,以及一个新颖的代码完成任务。这简直是程序员版的高考啊。

推理

涵盖了 Big - Bench Hard 中 Web of Lies 的更难版本、bAbI 中 PathFinding 的更难版本以及 Zebra Puzzles。感觉就像是推理小说中的谜题在向你招手。

语言理解

包含三个任务:Connection 单词谜题、拼写修正任务和电影梗概重组任务,这些均来自 IMDb 和 Wikipedia 上的最新电影。这些任务宛如语言学家的午夜狂欢。

指令执行

包括四个任务,要求对《卫报》的最新新闻文章进行释义、简化、总结或编写故事,并需遵循一到多个指令或在响应中加入特定元素。这着实给 AI 模型们上了一堂高强度的指令遵循训练课。

数据分析

包括使用 Kaggle 和 Socrata 最新数据集的三个任务:表格转换(在 JSON、JSONL、Markdown、CSV、TSV 和 HTML 之间)、预测哪些列可以用来连接两个表格,以及预测数据列的正确类型注释。这简直是数据科学家的心头好!

通过这种多维度的综合方式,LiveBench 能够有效地评估大型语言模型在不同任务中的表现,确保评估结果的公平性与可靠性。

此外由中国科学技术信息研究所和北京大学共同研制的《2023 全球人工智能创新指数报告》已发布。该报告表明,当下全球人工智能的发展态势呈现出美国全面领先、美中两强引领的总体格局。在 2023 年,美国以 74.71 的总分遥遥领先,而中国的总分为 52.69 分,位居第二,且比排名第三的英国高出将近 15 分。

人工智能的竞争重点主要集中在算力、算法以及数据等几个方面。在算力这一方面,美国的英伟达是最大的 AI 芯片制造商,其对中国实施限售。总体而言,美国的高端算力芯片数量是中国的好几倍,并且差距正在逐渐扩大。中国和美国之间高层次人才数量的差距在逐步减小,顶会顶刊论文、高影响力的人工智能开源项目等高质量科研成果的数量明显增多,人工智能企业数量以及风险投资额均保持全球第二的位置。

本文采摘于网络,不代表本站立场,转载联系作者并注明出处:https://www.iotsj.com//kuaixun/3430.html

联系我们

在线咨询:点击这里给我发消息

微信号:666666