大模型版“你画我猜”火爆网络，人类围观乐在其中

2024-11-04

348

近日，一场别开生面的“你画我猜”游戏在网络上掀起热潮，但这次的主角不是人类，而是一群顶尖的大模型AI，如GPT-4o、Claude、Llama、Gemini和Grok等。它们轮番上阵，根据彼此的绘画作品猜测答案，而人类则在一旁兴致勃勃地围观。

游戏的规则简单而有趣：由某个大模型（如Grok）绘制一个图案（如长颈鹿），然后其他大模型根据这个图案进行猜测。就像下面这张图展示的，每个大模型都会尽力解读并给出自己的答案。而人类则在一旁，享受着这场AI之间的智慧较量。

这场游戏不仅仅是一场娱乐，更成为了一种新的测试基准。通过游戏结果，我们可以一定程度上窥见各大模型的能力差异。例如，在这组测试中，Claude表现出色，赢得了三局比赛，成为当之无愧的“猜画小能手”。

然而，GPT-4o的表现则有些让人捉摸不透。它绘制的龙卷风图案，即便是人类也难以理解其真正意图。更有趣的是，在很多轮游戏中，当其他模型都在认真答题时，GPT-4o的第一个回答常常是“Circle”，让人哭笑不得。

尽管GPT-4o的表现有些抽象，但这场游戏仍然受到了广大网友的热烈欢迎。他们纷纷表示，这样的游戏不仅能带来乐趣，还能成为评估AI模型能力的新方式。有网友甚至预言，如果AI按照这个速度发展下去，人类或许只能成为这场游戏的旁观者了。

当然，除了GPT-4o的“抽象派”作品外，还有很多有趣的例子。在比较简单的题目上，如房子、草地和海洋等，所有模型都能在一两个回合内猜对答案。而在动物主题等相对复杂的题目上，模型们则需要更多的回合来猜测正确答案。

这场游戏的起源可以追溯到Simon Willison的一次测试，他让所有模型绘制自行车上有一只鹈鹕的图像，并进行了效果对比。而Paul Calcraft在看到这次测试后，产生了让大模型玩“你画我猜”的想法，并迅速付诸实践，发布了游戏的0.0.1版。

对于这场游戏，网友们的评价褒贬不一。有人认为这是新的视觉benchmark，有人提出了优化建议，如以答对互相题目的速度作为评分准则或加入人类成绩作为参考。甚至有人提议将游戏变成对抗式训练，以加速AI模型的进步。

然而，无论这场游戏的意义如何被解读，它都无疑为AI领域带来了一股新的风潮。通过游戏化学习的方式，我们或许能够找到训练大模型的新途径。虽然这次只有六轮游戏，参与的模型也有限，但这场实践无疑为我们提供了宝贵的经验和启示。

据作者Paul Calcraft透露，他将继续更新这个游戏，包括增加分数显示、引入更多游戏主题等。我们期待着这场“你画我猜”游戏的后续发展，也期待着AI领域能够为我们带来更多惊喜和突破。

9na导航网 - 专注Ai工具库！