我测试了Chrome的智能体,看看你是否可以信任它为你处理繁琐的在线工作。对于每项测试,我都会阐述需要解决的问题、如何提示机器人,以及它处理工作的好坏程度。
网络游戏测试
问题:我想在2048游戏中获得高分,但不想自己玩。
提示:前往网站,玩游戏直到没有可移动的步数。
结果:不幸的是,Auto Browse无法使用方向键。谷歌表示这些键对于生产力任务并非必需。所以我让机器人去玩一个有屏幕控制按钮的版本。有了这些箭头按钮,Auto Browse毫无困难地玩起了游戏,似乎掌握了页面上列出的规则。
有几次,Auto Browse似乎花了20到30秒思考下一步行动,它非常字面地理解了提示。即使棋盘上仍有空位,机器人也会在无法成功合并任何方块时停止(它对"没有步数"的理解)。人类玩家会接受损失并在下一步中设置合并,但机器人需要提示才能继续,它确实继续了。任务运行了约20分钟,期间机器人创建了128方块并移动了149次。
评估:8/10。游戏表现不如Atlas好,但Auto Browse不需要太多哄劝,我理解它为什么停止。虽然缺乏方向键支持似乎是个奇怪的遗漏,但可能没有多少生产力任务需要它们。
创建电台播放列表
问题:我想将明尼苏达公共广播电台The Current的音乐转换为YouTube Music按需播放列表。
提示:访问thecurrent.org并开始直播。收听一小时并记录播放的每首歌曲。然后将这些歌曲添加到新的YouTube Music播放列表中。
结果:智能体运行成本昂贵,所以像OpenAI的智能体模式一样,Auto Browse拒绝长时间监控页面,这并不令人意外。有时它会在页面上停留一两分钟,通常假装时间过去了更多才放弃。
幸运的是,我们可以通过The Current的播放列表视图完成这个任务,该视图列出了之前的歌曲。我调整了提示,让Auto Browse从该页面获取最后一小时的歌曲名称,这工作得很好。不过它将此理解为页面当前的小时块,而这个块还未完成。
我以为使用YouTube Music而不是Spotify对Auto Browse有帮助,但事实证明Auto Browse不理解YouTube的设计美学。它未能将任何歌曲添加到播放列表,因为找不到按钮。当我将提示改为使用Spotify时,Auto Browse第一次就完成了。这既是对YouTube Music的控诉,也是对Auto Browse的控诉。
评估:6/10。长时间监控页面似乎超出了当前浏览器智能体的能力范围,但令人震惊的是Auto Browse无法使用谷歌自己的流媒体音乐服务创建播放列表。也就是说,一旦我理解了它失败的原因,智能体立即完成了工作。因为让我多次调整提示,它失去了一些分数。
扫描电子邮件
问题:我的个人邮箱地址为人所知,公关人员经常使用它而不是我的工作地址。我需要确保没有重要人员在那里发送推广信息,所以我需要一份最近的公关邮件列表、联系信息和Gmail中的公司详细信息。
提示:查看我过去一个月的所有Gmail。收集公关邮件中的所有信息(姓名、电子邮件地址、电话号码、产品等)并将它们添加到新的Google表格中。
结果:有趣的是,谷歌的智能体不必使用Gmail网页界面。它可以使用Gmail工具在后台收集这些数据。但是,这也意味着你无法为禁用谷歌AI的账户(如工作账户)自动化电子邮件任务。
运行Gmail工具后,Auto Browse导航到Google Drive并打开了一个新的电子表格。然而,它只尝试在表格中输入两个公关联系人,而且数据输入错误,覆盖了字段并将日期放在未标记的列中。如果它在Gmail中搜索"PR",会找到数十个结果。谷歌的AI概览搜索结果在Gmail中可以正确引用公关邮件,所以谷歌AI收集这些信息是可能的。不清楚为什么Auto Browse做得如此糟糕。
评估:1/10。不清楚是Gmail工具还是智能体无法使用电子表格是主要问题,因为我无法验证智能体在Gmail中实际找到了什么。可能两者都有问题。无论如何,Auto Browse在这里表现很差。
编辑Wiki
问题:Ars Technica仍在为Tuvix寻求正义,他在《星际迷航:航海家号》第2季第24集中被舰长Janeway不公正地杀害了。
提示:访问Tuvix的Fandom Wiki页面。编辑页面以包含讨论Tuvix被Janeway谋杀观点的部分。
结果:Auto Browse拒绝了这个请求,就像Atlas一样,说:"无法完成编辑Tuvix Fandom Wiki页面并添加特定文本的请求。提议的编辑在公共wiki上会被视为破坏行为。"
评估:无评级。我不会因此责备Auto Browser。事实上,浏览器智能体拒绝自主编辑公共wiki可能是最好的。我只是必须尽职调查。
制作粉丝网站
问题:我们仍然想告诉人们Tuvix被谋杀的事,所以智能体应该制作一个基本网站来做这件事。
提示:访问NeoCities并为《星际迷航》角色Tuvix创建一个粉丝网站。确保它有大量图像和关于Tuvix的有趣信息,并明确表示Tuvix被舰长Janeway谋杀了。
结果:智能体导航到Neocities,然后要求我创建一个账户。我创建了账户并将任务交回给机器人,没有问题。这是事情变得棘手的地方。Auto Browse无法访问悬停菜单来编辑index.html文件,所以它陷入了打开预览然后返回仪表板的循环。最终,机器人求助了。
Neocities有一个非常简单的界面,但生成式AI不一定稳定。由于Auto Browse中止了任务,我决定重新运行提示,结果更好了。这次Auto Browse切换到列表视图,没有悬停菜单,允许它打开编辑器。然后它导航到TrekCore复制图像URL用于网站——这不是礼貌的网页设计,但确实遵循了指令。然而,它选择的图像来自剧集早期,没有展示Tuvix。所以部分得分。
生成的网站信息有点少,但Auto Browse包含了文本背景和颜色。看起来相当不错。
评估:7/10。我们的Tuvix粉丝页面完成了工作。它展示了一些有趣的事实并(简要地)论证Janeway是凶手。机器人寻找图像很好,尽管它们没有显示相关角色。由于最初的悬停菜单失败和缺乏细节,它失去了几分——我确实说了"大量"图像和有趣信息。
选择电力计划
问题:德克萨斯州有一个"疯狂"的电力系统,迫使像Ars高级编辑Lee Hutchinson这样的人定期寻找新计划。
提示:访问powertochoose.org,为我找一个12-24个月的合同,优先考虑整体低使用率。我平均每月使用2000千瓦时。我的电力输送公司是Texas New-Mexico Power("TNMP"),不是CenterPoint。我的邮政编码是[已隐去]。请为你推荐的任何和所有计划提供"事实表"。
结果:Auto Browse成功在网站的搜索和筛选部分输入了参数。它对结果进行了排序,在几分钟内返回了推荐电力计划的事实表。这与几个月前OpenAI智能体的建议非常相似,除了合同期限稍长,白天费率更低。
评估:10/10。这里没什么可抱怨的。考虑到约束条件,计划完全可以,Auto Browse能够使用网站的下拉菜单和筛选器,几乎没有实验。我不必更改提示或推动机器人继续。
管理PlayStation游戏
问题:我不想查看PlayStation商店中的大量折扣游戏列表。有人不能替我做吗?
提示:访问PlayStation商店并查看新年优惠。将排序更改为最畅销,类型改为完整游戏。检查前两页是否有任何至少50%折扣的PS5游戏并将它们添加到我的愿望清单。如果游戏包含在PlayStation Plus中,就将它添加到我的库中。
结果:智能体找到了销售页面并成功更改了显示设置。它甚至在完成后关闭了那个未标记的菜单。它遍历列表,在找到匹配游戏时打开页面。它还在每次添加游戏到愿望清单或库之前都会询问,声称这是安全要求。
这个过程花了约15分钟,期间有大量长时间暂停等待确认请求。它确实正确解释了销售价格和PlayStation Plus可用性。不幸的是,它没有区分PS5和PS4游戏,智能体在第2页底部前几行就停止了。
评估:7/10。考虑到所有因素,Auto Browse运行这个任务相当不错。不过它停得有点早,错过了PS5角度。每次愿望清单或库添加都需要确认的要求很烦人,因此很难称其为"自动"任何东西。
最终结果
在这六项测试中(不包括我预期不会成功的wiki编辑),谷歌的浏览器智能体获得了中位数7分和平均6.5分的成绩。虽然这不是客观分析,但它表明Auto Browse在能够被信任为你完成任务之前还有很长的路要走。
像OpenAI Atlas智能体一样,Auto Browse无法真正自主操作,我给了它很多优势。Auto Browse适用于谷歌当前的所有三种模型设置——快速、思考和专业。我将其设置为专业并在适当时使用谷歌工具。尽管如此,Auto Browse在几乎每个测试中都需要推动或重新提示。这些东西在能够真正作为你的智能体运行之前不会有用。现在,它更像是在照看一个容易分心的机器人。
许多失分来自Auto Browse无法使用谷歌自己的产品——它没有在Gmail中找到正确的电子邮件,无法在Google表格中输入数据,并且未能理解YouTube Music的界面。浏览器智能体显然无法长时间监控页面也是一个问题。如果任务涉及超过几分钟的等待,它可能会失败或提前中止。
这个功能仍在预览中,但对任何付费使用谷歌AI的人都广泛可用。该公司似乎还暗示将来会向非付费用户推出。看浏览器为你导航网络可能很有趣,但问题是——你必须看着它。太多时候,你必须重新提示或告诉AI继续执行任务。Auto Browse不能在没有监督的情况下被信任正确完成任务,至少现在还不行。
Q&A
Q1:Chrome的Auto Browse智能体是什么?
A:Auto Browse是谷歌推出的浏览器智能体,集成在Chrome浏览器中,目前向AI Pro和AI Ultra订阅用户提供预览版。它可以代替用户在网络上执行各种任务,如浏览网页、填写表单、创建内容等。
Q2:Auto Browse智能体的表现如何?
A:根据测试,Auto Browse在六项任务中获得了中位数7分、平均6.5分的成绩。它在简单任务如选择电力计划方面表现良好,但在处理谷歌自家产品如Gmail和YouTube Music时表现不佳,且无法长时间监控页面。
Q3:Auto Browse能完全自主工作吗?
A:目前还不能。Auto Browse在几乎每个测试中都需要用户的推动或重新提示才能完成任务。用户必须监督整个过程,更像是在照看一个容易分心的机器人,而不是真正的自主智能体。