AI自动化测试又趟出一条新路了?Claude 模型可以直接操作电脑了
前几天 Claude 模型更新一个杀手级应用。
这次最大的更新并不是新模型,而是让 AI 能够直接与计算机互动。
Anthropic 推出了「computer use」功能:通过 API,让 Claude 像人一样操作电脑,能够查看屏幕、移动光标、点击按钮和输入文字。换句话说,Claude 现在可以使用标准的计算机工具和软件。这对于开发者来说是个福音,他们可以借此减少枯燥的重复性工作,甚至让 Claude 执行一些开放式任务。
为了实现这一功能,Anthropic 通过 API 让 Claude 能够感知并操作电脑界面。开发者可以通过这个 API,将用户的指令(例如:「使用电脑上的数据并结合网上信息填写表格」)转化为计算机的操作步骤(如打开表格、浏览器,并自动填写数据)。
目前,部分公司已经开始应用该功能。例如,Replit 正在利用 Claude 3.5 Sonnet 的计算机操作能力,为其智能体项目开发关键功能,用于应用评估。
尽管如此,这种技术并非全新。在此之前,Asana、Canva、DoorDash 等公司已经在尝试用 AI 处理复杂、多步骤的任务。
现实中的挑战
尽管「computer use」功能颇具潜力,但目前仍处于测试阶段。官方也承认,操作速度较慢且容易出错。一些对人类来说非常简单的操作,如拖动、缩放和滚动,对 Claude 来说仍有难度。
在功能演示时也出现了一些问题,比如 Claude 不小心中断了一次长时间屏幕录制,导致录制内容丢失;另一段时间,它开始浏览黄石国家公园的照片。
由于 Claude 通过截图理解屏幕内容,它有时无法捕捉到屏幕上瞬时出现的动态元素或弹出窗口。
Anthropic 希望通过提前发布测试版来获取开发者的反馈,并表示随着时间推移,这一功能将不断优化。
Anthropic 的开发者关系负责人 Alex Albert 分享了一个趣事:在测试「computer use」功能时,团队决定让 Claude 通过 DoorDash 下单订餐。经过一番分析,Claude 最终成功订购了披萨。
「computer use」功能限制:
- 无法创建社交媒体账户
- 无法发送邮件或消息
- 无法在社交媒体发布内容
- 无法完成购物
- 无法访问私人信息
- 无法处理验证码
- 无法生成或编辑图片
- 无法拨打电话
- 无法访问受限内容
- 无法进行需要身份验证的操作
可以看出来当前 claude 的自动化能力比较有限,但表现出来的推理能力及思考能力还是非常让人印象深刻的。
可以想象到,以后ai 驱动的自动化操作可能是大势所趋。
思考 1:RPA 的未来形态
目前 ai 遇到的困境是真正实用的杀手级应用其实不多,尽管 ai 在工作中的渗透率已经越来越高,比如飞书里就有自动进行会议纪要的功能,然而这些类似的功能其实都不是必须的,并不能直接转换成生产力。
而 ai 操作电脑进行自动化操作则在生产力方面给了大家很大的想象空间。
最简单可以想到的就是 RPA,这个之前也介绍过,通过 RPA 机器人代替人工的重复性工作,以提升生产力及操作的准确率。
目前 RPA 提供了一组通用的操作能力,比如操作网页,操作原声应用等,RPA 的用户可以通过事先编排好的脚本或者流程完成一些简单或相对复杂一点的机械化操作。比如电商领域自动群发消息,自动点击发货等。
RPA 目前遇到的比较大的挑战是使用门槛。
通用型的简单操作可能实施起来比较容易,但是一些具体的定制化流程和行为还是有一定的开发门槛的。
而 computer use 这个功能则给出解决这一问题的思路:用自然语言去描述业务需求以及行为,让 ai 自己来思考解决问题的方案,最后通过 ai 自行操作电脑来解决问题。
这就是超级 RPA,应该也是今后 RPA 可以发力的方向。
思考 2: AI 取代人类?
ai 会使用电脑了,而且以后可能会使用的更快更好。
这是不是意味着 AI 可以取代人类呢?
我觉得短期内这一天应该不会带来。
使用 AI 代替人类进行重复性的工作并不代表 AI 可以完全取代人类,相反,这反而是 AI 可以更好的服务人类的最好证明。
从本质上讲,把重复性的工作交给机器去做其实是人类从工业革命以来一直在进行实践,也是推动人类社会不停进步的一个重要因素。
举一个例子,用电力驱动的路灯出现之后,之前给点油的路灯换油的工人都失业了。
这不能说明电灯替代了人类,只能说明电灯替换了油灯,并降低了人工的维护成本。
技术转型确实发生了,但并非所有工人都直接失业。许多工人实际上转型到了新兴的电力相关行业。
新技术的出现实际上创造了更多的就业机会。电力行业需要大量的工程师、技术人员和维护人员。
同样的道理,AI 并不会完全的取代人类,,尽管会替代一些现有工作,但同时也会创造新的就业形态和职业。
思考 3: AI 什么时候会变得更有用?
当今的 AI 生态百花齐放,然而杀手级的应用却不是很多。
这也是一些人认为 AI 泡沫会破灭的重要理由。
不可否认,让 AI 去操作电脑,确实使得 AI 的生产力得到了巨大的提升。
然而这后面的本质其实是模型推理能力以及多模态能力的进步。
我猜这里应该存在一个临界点,当大模型的推理能力和多模态能力突破这个临界点之后,AI 的生产力会得到巨大的提升。
这个临界点可能并不是一蹴而就的,而是一个渐进的过程。
当 AI 的推理能力达到足以理解复杂场景、准确把握上下文、并能灵活调用各种工具和能力时,我们或许就能看到真正颠覆性的生产力革命。
目前 AI 差的不是临门一脚,我们可能还是需要一定的耐心。
但资本会一直保持耐心吗?