Skyvern开源了支持Claude、GPT-4o,让AI像人一样操作任何网站。

大家好,我是小智,专注 AI 工具,AI 智能体和编程提效

解决的痛点

相信有很多网友朋友和我一样做过不少网页自动化的工作,令人比较头疼的就是经常遇到页面结构一调整脚本就失效的情况。即便使用XPath也找不到元素,又需要重新调试元素,而且隔段时间就得修修补补。

最近我发现了一款叫Skyvern的开源工具,它解决问题的思路很新颖,咱们一起来看看吧。

图片[1]-Skyvern开源了支持Claude、GPT-4o,让AI像人一样操作任何网站。-AI Express News

Skyvern简介

Skyvern不走传统的DOM解析路线,而是利用视觉和大语言模型来理解网页。简单来说,它像人一样去看网页,而不是去解析代码。它不仅能看懂页面,还能自己执行任务和串联工作流,并且支持完全本地部署。这个项目基于视觉大模型,专门用来处理网页自动化。

图片[2]-Skyvern开源了支持Claude、GPT-4o,让AI像人一样操作任何网站。-AI Express News

Skyvern功能

整个操作下来,我觉得有几个功能挺实用的。首先是视觉自适应,就算页面改版了,它也能自动识别新布局,不需要改代码。其次它能模拟鼠标和键盘操作,比如填表单、处理验证码或者下载文件。除此之外,它还提供了一个可视化的工作流构建器,可以拖拽节点来安排任务。支持多种模型,像Claude、GPT-4o这些都可以自由切换。并且内置了重试机制和截图调试,方便追踪问题,所以非常稳定。

Skyvern如何安装部署

安装起来也比较简单,直接用pip就行。

pip install skyvern

初次运行可以使用这个命令,它会帮忙设置数据库。

skyvern quickstart

启动服务和界面是用这个命令。

skyvern run all

启动后访问 http://localhost:8080 就能看到操作界面了。

如果你想用代码来运行任务,可以参考这个简单的例子。

from skyvern import Skyvern
skyvern = Skyvern()
task = await skyvern.run_task(prompt="Find the top post on hackernews today")
print(task)

它也支持连接到云端或者本地服务,用法稍微有点不同。

from skyvern import Skyvern
# Run on Skyvern Cloud
skyvern = Skyvern(api_key="SKYVERN API KEY")
# Local Skyvern service
skyvern = Skyvern(base_url="http://localhost:8000", api_key="LOCAL SKYVERN API KEY")
task = await skyvern.run_task(prompt="Find the top post on hackernews today")
print(task)

总结

这个工具的核心想法就是让AI像人一样看网页,而不是依赖代码结构。它通过网页截图、视觉大模型以及浏览器自动化控制来实现这一点。这意味着它能识别按钮、输入框这些元素,也能判断页面布局和意图,然后自动规划步骤去执行。

在实际使用中,我觉得它很适合处理自动化登录、数据下载或者表单填写这类任务。它的可视化界面让非技术人员也能上手操作。而且因为它模拟的是真实用户行为,所以执行任务时更接近真实环境,不容易被反爬机制拦截。

Skyvern是我目前为止见过的比较有潜力的开源工具。它靠视觉和AI来理解页面,不依赖DOM,也不怕页面改版。解决了传统自动化工具对页面结构依赖的问题,这对于追求稳定的自动化流程和批量任务处理来说,是个不错的选择。

GitHub 项目地址

https://github.com/Skyvern-AI/skyvern

如果本文对您有帮助,也请帮忙点个 赞👍 + 在看 哈!❤️关注小智AI指南公众号,AI 路上不迷路

<原文链接:https://mp.weixin.qq.com/s/FjT-hZgFk05FarSi1JTY5Q

© 版权声明
THE END
喜欢就支持一下吧
点赞7 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容