前言就在10月22日晚上,Anthropic发布重大升级,发布Claude 3.5 Sonnet和Claude 3.5 Haiku新版本。 新的 Claude 3.5 Sonnet 在所有指标上都优于其他模型,包括 OpenAI 的 GPT-4 和谷歌的 Gemini 1.5 Pro。 Claude 3.5 Haiku 与之前的顶级 Claude 3 Opus 性能相当,同时保持了与其前代产品相似的成本和速度,可以说是当今速度最快、最具成本效益的型号。 ![]() 令人兴奋的是,此版本引入了一项新的"Computer Use(计算机使用)"功能,这意味着 Claude 现在可以控制计算机。 详情可看👇 claude3.5 demo1 例如,如果我们给它下达"创建会议通知"之类的指令,它可以自动打开 Word、创建新文档、撰写通知并保存。一切都是自动化的——人类只需给出口头指令即可。 新功能实操体验虽然这项计算机控制功能仍处于早期阶段,但 Anthropic 已发布演示以供测试和反馈。 如果你发现前几个步骤很困难,请随意跳至步骤 4。今天主要是想分享此功能的工作原理。
官方demo仓库链接已放至文末,请自行获取! [code]export ANTHROPIC_API_KEY=%your_api_key% docker run \ -e ANTHROPIC_API_KEY=$ANTHROPIC_API_KEY \ -v $HOME/.anthropic:/home/computeruse/.anthropic \ -p 5900:5900 \ -p 8501:8501 \ -p 6080:6080 \ -p 8080:8080 \ -it ghcr.io/anthropics/anthropic-quickstarts:computer-use-demo-latest [/code]
![]() 界面左侧是聊天区,右侧是电脑屏幕。
![]()
![]() ![]()
![]()
![]() ![]()
![]() 从这些操作中我们可以看出,Claude 的Computer Use(计算机使用)功能的工作原理是捕获屏幕,分析指令以确定鼠标和键盘操作,然后执行这些操作。 大致的流程是:
这需要 Claude 根据指令精确定位屏幕坐标并执行鼠标和键盘操作。目前只有 Claude 可以实现这一点。 该功能本质上将现有的 API 工具调用与鼠标和键盘控制实用程序集成在一起,由模型的高级屏幕分析功能提供支持。 以下是官方的演示视频: claude demo2 Claude API_KEY获取Claude API是Anthropic公司发布的一款强大的AI聊天机器人API,可以用于各种应用场景,如撰写小说、编写代码等,大多数时候都是面向于开发者。 用户可以通过与Claude API进行对话来获取相关信息帮助,由于Computer Use(计算机使用)功能目前更多面向于开发者,所以也需要API才能使用。 这里推荐用WildCard的API随心用服务,比较方便简单,如果有其他更好的方法,也欢迎在评论区评论!!! WildCard API 的底层通过对接由 OpenAI官方 和 Azure OpenAI 提供的 OpenAI模型、由Amazon Bedrock提供的Anthropic Claude模型 从而实现用户无需注册 OpenAI 和 Anthropic 账号绑卡即可任意网络直连GPT-4/Claude 3。 用户可以在WildCard API 管理界面创建专属于WildCard的API Key,无需开卡,用多少充多少,如果充值过多了也可0手续费提现 Wildcard网址:https://chatgptshow.com/bewildcard.html ![]() 然后即可通过https://api.gptsapi.net 域名下的接口访问不同功能和价位的AI模型,claude模型如下: ![]() 教程定价表可能出现未实时更新的情况,具体价格以wildcard平台api页面展示的定价表为准。 官方文档: 免责声明:本内容来源于网络,如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作! |