你是否曾幻想过,只需动动嘴-皮,AI就能像一位贴身助理,在你的Windows电脑上完成各种复杂操作?打开应用、处理文件、甚至编写代码,一切都由AI代劳。今天,这个梦想已照进现实!
一个名为 Windows-MCP 的开源项目横空出世,它为AI装上了“手脚”,让大模型不再局限于对话,而是能真正“接管”你的Windows系统,成为无所不能的智能管家。
本文将为你带来最详尽的“保姆级”教程,从入门到精通,带你一步步解锁AI操控电脑的超能力!
一、Windows-MCP是什么?颠覆你的人机交互体验
简单来说,Windows-MCP 是一个轻量级的开源MCP(模型上下文协议)服务器,它充当了AI大模型与Windows操作系统之间的桥梁。
过去,AI像一个只有大脑的智者,空有智慧却无法行动。而Windows-MCP赋予了它“身体”,让它能直接与Windows的图形用户界面(GUI)交互,执行包括但不限于以下操作:
- 应用控制: 启动、关闭、切换任何本地应用程序。
- 模拟操作: 模拟鼠标点击、键盘输入、滚动、拖拽等一切真人操作。
- 文件管理: 浏览文件、创建文件夹、复制粘贴、整理桌面。
- 信息获取: 抓取网页内容、读取文件信息、截取屏幕。
- 系统命令: 执行PowerShell命令,完成更高级的系统级任务。
最关键的是,它无需复杂的视觉识别,而是通过读取Windows系统的“辅助功能树”(Accessibility Tree)来理解界面结构,因此任何支持工具调用的大语言模型(如Claude、Gemini)都能驱动它,极大地降低了使用门槛和资源消耗。
二、核心功能与优势:为什么选择Windows-MCP?
- 无缝原生集成: 不再是浏览器插件的“小打小闹”,它的能力覆盖整个Windows系统,从资源管理器到专业软件,无所不包。
- 通用模型驱动: 不挑剔“大脑”,兼容所有主流LLM,无需特定的多模态模型。
- 丰富的工具集: 提供了超过15种原子级操作工具,组合使用,威力无穷。
- 实时交互: 操作延迟低至1.5-2.3秒,响应迅速,体验流畅。
- 轻量开源: 代码简洁,依赖少,安装简单,并采用MIT许可证完全开源,方便定制。
- 跨平台支持: 支持从Windows 7到Windows 11的所有主流版本。
三、实操演练:一步步安装你的AI管家
接下来是重头戏!我们将以 Gemini CLI 为例,手把手教你如何完成安装和配置。
环境准备(重要!)
- Python: 确保你的电脑安装了 Python (推荐 3.10+)。
- Git: 确保安装了 Git 用于克隆项目。
- 系统语言(建议): 为获得最佳兼容性,建议将Windows系统语言设置为 英语。
Gemini CLI 安装指南
如果你是Gemini CLI的用户,配置过程同样简单。
第一步:克隆项目仓库
同上,首先使用Git克隆项目到本地。
git clone https://github.com/CursorTouch/Windows-MCP.git

第二步:配置 settings.json 文件
- 打开文件资源管理器,在地址栏输入
%USERPROFILE%/.gemini并回车。 - 找到并用文本编辑器(如VS Code或记事本)打开
settings.json文件。 - 在
mcpServers配置项中,添加以下windows-mcp的配置。注意: 请将<path to the windows-mcp directory>替换为你第一步克隆的Windows-MCP文件夹的 完整路径。
{ "theme": "Default", // ... 其他配置 "mcpServers": { "windows-mcp": { "command": "uv", "args": [ "--directory", "D:\\path\\to\\your\\Windows-MCP", // <-- 修改这里为你自己的路径 "run", "main.py" ] } }}
第三步:重启Gemini CLI
保存 settings.json 文件,然后重新启动Gemini CLI。现在,它也拥有了操控Windows的能力。
四、开始指挥:让AI动起来!
配置完成后,你就可以开始用自然语言向AI下达指令了。试试下面这些简单的命令,感受一下AI操作的魅力:
Launch notepad, and type 'Hello, AI Agent!'(启动记事本,并输入’你好,AI智能体!’)

Open file explorer, and navigate to my desktop.(打开文件资源管理器,并导航到我的桌面。)

Open Chrome and search for 'today's weather'.(打开Chrome浏览器并搜索’今天的天气’。)


五、高级实例:释放AI的真正潜力
简单的单步指令只是开胃菜,Windows-MCP的真正威力在于执行复杂的多步骤任务。下面是几个更贴近真实工作场景的例子:
实例1:自动化图片分类归档
目标: 将 C:\Users\Administrator\Desktop\图片测试文件夹 目录中的图片,按照 .png 和 .jpg 两种格式,自动分类归档到该目录下的 PNG图片 和 JPG图片 两个子文件夹中。
你可以这样对AI说:
“In the folder ‘C:\Users\Administrator\Desktop\图片测试文件夹’, create two new folders: ‘PNG图片’ and ‘JPG图片’. Then, move all ‘.png’ files from the source folder into ‘PNG图片’, and move all ‘.jpg’ files into ‘JPG图片’.”
AI的执行流程:
- **
Shell-Tool**:执行mkdir C:\Users\Administrator\Desktop\图片测试文件夹\PNG图片命令,创建PNG文件夹。 - **
Shell-Tool**:执行mkdir C:\Users\Administrator\Desktop\图片测试文件夹\JPG图片命令,创建JPG文件夹。 - **
Shell-Tool**:执行move C:\Users\Administrator\Desktop\图片测试文件夹\*.png C:\Users\Administrator\Desktop\图片测试文件夹\PNG图片命令,移动所有PNG文件。 - **
Shell-Tool**:执行move C:\Users\Administrator\Desktop\图片测试文件夹\*.jpg C:\Users\Administrator\Desktop\图片测试文件夹\JPG图片命令,移动所有JPG文件。 - 完成汇报:“任务完成。我已经将’图片测试文件夹’中的图片按PNG和JPG格式分类归档到对应的子文件夹中。”



实例2:人机协作内容创作
目标: 借助AI,快速构思并生成一份详细的公司团建活动PPT方案。这个例子展示了当AI无法直接操作某个软件时,如何通过高效的对话与协作来完成任务。
你可以这样与AI交互:
第一轮:提出初步想法
你: “请帮我打开ppt,然后帮我写一篇公司团建活动的计划”
AI的回应与澄清:
AI: “很抱歉,我无法直接操作PowerPoint。但是,我可以为您起草一份详细的计划内容,您可以复制粘贴进去。为了让计划更贴合您的需求,您能告诉我一些基本信息吗?例如:预算、人数、目的、时间、地点偏好?”
第二轮:提供具体信息
你: “20人,人均200;目的放松娱乐;进行时间:下周三,时长1天;地点:上海近郊”
AI生成完整方案:
AI: “好的,完全没问题!这是为您定制的策划案…” (AI会生成一份包含主题、流程、预算等细节的完整文案)。
第三轮:请求格式化输出
你: “我已经打开了ppt,请帮我把内容补充到ppt中”
AI的协作流程与最终交付:
- 分析能力边界: AI首先判断出自己无法直接操作PPT,这是执行任何操作前的重要一步。
- 转换任务模式: AI没有直接拒绝,而是将“直接操作”的任务转换为了“内容生成与辅助”的任务,并主动询问关键信息以推进任务。
- 结构化内容生成: 根据用户输入的核心要素,AI调用其知识库和逻辑能力,生成一份专业、完整的策划案文本。
- 格式化指导: 在最后一轮交互中,AI将生成的长文本进一步加工,拆解成适合PPT逐页展示的格式,并提供清晰的复制粘贴指引,极大地降低了用户的工作量。
这个实例完美展示了AI作为“副驾驶”的角色:即便无法“握住方向盘”(直接操作),它也能通过清晰的沟通、强大的内容生成能力和贴心的格式化指导,帮助用户高效地完成最终目标。
通过这些实例,你可以看到,只需将复杂的任务拆解成清晰的步骤,用自然语言描述出来,AI就能像真人一样,一步步为你完成工作,极大地提升你的生产力!
六、工具箱揭秘:AI的“十八般武艺”
Windows-MCP为AI提供了一套丰富的工具集,以下是部分核心工具介绍:
| 工具名称 | 功能描述 |
| Click-Tool | 在指定坐标或UI元素上执行鼠标点击。 |
| Type-Tool | 在指定元素中输入文本。 |
| Launch-Tool | 从开始菜单启动应用程序。 |
| Shell-Tool | 执行PowerShell命令。 |
| Clipboard-Tool | 使用系统剪贴板进行复制和粘贴。 |
| Scroll-Tool | 在窗口或特定区域内滚动。 |
| Drag-Tool | 从一个点拖拽到另一个点。 |
| Shortcut-Tool | 按下键盘快捷键(如 Ctrl+C)。 |
| State-Tool | 获取当前屏幕的UI元素结构信息。 |
| Screenshot-Tool | 截取整个桌面或特定窗口的屏幕截图。 |
通过组合这些基础工具,AI可以完成几乎所有你能在电脑上完成的重复性、流程化工作。
七、安全第一:重要提醒
⚠️ 风险警告:
Windows-MCP赋予了AI极高的系统权限。这意味着一个错误的或恶意的指令可能会对你的系统造成损害(如误删文件)。因此,在使用时请务必遵守以下原则:
- 谨慎下达指令: 避免使用模糊不清的指令,意图要明确。
- 在安全环境中测试: 强烈建议初次使用或测试复杂指令时,在虚拟机中进行。
- 监控AI行为: 在AI执行任务时,保持关注,随时准备干预。
- 不要在生产或重要环境中直接部署,除非你完全了解其风险。
八、常见问题 (FAQ)
Q1: 为什么Gemini CLI报错 User location is not supported 或 fetch failed sending request?
- 这两种都是典型的网络问题。原因是 Gemini API 服务有地区限制,您当前的网络环境无法直接访问。
- 解决方案: 您需要为 PowerShell 或 CMD 会话配置一个有效的网络代理。请确保您的代理服务器位于受支持的区域(如美国),然后在运行 Gemini CLI 的终端窗口中,先执行以下命令来设置代理(以PowerShell为例):
# 将 your-proxy-address 和 port 替换为你的代理地址和端口
$env:HTTP_PROXY="http://your-proxy-address:port"
$env:HTTPS_PROXY="http://your-proxy-address:port"
- 设置成功后,再执行 Gemini CLI 的相关指令,网络请求就会通过代理发出。
Q2: 我可以把它用在什么地方?
- 重复性工作自动化: 自动处理表格、整理文件、批量重命名。
- 智能助手: 帮你快速搜索信息、打开常用应用、设置提醒。
- 辅助编程: 自动打开项目、运行编译命令、打开文档。
九、结语:拥抱Agentic OS的未来
Windows-MCP的出现,标志着我们正从“图形界面操作系统”(GUI)时代,迈向“代理操作系统”(Agentic OS)时代。人与电脑的交互方式正在被彻底重塑,我们不再是操作者,而是指挥官。
虽然目前项目仍处于早期阶段,但其展现的巨大潜力足以让我们兴奋。从自动化办公、软件测试到创建个性化的AI桌面助手,想象空间无限。
现在,就动手安装你的第一个AI电脑管家,亲自体验这场人机交互的革命吧!
项目地址: https://github.com/CursorTouch/Windows-MCP
欢迎在评论区分享你的使用体验和创意玩法!
关注「AI汇创新」公众号,获取更多前沿AI干货和独家教程!
您也可以登录我们的官方网站,获取最新资讯:https://www.aiconvg.xin/
标签:#AI#Chrome#浏览器插件#效率工具#自动化#黑科技#ChromeDevTools#MCP