Windows-MCP保姆级教程：让AI成为你的专属Windows管家 - 上海市杨浦区爱汇创信息技术工作室

你是否曾幻想过，只需动动嘴-皮，AI就能像一位贴身助理，在你的Windows电脑上完成各种复杂操作？打开应用、处理文件、甚至编写代码，一切都由AI代劳。今天，这个梦想已照进现实！

一个名为 Windows-MCP 的开源项目横空出世，它为AI装上了“手脚”，让大模型不再局限于对话，而是能真正“接管”你的Windows系统，成为无所不能的智能管家。

本文将为你带来最详尽的“保姆级”教程，从入门到精通，带你一步步解锁AI操控电脑的超能力！

一、Windows-MCP是什么？颠覆你的人机交互体验

简单来说，Windows-MCP 是一个轻量级的开源MCP（模型上下文协议）服务器，它充当了AI大模型与Windows操作系统之间的桥梁。

过去，AI像一个只有大脑的智者，空有智慧却无法行动。而Windows-MCP赋予了它“身体”，让它能直接与Windows的图形用户界面（GUI）交互，执行包括但不限于以下操作：

应用控制： 启动、关闭、切换任何本地应用程序。
模拟操作： 模拟鼠标点击、键盘输入、滚动、拖拽等一切真人操作。
文件管理： 浏览文件、创建文件夹、复制粘贴、整理桌面。
信息获取： 抓取网页内容、读取文件信息、截取屏幕。
系统命令： 执行PowerShell命令，完成更高级的系统级任务。

最关键的是，它无需复杂的视觉识别，而是通过读取Windows系统的“辅助功能树”（Accessibility Tree）来理解界面结构，因此任何支持工具调用的大语言模型（如Claude、Gemini）都能驱动它，极大地降低了使用门槛和资源消耗。

二、核心功能与优势：为什么选择Windows-MCP？

无缝原生集成： 不再是浏览器插件的“小打小闹”，它的能力覆盖整个Windows系统，从资源管理器到专业软件，无所不包。
通用模型驱动： 不挑剔“大脑”，兼容所有主流LLM，无需特定的多模态模型。
丰富的工具集： 提供了超过15种原子级操作工具，组合使用，威力无穷。
实时交互： 操作延迟低至1.5-2.3秒，响应迅速，体验流畅。
轻量开源： 代码简洁，依赖少，安装简单，并采用MIT许可证完全开源，方便定制。
跨平台支持： 支持从Windows 7到Windows 11的所有主流版本。

三、实操演练：一步步安装你的AI管家

接下来是重头戏！我们将以 Gemini CLI 为例，手把手教你如何完成安装和配置。

环境准备（重要！）

Python: 确保你的电脑安装了 Python (推荐 3.10+)。
Git: 确保安装了 Git 用于克隆项目。
系统语言（建议）： 为获得最佳兼容性，建议将Windows系统语言设置为英语。

Gemini CLI 安装指南

如果你是Gemini CLI的用户，配置过程同样简单。

第一步：克隆项目仓库

同上，首先使用Git克隆项目到本地。

git clone https://github.com/CursorTouch/Windows-MCP.git

第二步：配置 settings.json 文件

打开文件资源管理器，在地址栏输入 %USERPROFILE%/.gemini 并回车。
找到并用文本编辑器（如VS Code或记事本）打开 settings.json 文件。
在 mcpServers 配置项中，添加以下 windows-mcp 的配置。注意： 请将 <path to the windows-mcp directory> 替换为你第一步克隆的 Windows-MCP 文件夹的 完整路径。

{  "theme": "Default",  // ... 其他配置  "mcpServers": {    "windows-mcp": {      "command": "uv",      "args": [        "--directory",        "D:\\path\\to\\your\\Windows-MCP", // <-- 修改这里为你自己的路径        "run",        "main.py"      ]    }  }}

第三步：重启Gemini CLI

保存 settings.json 文件，然后重新启动Gemini CLI。现在，它也拥有了操控Windows的能力。

四、开始指挥：让AI动起来！

配置完成后，你就可以开始用自然语言向AI下达指令了。试试下面这些简单的命令，感受一下AI操作的魅力：

Launch notepad, and type 'Hello, AI Agent!' (启动记事本，并输入’你好，AI智能体！’)

Open file explorer, and navigate to my desktop. (打开文件资源管理器，并导航到我的桌面。)

Open Chrome and search for 'today's weather'. (打开Chrome浏览器并搜索’今天的天气’。)

五、高级实例：释放AI的真正潜力

简单的单步指令只是开胃菜，Windows-MCP的真正威力在于执行复杂的多步骤任务。下面是几个更贴近真实工作场景的例子：

实例1：自动化图片分类归档

目标： 将 C:\Users\Administrator\Desktop\图片测试文件夹 目录中的图片，按照 .png 和 .jpg 两种格式，自动分类归档到该目录下的 PNG图片 和 JPG图片 两个子文件夹中。

你可以这样对AI说：

“In the folder ‘C:\Users\Administrator\Desktop\图片测试文件夹’, create two new folders: ‘PNG图片’ and ‘JPG图片’. Then, move all ‘.png’ files from the source folder into ‘PNG图片’, and move all ‘.jpg’ files into ‘JPG图片’.”

AI的执行流程：

**Shell-Tool**：执行 mkdir C:\Users\Administrator\Desktop\图片测试文件夹\PNG图片 命令，创建PNG文件夹。
**Shell-Tool**：执行 mkdir C:\Users\Administrator\Desktop\图片测试文件夹\JPG图片 命令，创建JPG文件夹。
**Shell-Tool**：执行 move C:\Users\Administrator\Desktop\图片测试文件夹\*.png C:\Users\Administrator\Desktop\图片测试文件夹\PNG图片 命令，移动所有PNG文件。
**Shell-Tool**：执行 move C:\Users\Administrator\Desktop\图片测试文件夹\*.jpg C:\Users\Administrator\Desktop\图片测试文件夹\JPG图片 命令，移动所有JPG文件。
完成汇报：“任务完成。我已经将’图片测试文件夹’中的图片按PNG和JPG格式分类归档到对应的子文件夹中。”

实例2：人机协作内容创作

目标： 借助AI，快速构思并生成一份详细的公司团建活动PPT方案。这个例子展示了当AI无法直接操作某个软件时，如何通过高效的对话与协作来完成任务。

你可以这样与AI交互：

第一轮：提出初步想法

你： “请帮我打开ppt，然后帮我写一篇公司团建活动的计划”

AI的回应与澄清：

AI： “很抱歉，我无法直接操作PowerPoint。但是，我可以为您起草一份详细的计划内容，您可以复制粘贴进去。为了让计划更贴合您的需求，您能告诉我一些基本信息吗？例如：预算、人数、目的、时间、地点偏好？”

第二轮：提供具体信息

你： “20人，人均200；目的放松娱乐；进行时间：下周三，时长1天；地点：上海近郊”

AI生成完整方案：

AI： “好的，完全没问题！这是为您定制的策划案…” (AI会生成一份包含主题、流程、预算等细节的完整文案)。

第三轮：请求格式化输出

你： “我已经打开了ppt，请帮我把内容补充到ppt中”

AI的协作流程与最终交付：

分析能力边界： AI首先判断出自己无法直接操作PPT，这是执行任何操作前的重要一步。
转换任务模式： AI没有直接拒绝，而是将“直接操作”的任务转换为了“内容生成与辅助”的任务，并主动询问关键信息以推进任务。
结构化内容生成： 根据用户输入的核心要素，AI调用其知识库和逻辑能力，生成一份专业、完整的策划案文本。
格式化指导： 在最后一轮交互中，AI将生成的长文本进一步加工，拆解成适合PPT逐页展示的格式，并提供清晰的复制粘贴指引，极大地降低了用户的工作量。

这个实例完美展示了AI作为“副驾驶”的角色：即便无法“握住方向盘”（直接操作），它也能通过清晰的沟通、强大的内容生成能力和贴心的格式化指导，帮助用户高效地完成最终目标。

通过这些实例，你可以看到，只需将复杂的任务拆解成清晰的步骤，用自然语言描述出来，AI就能像真人一样，一步步为你完成工作，极大地提升你的生产力！

六、工具箱揭秘：AI的“十八般武艺”

Windows-MCP为AI提供了一套丰富的工具集，以下是部分核心工具介绍：

工具名称	功能描述
Click-Tool	在指定坐标或UI元素上执行鼠标点击。
Type-Tool	在指定元素中输入文本。
Launch-Tool	从开始菜单启动应用程序。
Shell-Tool	执行PowerShell命令。
Clipboard-Tool	使用系统剪贴板进行复制和粘贴。
Scroll-Tool	在窗口或特定区域内滚动。
Drag-Tool	从一个点拖拽到另一个点。
Shortcut-Tool	按下键盘快捷键（如 Ctrl+C）。
State-Tool	获取当前屏幕的UI元素结构信息。
Screenshot-Tool	截取整个桌面或特定窗口的屏幕截图。

通过组合这些基础工具，AI可以完成几乎所有你能在电脑上完成的重复性、流程化工作。

七、安全第一：重要提醒

⚠️ 风险警告：

Windows-MCP赋予了AI极高的系统权限。这意味着一个错误的或恶意的指令可能会对你的系统造成损害（如误删文件）。因此，在使用时请务必遵守以下原则：

谨慎下达指令： 避免使用模糊不清的指令，意图要明确。
在安全环境中测试： 强烈建议初次使用或测试复杂指令时，在虚拟机中进行。
监控AI行为： 在AI执行任务时，保持关注，随时准备干预。
不要在生产或重要环境中直接部署，除非你完全了解其风险。

八、常见问题 (FAQ)

Q1: 为什么Gemini CLI报错 User location is not supported 或 fetch failed sending request？

这两种都是典型的网络问题。原因是 Gemini API 服务有地区限制，您当前的网络环境无法直接访问。
解决方案： 您需要为 PowerShell 或 CMD 会话配置一个有效的网络代理。请确保您的代理服务器位于受支持的区域（如美国），然后在运行 Gemini CLI 的终端窗口中，先执行以下命令来设置代理（以PowerShell为例）：

# 将 your-proxy-address 和 port 替换为你的代理地址和端口
$env:HTTP_PROXY="http://your-proxy-address:port"
$env:HTTPS_PROXY="http://your-proxy-address:port"

设置成功后，再执行 Gemini CLI 的相关指令，网络请求就会通过代理发出。

Q2: 我可以把它用在什么地方？

重复性工作自动化： 自动处理表格、整理文件、批量重命名。
智能助手： 帮你快速搜索信息、打开常用应用、设置提醒。
辅助编程： 自动打开项目、运行编译命令、打开文档。

九、结语：拥抱Agentic OS的未来

Windows-MCP的出现，标志着我们正从“图形界面操作系统”（GUI）时代，迈向“代理操作系统”（Agentic OS）时代。人与电脑的交互方式正在被彻底重塑，我们不再是操作者，而是指挥官。

虽然目前项目仍处于早期阶段，但其展现的巨大潜力足以让我们兴奋。从自动化办公、软件测试到创建个性化的AI桌面助手，想象空间无限。

现在，就动手安装你的第一个AI电脑管家，亲自体验这场人机交互的革命吧！

项目地址： https://github.com/CursorTouch/Windows-MCP

欢迎在评论区分享你的使用体验和创意玩法！

关注「AI汇创新」公众号，获取更多前沿AI干货和独家教程！

您也可以登录我们的官方网站，获取最新资讯：https://www.aiconvg.xin/

标签：#AI#Chrome#浏览器插件#效率工具#自动化#黑科技#ChromeDevTools#MCP