LionScraper
LionScraper MCP + CLI + API service
README
LionScraper 雄狮采集器 MCP + CLI 服务
这是什么?
LionScraper 雄狮采集器是一款浏览器扩展,可以在网页里做列表、文章、链接、图片等采集。本仓库提供的是配套的 MCP 服务:把它连到你使用的 AI 软件(例如 Cursor)之后,你就可以在对话里请 AI 帮你调用扩展去完成采集,而不必自己点遍每个菜单。
可以把它理解成一座「小桥」:AI 软件在一边,浏览器扩展在另一边,中间由本服务负责传话。真正的采集逻辑在扩展里完成,本服务只做连接与转发。
使用前请准备好
- 浏览器:Chrome 或 Edge(以扩展实际支持的浏览器为准)。
- 雄狮采集器扩展:从浏览器扩展商店安装并启用(名称以商店展示为准)。
- Node.js:电脑需安装 18 或更高版本。若尚未安装,可到 Node.js 官网 下载安装包,按提示下一步即可。
- 支持 MCP 的 AI 软件:例如 Cursor、Trae 等(以各软件是否支持 MCP 为准)。
安装 MCP 服务(npm 市场包)
本服务已发布在 npm,包名为 lionscraper。你可以打开该链接查看说明与版本信息。
在电脑打开终端(Windows 上可以是「命令提示符」或 PowerShell),执行:
npm install -g lionscraper
安装成功后,系统里会多出两个常用命令:lionscraper-mcp(给 AI 软件连 MCP 用)和 lionscraper(终端 CLI)。二者都依赖同一套本地守护进程与扩展桥接,PORT(默认 13808)须与扩展里的桥接端口一致。
若你不想全局安装,也可以在 AI 软件的 MCP 配置里用 npx 临时拉取并运行(需已安装 Node.js)。示例思路:把启动命令设为 npx,参数依次为 -y、-p、lionscraper、lionscraper-mcp(具体 JSON 格式见你所用软件的 MCP 配置说明)。
CLI(终端)
在已全局安装的前提下,可在终端使用 lionscraper 做脚本化采集或与 MCP 并行使用(共用 lionscraper daemon 与 PORT):
lionscraper daemon:常驻运行,在同一端口上提供 HTTP(CLI / 薄 MCP 调用)与 WebSocket(扩展连接)。lionscraper stop:停止当前配置端口上的守护进程。lionscraper ping:检查扩展是否已在桥上注册(不经过 MCP 对话)。lionscraper scrape:发起采集;可用--method选择列表/正文/邮箱/电话/链接/图片等模式,与 MCP 工具能力对应。
示例:
lionscraper daemon
lionscraper ping
lionscraper scrape -u https://www.example.com
更完整的参数说明、多 URL、分页与过滤等,见本仓库 packages/node/README_cn.md;英文与 npm 展示页一致,见 npm 上的 lionscraper 包。
在 AI 软件里添加 MCP
以下示例假定已全局安装(软件界面可能不同)。MCP 里 env 的值均为字符串。
简单配置(不写 env 时 PORT 默认 13808,须与扩展桥接端口一致):
{
"mcpServers": {
"lionscraper": {
"command": "lionscraper-mcp"
}
}
}
详细配置(可按需删减键;空字符串与省略该键含义接近):
{
"mcpServers": {
"lionscraper": {
"command": "lionscraper-mcp",
"env": {
"PORT": "13808",
"TIMEOUT": "120000",
"LANG": "zh-CN",
"TOKEN": "",
"DAEMON": ""
}
}
}
}
PORT:HTTP + WebSocket 监听端口,默认 13808,须与扩展 桥接端口 一致。TIMEOUT:占口接管时等待上一实例退出的毫秒数,默认 120000;0表示尽快强制接管。LANG:工具说明与 stderr 日志语言(如zh-CN、en-US)。TOKEN:与守护进程一致的 Bearer;留空表示不带鉴权。DAEMON:仅0禁止薄 MCP 自动拉起守护进程;留空或其它值与省略相同。
保存配置后,按软件要求重启 MCP 或重启软件,使新配置生效。
在浏览器扩展里对齐端口
- 打开雄狮采集器的设置或选项页。
- 找到 桥接端口(或类似名称),设为与上一步 MCP 配置里
PORT相同的数字(例如13808)。 - 若曾改端口或连接异常,可在扩展里使用 「重新连接」;仍不行时可尝试 重新加载扩展 或重启浏览器。
怎样日常使用?
- 保持扩展已启用,并尽量让需要采集的页面在浏览器里打开着(或按扩展要求操作)。
- 在 AI 对话里用自然语言说明需求,例如:
- 「先检查一下雄狮采集器扩展有没有连上。」
- 「帮我采集这个网页上的列表数据 / 文章正文 / 邮箱 / 电话 / 链接 / 图片。」
- AI 会通过 MCP 调用扩展;若提示未连接或超时,可先请 AI 再执行一次连接检查,并确认端口一致、扩展已开启。
常见问题(白话)
问:提示扩展未连接、或采集失败?
- 扩展是否已打开且未被禁用?
- AI 里配置的 端口 与扩展里的 桥接端口 是否完全一致?
- 同一台电脑上,后台一般只需要一组本服务与扩展的桥接;若你同时开了多种 MCP 配置或重复安装,可能造成冲突。
问:AI 里已经能看到很多「工具」,是不是就一定连好了?
不一定。能看到工具只说明 AI 到本服务这一段通了;扩展还必须连上同一端口并完成注册。
MCP Registry 与第三方目录收录
本仓库在 官方 MCP Registry 上按双包登记(元数据文件名均为 server.json):
| 目录 | Registry 名称 | 说明 |
|---|---|---|
packages/node/server.json |
io.github.dowant/lionscraper-node |
对应 npm 包 lionscraper,package.json 内含 mcpName 校验字段 |
packages/python/server.json |
io.github.dowant/lionscraper-python |
对应 PyPI 包 lionscraper,英文 README.md 内含 PyPI 描述所需的 mcp-name 注释 |
发布到 Registry 的步骤概要(需本机安装官方 CLI,见 Quickstart):
- 将 npm / PyPI 发布到与各自
server.json中version一致的版本(当前示例为 1.0.3)。 - 在仓库根下进入
packages/node,执行mcp-publisher login github(只需一次),再执行mcp-publisher publish。 - 再进入
packages/python,同样执行mcp-publisher publish(登录可沿用)。
第三方目录无统一入口,常见做法包括:在 Glama 使用 Add Server 按站点流程提交;Smithery 主要面向 公网 HTTPS + Streamable HTTP,与本仓库以 stdio + npm/pip 安装为主的形态不同,需另备托管方案后再考虑。
许可证
MIT(与 npm 包 lionscraper 声明一致)。
推荐服务器
Baidu Map
百度地图核心API现已全面兼容MCP协议,是国内首家兼容MCP协议的地图服务商。
Playwright MCP Server
一个模型上下文协议服务器,它使大型语言模型能够通过结构化的可访问性快照与网页进行交互,而无需视觉模型或屏幕截图。
Magic Component Platform (MCP)
一个由人工智能驱动的工具,可以从自然语言描述生成现代化的用户界面组件,并与流行的集成开发环境(IDE)集成,从而简化用户界面开发流程。
Audiense Insights MCP Server
通过模型上下文协议启用与 Audiense Insights 账户的交互,从而促进营销洞察和受众数据的提取和分析,包括人口统计信息、行为和影响者互动。
VeyraX
一个单一的 MCP 工具,连接你所有喜爱的工具:Gmail、日历以及其他 40 多个工具。
graphlit-mcp-server
模型上下文协议 (MCP) 服务器实现了 MCP 客户端与 Graphlit 服务之间的集成。 除了网络爬取之外,还可以将任何内容(从 Slack 到 Gmail 再到播客订阅源)导入到 Graphlit 项目中,然后从 MCP 客户端检索相关内容。
Kagi MCP Server
一个 MCP 服务器,集成了 Kagi 搜索功能和 Claude AI,使 Claude 能够在回答需要最新信息的问题时执行实时网络搜索。
e2b-mcp-server
使用 MCP 通过 e2b 运行代码。
Neon MCP Server
用于与 Neon 管理 API 和数据库交互的 MCP 服务器
Exa MCP Server
模型上下文协议(MCP)服务器允许像 Claude 这样的 AI 助手使用 Exa AI 搜索 API 进行网络搜索。这种设置允许 AI 模型以安全和受控的方式获取实时的网络信息。