Query Table MCP Server
Enables querying financial data tables from Chinese financial websites (Tonghuashun, Tongdaxin, East Money) and AI chat services using Playwright-based web scraping, returning structured data in various formats.
README
mcp_query_table
-
基于
playwright实现的财经网页表格爬虫,支持Model Context Protocol (MCP)。目前可查询来源为实盘时,如果某网站宕机或改版,可以立即切换到其他网站。(注意:不同网站的表格结构不同,需要提前做适配)
-
基于
playwright实现的大语言模型调用爬虫。目前可用来源为RooCode提供了Human Reply功能。但发现纳米搜索网页版复制时格式破坏,所以研发了此功能
安装
pip install -i https://pypi.org/simple --upgrade mcp_query_table
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple --upgrade mcp_query_table
使用
import asyncio
from mcp_query_table import *
async def main() -> None:
async with BrowserManager(endpoint="http://127.0.0.1:9222", executable_path=None, devtools=True) as bm:
# 问财需要保证浏览器宽度>768,防止界面变成适应手机
page = await bm.get_page()
df = await query(page, '收益最好的200只ETF', query_type=QueryType.ETF, max_page=1, site=Site.THS)
print(df.to_markdown())
df = await query(page, '年初至今收益率前50', query_type=QueryType.Fund, max_page=1, site=Site.TDX)
print(df.to_csv())
df = await query(page, '流通市值前10的行业板块', query_type=QueryType.Index, max_page=1, site=Site.TDX)
print(df.to_csv())
# TODO 东财翻页要提前登录
df = await query(page, '今日涨幅前5的概念板块;', query_type=QueryType.Board, max_page=3, site=Site.EastMoney)
print(df)
output = await chat(page, "1+2等于多少?", provider=Provider.YuanBao)
print(output)
output = await chat(page, "3+4等于多少?", provider=Provider.YuanBao, create=True)
print(output)
print('done')
bm.release_page(page)
await page.wait_for_timeout(2000)
if __name__ == '__main__':
asyncio.run(main())
注意事项
- 浏览器最好是
Chrome。如一定要使用Edge,除了关闭Edge所有窗口外,还要在任务管理器关闭Microsoft Edge的所有进程,即taskkill /f /im msedge.exe - 浏览器要保证窗口宽度,防止部分网站自动适配成手机版,导致表格查询失败
- 如有网站账号,请提前登录。此工具无自动登录功能
- 不同网站的表格结构不同,同条件返回股票数量也不同。需要查询后做适配
工作原理
不同于requests,playwright是基于浏览器的,模拟用户在浏览器中的操作。
- 不需要解决登录问题
- 不需要解决请求构造、响应解析
- 可以直接获取表格数据,所见即所得
- 运行速度慢于
requests,但开发效率高
数据的获取有:
- 直接解析HTML表格
- 数字文本化了,不利于后期研究
- 适用性最强
- 截获请求,获取返回的
json数据- 类似于
requests,需要做响应解析 - 灵活性差点,网站改版后,需要重新做适配
- 类似于
此项目采用的是模拟点击浏览器来发送请求,使用截获响应并解析的方法来获取数据。
后期会根据不同的网站改版情况,使用更适合的方法。
无头模式
无头模式运行速度更快,但部分网站需要提前登录,所以,无头模式一定要指定user_data_dir,否则会出现需要登录的情况。
endpoint=None时,headless=True可无头启动新浏览器实例。指定executable_path和user_data_dir,才能确保无头模式下正常运行。endpoint以http://开头,连接CDP模式启动的有头浏览器,参数必有--remote-debugging-port。executable_path为本地浏览器路径。endpoint以ws://开头,连接远程Playwright Server。也是无头模式,但无法指定user_data_dir,所以使用受限- 参考:https://playwright.dev/python/docs/docker#running-the-playwright-server
MCP支持
确保可以在控制台中执行python -m mcp_query_table -h。如果不能,可能要先pip install mcp_query_table
在Cline中可以配置如下。其中command是python的绝对路径,timeout是超时时间,单位为秒。 在各AI
平台中由于返回时间常需1分钟以上,所以需要设置大的超时时间。
STDIO方式
{
"mcpServers": {
"mcp_query_table": {
"timeout": 300,
"command": "D:\\Users\\Kan\\miniconda3\\envs\\py312\\python.exe",
"args": [
"-m",
"mcp_query_table",
"--format",
"markdown",
"--endpoint",
"http://127.0.0.1:9222",
"--executable_path",
"C:\\Program Files\\Google\\Chrome\\Application\\chrome.exe"
]
}
}
}
SSE方式
先在控制台中执行如下命令,启动MCP服务
python -m mcp_query_table --format markdown --transport sse --port 8000 --endpoint http://127.0.0.1:9222
然后就可以连接到MCP服务了
{
"mcpServers": {
"mcp_query_table": {
"timeout": 300,
"url": "http://127.0.0.1:8000/sse"
}
}
}
使用MCP Inspector进行调试
npx @modelcontextprotocol/inspector python -m mcp_query_table --format markdown --endpoint http://127.0.0.1:9222
打开浏览器并翻页是一个比较耗时的操作,会导致MCP Inspector页面超时,可以http://localhost:5173/?timeout=300000
表示超时时间为300秒
第一次尝试编写MCP项目,可能会有各种问题,欢迎大家交流。
MCP使用技巧
-
2024年涨幅最大的100只股票按2024年12月31日总市值排名。三个网站的结果都不一样
- 同花顺:显示了2201只股票。前5个是工商银行、农业银行、中国移动、中国石油、建设银行
- 通达信:显示了100只股票,前5个是寒武纪、正丹股份,汇金科技、万丰奥威、艾融软件
- 东方财富:显示了100只股票,前5个是海光信息、寒武纪、光启技术、润泽科技、新易盛
-
大语言模型对问题拆分能力弱,所以要能合理的提问,保证查询条件不会被改动。以下推荐第2、3种
- 2024年涨幅最大的100只股票按2024年12月31日总市值排名
大语言模型非常有可能拆分这句,导致一步查询被分成了多步查询
- 向东方财富查询“2024年涨幅最大的100只股票按2024年12月31日总市值排名”
用引号括起来,避免被拆分
- 向东方财富板块查询 “去年涨的最差的行业板块”,再查询此板块中去年涨的最好的5只股票
分成两步查询,先查询板块,再查询股票。但最好不要全自动,因为第一步的结果它不理解“今日涨幅”和“区间涨幅”,需要交互修正
- 2024年涨幅最大的100只股票按2024年12月31日总市值排名
支持Streamlit
实现在同一页面中查询金融数据,并手工输入到AI中进行深度分析。参考streamlit目录下的README.md文件。

参考
- Selenium webdriver无法附加到edge实例,edge的--remote-debugging-port选项无效
- https://github.com/AtuboDad/playwright_stealth/issues/31
推荐服务器
Baidu Map
百度地图核心API现已全面兼容MCP协议,是国内首家兼容MCP协议的地图服务商。
Playwright MCP Server
一个模型上下文协议服务器,它使大型语言模型能够通过结构化的可访问性快照与网页进行交互,而无需视觉模型或屏幕截图。
Magic Component Platform (MCP)
一个由人工智能驱动的工具,可以从自然语言描述生成现代化的用户界面组件,并与流行的集成开发环境(IDE)集成,从而简化用户界面开发流程。
Audiense Insights MCP Server
通过模型上下文协议启用与 Audiense Insights 账户的交互,从而促进营销洞察和受众数据的提取和分析,包括人口统计信息、行为和影响者互动。
VeyraX
一个单一的 MCP 工具,连接你所有喜爱的工具:Gmail、日历以及其他 40 多个工具。
graphlit-mcp-server
模型上下文协议 (MCP) 服务器实现了 MCP 客户端与 Graphlit 服务之间的集成。 除了网络爬取之外,还可以将任何内容(从 Slack 到 Gmail 再到播客订阅源)导入到 Graphlit 项目中,然后从 MCP 客户端检索相关内容。
Kagi MCP Server
一个 MCP 服务器,集成了 Kagi 搜索功能和 Claude AI,使 Claude 能够在回答需要最新信息的问题时执行实时网络搜索。
e2b-mcp-server
使用 MCP 通过 e2b 运行代码。
Neon MCP Server
用于与 Neon 管理 API 和数据库交互的 MCP 服务器
Exa MCP Server
模型上下文协议(MCP)服务器允许像 Claude 这样的 AI 助手使用 Exa AI 搜索 API 进行网络搜索。这种设置允许 AI 模型以安全和受控的方式获取实时的网络信息。