CHM to Markdown Converter

CHM to Markdown Converter

将 CHM 转换为 Markdown

DTDucas

开发者工具
访问服务器

README

CHM 转 Markdown 转换器

一个用于将编译的 HTML 帮助 (CHM) 文件转换为 Markdown 格式的 Python 实用程序。此工具从 CHM 文档中提取 HTML 文件,并将它们转换为格式良好的 Markdown 文件,从而使技术文档更易于访问且更易于进行版本控制。

功能

  • 使用 7-Zip 提取 CHM 文件
  • 将 HTML 内容转换为干净的 Markdown 格式
  • 特殊处理带有特定于语言的语法高亮显示的代码片段
  • 保留和修复表格
  • 更新内部链接以维护文档引用
  • 异步处理文件以获得更好的性能
  • 批量处理并报告进度

要求

  • Python 3.7+
  • 7-Zip 安装在默认位置 (C:\Program Files\7-Zip\7z.exe)
  • 以下 Python 包:
    • beautifulsoup4
    • html2text
    • aiofiles

安装

  1. 克隆或下载此存储库
  2. 安装所需的 Python 包:
pip install -r requirements.txt

或者直接安装它们:

pip install beautifulsoup4 html2text aiofiles

用法

  1. 编辑 chm_to_markdown.pymain() 函数中的配置变量:
input_folder = r"C:\Path\To\Extracted\Files"  # 用于提取 CHM 的临时文件夹
output_folder = r"C:\Path\To\Output\Markdown"  # Markdown 文件将保存到的位置
chm_file_path = r"C:\Path\To\Your\File.chm"    # 您的 CHM 文件路径
  1. 运行脚本:
python chm_to_markdown.py
  1. 脚本将:
    • 清空输入和输出文件夹
    • 将 CHM 文件提取到输入文件夹
    • 将 HTML 文件转换为 Markdown
    • 将 Markdown 文件保存到输出文件夹

性能调优

您可以调整 process_folder_async() 调用中的以下参数,以优化系统的性能:

  • max_workers: 用于 CPU 密集型操作的工作线程数
  • semaphore_limit: 最大并发文件 I/O 操作数
  • batch_size: 每个批次中要处理的文件数
await process_folder_async(
    input_folder, output_folder, max_workers=8, semaphore_limit=20, batch_size=50
)

自定义

该脚本为内容转换提供了几个自定义选项:

删除不需要的元素

您可以通过编辑以下列表来自定义要删除的 HTML 元素:

tags_to_remove = ["iframe", "object", "script", "br", "img"]
classes_to_remove = ["collapsibleAreaRegion", "collapsibleRegionTitle", ...]
ids_to_remove = ["PageFooter"]

代码片段

该脚本处理带有特定于语言的格式的代码片段。您可以自定义语言映射:

id_to_lang = {
    "IDAB_code_Div1": "csharp",
    "IDAB_code_Div2": "vb",
    "IDAB_code_Div3": "cpp",
    "IDAB_code_Div4": "fsharp",
}

故障排除

  • 缺少模块错误: 确保您已安装所有必需的软件包,并且您的 Python 环境已正确配置。
  • 找不到 7-Zip: 检查 7-Zip 是否安装在默认位置,或者更新脚本中的路径。
  • 权限错误: 以管理员权限运行您的终端或命令提示符。
  • 大型 CHM 文件出现内存问题: 尝试增加批处理大小并减少 max_workers 以管理内存使用。

许可证

本项目是开源的,并根据 MIT 许可证提供。

推荐服务器

Playwright MCP Server

Playwright MCP Server

一个模型上下文协议服务器,它使大型语言模型能够通过结构化的可访问性快照与网页进行交互,而无需视觉模型或屏幕截图。

官方
精选
TypeScript
Magic Component Platform (MCP)

Magic Component Platform (MCP)

一个由人工智能驱动的工具,可以从自然语言描述生成现代化的用户界面组件,并与流行的集成开发环境(IDE)集成,从而简化用户界面开发流程。

官方
精选
本地
TypeScript
MCP Package Docs Server

MCP Package Docs Server

促进大型语言模型高效访问和获取 Go、Python 和 NPM 包的结构化文档,通过多语言支持和性能优化来增强软件开发。

精选
本地
TypeScript
Claude Code MCP

Claude Code MCP

一个实现了 Claude Code 作为模型上下文协议(Model Context Protocol, MCP)服务器的方案,它可以通过标准化的 MCP 接口来使用 Claude 的软件工程能力(代码生成、编辑、审查和文件操作)。

精选
本地
JavaScript
@kazuph/mcp-taskmanager

@kazuph/mcp-taskmanager

用于任务管理的模型上下文协议服务器。它允许 Claude Desktop(或任何 MCP 客户端)在基于队列的系统中管理和执行任务。

精选
本地
JavaScript
mermaid-mcp-server

mermaid-mcp-server

一个模型上下文协议 (MCP) 服务器,用于将 Mermaid 图表转换为 PNG 图像。

精选
JavaScript
Jira-Context-MCP

Jira-Context-MCP

MCP 服务器向 AI 编码助手(如 Cursor)提供 Jira 工单信息。

精选
TypeScript
Linear MCP Server

Linear MCP Server

一个模型上下文协议(Model Context Protocol)服务器,它与 Linear 的问题跟踪系统集成,允许大型语言模型(LLM)通过自然语言交互来创建、更新、搜索和评论 Linear 问题。

精选
JavaScript
Sequential Thinking MCP Server

Sequential Thinking MCP Server

这个服务器通过将复杂问题分解为顺序步骤来促进结构化的问题解决,支持修订,并通过完整的 MCP 集成来实现多条解决方案路径。

精选
Python
Curri MCP Server

Curri MCP Server

通过管理文本笔记、提供笔记创建工具以及使用结构化提示生成摘要,从而实现与 Curri API 的交互。

官方
本地
JavaScript