Fetch Crawl MCP

Fetch Crawl MCP

Enables fetching, crawling, and analyzing web pages with 29 tools for SEO audits, content extraction, and more.

Category
访问服务器

README

Fetch Crawl MCP v4.2.0

Serveur MCP (Model Context Protocol) pour fetcher, crawler et analyser des sites web. 29 outils utilisables depuis Claude Code, Claude Desktop, ou tout client MCP compatible.

Installation

npm install
npm run build

Puppeteer est requis pour les outils screenshot, check_performance, check_mobile, check_datalayer, intercept_tracking_requests, audit_tracking et le fallback anti-bot. Chromium s'installe automatiquement lors du npm install.

Utilisation

Stdio (défaut)

npm start
# ou
node build/index.js

HTTP

npm run start:http
# ou
node build/index.js --http --port 3001

Configuration client MCP

{
  "mcpServers": {
    "fetch-crawl-mcp": {
      "command": "node",
      "args": ["/path/to/fetch-crawl-mcp/build/index.js"]
    }
  }
}

Format de réponse standard

Tous les outils retournent un format StandardResponse unifié :

{
  url: string;           // URL demandée
  finalUrl: string;      // URL finale (après redirections)
  status: number;        // Code HTTP
  score?: number;        // Score 0-100 (si applicable)
  summary: string;       // Résumé en une phrase
  issues: ToolIssue[];   // Problèmes détectés (severity, element, message, evidence?)
  recommendations: [];   // Recommandations d'amélioration
  meta: {
    fetchedWith: "fetch" | "puppeteer";
    fallbackUsed: boolean;
    partial: boolean;     // true si le contenu a été tronqué (> 5MB)
    durationMs: number;
    timestamp: string;
  };
  data: {};              // Données spécifiques à l'outil
}

Anti-Bot Detection

Le fetcher intègre un système de détection anti-bot avancé :

  • Détection automatique : Cloudflare, DataDome, Akamai, Sucuri, PerimeterX
  • Stealth Puppeteer : patches navigator.webdriver, plugins, languages, platform, hardwareConcurrency, deviceMemory, chrome.runtime, Notification permissions, WebGL renderer
  • Fallback propre : si le site reste bloqué même avec Puppeteer, retour d'un status 403 avec info antiBot: { blocked, provider, confidence } au lieu d'un crash
  • Launch args optimisés : --disable-blink-features=AutomationControlled, --disable-features=IsolateOrigins,site-per-process, --window-size=1920,1080

Outils (29)

Fetching & Crawling

fetch_page

Récupère une page web et retourne son contenu dans le format spécifié.

Paramètre Type Défaut Description
url string requis URL à fetcher
format "html" | "text" | "markdown" "markdown" Format de sortie
headers object Headers HTTP personnalisés

Retour : contenu de la page, titre, description, type de contenu.


crawl_site

Crawle un site récursivement en suivant les liens internes.

Paramètre Type Défaut Description
url string requis URL de départ
maxDepth number (0–10) 2 Profondeur max (0 = page de départ uniquement)
maxPages number (1–500) 50 Nombre max de pages
delay number (0–10000) 300 Délai en ms entre les requêtes (±30% jitter)
concurrency number (1–10) 3 Pages fetchées en parallèle
respectRobotsTxt boolean true Respecter robots.txt et Crawl-delay
includePattern string Regex : ne crawler que les URLs matchant
excludePattern string Regex : exclure les URLs matchant

Score : basé sur le ratio de pages en erreur (status >= 400).

Timeout : le crawl s'arrête proprement après 5 minutes (abortedEarly: true).

Retour : liste des pages crawlées avec titre, status, profondeur, liens trouvés + crawlStats: { startedAt, finishedAt, durationSeconds, pagesPerSecond, abortedEarly, abortReason }.


screenshot

Capture une screenshot d'une page web via Puppeteer. Supporte PNG/JPEG, viewport personnalisé, capture pleine page, attente de sélecteur CSS, et fermeture des bannières cookies.

Paramètre Type Défaut Description
url string requis URL à capturer
width number (320–3840) 1280 Largeur du viewport
height number (240–2160) 800 Hauteur du viewport
fullPage boolean false Capturer toute la page scrollable
format "png" | "jpeg" "png" Format d'image
quality number (1–100) 80 Qualité (jpeg uniquement)
waitForSelector string Sélecteur CSS à attendre avant capture
dismissCookies boolean false Tenter de fermer les bannières cookies

Robustesse : timeout global Puppeteer, auto-recompression JPEG si fullPage > 900KB, retour d'erreur propre en cas d'échec.


SEO Audit

audit_onpage

Audit technique on-page complet : title, meta description, canonical, robots, lang, hiérarchie H1-H6, attributs alt des images, Open Graph, Twitter Card, JSON-LD.

Paramètre Type Défaut Description
url string requis URL à auditer

Score : 0-100 basé sur les issues (error = -15pts, warning = -5pts).

Retour : données SEO complètes dans data{}, issues avec severity, recommandations.


check_indexability

Vérifie si une page est indexable par les moteurs de recherche.

Paramètre Type Défaut Description
url string requis URL de la page

Analyses :

  • Status HTTP
  • Meta robots (noindex, nofollow, none, noarchive, nosnippet)
  • X-Robots-Tag HTTP header
  • Canonical (auto-référençante ? cross-domain ?)
  • Hreflang / rel alternate
  • Présence dans le sitemap

Score : -40 noindex, -30 status != 200, -20 canonical elsewhere, -10 absent du sitemap.

Retour : verdict indexable: boolean avec raison détaillée.


check_structured_data

Extrait et valide les données structurées d'une page.

Paramètre Type Défaut Description
url string requis URL à analyser

Extraction :

  • JSON-LD (incluant @graph) avec validation par type : Product, Organization, LocalBusiness, BreadcrumbList, Article, NewsArticle, BlogPosting
  • Microdata (itemscope/itemtype/itemprop)
  • Open Graph (og:*)
  • Twitter Card (twitter:*)

Score : -20 si pas de JSON-LD, -10 si pas d'OG, -10 si pas de Twitter Card, -15 par schema invalide.


check_robots_txt

Analyse le robots.txt d'un site et vérifie la cohérence des sitemaps.

Paramètre Type Défaut Description
url string requis URL du site

Analyses :

  • Parse complet par User-Agent (Allow + Disallow)
  • Crawl-delay
  • Sitemaps déclarés vs réellement accessibles
  • Détection de sitemaps non déclarés (/sitemap.xml, /1_index_sitemap.xml)

Score : -30 si absent, -15 si aucun sitemap déclaré, -10 par sitemap inaccessible ou non déclaré.


Content Extraction

extract_content

Extrait le contenu structuré d'une page : headings, liens, images, texte brut avec statistiques.

Paramètre Type Défaut Description
url string requis URL source

Retour : titre, description, lang, headings, liens (max 100), images (max 50), contenu texte (max 10000 chars), stats.


extract_links

Extrait tous les liens d'une page avec filtrage par type.

Paramètre Type Défaut Description
url string requis URL source
type "all" | "internal" | "external" "all" Filtrer par type

Retour : liens uniques avec href, texte, rel, isInternal, isNofollow.


extract_with_schema

Extraction structurée basée sur des sélecteurs CSS configurables, avec presets intégrés.

Paramètre Type Défaut Description
url string requis URL source
schema object Schema d'extraction (voir ci-dessous)
fallbackSelectors object Sélecteurs de fallback si le principal échoue
preset "ecommerce-product" | "article" | "local-business" | "recipe" Preset intégré

Schema : chaque clé est un champ, la valeur est { selector, attribute?, multiple?, transform? }.

{
  "productName": { "selector": "h1.product-title", "transform": "text" },
  "price": { "selector": ".product-price .current", "transform": "number" },
  "images": { "selector": ".product-gallery img", "attribute": "src", "multiple": true },
  "description": { "selector": ".product-description", "transform": "html" }
}

Transforms : text (innerText), html (innerHTML), number (parseFloat), trim (text trimmed), href (attribut href).

Presets intégrés :

  • ecommerce-product : productName, price, oldPrice, currency, images, description, sku, brand, availability, breadcrumb, reviewsCount
  • article : title, author, publishDate, content, categories, tags, readingTime (auto-calculé)
  • local-business : name, address, phone, email, hours, coordinates, rating, reviewCount
  • recipe : title, prepTime, cookTime, servings, ingredients, instructions, calories, image

Si preset ET schema sont fournis, le schema override les champs du preset.

Score : (fieldsFound / fieldsTotal) * 100.

Retour : data.extracted (données), fieldsFound, fieldsTotal, fieldsMissing, usedFallback, preset.


parse_sitemap

Parse un sitemap.xml (ou le détecte automatiquement). Supporte les sitemap index.

Paramètre Type Défaut Description
url string requis URL du sitemap ou racine du site

Score : -20 par erreur de parsing, -5 si tronqué.

Retour : entrées avec loc, lastmod, changefreq, priority (max 500).


Technical Checks

check_links

Vérifie tous les liens d'une page pour détecter les liens cassés (404, timeout, erreurs).

Paramètre Type Défaut Description
url string requis URL à vérifier
timeout number (1000–30000) 5000 Timeout par lien
concurrency number (1–20) 3 Liens vérifiés en parallèle
delay number (0–5000) 200 Délai entre les batchs (±30% jitter)

Score : basé sur le ratio liens cassés / total.


check_redirect_chain

Suit la chaîne de redirections hop par hop.

Paramètre Type Défaut Description
url string requis URL à suivre
maxRedirects number (1–30) 10 Nombre max de redirections

Score : 100 si 0-1 redirect, 80 si 2-3, 60 si > 3, 0 si boucle.

Détections : boucles de redirection, chaînes longues (> 3), upgrades HTTP → HTTPS.


check_performance

Mesure les métriques de performance via Puppeteer avec profil mobile ou desktop.

Paramètre Type Défaut Description
url string requis URL à auditer
device "mobile" | "desktop" "mobile" Profil (mobile: 375x812 + throttling, desktop: 1280x800)

Métriques : TTFB, FCP, LCP, DOM Content Loaded, Fully Loaded, requêtes réseau, bytes transférés, ressources par type.

Score (0-100) : LCP (40%), FCP (35%), TTFB (25%) selon les seuils Web Vitals.


check_mobile

Audit de compatibilité mobile via Puppeteer avec viewport iPhone (375x812).

Paramètre Type Défaut Description
url string requis URL à vérifier

Vérifications : meta viewport, scroll horizontal, fonts < 12px, tap targets < 48px.

Score : -30 si pas de viewport meta, -10 si scroll horizontal, -5 par tranche de 10 tap targets trop petits.

Retour : analyse + screenshot JPEG mobile.


Tracking Audit

check_gtm_snippet

Vérifie la présence et la configuration des snippets GTM et gtag.js sur une page (analyse HTML statique, pas besoin de Puppeteer).

Paramètre Type Défaut Description
url string requis URL à vérifier

Détections :

  • Containers GTM (GTM-XXXXX) et IDs GA4 (G-XXXXXXXX)
  • Placement du snippet (dans <head> ou non)
  • Présence du <noscript> GTM fallback dans <body>
  • IDs dupliqués (double-counting)

Score : -15 si aucun tracking, -5 par warning (noscript manquant, doublons, mauvais placement).


check_datalayer

Inspecte window.dataLayer en runtime via Puppeteer. Vérifie l'existence, le contenu, et détecte les patterns suspects.

Paramètre Type Défaut Description
url string requis URL à inspecter
wait_ms number (0–5000) 2000 Délai d'attente après chargement avant lecture du dataLayer

Vérifications :

  • window.dataLayer existe et contient des events
  • window.google_tag_manager chargé (runtime GTM)
  • window.gtag est une function
  • Détection de redéfinition de dataLayer après init GTM (pattern suspect)

Timeout : 30 secondes (Puppeteer).


intercept_tracking_requests

Intercepte les requêtes réseau de tracking (GA4, GTM, gtag) pendant le chargement de la page via Puppeteer.

Paramètre Type Défaut Description
url string requis URL à monitorer
wait_ms number (0–8000) 3000 Délai d'attente après chargement pour capturer les hits différés

Requêtes interceptées :

  • google-analytics.com/g/collect → hits GA4
  • analytics.google.com/g/collect → hits GA4 alternatif
  • googletagmanager.com/gtm.js → chargement GTM
  • googletagmanager.com/gtag/js → chargement gtag
  • stats.g.doubleclick.net → hits Universal Analytics (obsolète)

Parsing GA4 : event name (en), measurement ID (tid), protocol version (v).

Score : -15 si aucun hit GA4, -15 si UA détecté, -5 par warning (doublons, multi-IDs).

Timeout : 45 secondes (Puppeteer).


audit_tracking

Audit tracking complet : exécute check_gtm_snippet, check_datalayer et intercept_tracking_requests en parallèle, puis produit un rapport unifié.

Paramètre Type Défaut Description
url string requis URL à auditer

Rapport :

  • Score global (moyenne pondérée : GTM 30%, dataLayer 30%, intercept 40%)
  • severity_summary : comptage par niveau (critical, warning, ok)
  • diagnosis : phrase de diagnostic croisé (ex: "GTM présent mais aucun hit GA4 envoyé → vérifier les triggers")
  • Données complètes des 3 sous-outils

Multi-Page & Comparison

compare_pages

Compare deux pages web côte à côte sur 12 critères SEO.

Paramètre Type Défaut Description
urlA string requis Première URL
urlB string requis Deuxième URL
includeScreenshot boolean false Capturer une screenshot de chaque page

Critères comparés : title, meta description, H1, heading structure, word count, internal links, external links, images alt, Open Graph, Twitter Card, JSON-LD, canonical.

Retour : score individuel par page (0-100), tableau comparatif avec winner par critère, screenshots optionnels.


audit_site_batch

Audit batch de multiples pages d'un site avec agrégation des résultats.

Paramètre Type Défaut Description
url string requis URL du site
source "sitemap" | "crawl" | "urls" "sitemap" Source des URLs
urls string[] Liste d'URLs (si source = "urls")
limit number (1–200) 30 Nombre max de pages
concurrency number (1–5) 2 Pages auditées en parallèle
delay number (0–5000) 500 Délai entre les batchs

Timeout : le batch s'arrête proprement après 5 minutes avec meta.partial = true.

Fallback sitemap : si /sitemap.xml ne retourne aucune URL, essaie automatiquement /1_index_sitemap.xml.

Agrégation :

  • Score moyen et médiane
  • Distribution (excellent / bon / moyen / mauvais)
  • Top 10 problèmes triés par fréquence
  • Quick wins (pages > 60 pts avec 1-2 fixes faciles)
  • Pages critiques (les 10 pires scores)
  • executionStats: startedAt, finishedAt, durationSeconds, pagesPerSecond, timedOut

detect_orphan_pages

Détecte les pages orphelines en croisant le sitemap, le crawl et le graphe de liens internes.

Paramètre Type Défaut Description
url string requis URL du site
maxCrawlPages number (1–300) 100 Pages crawlées pour le graphe
crawlDepth number (1–5) 3 Profondeur de crawl
concurrency number (1–5) 3 Pages en parallèle
delay number (0–5000) 300 Délai entre batches

Classification (6 catégories) :

  • orphan_in_sitemap : dans le sitemap, 0 lien interne (critique)
  • orphan_not_in_sitemap : hors sitemap, 0-1 lien interne (isolée)
  • sitemap_only : dans le sitemap, non atteinte par le crawl
  • crawl_only : trouvée par le crawl, absente du sitemap
  • deep_page : atteinte uniquement à profondeur >= 4
  • well_linked : sitemap + crawl + >= 2 liens entrants

Score : -2/orpheline (max -40), -1/sitemap_only (max -20), -1/crawl_only (max -15), -0.5/deep_page (max -10), -15 si cohérence < 50%.

Retour : stats (overlap sitemap/crawl), catégories avec exemples, top 20 pages hub (plus de liens entrants), top 10 orphelines critiques.


detect_duplicate_content

Détecte les contenus dupliqués et quasi-dupliqués sur un site.

Paramètre Type Défaut Description
url string requis URL du site
source "sitemap" | "crawl" | "urls" "crawl" Source des URLs
urls string[] Liste d'URLs (si source = "urls")
limit number (1–200) 50 Nombre max de pages
concurrency number (1–5) 3 Pages en parallèle
delay number (0–5000) 300 Délai entre batches
similarityThreshold number (0–1) 0.8 Seuil de similarité pour near-duplicates

Détection :

  • Exact duplicates : titles, descriptions, H1 identiques (groupés par cluster)
  • Near-duplicates : titles et contenus quasi-identiques (similarité mots communs / mots uniques > seuil)
  • Optimisation : regroupement par les 3 premiers mots pour éviter O(n²)

Score : -5 par cluster exact (max -40), -2 par cluster near-duplicate (max -30).

Retour : exactDuplicates[], nearDuplicates[], uniquePages, stats avec mostDuplicatedValue.


Security, Accessibility & Compliance (v4.2.0)

check_security_headers

Audit des HTTP security headers (HSTS, CSP, X-Frame-Options, Referrer-Policy, Permissions-Policy, COOP, CORP, COEP). Score 0-100 avec grade A-F.

Paramètre Type Défaut Description
url string requis URL à auditer

check_hreflang

Valide les balises hreflang : codes ISO 639-1, liens réciproques, cohérence avec la langue de la page, présence de x-default, consistance avec canonical.

Paramètre Type Défaut Description
url string requis URL à auditer

audit_content_quality

Analyse de la qualité de contenu : lisibilité multilingue (FR/NL/EN/DE/ES/IT), word count, structure des titres, densité de liens, richesse média, signaux d'engagement (TOC, FAQ, CTA).

Paramètre Type Défaut Description
url string requis URL à auditer

check_accessibility

Audit WCAG léger sur 9 catégories : alt des images, labels de formulaires, landmarks sémantiques, hiérarchie des titres, qualité du texte des liens (détection multilingue FR/NL/EN/DE du "click here"), ARIA, tableaux, médias, contraste.

Paramètre Type Défaut Description
url string requis URL à auditer

extract_images_audit

Audit complet des images via Puppeteer : adoption des formats modernes (WebP/AVIF), alt text, responsive (srcset), dimensions optimales, lazy loading, candidat LCP, poids des fichiers.

Paramètre Type Défaut Description
url string requis URL à auditer

check_consent_mode

Audit Google Consent Mode v2 et conformité cookies RGPD : détection CMP (Cookiebot, OneTrust, Didomi, Axeptio, etc.), IAB TCF API, vérification gtag('consent', 'default'|'update'), analyse des signaux gcs/gcd sur les hits GA4, audit des cookies déposés avant consentement.

Paramètre Type Défaut Description
url string requis URL à auditer
wait_ms number (0–10000) 5000 Délai d'attente après chargement pour laisser le CMP s'initialiser

Architecture

src/
├── index.ts                          # Entry point (stdio + HTTP)
├── server.ts                         # MCP server, tool registration
├── tools/
│   ├── fetch-page.ts                 # fetch_page
│   ├── crawl-site.ts                 # crawl_site
│   ├── screenshot.ts                 # screenshot
│   ├── analyze-seo.ts               # audit_onpage
│   ├── check-indexability.ts         # check_indexability
│   ├── check-structured-data.ts     # check_structured_data
│   ├── check-robots-txt.ts          # check_robots_txt
│   ├── extract-content.ts           # extract_content
│   ├── extract-links.ts             # extract_links
│   ├── extract-with-schema.ts       # extract_with_schema
│   ├── parse-sitemap.ts             # parse_sitemap
│   ├── check-links.ts              # check_links
│   ├── check-redirect-chain.ts     # check_redirect_chain
│   ├── check-performance.ts        # check_performance
│   ├── check-mobile.ts             # check_mobile
│   ├── compare-pages.ts            # compare_pages
│   ├── audit-site-batch.ts         # audit_site_batch
│   ├── detect-orphan-pages.ts      # detect_orphan_pages
│   ├── detect-duplicate-content.ts # detect_duplicate_content
│   ├── check-gtm-snippet.ts       # check_gtm_snippet
│   ├── check-datalayer.ts         # check_datalayer
│   ├── intercept-tracking-requests.ts # intercept_tracking_requests
│   └── audit-tracking.ts          # audit_tracking
└── utils/
    ├── fetcher.ts                    # HTTP fetch + stealth Puppeteer + anti-bot detection
    ├── html-parser.ts               # Cheerio-based HTML extraction
    ├── robots-parser.ts             # robots.txt parser
    ├── url-utils.ts                 # URL normalization utilities
    └── response.ts                  # StandardResponse, ToolIssue, ToolMeta, helpers

Stack technique

  • Runtime : Node.js (ES2022)
  • Langage : TypeScript (strict)
  • MCP SDK : @modelcontextprotocol/sdk
  • HTML parsing : Cheerio
  • Browser automation : Puppeteer (stealth mode)
  • Validation : Zod
  • Transport : stdio (défaut) ou HTTP (Express + StreamableHTTPServerTransport)

Déploiement Docker

Quick start

./deploy.sh

Manuel

# Build TypeScript
npm run build

# Build image Docker
docker build -t fetch-crawl-mcp:latest .

# Lancer avec docker compose
docker compose up -d

# Vérifier
curl http://localhost:3001/health

Configuration Docker

Le Dockerfile utilise node:22-slim avec Chromium préinstallé pour Puppeteer. L'image finale ne contient que build/ et les dépendances de production.

Variable d'environnement Défaut Description
NODE_ENV production Environnement Node.js
PUPPETEER_EXECUTABLE_PATH /usr/bin/chromium Chemin vers Chromium dans le container

Ressources par défaut (docker-compose) : 2 Go RAM, 1.5 CPU.

Configuration client MCP (HTTP distant)

{
  "mcpServers": {
    "fetch-crawl-mcp": {
      "url": "http://YOUR_SERVER:3001/mcp"
    }
  }
}

Développement

npm run dev        # Watch mode avec tsx
npm run build      # Build TypeScript
npm start          # Serveur stdio
npm run start:http # Serveur HTTP (port 3001)

Licence

MIT

推荐服务器

Baidu Map

Baidu Map

百度地图核心API现已全面兼容MCP协议,是国内首家兼容MCP协议的地图服务商。

官方
精选
JavaScript
Playwright MCP Server

Playwright MCP Server

一个模型上下文协议服务器,它使大型语言模型能够通过结构化的可访问性快照与网页进行交互,而无需视觉模型或屏幕截图。

官方
精选
TypeScript
Magic Component Platform (MCP)

Magic Component Platform (MCP)

一个由人工智能驱动的工具,可以从自然语言描述生成现代化的用户界面组件,并与流行的集成开发环境(IDE)集成,从而简化用户界面开发流程。

官方
精选
本地
TypeScript
Audiense Insights MCP Server

Audiense Insights MCP Server

通过模型上下文协议启用与 Audiense Insights 账户的交互,从而促进营销洞察和受众数据的提取和分析,包括人口统计信息、行为和影响者互动。

官方
精选
本地
TypeScript
VeyraX

VeyraX

一个单一的 MCP 工具,连接你所有喜爱的工具:Gmail、日历以及其他 40 多个工具。

官方
精选
本地
graphlit-mcp-server

graphlit-mcp-server

模型上下文协议 (MCP) 服务器实现了 MCP 客户端与 Graphlit 服务之间的集成。 除了网络爬取之外,还可以将任何内容(从 Slack 到 Gmail 再到播客订阅源)导入到 Graphlit 项目中,然后从 MCP 客户端检索相关内容。

官方
精选
TypeScript
Kagi MCP Server

Kagi MCP Server

一个 MCP 服务器,集成了 Kagi 搜索功能和 Claude AI,使 Claude 能够在回答需要最新信息的问题时执行实时网络搜索。

官方
精选
Python
e2b-mcp-server

e2b-mcp-server

使用 MCP 通过 e2b 运行代码。

官方
精选
Neon MCP Server

Neon MCP Server

用于与 Neon 管理 API 和数据库交互的 MCP 服务器

官方
精选
Exa MCP Server

Exa MCP Server

模型上下文协议(MCP)服务器允许像 Claude 这样的 AI 助手使用 Exa AI 搜索 API 进行网络搜索。这种设置允许 AI 模型以安全和受控的方式获取实时的网络信息。

官方
精选