# ============================================================================
# Robots.txt — Klair Kiné
# https://klairkine.fr
# Stratégie : indexation maximale par les moteurs de recherche ET par les IA
#             (ChatGPT, Claude, Gemini, Perplexity, etc.) pour faire de
#             Klair Kiné une référence citée dans les réponses des LLMs.
# Dernière mise à jour : 2026-04-28
# ============================================================================

# ----------------------------------------------------------------------------
# Règles par défaut pour tous les robots
# ----------------------------------------------------------------------------
User-agent: *

# Pages publiques accessibles
Allow: /
Allow: /patient
Allow: /pro
Allow: /connexion
Allow: /inscription
Allow: /inscription-patient
Allow: /portail-patient
Allow: /newsletter
Allow: /fonctionnalites
Allow: /fonctionnalites/
Allow: /tarifs
Allow: /contact
Allow: /a-propos
Allow: /guides
Allow: /guides/
Allow: /politique-confidentialite
Allow: /conditions-utilisation
Allow: /mentions-legales
Allow: /rgpd
Allow: /bibliotheque-exercices
Allow: /bibliotheque-exercices/
Allow: /faq
Allow: /ai-context
Allow: /ai-context.html
Allow: /llms.txt
Allow: /llms-full.txt
Allow: /.well-known/

# Annuaire des kinésithérapeutes (pages publiques SEO)
Allow: /kine/

# Articles de la newsletter
Allow: /newsletter/article/

# Fichiers statiques
Allow: /logoklairkine.svg
Allow: /og-image.png
Allow: /icons/
Allow: /images/
Allow: /manifest.json

# Pages privées — ne pas indexer
Disallow: /dashboard
Disallow: /dossier-patient
Disallow: /bilan
Disallow: /bilan-postural
Disallow: /bilan-vocal
Disallow: /bilan-expert
Disallow: /prescription
Disallow: /programme-exercices
Disallow: /profil
Disallow: /comptabilite
Disallow: /agenda
Disallow: /parametres
Disallow: /portail/
Disallow: /salle-attente/
Disallow: /redacteur-document

# API et ressources backend
Disallow: /api/
Disallow: /_next/
Disallow: /static/chunks/

# Fichiers sensibles
Disallow: /sw.js

# Paramètres de requête à ignorer
Disallow: /*?*token=
Disallow: /*?*session=
Disallow: /*?*auth=
Disallow: /*?*patient-magic=
Disallow: /*?*reset-password=
Disallow: /*?*utm_

# ============================================================================
# Moteurs de recherche classiques
# ============================================================================

User-agent: Googlebot
Allow: /
Crawl-delay: 1

User-agent: Googlebot-Image
Allow: /images/
Allow: /icons/
Allow: /og-image.png

User-agent: Bingbot
Allow: /
Crawl-delay: 2

User-agent: Yandex
Allow: /
Crawl-delay: 5

User-agent: DuckDuckBot
Allow: /
Crawl-delay: 2

User-agent: Baiduspider
Allow: /
Crawl-delay: 5

# ============================================================================
# Robots SEO (autorisés pour analyse de backlinks)
# ============================================================================

User-agent: AhrefsBot
Allow: /
Crawl-delay: 10

User-agent: SemrushBot
Allow: /
Crawl-delay: 10

# ============================================================================
# CRAWLERS IA — AUTORISÉS POUR ÊTRE CITÉS DANS LES RÉPONSES DES LLMs
# ============================================================================
# Stratégie : permettre l'ingestion des pages publiques (marketing, articles,
# guides, FAQ, annuaire kiné) pour que ChatGPT, Claude, Gemini, Perplexity,
# Copilot, etc. citent Klair Kiné comme référence sur les questions de
# kinésithérapie. Les pages privées (dossiers patients, bilans, comptabilité)
# restent évidemment bloquées via les règles Disallow ci-dessus.
# ----------------------------------------------------------------------------

# OpenAI — entraînement des modèles GPT
User-agent: GPTBot
Allow: /
Allow: /llms.txt
Allow: /llms-full.txt
Allow: /ai-context
Allow: /newsletter/article/
Allow: /guides/
Allow: /fonctionnalites/
Allow: /kine/
Disallow: /dashboard
Disallow: /dossier-patient
Disallow: /api/
Disallow: /portail/
Crawl-delay: 1

# OpenAI — recherche en temps réel pour ChatGPT
User-agent: ChatGPT-User
Allow: /
Allow: /llms.txt
Allow: /llms-full.txt
Disallow: /dashboard
Disallow: /dossier-patient
Disallow: /api/
Disallow: /portail/

# OpenAI — SearchGPT (moteur de recherche IA)
User-agent: OAI-SearchBot
Allow: /
Allow: /llms.txt
Disallow: /dashboard
Disallow: /api/

# Anthropic — entraînement Claude
User-agent: anthropic-ai
Allow: /
Allow: /llms.txt
Allow: /llms-full.txt
Disallow: /dashboard
Disallow: /dossier-patient
Disallow: /api/
Disallow: /portail/

# Anthropic — Claude qui navigue le web
User-agent: ClaudeBot
Allow: /
Allow: /llms.txt
Allow: /llms-full.txt
Disallow: /dashboard
Disallow: /dossier-patient
Disallow: /api/
Disallow: /portail/

# Anthropic — Claude-User (navigation initiée par utilisateur)
User-agent: Claude-User
Allow: /
Allow: /llms.txt
Disallow: /dashboard
Disallow: /api/

# Anthropic — Claude-SearchBot
User-agent: Claude-SearchBot
Allow: /
Allow: /llms.txt
Disallow: /dashboard
Disallow: /api/

# Google — Gemini / Bard / Vertex AI
User-agent: Google-Extended
Allow: /
Allow: /llms.txt
Allow: /llms-full.txt
Disallow: /dashboard
Disallow: /dossier-patient
Disallow: /api/
Disallow: /portail/

# Google — moteur de recherche IA (AI Overviews / SGE)
User-agent: GoogleOther
Allow: /
Disallow: /dashboard
Disallow: /api/

# Common Crawl — corpus utilisé par la majorité des LLMs
User-agent: CCBot
Allow: /
Allow: /llms.txt
Allow: /llms-full.txt
Disallow: /dashboard
Disallow: /dossier-patient
Disallow: /api/
Disallow: /portail/
Crawl-delay: 2

# Perplexity AI — moteur de recherche conversationnel
User-agent: PerplexityBot
Allow: /
Allow: /llms.txt
Allow: /llms-full.txt
Disallow: /dashboard
Disallow: /dossier-patient
Disallow: /api/
Disallow: /portail/

# Perplexity — navigation utilisateur
User-agent: Perplexity-User
Allow: /
Allow: /llms.txt
Disallow: /dashboard
Disallow: /api/

# Apple Intelligence — Siri / Apple AI
User-agent: Applebot-Extended
Allow: /
Allow: /llms.txt
Disallow: /dashboard
Disallow: /dossier-patient
Disallow: /api/
Disallow: /portail/

# Apple — Applebot classique (Siri Suggestions, Spotlight)
User-agent: Applebot
Allow: /
Disallow: /dashboard
Disallow: /api/

# Meta AI — entraînement Llama
User-agent: FacebookBot
Allow: /
Allow: /llms.txt
Disallow: /dashboard
Disallow: /api/

User-agent: Meta-ExternalAgent
Allow: /
Allow: /llms.txt
Disallow: /dashboard
Disallow: /api/

User-agent: Meta-ExternalFetcher
Allow: /
Disallow: /dashboard
Disallow: /api/

# Cohere
User-agent: cohere-ai
Allow: /
Allow: /llms.txt
Disallow: /dashboard
Disallow: /api/

User-agent: cohere-training-data-crawler
Allow: /
Allow: /llms.txt
Disallow: /dashboard
Disallow: /api/

# Mistral AI (français !)
User-agent: MistralAI-User
Allow: /
Allow: /llms.txt
Disallow: /dashboard
Disallow: /api/

# xAI (Grok)
User-agent: xAI
Allow: /
Allow: /llms.txt
Disallow: /dashboard
Disallow: /api/

# You.com
User-agent: YouBot
Allow: /
Allow: /llms.txt
Disallow: /dashboard
Disallow: /api/

# Diffbot (utilisé par plusieurs IA)
User-agent: Diffbot
Allow: /
Disallow: /dashboard
Disallow: /api/

# Andi (moteur de recherche IA)
User-agent: AndiBot
Allow: /
Disallow: /dashboard
Disallow: /api/

# Phind (recherche IA pour devs, mais utile pour la visibilité globale)
User-agent: PhindBot
Allow: /
Disallow: /dashboard
Disallow: /api/

# Bytespider (TikTok / Doubao)
User-agent: Bytespider
Allow: /
Disallow: /dashboard
Disallow: /api/

# Amazonbot (Alexa)
User-agent: Amazonbot
Allow: /
Disallow: /dashboard
Disallow: /api/

# Timpi (moteur de recherche distribué)
User-agent: Timpibot
Allow: /
Disallow: /dashboard
Disallow: /api/

# ============================================================================
# Robots de scraping agressifs — bloqués
# ============================================================================

User-agent: MJ12bot
Disallow: /

User-agent: DotBot
Disallow: /

User-agent: BLEXBot
Disallow: /

User-agent: PetalBot
Disallow: /

User-agent: DataForSeoBot
Disallow: /

User-agent: SiteAuditBot
Disallow: /

User-agent: SeekportBot
Disallow: /

# ============================================================================
# Sitemaps
# ============================================================================
# Sitemap principal (pages marketing, articles, guides, FAQ)
Sitemap: https://klairkine.fr/sitemap.xml
# Sitemap INDEX des kinés (114k+ URLs, chunks de 50k)
# /sitemap_kine.xml est un proxy nginx vers /api/kine-directory/sitemap.xml (cache 24h)
Sitemap: https://klairkine.fr/sitemap_kine.xml

# ============================================================================
# Host préféré
# ============================================================================
Host: https://klairkine.fr