llms.txt e robots.txt:
come gestire l'accesso dei motori AI
Molti siti parlano di visibilità AI senza chiarire una distinzione fondamentale: una cosa è permettere il recupero dei contenuti per risposte in tempo reale, un'altra è regolare crawling e training. Questa guida spiega cosa fare davvero, senza miti e senza configurazioni inutili.
Differenza tra retrieval e training
Capire questa distinzione evita blocchi dannosi alla visibilità
Quando un utente interroga un motore AI, il sistema può recuperare contenuti pubblici in tempo reale per generare una risposta con link e citazioni. Questo flusso non coincide necessariamente con l'uso dei contenuti per addestrare modelli futuri. Confondere i due piani porta molte aziende a bloccare crawler utili e a ridurre la propria presenza nelle risposte AI.
A cosa serve davvero llms.txt
Un file descrittivo pensato per rendere più chiara la struttura del sito alle AI
llms.txt non sostituisce robots.txt e non garantisce da solo l'inclusione nei motori AI. È utile come documento orientativo che presenta le aree importanti del sito, le pagine canoniche, le policy, la documentazione e le risorse da considerare prioritarie. Funziona meglio quando il sito è già ben organizzato, leggibile e accessibile.
Robots.txt per crawler AI
Controlla accesso tecnico a specifici user-agent
robots.txt resta il punto di controllo principale per i crawler automatizzati. Deve essere coerente con la strategia del brand: consentire i bot che favoriscono discovery e retrieval, bloccare solo ciò che non deve essere scansionato, evitare regole globali troppo aggressive e verificare che CSS, JS e asset essenziali restino accessibili.
Sitemap e pagine canoniche
I file di supporto contano quanto le regole di accesso
Un robots.txt corretto serve a poco se sitemap, canonical e pagine principali non sono affidabili. I motori AI recuperano meglio contenuti ben canonizzati, con URL stabili, titoli espliciti e struttura chiara. Una pagina duplicata, sottile o incoerente crea ambiguità e riduce la probabilità di essere usata come fonte.
Pagine da favorire e pagine da escludere
Non tutto il sito ha lo stesso valore per un motore generativo
Le AI privilegiano contenuti chiari, stabili, verificabili e ricchi di contesto. Ha senso favorire guide, schede servizio, policy, FAQ, glossari e pagine istituzionali. Ha poco senso esporre a discovery pagine thin, filtri vuoti, risultati interni, aree duplicate o contenuti promozionali privi di sostanza informativa.
Vuoi capire quali di questi segnali mancano al tuo sito?
AEO Metrix aiuta a individuare i gap tecnici, editoriali e semantici che riducono la visibilità nei motori AI e a trasformarli in una roadmap operativa.
Approfondimento
Qual è la configurazione più sensata oggi
La configurazione corretta parte da un principio semplice: se vuoi essere citato da motori AI, devi rendere accessibili i contenuti utili al recupero e chiarire quali sono le pagine più affidabili del sito. Non basta creare llms.txt; serve anche una base tecnica pulita fatta di robots.txt coerente, sitemap aggiornata, canonical corrette e pagine informative solide.
Per i publisher e i brand, la scelta non dovrebbe essere ideologica ma operativa. Bloccare indiscriminatamente tutti i crawler può ridurre la comparsa del sito in esperienze di ricerca assistita. Al contrario, aprire tutto senza governance espone risorse irrilevanti o duplicate. La soluzione migliore è una strategia selettiva e documentata.
Un buon llms.txt può funzionare come indice ragionato: homepage, pagine pilastro, documentazione, pagine di contatto, policy, fonti autorevoli interne e sezioni da evitare. È particolarmente utile quando il sito ha molte aree, quando i contenuti sono tecnici o quando il brand vuole dare segnali chiari su quali URL rappresentano la fonte ufficiale.
Checklist decisionale
Cosa controllare in pratica
Una matrice rapida per trasformare la guida in priorità operative.
| Controllo | Errore comune | Conseguenza | Scelta corretta | Priorità |
|---|---|---|---|---|
| Bloccare tutti i bot AI | Disallow globale | Meno discovery e meno retrieval | Blocchi selettivi per aree sensibili | Alta |
| Assenza sitemap | Nessuna sitemap pulita | Minor chiarezza sugli URL importanti | Sitemap XML aggiornata e coerente | Alta |
| llms.txt assente o vuoto | Nessuna guida per LLM | Più ambiguità sulle fonti | File sintetico con URL canoniche | Media |
| Pagine duplicate | Canonical incoerenti | Fonte meno affidabile | Riduzione duplicazioni e URL stabili | Alta |
| Asset bloccati | CSS/JS non accessibili | Rendering peggiore e segnali incompleti | Consentire gli asset necessari | Media |
Domande frequenti
FAQ
llms.txt è obbligatorio?
No. Non è un requisito formale del web come robots.txt. È però un supporto utile per indicare alle AI quali pagine sono più affidabili e rilevanti.
Se blocco un crawler AI sparisco ovunque?
Non sempre. Dipende dal tipo di crawler e dallo scenario. Bloccare bot usati per discovery o retrieval può però ridurre la probabilità che i tuoi contenuti vengano recuperati e citati.
Robots.txt basta per controllare tutto?
No. Controlla soprattutto crawling automatico. Non sostituisce una buona architettura informativa, né risolve problemi di qualità dei contenuti o di autorevolezza.
Quali pagine conviene inserire in llms.txt?
Homepage, pagine pilastro, guide, documentazione, FAQ, policy, contatti, pagine brand ufficiali e ogni URL che vuoi far riconoscere come fonte primaria.
Serve aggiornare questi file spesso?
Sì, ogni volta che cambiano struttura del sito, aree strategiche, sezioni informative o policy di accesso.
Trasforma queste linee guida in un piano operativo
AEO Metrix aiuta a capire quali elementi tecnici, semantici ed editoriali stanno limitando la tua visibilità nei motori AI e quali interventi hanno la priorità più alta.