Az llms.txt új szabvány az AI ellen: Mit tud, mire jó és hogyan állítsd be?
Az utóbbi években a mesterséges intelligencia – különösen a nagy nyelvi modellek (LLM-ek, azaz Large Language Model), mint a ChatGPT, Gemini, Claude vagy a Meta Llama-modelljei – egyre nagyobb mennyiségű online tartalmat használnak fel tanításhoz és finomhangoláshoz. Ez sok kérdést vet fel:
- Hogyan védi meg egy weboldal a tartalmait a nem kívánt AI-tanítástól?
- Hogyan engedélyezheti vagy tilthatja meg bizonyos AI-rendszereknek a hozzáférést?
- Hogyan biztosítható, hogy tiszteletben tartsák a szerzői jogokat és a felhasználási feltételeket?
Erre jött létre egy új, gyorsan terjedő „szabvány”: az llms.txt fájl.
Ebben a cikkben részletesen bemutatjuk:
Mi az az llms.txt?
Az llms.txt egy speciális szöveges fájl, amelyet a weboldal gyökérkönyvtárába helyezünk, és amely utasításokat ad az LLM-alapú rendszereknek arról, hogyan használhatják fel az oldal tartalmát.
Hasonló a robots.txt-hez, csak éppen a search engine crawlers helyett a language model crawlers számára készül.
Példa elérési út:
https://domain.hu/llms.txt
Miért volt szükség az llms.txt-re?
Ahogy a nagyméretű AI-modellek tanuláshoz és adatfeldolgozáshoz óriási mennyiségű tartalmat használnak, egyre több weboldal-tulajdonos szeretné kontrollálni:
- milyen rendszerek férhetnek hozzá a tartalomhoz,
- milyen célra használhatják fel,
- kell-e hozzájárulást kérniük,
- el kell-e távolítaniuk a már felhasznált adatot.
Az llms.txt erre kínál egy egyszerű, olvasható, nyílt formátumú megoldást.
Hogyan működik az llms.txt?
Az llms.txt:
- a weboldal tetején helyezkedik el (https://domain.hu/llms.txt),
- a különböző LLM szolgáltatók olvassák,
- a fájl deklarálja, hogy a tartalom hogyan használható fel vagy hogyan nem.
A strukturáltsága leginkább a robots.txt-re hasonlít:
user-agent: OpenAI allow: /
Az llms.txt és a robots.txt közötti különbségek:
| Tulajdonság | robots.txt | llms.txt |
|---|---|---|
| Cél | webcrawlerek irányítása | LLM rendszerek irányítása |
| Tárgy | keresőmotoros indexelés | AI-tréning és tartalomfelhasználás |
| Kötelező érvény? | nem, de erősen követik | nem kötelező, de az AI-cégek önként követik |
| Kinek szól? | Googlebot, Bingbot stb. | OpenAI, Anthropic, Meta, Google AI, Llama stb. |
| Tipikus használat | indexelés tiltása | AI tréning tiltása/engedélyezése |
Hogyan néz ki egy alap llms.txt?
Minden LLM tiltása:
Ha nem szeretnéd, hogy a tartalmadat bármilyen AI modell tanítsa:
user-agent: * disallow: /
Minden LLM engedélyezése:
Ebben az esetben az oldal tulajdonosa teljes hozzáférést ad minden nyelvi modellnek, vagyis bármelyik AI-rendszer taníthatja vagy elemezheti a weboldal tartalmát. Ez akkor lehet hasznos, ha szeretnéd növelni a tartalmaid elérését, vagy ha fontos számodra, hogy az AI eszközök hivatkozzanak rád. Ez a legnyitottabb beállítás, így csak akkor érdemes használni, ha nincs érzékeny vagy üzleti titoknak számító információ az oldalon.
user-agent: * allow: /
Csak OpenAI engedélyezése, mások tiltása
Ez a konfiguráció lehetővé teszi, hogy csak az OpenAI rendszerei férjenek hozzá a weboldaladhoz, miközben minden más AI-céget blokkolhatsz. Hasznos lehet, ha bizonyos szolgáltatókban jobban megbízol, vagy üzleti okok miatt csak meghatározott partnerek számára szeretnél hozzáférést adni. A szelektív engedélyezés egyre gyakoribb, mivel sok weboldal szeretné pontosabban kontrollálni, hogy ki használhatja fel a tartalmát.
# OpenAI engedélyezése user-agent: OpenAI allow: / # Minden más tiltása user-agent: * disallow: /

A ChatGPT-t az OpenAI fejleszti és üzemelteti.
Licenc vagy felhasználási feltételek megadása
Az llms.txt nemcsak tiltásra és engedélyezésre jó, hanem arra is, hogy közöld az AI-rendszerekkel a tartalom felhasználásának feltételeit. Ilyenkor a fájlban megadhatsz egy hivatkozást a weboldalad ÁSZF-jére vagy licencfeltételeire. Ez jogi biztonságot ad, mivel egyértelműen kommunikálod, milyen módon használhatóak fel az oldalon található szövegek, képek vagy adatok. Ez különösen fontos lehet kiadók, céges weboldalak, tartalomgyártók számára.
user-agent: * allow: / terms: https://domain.hu/altalanos-szerzodesi-feltetelek
Egyes mappák védelme
Ha vannak olyan részei a weboldaladnak, amelyeket sem keresők, sem mesterséges intelligenciák nem láthatnak (például admin felület, privát dokumentumok, ügyfélanyagok), akkor érdemes az llms.txt segítségével kifejezetten kizárni ezeket a könyvtárakat. Így elkerülhető, hogy véletlenül érzékeny adatok kerüljenek be AI-tréning adathalmazokba vagy elemző rendszerekbe. Ez jó gyakorlat minden olyan oldalnál, ahol van adminisztrációs felület vagy olyan dokumentumok, amelyeket nem szeretnél más rendszereknek átengedni.
user-agent: * allow: /blog/ disallow: /admin/ disallow: /private/
Haladó llms.txt minták
Részleges hozzáférés, időkorlátok, rate limit jelzések
Ez a beállítás akkor hasznos, ha engedélyezed ugyan az AI-rendszerek számára a tartalom elérését, de szeretnéd korlátozni a letöltési sebességüket vagy a feldolgozható adatmennyiséget. Így elkerülhető a túlterhelés, és pontosabban szabályozhatod, milyen tempóban használják fel az oldalt.
user-agent: * allow: /public/ crawl-delay: 5 max-crawl-size: 10MB
Jogilag szigorú tiltás + kontakt információ
Ebben az esetben az llms.txt egyértelműen deklarálja, hogy tilos bármilyen AI-tréningre vagy adatgyűjtésre felhasználni a weboldal tartalmát, és megad egy elérhetőséget jogi vagy adatvédelmi megkeresések számára. Ez különösen akkor ajánlott, ha kiemelten védett tartalmakat kezelsz.
user-agent: * disallow: / contact: legal@domain.hu copyright: all-rights-reserved license: no-ai-training
Csak nem kereskedelmi AI-rendszereknek
Ezzel a konfigurációval azt adhatod a tudtára az AI-crawlereknek, hogy a weboldalad tartalma csak kutatási vagy oktatási célra használható, kereskedelmi modellek számára pedig tiltott. Ez jó megoldás lehet nonprofit szervezeteknek, oktatási oldalaknak vagy olyan tartalomkészítőknek, akik nem kívánnak üzleti célú AI-tréningben részt venni.
user-agent: * allow-noncommercial: / disallow-commercial: /
Rank Math már támogatja az llms.txt fájlt!
Ha Rank Math SEO bővítményt használsz, jó hír, hogy a plugin beépített támogatást kínál az llms.txt kezeléséhez. Ez azt jelenti, hogy nem szükséges külön fájlt feltöltened FTP-n keresztül, és nem kell saját kóddal generálnod a tartalmat, hiszen a Rank Math automatikusan létrehozza és kiszolgálja az llms.txt fájlt.
A bővítmény az alapján állítja össze a fájl tartalmát, hogy milyen beállításokat hagysz jóvá a hozzáférésekre, és követi a legfrissebb ajánlásokat az AI-rendszerek felé. Így akkor is biztonságban tudhatod a weboldalad tartalmait, ha nem szeretnél kézzel bajlódni a konfigurációval.
A Rank Math tehát nemcsak a keresőrobotok, hanem már a nyelvi modellek felé is biztosít kontrollt — egyszerűen, automatizáltan, WordPress-barát módon.
Milyen LLM user-agentek léteznek?
Az llms.txt jelenleg több ismert AI-szolgáltató által támogatott. Néhány példa:
| Szolgáltató | User-agent |
|---|---|
| OpenAI | OpenAI |
| Google Gemini | Google-Extended |
| Anthropic Claude | Anthropic-AI |
| Meta | MetaAI |
| Perplexity | PerplexityBot |
| Mistral | MistralAI |
| TogetherAI | Together |
Mikor engedélyezd, és mikor tiltsd az LLM-eket?
Az llms.txt egyik legnagyobb előnye, hogy rugalmasan testre szabható: eldöntheted, mely AI-rendszerek férhetnek hozzá a tartalmadhoz, és melyek nem. Éppen ezért érdemes olyan sablonokat használni, amelyek illeszkednek a weboldalad típusához és üzleti céljaihoz. Az alábbiakban bemutatjuk, hogy mikor ajánlott engedélyezni az LLM-ek számára a hozzáférést, és mikor jobb inkább tiltani.
Mikor érdemes engedélyezni?
Engedélyezés akkor javasolt, ha:
- tartalomgyártó, blog vagy magazin oldalt üzemeltetsz, és szeretnéd, hogy az AI-rendszerek hivatkozhassanak rád, ezáltal több olvasót hozva;
- növelnéd a márkaismertséget, és nem zavar, ha a cikkeid, útmutatóid vagy leírásaid megjelennek AI-válaszokban;
- SEO és PR előnyöket szeretnél abból, hogy az AI-modellek megismerik és feldolgozzák a tartalmaidat;
- egyszerű, nyilvános információkat osztasz meg, amelyek nem tartalmaznak üzleti titkot.
Ezekhez tökéletes választás a „minden LLM engedélyezése” vagy a „csak meghatározott AI rendszerek engedélyezése” sablon.
Mikor érdemes tiltani?
A tiltás akkor ajánlott, ha:
- üzleti vagy privát jellegű információkat tartalmaz az oldalad (pl. belső dokumentumok, ügyféladatok, privát tartalmak);
- fizetős tananyagokat, prémium tartalmakat kínálsz, amelyek értéke csökkenhet, ha AI-modellek számára is elérhetővé válnak;
- jogi vagy adatvédelmi okokból fontos a kontroll (pl. egészségügyi, jogi vagy pénzügyi szolgáltatók);
- olyan egyedi know-how-t osztasz meg, amit nem szeretnél viszontlátni más platformokon vagy AI-válaszokban.
Ilyenkor a „teljes tiltás”, a „jogilag szigorú tiltás” vagy az „érzékeny mappák védelme” típusú sablonok használata célszerű.
Ha a tartalmad értékes és nem akarod, hogy AI tanítsa
user-agent: * disallow: / copyright: ©2025 Domain.hu – Minden fog fenntartva!
Ha bloggerként szeretnéd, hogy AI is hivatkozzon rád
user-agent: * allow: / require-attribution: yes terms: https://domain.hu/altalanos-szerzodesi-feltetelek
Vállalkozói vagy ügynökségi weboldalra
user-agent: * allow: / disallow: /ugyfeladatok/ disallow: /admin/ contact: hello@domain.hu
WordPress weboldalakhoz optimalizált
user-agent: * allow: / disallow: /wp-admin/ disallow: /wp-login.php disallow: /wp-json/wp/v2/users
llms.txt generálása WordPress-ben (kóddal)
Ha szeretnél dinamikus llms.txt-t, ezt a kódot tedd a sablonod functions.php-jába vagy egy saját pluginbe:
add_action('init', function () {
if ($_SERVER['REQUEST_URI'] === '/llms.txt') {
header('Content-Type: text/plain; charset=utf-8');
echo "user-agent: *\n";
echo "allow: /\n";
echo "disallow: /wp-admin/\n";
echo "disallow: /private/\n";
echo "terms: " . site_url('/altalanos-szerzodesi-feltetelek') . "\n";
exit;
}
});
Ezzel nem kell FTP-n fájlt feltölteni, a WordPress maga szolgálja ki.
Az llms.txt egy új, nagyon hasznos irányelv, amely lehetővé teszi, hogy:
- kontrolláld a weboldalad AI-felhasználását,
- engedélyezd vagy tiltsd a különböző LLM-rendszereket,
- jogilag egyértelműen kommunikáld a tartalomkezelési szabályokat,
- védd a privát vagy üzleti adatokat.
Ahogy a mesterséges intelligencia fejlődik, az llms.txt várhatóan ugyanúgy alapvető eleme lesz minden weboldalnak, mint a robots.txt.