2025. december 06.

Az llms.txt új szabvány az AI ellen: Mit tud, mire jó és hogyan állítsd be?

Az utóbbi években a mesterséges intelligencia – különösen a nagy nyelvi modellek (LLM-ek, azaz Large Language Model), mint a ChatGPT, Gemini, Claude vagy a Meta Llama-modelljei – egyre nagyobb mennyiségű online tartalmat használnak fel tanításhoz és finomhangoláshoz. Ez sok kérdést vet fel:

  • Hogyan védi meg egy weboldal a tartalmait a nem kívánt AI-tanítástól?
  • Hogyan engedélyezheti vagy tilthatja meg bizonyos AI-rendszereknek a hozzáférést?
  • Hogyan biztosítható, hogy tiszteletben tartsák a szerzői jogokat és a felhasználási feltételeket?

Erre jött létre egy új, gyorsan terjedő „szabvány”: az llms.txt fájl.

Mi az az llms.txt?

Az llms.txt egy speciális szöveges fájl, amelyet a weboldal gyökérkönyvtárába helyezünk, és amely utasításokat ad az LLM-alapú rendszereknek arról, hogyan használhatják fel az oldal tartalmát.

Hasonló a robots.txt-hez, csak éppen a search engine crawlers helyett a language model crawlers számára készül.

Példa elérési út:

https://domain.hu/llms.txt

Miért volt szükség az llms.txt-re?

Ahogy a nagyméretű AI-modellek tanuláshoz és adatfeldolgozáshoz óriási mennyiségű tartalmat használnak, egyre több weboldal-tulajdonos szeretné kontrollálni:

  • milyen rendszerek férhetnek hozzá a tartalomhoz,
  • milyen célra használhatják fel,
  • kell-e hozzájárulást kérniük,
  • el kell-e távolítaniuk a már felhasznált adatot.

Az llms.txt erre kínál egy egyszerű, olvasható, nyílt formátumú megoldást.

Hogyan működik az llms.txt?

Az llms.txt:

  • a weboldal tetején helyezkedik el (https://domain.hu/llms.txt),
  • a különböző LLM szolgáltatók olvassák,
  • a fájl deklarálja, hogy a tartalom hogyan használható fel vagy hogyan nem.

A strukturáltsága leginkább a robots.txt-re hasonlít:

user-agent: OpenAI
allow: /

Az llms.txt és a robots.txt közötti különbségek:

Tulajdonság robots.txt llms.txt
Cél webcrawlerek irányítása LLM rendszerek irányítása
Tárgy keresőmotoros indexelés AI-tréning és tartalomfelhasználás
Kötelező érvény? nem, de erősen követik nem kötelező, de az AI-cégek önként követik
Kinek szól? Googlebot, Bingbot stb. OpenAI, Anthropic, Meta, Google AI, Llama stb.
Tipikus használat indexelés tiltása AI tréning tiltása/engedélyezése

Hogyan néz ki egy alap llms.txt?

Minden LLM tiltása:

Ha nem szeretnéd, hogy a tartalmadat bármilyen AI modell tanítsa:

user-agent: *
disallow: /

Minden LLM engedélyezése:

Ebben az esetben az oldal tulajdonosa teljes hozzáférést ad minden nyelvi modellnek, vagyis bármelyik AI-rendszer taníthatja vagy elemezheti a weboldal tartalmát. Ez akkor lehet hasznos, ha szeretnéd növelni a tartalmaid elérését, vagy ha fontos számodra, hogy az AI eszközök hivatkozzanak rád. Ez a legnyitottabb beállítás, így csak akkor érdemes használni, ha nincs érzékeny vagy üzleti titoknak számító információ az oldalon.

user-agent: *
allow: /

Csak OpenAI engedélyezése, mások tiltása

Ez a konfiguráció lehetővé teszi, hogy csak az OpenAI rendszerei férjenek hozzá a weboldaladhoz, miközben minden más AI-céget blokkolhatsz. Hasznos lehet, ha bizonyos szolgáltatókban jobban megbízol, vagy üzleti okok miatt csak meghatározott partnerek számára szeretnél hozzáférést adni. A szelektív engedélyezés egyre gyakoribb, mivel sok weboldal szeretné pontosabban kontrollálni, hogy ki használhatja fel a tartalmát.

# OpenAI engedélyezése
user-agent: OpenAI
allow: /

# Minden más tiltása
user-agent: *
disallow: /
Az llms.txt új szabvány az AI ellen

A ChatGPT-t az OpenAI fejleszti és üzemelteti.

Licenc vagy felhasználási feltételek megadása

Az llms.txt nemcsak tiltásra és engedélyezésre jó, hanem arra is, hogy közöld az AI-rendszerekkel a tartalom felhasználásának feltételeit. Ilyenkor a fájlban megadhatsz egy hivatkozást a weboldalad ÁSZF-jére vagy licencfeltételeire. Ez jogi biztonságot ad, mivel egyértelműen kommunikálod, milyen módon használhatóak fel az oldalon található szövegek, képek vagy adatok. Ez különösen fontos lehet kiadók, céges weboldalak, tartalomgyártók számára.

user-agent: *
allow: /
terms: https://domain.hu/altalanos-szerzodesi-feltetelek

Egyes mappák védelme

Ha vannak olyan részei a weboldaladnak, amelyeket sem keresők, sem mesterséges intelligenciák nem láthatnak (például admin felület, privát dokumentumok, ügyfélanyagok), akkor érdemes az llms.txt segítségével kifejezetten kizárni ezeket a könyvtárakat. Így elkerülhető, hogy véletlenül érzékeny adatok kerüljenek be AI-tréning adathalmazokba vagy elemző rendszerekbe. Ez jó gyakorlat minden olyan oldalnál, ahol van adminisztrációs felület vagy olyan dokumentumok, amelyeket nem szeretnél más rendszereknek átengedni.

user-agent: *
allow: /blog/
disallow: /admin/
disallow: /private/

Haladó llms.txt minták

Részleges hozzáférés, időkorlátok, rate limit jelzések

Ez a beállítás akkor hasznos, ha engedélyezed ugyan az AI-rendszerek számára a tartalom elérését, de szeretnéd korlátozni a letöltési sebességüket vagy a feldolgozható adatmennyiséget. Így elkerülhető a túlterhelés, és pontosabban szabályozhatod, milyen tempóban használják fel az oldalt.

user-agent: *
allow: /public/
crawl-delay: 5
max-crawl-size: 10MB

Jogilag szigorú tiltás + kontakt információ

Ebben az esetben az llms.txt egyértelműen deklarálja, hogy tilos bármilyen AI-tréningre vagy adatgyűjtésre felhasználni a weboldal tartalmát, és megad egy elérhetőséget jogi vagy adatvédelmi megkeresések számára. Ez különösen akkor ajánlott, ha kiemelten védett tartalmakat kezelsz.

user-agent: *
disallow: /

contact: legal@domain.hu
copyright: all-rights-reserved
license: no-ai-training

Csak nem kereskedelmi AI-rendszereknek

Ezzel a konfigurációval azt adhatod a tudtára az AI-crawlereknek, hogy a weboldalad tartalma csak kutatási vagy oktatási célra használható, kereskedelmi modellek számára pedig tiltott. Ez jó megoldás lehet nonprofit szervezeteknek, oktatási oldalaknak vagy olyan tartalomkészítőknek, akik nem kívánnak üzleti célú AI-tréningben részt venni.

user-agent: *
allow-noncommercial: /
disallow-commercial: /

Rank Math már támogatja az llms.txt fájlt!
Ha Rank Math SEO bővítményt használsz, jó hír, hogy a plugin beépített támogatást kínál az llms.txt kezeléséhez. Ez azt jelenti, hogy nem szükséges külön fájlt feltöltened FTP-n keresztül, és nem kell saját kóddal generálnod a tartalmat, hiszen a Rank Math automatikusan létrehozza és kiszolgálja az llms.txt fájlt.

A bővítmény az alapján állítja össze a fájl tartalmát, hogy milyen beállításokat hagysz jóvá a hozzáférésekre, és követi a legfrissebb ajánlásokat az AI-rendszerek felé. Így akkor is biztonságban tudhatod a weboldalad tartalmait, ha nem szeretnél kézzel bajlódni a konfigurációval.

A Rank Math tehát nemcsak a keresőrobotok, hanem már a nyelvi modellek felé is biztosít kontrollt — egyszerűen, automatizáltan, WordPress-barát módon.

Milyen LLM user-agentek léteznek?

Az llms.txt jelenleg több ismert AI-szolgáltató által támogatott. Néhány példa:

Szolgáltató User-agent
OpenAI OpenAI
Google Gemini Google-Extended
Anthropic Claude Anthropic-AI
Meta MetaAI
Perplexity PerplexityBot
Mistral MistralAI
TogetherAI Together

Mikor engedélyezd, és mikor tiltsd az LLM-eket?

Az llms.txt egyik legnagyobb előnye, hogy rugalmasan testre szabható: eldöntheted, mely AI-rendszerek férhetnek hozzá a tartalmadhoz, és melyek nem. Éppen ezért érdemes olyan sablonokat használni, amelyek illeszkednek a weboldalad típusához és üzleti céljaihoz. Az alábbiakban bemutatjuk, hogy mikor ajánlott engedélyezni az LLM-ek számára a hozzáférést, és mikor jobb inkább tiltani.

Mikor érdemes engedélyezni?

Engedélyezés akkor javasolt, ha:

  • tartalomgyártó, blog vagy magazin oldalt üzemeltetsz, és szeretnéd, hogy az AI-rendszerek hivatkozhassanak rád, ezáltal több olvasót hozva;
  • növelnéd a márkaismertséget, és nem zavar, ha a cikkeid, útmutatóid vagy leírásaid megjelennek AI-válaszokban;
  • SEO és PR előnyöket szeretnél abból, hogy az AI-modellek megismerik és feldolgozzák a tartalmaidat;
  • egyszerű, nyilvános információkat osztasz meg, amelyek nem tartalmaznak üzleti titkot.

Ezekhez tökéletes választás a „minden LLM engedélyezése” vagy a „csak meghatározott AI rendszerek engedélyezése” sablon.

Mikor érdemes tiltani?

A tiltás akkor ajánlott, ha:

  • üzleti vagy privát jellegű információkat tartalmaz az oldalad (pl. belső dokumentumok, ügyféladatok, privát tartalmak);
  • fizetős tananyagokat, prémium tartalmakat kínálsz, amelyek értéke csökkenhet, ha AI-modellek számára is elérhetővé válnak;
  • jogi vagy adatvédelmi okokból fontos a kontroll (pl. egészségügyi, jogi vagy pénzügyi szolgáltatók);
  • olyan egyedi know-how-t osztasz meg, amit nem szeretnél viszontlátni más platformokon vagy AI-válaszokban.

Ilyenkor a „teljes tiltás”, a „jogilag szigorú tiltás” vagy az „érzékeny mappák védelme” típusú sablonok használata célszerű.

Ha a tartalmad értékes és nem akarod, hogy AI tanítsa

user-agent: *
disallow: /
copyright: ©2025 Domain.hu – Minden fog fenntartva!

Ha bloggerként szeretnéd, hogy AI is hivatkozzon rád

user-agent: *
allow: /
require-attribution: yes
terms: https://domain.hu/altalanos-szerzodesi-feltetelek

Vállalkozói vagy ügynökségi weboldalra

user-agent: *
allow: /
disallow: /ugyfeladatok/
disallow: /admin/
contact: hello@domain.hu

WordPress weboldalakhoz optimalizált

user-agent: *
allow: /
disallow: /wp-admin/
disallow: /wp-login.php
disallow: /wp-json/wp/v2/users

llms.txt generálása WordPress-ben (kóddal)

Ha szeretnél dinamikus llms.txt-t, ezt a kódot tedd a sablonod functions.php-jába vagy egy saját pluginbe:

add_action('init', function () {
    if ($_SERVER['REQUEST_URI'] === '/llms.txt') {
        header('Content-Type: text/plain; charset=utf-8');

        echo "user-agent: *\n";
        echo "allow: /\n";
        echo "disallow: /wp-admin/\n";
        echo "disallow: /private/\n";
        echo "terms: " . site_url('/altalanos-szerzodesi-feltetelek') . "\n";

        exit;
    }
});

Ezzel nem kell FTP-n fájlt feltölteni, a WordPress maga szolgálja ki.

Az llms.txt egy új, nagyon hasznos irányelv, amely lehetővé teszi, hogy:

  • kontrolláld a weboldalad AI-felhasználását,
  • engedélyezd vagy tiltsd a különböző LLM-rendszereket,
  • jogilag egyértelműen kommunikáld a tartalomkezelési szabályokat,
  • védd a privát vagy üzleti adatokat.

Ahogy a mesterséges intelligencia fejlődik, az llms.txt várhatóan ugyanúgy alapvető eleme lesz minden weboldalnak, mint a robots.txt.