KI aussperren mit „429“
lima-city → Forum → Programmiersprachen → PHP, MySQL & .htaccess
-
Meine Webseite hatte konstant die letzten Jahre ein paar hundert Aufrufe im Monat, angesichts des hohen Grades an Spezialisierung der Themen etwas das mir ganz Recht ist.
Seit die „KI“-Hysterie begonnen hat waren auch die Aufrufe angestiegen, was ich zunächst nicht registriert habe. Trotzdem fand ich irgendwann das zunehmende Interesse sonderbar. Anfang März 2025 war ich (inkl. aller Unterseiten) bei 3-4000 Aufrufen am Tag mit Spitzentagen bei 10000.
Ich bin jetzt nicht so begeistert davon, wenn meine Texte zum Zusammen-halluzinieren von verkauften „Werken“ verwendet werden. Einen robots.txt mit Ausschuß der übleren Bots habe ich schon länger, aber der wird ja regelmäßig von KI ignoriert.
Ich habe mir, nach etwas Recherche , die wohl nicht so häufig genutzte http-Antwort 429 („zu viele Anfragen“) zusammengezimmert und in mein .htaccess eingebaut:
<IfModule mod_rewrite.c> RewriteEngine On RewriteCond %{HTTP_USER_AGENT} ^.*(Yahoo!\ Slurp|semrushbot|GPTBot|ChatGPT-User|OAI-SearchBot|Google-Extended|Applebot|Applebot-Extended|BingBot|heartbeat|uptimerobot|shoppimon|facebookexternal|FacebookBot|Commons-HttpClient|PerplexityBot|monitis.com|Zend_Http_Client|magereport.com|SendCloud/|Adyen|ForusP|contentkingapp|node-fetch|Hipex|xCore|Mollie).*$ [NC] RewriteRule "^meine-seite.de/(.+)" - [R=429] </IfModule>
Voilà, am Tag nach dem Freischalten sind die page views von 3910 auf 258 gefallen! Sie pendeln nun in der ersten Woche bei 300-750, wenn davon die Hälfte echte Leser sind (und keine Suchmaschinen), dann ist mir das lieber, weil wenigstens wirklich Interessierte erreicht werden.
Die Liste wäre sicher ausbaubar. -
Diskutiere mit und stelle Fragen: Jetzt kostenlos anmelden!
lima-city: Gratis werbefreier Webspace für deine eigene Homepage
-
zenworte schrieb:
Meine Webseite hatte konstant die letzten Jahre ein paar hundert Aufrufe im Monat, angesichts des hohen Grades an Spezialisierung der Themen etwas das mir ganz Recht ist.
Seit die „KI“-Hysterie begonnen hat waren auch die Aufrufe angestiegen, was ich zunächst nicht registriert habe. Trotzdem fand ich irgendwann das zunehmende Interesse sonderbar. Anfang März 2025 war ich (inkl. aller Unterseiten) bei 3-4000 Aufrufen am Tag mit Spitzentagen bei 10000.
Ich bin jetzt nicht so begeistert davon, wenn meine Texte zum Zusammen-halluzinieren von verkauften „Werken“ verwendet werden. Einen robots.txt mit Ausschuß der übleren Bots habe ich schon länger, aber der wird ja regelmäßig von KI ignoriert.
Ich habe mir, nach etwas Recherche , die wohl nicht so häufig genutzte http-Antwort 429 („zu viele Anfragen“) zusammengezimmert und in mein .htaccess eingebaut:
<IfModule mod_rewrite.c> RewriteEngine On RewriteCond %{HTTP_USER_AGENT} ^.*(Yahoo!\ Slurp|semrushbot|GPTBot|ChatGPT-User|OAI-SearchBot|Google-Extended|Applebot|Applebot-Extended|BingBot|heartbeat|uptimerobot|shoppimon|facebookexternal|FacebookBot|Commons-HttpClient|PerplexityBot|monitis.com|Zend_Http_Client|magereport.com|SendCloud/|Adyen|ForusP|contentkingapp|node-fetch|Hipex|xCore|Mollie).*$ [NC] RewriteRule "^meine-seite.de/(.+)" - [R=429] </IfModule>
Voilà, am Tag nach dem Freischalten sind die page views von 3910 auf 258 gefallen! Sie pendeln nun in der ersten Woche bei 300-750, wenn davon die Hälfte echte Leser sind (und keine Suchmaschinen), dann ist mir das lieber, weil wenigstens wirklich Interessierte erreicht werden.
Die Liste wäre sicher ausbaubar.
Du könntest auch ein Kleines Captcha Nutzen um KI oder Crawler fernzuhalten. Oder auch Javascript vorraussetzen. Das wären so die einfachsten Möglichkeiten um sicher zu gehen, dass höchstwahrscheinlich ein Mensch den Zugang
KIs und Crawler verschleiern gern ihren Header, sowie Herkunft.
Javascript methode wäre aber zugänglicher als Captchas.
Was du noch tun kannst, wäre deine Domain über Cloudflare schalten zu lassen. Es wurde soweit ich weiß ein AI Labyrinth hinzugefügt, was die KIs verwirren soll und dessen ressourcen Binden.
Wenn du Cloudflare nutzt, dann könntest du den "Under attack Mode" nutzen. Dann wird Cloudflare eine JavaScript-Abfrage durchführen, ob es sich dabei um ein Mensch handelt, der deine Webseite besuchen will. Das ist auch Kostenfrei aktivierbar und bleibt dauerhaft aktiv, wie es scheint.
Google und Microsoft haben angekündigt, dass sie respektieren, wenn User KI von ihrer Webseite fernhalten wollen. Der Code um dies zu tun ist:
<meta name="robots" content="noai, noimageai">
Das muss in den Head-Bereich eingefügt werden. Die Crawler wissen somit direkt und offensichtlich, dass sie unerwünscht sind und nutzen die Inhalte nicht mehr zum KI Trainig oder greifen darauf zu.
Ob das auch für die vergangenheit gilt, weiß ich aber nicht. Da bin ich kein Experte darin.
Hoffe, dass dir meine Tipps vielleicht was Bringen. Denn diese Regeln in der htaccess datei sind leicht umgehbar, wie du ja bereits festgestellt hast und es gibt ja auch KI Anbieter, die das von sich aus Akzeptieren.
Beitrag zuletzt geändert: 25.3.2025 18:58:20 von bruchpilotnr1 -
Ich sehe "Yahoo" und "BingBot" in der Liste, womit auch normale Suchmaschinen veraltete Ergebnisse anzeigen werden. Außerdem schreibt Google offiziell bei "Google-Extended", dass dieser Bot keinen separaten User Agent hat und sich "Google-Extended" nur auf die robots.txt bezieht. https://developers.google.com/search/docs/crawling-indexing/google-common-crawlers#google-extended.
-
Diskutiere mit und stelle Fragen: Jetzt kostenlos anmelden!
lima-city: Gratis werbefreier Webspace für deine eigene Homepage