kostenloser Webspace werbefrei: lima-city


robots.txt

lima-cityForumDie eigene HomepageHomepage Allgemein

  1. Autor dieses Themas

    yorecords

    Kostenloser Webspace von yorecords

    yorecords hat kostenlosen Webspace.

    Hallo.

    Ich will einige Seiten und vor allen Bilder für Suchmaschienen verbieten, und bis gestern hat das alles auch noch funktioniert. Nur auf einmal macht Google nicht mehr wirklich mit.. Ich hab schon auf jeder betreffenden Seite mittels Meta-Tag ein verbot erstellt (<meta name=“robots“ content=“noindex“>) heute sogar noch extra für den Googlebot dazu, und ich hab auch in der robots.txt alles festgehalten, aber Google hält sich nicht mehr dran. So erscheint z.B. wenn man bei Google "the Yo theYoRecords" eingibt irgendwo unter die Seite www.theyorecords.de/content/about.html. Dabei hab ich die durch Meta-Tag und robots.txt gesperrt... Ich kenn mich nicht mehr aus.
    Hier mal der Inhalt meiner Robots.txt:

    User-Agent: Googlebot-Image
    User-Agent: *
    Disallow: /pics/aboutbutton1.gif
    Disallow: /pics/aboutbutton2.gif
    Disallow: /pics/back.jpg
    Disallow: /pics/downloadsbutton1.gif
    Disallow: /pics/downloadsbutton2.gif
    Disallow: /pics/fbanner1.jpg
    Disallow: /pics/fbanner2.jpg
    Disallow: /pics/homebutton1.gif
    Disallow: /pics/homebutton2.gif
    Disallow: /pics/leftbg.jpg
    Disallow: /pics/linksbutton1.gif
    Disallow: /pics/linksbutton2.gif
    Disallow: /pics/lyricsbutton1.gif
    Disallow: /pics/lyricsbutton2.gif
    Disallow: /pics/mainbg.gif
    Disallow: /pics/mbanner1.jpg
    Disallow: /pics/mbanner2.jpg
    Disallow: /pics/mil.jpg
    Disallow: /pics/musicbutton1.gif
    Disallow: /pics/musicbutton2.gif
    Disallow: /pics/newsbutton1.gif
    Disallow: /pics/newsbutton2.gif
    Disallow: /pics/next.jpg
    Disallow: /pics/os.jpg
    Disallow: /pics/picsbutton1.gif
    Disallow: /pics/picsbutton2.gif
    Disallow: /pics/pna.jpg
    Disallow: /pics/s.jpg
    Disallow: /pics/storebutton1.gif
    Disallow: /pics/storebutton2.gif
    Disallow: /pics/topbg.jpg
    Disallow: /pics/ybanner1.jpg
    Disallow: /pics/ybanner2.jpg

    User-Agent: Googlebot
    User-agent: *
    Disallow: /content/
    Disallow: /css/
    Disallow: /font/
    Disallow: /js/
    Disallow: /thumbnails/
    Disallow: /sides.html
    Disallow: /leftframe.html
    Disallow: /mainframe.html
    Disallow: /topframe.html
    Disallow: /ulinks.html

    User-agent: EmailCollector
    Disallow: /


    Hab jetzt sogar auch da den Googlebot extra erwähnt... Ich hoffe jemand hat eine Idee wie ich das lösen könnte.
    Danke im Voraus.

  2. Diskutiere mit und stelle Fragen: Jetzt kostenlos anmelden!

    lima-city: Gratis werbefreier Webspace für deine eigene Homepage

  3. Hallo,

    ich denke die folgende Zeile muss weg:
    User-Agent: Googlebot-Image
    Mit * statt "Googlebot-Image" ist es auch getan. Doppelt "User-Agent" geht nicht, so weit ich weis.
    Ich würde auch die 2 obersten Blöcke zusammen fassen.

    Weitere Informationen:
    http://de.wikipedia.org/wiki/Robots_Exclusion_Standard

    Gruß
    David
  4. Autor dieses Themas

    yorecords

    Kostenloser Webspace von yorecords

    yorecords hat kostenlosen Webspace.

    david-tiede schrieb:
    Hallo,

    ich denke die folgende Zeile muss weg:
    User-Agent: Googlebot-Image
    Mit * statt "Googlebot-Image" ist es auch getan. Doppelt "User-Agent" geht nicht, so weit ich weis.
    Ich würde auch die 2 obersten Blöcke zusammen fassen.

    Weitere Informationen:
    http://de.wikipedia.org/wiki/Robots_Exclusion_Standard

    Gruß
    David


    Das hab ich anfangs sowieso so gemacht. Nur da es nichts gebracht hat, hab ich den Googlebot halt extra erwähnt. Und man kann sehr wohl doppelt "User-Agent" angeben.
    Hier der Link dazu:
    http://de.selfhtml.org/diverses/robots.htm

    Allerdings hab ich da gerade gelesen, dass ich das in einem Datensatz mit * nicht machen kann. Also muss ich dafür in diesem Fall doch extra einen anlegen.
  5. hackyourlife

    Moderator Kostenloser Webspace von hackyourlife

    hackyourlife hat kostenlosen Webspace.

    Du kannst auch per htaccess sperren, sodass der Google-Bot gar keinen Zugriff auf deinen Ordner bekommt. Dann kann er auch nichts auflisten!
    #get rid of bad bots
    RewriteEngine on
    RewriteCond %{HTTP_USER_AGENT} ^BadBot [OR]
    RewriteCond %{HTTP_USER_AGENT} ^EvilScraper [OR]
    RewriteCond %{HTTP_USER_AGENT} ^FakeUser
    RewriteRule ^(.*)$ http://go.away/
    Du musst halt noch alle verbotenen User-Agents eintragen.
    Statt der Weiterleitung auf http://go.away/ kannst du irgendwas machen, z.B. würde ich eine 404-Seite zurückgeben, sodass der Google-Bot glaubt die Seite (Ordner) gibt es gar nicht.

    Ob er sich an robots.txt und meta hält ist bei dieser Variante egal, da er vollständig geblockt wird.
  6. Autor dieses Themas

    yorecords

    Kostenloser Webspace von yorecords

    yorecords hat kostenlosen Webspace.

    hackyourlife schrieb:
    Du kannst auch per htaccess sperren, sodass der Google-Bot gar keinen Zugriff auf deinen Ordner bekommt. Dann kann er auch nichts auflisten!
    #get rid of bad bots
    RewriteEngine on
    RewriteCond %{HTTP_USER_AGENT} ^BadBot [OR]
    RewriteCond %{HTTP_USER_AGENT} ^EvilScraper [OR]
    RewriteCond %{HTTP_USER_AGENT} ^FakeUser
    RewriteRule ^(.*)$ http://go.away/
    Du musst halt noch alle verbotenen User-Agents eintragen.
    Statt der Weiterleitung auf http://go.away/ kannst du irgendwas machen, z.B. würde ich eine 404-Seite zurückgeben, sodass der Google-Bot glaubt die Seite (Ordner) gibt es gar nicht.

    Ob er sich an robots.txt und meta hält ist bei dieser Variante egal, da er vollständig geblockt wird.


    Das hört sich gut an. Nur hab ich null Ahnung davon.. Kann man die gewünschten Unterordner nicht einfach für alle Suchmaschinen sperren? Und wie geb ich dann eine 404 Seite zurück? Und hat das ganze irgendwelche Nachteile?


    Und das passt jetzt zwar nicht zum Thema, aber ich wollte eine Weiterleitung einrichten, dass alle die z.B. theyorecords.de oder yorecords.lima-city.de aufrufen automatisch auf www.theyorecords.de weitergeleitet werden (im Endeffekt für Google). Jetzt hab ich diesen Code für die .htaccess bekommen:

    RewriteCond %{HTTP_HOST} !^www.theyorecords.de$ [NC]
    RewriteRule ^(.*) http://www.theyorecords.de/$1 [L,R=301]


    Nur funktioniert das jetzt nicht wirklich. Wenn ich im IE theyorecords.de eingebe funktioniert es. In einem anderen Browser jedoch nicht. Und mit der anderen Adresse funktioniert es überhaupt nicht. Weißt du was da falsch ist und wie es richtig gehört?
  7. So sieht der Code meiner .htaccess aus und funktioniert sowohl mit Firefox als auch mit dem Internet Explorer:

    RewriteEngine On
    
    RewriteCond %{HTTP_HOST} !^www.staymyfriend.de.vu [NC]
    RewriteRule ^(.*)$ http://www.staymyfriend.de.vu/$1 [L,R=301]

    Da Du praktisch den gleichen Code verwendest, solltest Du mal die Einstellungen Deiner Domain (Nameserver) überprüfen...

    Beitrag zuletzt geändert: 13.1.2012 19:25:13 von staymyfriend
  8. Autor dieses Themas

    yorecords

    Kostenloser Webspace von yorecords

    yorecords hat kostenlosen Webspace.

    staymyfriend schrieb:
    So sieht der Code meiner .htaccess aus und funktioniert sowohl mit Firefox als auch mit dem Internet Explorer:

    RewriteEngine On
    
    RewriteCond %{HTTP_HOST} !^www.staymyfriend.de.vu [NC]
    RewriteRule ^(.*)$ http://www.staymyfriend.de.vu/$1 [L,R=301]

    Da Du praktisch den gleichen Code verwendest, solltest Du mal die Einstellungen Deiner Domain (Nameserver) überprüfen...


    Ok, danke. Was soll ich da überprüfen und wo kann ich das? Und müsste ich nicht sowieso yorecords.lima-city.de extra erwähnen?
  9. Hast Du Deine Domain hier bei LC? Da funktioniert der Code so wie beschrieben...
    Falls Du die Domain bei einem anderen Anbieter hostest, musst Du überprüfen, ob auch ein Eintrag für die "www."-Subdomain gemacht oder ein Catch-all ("*." - alle undefinierte Subdomains) eingerichtet wurde.

    "yorecords.lima-city.de" musst Du nicht extra erwähnen, da die Umleitung immer ausgeführt wird, wenn die URL nicht mit "www.theyorecords.de" beginnt...

    Beitrag zuletzt geändert: 14.1.2012 9:14:58 von staymyfriend
  10. Autor dieses Themas

    yorecords

    Kostenloser Webspace von yorecords

    yorecords hat kostenlosen Webspace.

    staymyfriend schrieb:
    Hast Du Deine Domain hier bei LC? Da funktioniert der Code so wie beschrieben...
    Falls Du die Domain bei einem anderen Anbieter hostest, musst Du überprüfen, ob auch ein Eintrag für die "www."-Subdomain gemacht oder ein Catch-all ("*." - alle undefinierte Subdomains) eingerichtet wurde.

    "yorecords.lima-city.de" musst Du nicht extra erwähnen, da die Umleitung immer ausgeführt wird, wenn die URL nicht mit "www.theyorecords.de" beginnt...


    Ja, ich hab die Domain hier.

    Geil, danke!! Habs jetzt mit deinem Code versucht und es funktioniert! :biggrin:

    Aber jetzt zurück zum anfänglichen Problem: Kann mir wer sagen warum Google meine robots.txt ignoriert? Hier die derzeitige Version:

    User-Agent: Googlebot-Image
    Disallow: /pics/aboutbutton1.gif
    Disallow: /pics/aboutbutton2.gif
    Disallow: /pics/back.jpg
    Disallow: /pics/downloadsbutton1.gif
    Disallow: /pics/downloadsbutton2.gif
    Disallow: /pics/fbanner1.jpg
    Disallow: /pics/fbanner2.jpg
    Disallow: /pics/homebutton1.gif
    Disallow: /pics/homebutton2.gif
    Disallow: /pics/leftbg.jpg
    Disallow: /pics/linksbutton1.gif
    Disallow: /pics/linksbutton2.gif
    Disallow: /pics/lyricsbutton1.gif
    Disallow: /pics/lyricsbutton2.gif
    Disallow: /pics/mainbg.gif
    Disallow: /pics/mbanner1.jpg
    Disallow: /pics/mbanner2.jpg
    Disallow: /pics/mil.jpg
    Disallow: /pics/musicbutton1.gif
    Disallow: /pics/musicbutton2.gif
    Disallow: /pics/newsbutton1.gif
    Disallow: /pics/newsbutton2.gif
    Disallow: /pics/next.jpg
    Disallow: /pics/os.jpg
    Disallow: /pics/picsbutton1.gif
    Disallow: /pics/picsbutton2.gif
    Disallow: /pics/pna.jpg
    Disallow: /pics/s.jpg
    Disallow: /pics/storebutton1.gif
    Disallow: /pics/storebutton2.gif
    Disallow: /pics/topbg.jpg
    Disallow: /pics/ybanner1.jpg
    Disallow: /pics/ybanner2.jpg
    Allow: /the Yo googlepics/

    User-Agent: Googlebot
    Disallow: /
    Allow: /index.html
    Allow: /the Yo googlepics/

    User-Agent: *
    Disallow: /
    Allow: /index.html
    Allow: /the Yo googlepics/

    User-agent: EmailCollector
    Disallow: /


    Und trotzdem kommen Unterseiten die ich eigentlich hier verboten habe bei Google als Ergebnis wenn man "theYoRecords" eingibt... Das ist echt scheiße. Ich hoffe jemand weiß eine Lösung..
  11. Kurze Frage: verwendest Du Leerzeichen in der Bezeichnung Deiner Unterverzeichnisse?! Wenn ja, ersetze diese z.B. durch Unterstriche ("_")...

    Wenn google einmal Deine Daten indiziert hat, dauert es eine gewisse Zeit, bis diese wieder gelöscht werden. Du kannst aber auch bei google selbst Deine Dateien aus den Suchergebnissen löschen soweit ich weiß, aber frag mich jetzt nicht wie! Da musst Du dann besser googlen! :biggrin:

    Beitrag zuletzt geändert: 14.1.2012 16:39:35 von staymyfriend
  12. Autor dieses Themas

    yorecords

    Kostenloser Webspace von yorecords

    yorecords hat kostenlosen Webspace.

    staymyfriend schrieb:
    Kurze Frage: verwendest Du Leerzeichen in der Bezeichnung Deiner Unterverzeichnisse?! Wenn ja, ersetze diese z.B. durch Unterstriche ("_")...

    Wenn google einmal Deine Daten indiziert hat, dauert es eine gewisse Zeit, bis diese wieder gelöscht werden. Du kannst aber auch bei google selbst Deine Dateien aus den Suchergebnissen löschen soweit ich weiß, aber frag mich jetzt nicht wie! Da musst Du dann besser googlen! :biggrin:


    Ich verwende nur bei einem Ordner (the Yo googlepics) Leerzeichen. Der hat damit aber nichts zu tun.. Ja, ich weiß eh wie ich die löschen könnte, nur dann ist die ganze Website weg und das will ich auch wieder nicht..
    Ich glaub ich werd das lösen indem ich das Frameset nachladen lasse wenn jemand auf eine Unterseite kommt. Weiß zwar auch nicht genau wie ich das machen soll aber dafür erstell ich besser mal ein neues Thema (Frames: Frameset nachladen).

    Jedenfalls Danke an alle für die Hilfe!
  13. Habe mir gerade hier nochmal Informationen zum Aufbau der robots.txt geholt.
    Da steht z.B. das "Allow: " nie definiert worden ist und somit überflüssig in Deinem Code ist...

    User-Agent: Googlebot-Image
    User-Agent: *
    Die erste Zeile kannst Du Dir eigentlich auch sparen, da "*" für alle Robots steht und so auch automatisch der "Googlebot-Image". Ich habe aber nichts dazu gefunden, ob Gross-/Kleinschreibung in dieser Datei entscheidend ist.

    Nachfolgend noch Links zu google...

    http://support.google.com/webmasters/bin/answer.py?hl=de&answer=156449
    http://support.google.com/webmasters/bin/answer.py?answer=93710

    Beitrag zuletzt geändert: 14.1.2012 18:38:54 von staymyfriend
  14. Autor dieses Themas

    yorecords

    Kostenloser Webspace von yorecords

    yorecords hat kostenlosen Webspace.

    staymyfriend schrieb:
    Habe mir gerade hier nochmal Informationen zum Aufbau der robots.txt geholt.
    Da steht z.B. das "Allow: " nie definiert worden ist und somit überflüssig in Deinem Code ist...


    Ja, das hab ich anfangs auch gedacht. Ist aber anscheinend doch nicht so. http://de.wikipedia.org/wiki/Robots_Exclusion_Standard
    Google selbst verwendet es auch: http://www.google.ch/robots.txt


    staymyfriend schrieb:
    Die erste Zeile kannst Du Dir eigentlich auch sparen, da "*" für alle Robots steht und so auch automatisch der "Googlebot-Image". Ich habe aber nichts dazu gefunden, ob Gross-/Kleinschreibung in dieser Datei entscheidend ist.


    Ich habs zuerst auch so versucht, nur da das nichts gebracht hat hab ich entschieden den Googlebot extra zu nennen. Sowohl in der robots.txt als auch in den Meta-Angaben..

    Danke für die Links, aber das hab ich alles schon gewusst. Wahrscheinlich liegt es eh nur daran dass es eben dauert bis Google das aktualisiert..
  15. hackyourlife

    Moderator Kostenloser Webspace von hackyourlife

    hackyourlife hat kostenlosen Webspace.

    yorecords schrieb:
    RewriteCond %{HTTP_HOST} !^www.theyorecords.de$ [NC]
    RewriteRule ^(.*) http://www.theyorecords.de/$1 [L,R=301]
    Falls jemanden interessiert wo hier der Fehler liegt:
    RewriteRule ^(.*)$ http://www.theyorecords.de/$1 [L,R=301]
    Hier wurde ein $ vergessen! $ steht für das Ende des Strings. Vor diesem Codeblock muss natürlich noch
    RewriteEngine on
    stehen, was yorecords auch vergessen hat.
  16. Autor dieses Themas

    yorecords

    Kostenloser Webspace von yorecords

    yorecords hat kostenlosen Webspace.

    hackyourlife schrieb:
    yorecords schrieb:
    RewriteCond %{HTTP_HOST} !^www.theyorecords.de$ [NC]
    RewriteRule ^(.*) http://www.theyorecords.de/$1 [L,R=301]
    Falls jemanden interessiert wo hier der Fehler liegt:
    RewriteRule ^(.*)$ http://www.theyorecords.de/$1 [L,R=301]
    Hier wurde ein $ vergessen! $ steht für das Ende des Strings.


    Jap, danke bin ich schon draufgekommen. Hab den Code so bekommen..

    hackyourlife schrieb:
    Vor diesem Codeblock muss natürlich noch
    RewriteEngine on
    stehen, was yorecords auch vergessen hat.


    Ne, das hab ich nicht vergessen. Habs nur hier nicht geschrieben weil ich dachte dass es eh klar ist.
  17. Diskutiere mit und stelle Fragen: Jetzt kostenlos anmelden!

    lima-city: Gratis werbefreier Webspace für deine eigene Homepage

Dir gefällt dieses Thema?

Über lima-city

Login zum Webhosting ohne Werbung!