Wie herrausfinden, von welcher Seite der Besucher kommt
lima-city → Forum → Programmiersprachen → PHP, MySQL & .htaccess
bedeutung
befehl
besucher
deswegen
entdeckung
erkennung
extra
fall
filtern
formular
gewissen grenze
gstebuch
inhalt
irgend
methode
page
statistik
steuern
suchmaschine
versteck
-
Der Referrer ist vom Client beliebig manipulierbar, daher allenfalls für Statistiken brauchbar. Privacy-Proxies und "Sicherheits"-Software filtern ihn gern raus oder schreiben da ihre Werbung rein. Daher würde ich mich im Einzelfall nicht auf ihn verlassen.
Mit dem header()-Befehl kann PHP auf dem Server HTTP-Header versenden. Erkennen kann man damit nichts. Dafür gibts apache_request_headers(). Notfalls kann man auch die Variablen im $_SERVER-Array benutzen, deren Schlüssel mit 'HTTP_' anfangen. Die haben die gleichen Werte, wie die entsprechenden Client-Header. Um den Googlebot zu erkennen, kannst du beispielsweise $_SERVER['HTTP_USER_AGENT'] abfragen:
if( preg_match('/Googlebot\/[2-9]/i', $_SERVER['HTTP_USER_AGENT']) ) print('Hallo Google!');
Das Problem dabei: Dieser Header lässt sich genauso einfach ändern, wie der Referrer-Header. Also sehr unzuverlässig.
Was so alles im Array $_SERVER steht, kannst du dir übrigens selbst ansehen:
ksort($_SERVER);
var_dump($_SERVER); -
Diskutiere mit und stelle Fragen: Jetzt kostenlos anmelden!
lima-city: Gratis werbefreier Webspace für deine eigene Homepage
-
Der Referrer ist vom Client beliebig manipulierbar, daher allenfalls für Statistiken brauchbar. Privacy-Proxies und "Sicherheits"-Software filtern ihn gern raus oder schreiben da ihre Werbung rein. Daher würde ich mich im Einzelfall nicht auf ihn verlassen.
[...]
Das machen auch gerne bestimmte lima User, um einen Gruß in den Log Files eines Eisfuxes zu hinterlassen. ;D
[...]
Mit dem header()-Befehl kann PHP auf dem Server HTTP-Header versenden. Erkennen kann man damit nichts. Dafür gibts apache_request_headers(). Notfalls kann man auch die Variablen im $_SERVER-Array benutzen, deren Schlüssel mit 'HTTP_' anfangen. Die haben die gleichen Werte, wie die entsprechenden Client-Header. Um den Googlebot zu erkennen, kannst du beispielsweise $_SERVER['HTTP_USER_AGENT'] abfragen:
if( preg_match('/Googlebot\/[2-9]/i', $_SERVER['HTTP_USER_AGENT']) ) print('Hallo Google!');
[...]
Wer jetzt denken sollte, dass man dem Googlebot extra präparierte Seiten vorsetzen kann, der sollte aufpassen.
Es geht schon, aber Google ist nicht blöd und verhindert es auch ziemlich wirksam. Diese vorgesetzen Seiten heißen Doorpages. Sie sind aber meist nicht sinnvoll, da bei der Entdeckung die Seite meist aus dem Index von Google fliegt.
Ehrlich gesagt wundert es mich aber, dass dann dynamische Seiten von Google überhapt akzeptiert werden. -
Wer jetzt denken sollte, dass man dem Googlebot extra präparierte Seiten vorsetzen kann, der sollte aufpassen.
Es geht schon, aber Google ist nicht blöd und verhindert es auch ziemlich wirksam. Diese vorgesetzen Seiten heißen Doorpages. Sie sind aber meist nicht sinnvoll, da bei der Entdeckung die Seite meist aus dem Index von Google fliegt.
Ehrlich gesagt wundert es mich aber, dass dann dynamische Seiten von Google überhapt akzeptiert werden.
Google steht vor dem gleichen Problem wie du: Die Erkennung von script-generierten Inhalten ist nicht immer hunderprozentig machbar. Wenn das Script alle HTTP-Header ordentlich setzt und keinen X-Powered-By-Header sendet, kann Google nicht erkennen, dass sich dahinter ein Script verbirgt.
Außerdem werden heut zu Tage so viele Seiten dynamisch generiert, dass der Google-Index ziemlich leer aussähe, wenn solche Seiten nicht aufgenommen würden. Also wird bis zu einer gewissen Grenze -- die uns Google natürlich nicht verrät -- indiziert, und alles danach einfach unter den Tisch fallen gelassen. Außerdem helfen die bei Google auch mal von Hand nach, wenn die Site "groß" ist oder irgend eine Bedeutung hat. -
Wer jetzt denken sollte, dass man dem Googlebot extra präparierte Seiten vorsetzen kann, der sollte aufpassen.
Es geht schon, aber Google ist nicht blöd und verhindert es auch ziemlich wirksam. Diese vorgesetzen Seiten heißen Doorpages. Sie sind aber meist nicht sinnvoll, da bei der Entdeckung die Seite meist aus dem Index von Google fliegt.
Ehrlich gesagt wundert es mich aber, dass dann dynamische Seiten von Google überhapt akzeptiert werden.
Google steht vor dem gleichen Problem wie du: Die Erkennung von script-generierten Inhalten ist nicht immer hunderprozentig machbar. Wenn das Script alle HTTP-Header ordentlich setzt und keinen X-Powered-By-Header sendet, kann Google nicht erkennen, dass sich dahinter ein Script verbirgt.
Außerdem werden heut zu Tage so viele Seiten dynamisch generiert, dass der Google-Index ziemlich leer aussähe, wenn solche Seiten nicht aufgenommen würden. Also wird bis zu einer gewissen Grenze -- die uns Google natürlich nicht verrät -- indiziert, und alles danach einfach unter den Tisch fallen gelassen. Außerdem helfen die bei Google auch mal von Hand nach, wenn die Site "groß" ist oder irgend eine Bedeutung hat.
Ergo können kleinere Seiten diese Backdoortechnik einfach anwenden?
BTW : Es ist auch möglich via "<div style="visibilty: hidden;">" schön viel Context für Google einzufügen. -
fazit, ich muss es irgendwie hinbekommen, dass meine Seite net mehr in nem Frame ist... richtig?
-
fazit, ich muss es irgendwie hinbekommen, dass meine Seite net mehr in nem Frame ist... richtig?
So sieht es aus.
Wer jetzt denken sollte, dass man dem Googlebot extra präparierte Seiten vorsetzen kann, der sollte aufpassen.
Es geht schon, aber Google ist nicht blöd und verhindert es auch ziemlich wirksam. Diese vorgesetzen Seiten heißen Doorpages. Sie sind aber meist nicht sinnvoll, da bei der Entdeckung die Seite meist aus dem Index von Google fliegt.
Ehrlich gesagt wundert es mich aber, dass dann dynamische Seiten von Google überhapt akzeptiert werden.
Google steht vor dem gleichen Problem wie du: Die Erkennung von script-generierten Inhalten ist nicht immer hunderprozentig machbar. Wenn das Script alle HTTP-Header ordentlich setzt und keinen X-Powered-By-Header sendet, kann Google nicht erkennen, dass sich dahinter ein Script verbirgt.
Außerdem werden heut zu Tage so viele Seiten dynamisch generiert, dass der Google-Index ziemlich leer aussähe, wenn solche Seiten nicht aufgenommen würden. Also wird bis zu einer gewissen Grenze -- die uns Google natürlich nicht verrät -- indiziert, und alles danach einfach unter den Tisch fallen gelassen. Außerdem helfen die bei Google auch mal von Hand nach, wenn die Site "groß" ist oder irgend eine Bedeutung hat.
Ergo können kleinere Seiten diese Backdoortechnik einfach anwenden?
BTW : Es ist auch möglich via "<div style="visibilty: hidden;">" schön viel Context für Google einzufügen.
Backdoortechnik? Also das Senden standardkonformer HTTP-Header ist meines Erachtens nichs Unanständiges. Und PHP zu verstecken ergibt sich aus der Tatsache, dass man potenziellen bösen Angreifern möglichst keine Hinweise gibt, die sie ausnutzen können. Übrigens liefert der Server in seiner Signatur auch meist den Namen des verwendeten PHP-Moduls mit. Ich gehe mal davon aus, dass das auch bei Googels bekannt ist.
Inline-Styles würde ich vermeiden. Besser ist eine separate Klasse. Das würde explizites Parsen der HTML- und CSS-Datei erfordern. Das dürfte derzeit für Google zu aufwändig sein. Allerdings würde ich sowieso nichts verstecken, was Google nicht sehen soll. "display: none;" und "visibilit: hidden;" sind dafür da, etwas nicht anzuzeigen, was bei aktivierter CSS-Unterstützung nicht sichtbar sein soll. Ich teile meine Seiten bspw. mit <hr /> ab. Das macht die Datei ohne CSS etwas übersichtlicher. Mit CSS ist das nicht nötig, also werden die <hr />-Tags versteckt. Sowas meine ich. Nicht das Verstecken von Texten, um irgendwelche Suchmaschinen auszutricksen ... -
ähm... wie kommt ihr jetzt auf Google?
-
ähm... wie kommt ihr jetzt auf Google?
Du wirst doch wohl deinen eigenen Thread noch lesen können/wollen? -
ja schon, aber Google hat doch garnix mit meinem Problem zu tun. O.o
-
Hab ich auch schon überlegt... das mach ich ja auch schon. lol
aber z.B. bei Suchmaschienen kannste das net steuern... außer bei der MSN suche, die nehmen net die Domain, sondern den Pfad... das hab ich schon deutlich gesehen, die MSN Suche wird wohl hauptsächlich für Bildersuchen genutzt...
Du hast die Problematik selber angesprochen... -
ja ok, aber warum dann PHP verstecken?
hat doch garkeinen sinn... O.o -
Les einfach die Posts vor dir durch........
-
Diskutiere mit und stelle Fragen: Jetzt kostenlos anmelden!
lima-city: Gratis werbefreier Webspace für deine eigene Homepage