Suchindex selber erstellen
lima-city → Forum → Programmiersprachen → Sonstige Programmiersprachen
angabe
datenbank
datum
einlesen
eintragen
erstellen
http
index
inhalt
jemand
listen
machen
sammlung
suchbegriff
tabelle
unterseite
url
verzichten
weben
webseite
-
Hallo,
kennt jemand von euch ein Script, ... mit dem man einen Suchindex für eine Webseite selber erstellen kann.
Also nicht in den Index von Google eintragen lassen, sondern selber Indexieren.
Ich habe viel gefunden, mit dem Webseiten heruntergeladen werden und der DOM begutachtet werden kann.
Aber mir ist selber nicht ganz bewusst wie man es macht, das man einen "Suchbaren Suchindex" erstellt.
Hoffe ihr habt mich verstanden.
Node währe schon aber PHP oder Java geht auch.
Vielen Dank schonmal im vorraus
w3j -
Diskutiere mit und stelle Fragen: Jetzt kostenlos anmelden!
lima-city: Gratis werbefreier Webspace für deine eigene Homepage
-
w3j schrieb:
kennt jemand von euch ein Script, ... mit dem man einen Suchindex für eine Webseite selber erstellen kann.
Also nicht in den Index von Google eintragen lassen, sondern selber Indexieren.
Das Script soll also nur alle Daten der Unterseiten der eigenen Webseite indexieren?
Welchen Sinn soll das haben? (Es gibt spezielle PHP-Crawler, die z.B.: eine Sitemap erstellen aber auch andere PHP-Crawler, die z.B.: nur Meta-Angaben einlesen - wir müssten also wissen, was genau indexiert werden soll) -
Falls du deine eigenen Seiten »durchsuchbar« machen willst, also mit sowas ausstatten, wie z.b. dem hier, dann bietet sich dafür z.b. yacy im Offline-Modus, elasticsearch o.ä. an.
-
elasticsearch ist Interesant aber ich glaube, eine Größenordnung zu groß.
Eigendlich müsste nur der Inhalt einer Webseite nur "zusammengefasst" werden, so das man danach suchen kann, aber nicht einfach den ganzen HTML-Code absucht.
Nur metadaten abzusuchen ist leider zu wenig. -
Wenn ich dich richtig verstehe, willst Du also einen Suchindex für deine eigene Website aufbauen.
Sollte das zutreffen, stellt sich die Frage, wie die Inhalte dieser Seite generiert werden. Nutzt Du eine Datenbank, oder hast Du eine Sammlung statischer HTML-Dateien?
Bei Nutzung einer Datenbank, kannst Du einfach eine Tabelle anlegen, in der die Suchbegriffe den Einträgen zugeordnet werden, in denen sie vorkommen. Diese Tabelle wird dann bei einer Suche abgefragt und schmeißt als Ergebnis die Seiten raus, in denen der Suchbegriff vorkommt. Bei der Indizierung sollten aber Füllworte ausgeschlossen werden, sonst bläht sich die Suchtabelle zu sehr auf und liefert keine hilfreichen Ergebnisse mehr. Um diese "Füllworte" nicht selber suchen und einhacken zu müssen, kannst Du eine fertige Stoppwort-Liste nutzen, die sich im Web findet.
Besteht deine Seite aus statischen HTML-Seiten, ist die Nutzung eines Crawlers/Indexers sinnvoll. Eine Option wäre z.B. der Einsatz von sphider -
Ahh, mit Stoppwort-Listen macht man das.
Dann weiß ich jetzt wie man das macht.
Obwohl sphider auch gut aussieht.
Vielen Dank für die zahlreichen Antworten
w3j -
w3j schrieb:
Obwohl sphider auch gut aussieht.j
Sphider sieht nicht nur gut aus, sondern ist auch gut. ... Allerdings nur dann, wenn man ein derartiges Script unbedingt braucht und auch richtig einsetzt. Wie bereits gesagt, wäre dein Ziel, wenn die Inhalte deiner Website eh in einer Datenbank gespeichert sind, auf anderem Wege performanter und besser zu erreichen. Wer nach vorn denkt, baut seine Seiten dynamisch, integriert sofort eine Suchfunktion und kann damit auf Sphider verzichten.
Basiert deine Website auf php und MySQL, dann findest Du bei phpclasses.org die passenden Skripte für eine Suchfunktion
Beitrag zuletzt geändert: 11.2.2015 0:58:25 von fatfreddy -
Es soll ja nicht nur für Meine Webseite sein weshalb es mit den fertig generierten/statischen Inhalten umgehen muss.
-
Diskutiere mit und stelle Fragen: Jetzt kostenlos anmelden!
lima-city: Gratis werbefreier Webspace für deine eigene Homepage