Open-Source Suchmaschine mit öffentl. Cluster (wie BOINC)
lima-city → Forum → Programmiersprachen → Java
ansehen
art
ausbildung
datenbank
datum
ergebnis
falle
frage
genauerem hinsehen
http
idee
netzwerk
prinzip
projekt
redundanz
server
stellen
suchmaschine
url
weile
-
Also da schon eine Weile so eine Idee in meinem Kopf rumgeistert wollte ich mal hier darüber schreiben und ein paar Fragen stellen. Also ich träume seit einiger Zeit schon von einer Art öffentlichen Suchmaschine die sich größtenteils wie BOINC auf Resourcen von Freiwilligen gründet. Deshalb hab ich auch schon eine Weile nach so einem Projekt gesucht, aber nichts gefunden. Bei genauerem hinsehen scheint das auch nicht so einfach zu sein. Dann bin ich durch meine Ausbildung auf Nutch und später auf Hadoop gestoßen, allerdings entspricht das noch nicht ganz dem Prinzip, da Hadoop ja auf nur einem NameNode besteht und der halt dauerhaft laufen muss, aber die PCs mit den Daten ja nicht immer laufen, weil ist ja freiwillig. Deshalb frag ich mich, ob man sowas überhaupt schaffen kann und werd noch eine Weile drüber grübeln. Habt ihr Ideen oder Konzpte oder vllt auch Gründe, warum es überhaupt nicht gehn kann?
Achso wusste nicht in welches Forum, da aber Nutch etc auf Java besteht hab ich es einfach mal hier geschrieben.
Beitrag zuletzt geändert: 9.10.2010 11:30:26 von reimann -
Diskutiere mit und stelle Fragen: Jetzt kostenlos anmelden!
lima-city: Gratis werbefreier Webspace für deine eigene Homepage
-
Zu dem Thema fallen mir spontan 2 Möglichkeiten ein:
1. Das Auslagern der Crawler (eben wie bei BONIC - ist dir sicher auch schon eingefallen^^)
2. Die Datenbank könnte man unter Umständen ähnlich auslagern wie bei BitTorrent. Dass man die Datenbank nicht auf jedem PC komplett hinterlegen kann ist ja klar, aber dass jeder PC eine Teildatenbank hat - der Server sendet dann die Suchanfrage an diejenigen PCs, die eine Teildatenbank haben, die in Frage kommen könnte (natürlich auch nicht an jeden, sondern nur an 2 oder 3 PCs pro Teildatenbank). -
Sowas gibt es schon :D
Das Projekt heißt YaCy -> http://yacy.net. Ein Netzwerk welches mit diesen Peer-to-Peer Crawlern arbeitet gibt es auch: http://141.52.175.29/. Allerdings kann man da sicherlich noch einiges verbessern, also würdest du sowas ähnliches rausbringen was in einer akzeptablen Zeit Ergebnisse liefert, dann wäre das schon viel besser ;)
TeLeLo -
Ok das es sowas schon gibt ist einerseits gut, andererseits ist es schlecht, dass ich noch nie davon gehört habe und auch beim googln nichts gefunden habe.
Das mit dem Auslagern der Datenbank ist halt von Hadoop zum Beispiel möglich, aber nicht so flexibel wie es sein müsste, da es sehr praktisch wäre, grade die Datenbanksachen auf dem eigenen PC zu haben die zu von einem selbst bevorzugten Suchthemen gehören und es gibt auch Themen die öfters gesucht werden und die größere Redundanz brauchen als andere, da natürlich eine gewisse Latenz entsteht, wenn die PCs alle verteilt sind.
Naja werde mir auf jedenfall mal Yacy ansehen. -
Diskutiere mit und stelle Fragen: Jetzt kostenlos anmelden!
lima-city: Gratis werbefreier Webspace für deine eigene Homepage