Wronnay. - Deutsche Suchmaschine mit eigenem Crawler
lima-city → Forum → Die eigene Homepage → Promotion
adresse
datum
ding
frage
http
index
internet
lernen
paar
projekt
rechenleistung
server
speichern
speicherplatz
suchen
suchmaschine
system
url
verbessern
webseite
-
Ich möchte heute etwas vorstellen, was es eigentlich nur aus großen Ländern wie den USA, Russland oder China gibt: eine Suchmaschine mit eigenem Index.
Was bedeutet "eigener Index"?
Das bedeutet, dass die Suchmaschine nicht die Datenbank von Google oder Bing nutzt, sondern auf ihre ganz eigene Art das Web mit einem Webcrawler indexiert. (Also eine eigene Datenbank anlegt)
Warum gibt es diese Suchmaschine?
Sie soll sich zu einer Konkurrenz zu anderen Suchmaschinen entwickeln. Das eigentliche Ziel ist es, große Monopole in diesem Bereich aufzubrechen und Unternehmer anzuregen, für mehr Vielfalt in dem Bereich zu sorgen. (Denn ohne Initiative wird Google immer die Weltmacht in dem Bereich bleiben.)
Was ist der Unterschied zu bekannten Suchmaschinen wie Google oder Bing?
Freiheit und Datenschutz. Diese Suchmaschine speichert keine vollen IP-Adressen, sondern nur abgekürzte, die dann noch verschlüsselt werden. Außerdem werden keine Profile der Besucher angelegt und Daten nur dann gelöscht, wenn es wirklich nötig ist. Und im Gegensatz zu Suchmaschinen wie DuckDuckGo ist diese Suchmaschine auch nicht von den Daten anderer Firmen abhängig, sondern ist, durch den eigenen Index, völlig unabhängig.
Wie finanziert sich die Suchmaschine?
Zurzeit: noch gar nicht. Ich habe aber vor, eine Firma zu gründen, die dann Werbeflächen verkauft (wobei dann die Daten zwischen Webseite (bzw. Suchmaschine) und Werbekunden ausgetauscht werden - Daten von Besuchern werden nicht ausgetauscht)
Woran erkenne ich, dass meine Seite indexiert wurde?
Entweder, indem man nach seiner Seite sucht, oder indem man den User Agent speichert und da etwas von "Wronnay.net Search Engine" sieht.
Wie kann ich eine Seite hinzufügen?
Eigentlich ist es nur eine Frage der Zeit, bis jede Webseite von dem Crawler aufgerufen wurde, allerdings kann man auch manuell Seiten eintragen. Das geht hier.
Wann gibt es Add-ons und andere Features?
Im Laufe der Zeit. Das Projekt wird immer weiterentwickelt und verbessert.
Unter welcher Adresse kann ich die Suchmaschine erreichen?
Unter dieser: Wronnay.net
Zu welchen Themen kann ich schon Einträge finden?
Wetter, TV Programm, Wronnay, lima-city, gulli und Vice sind Themen, zu denen es schon Einträge gibt. Es kommen aber jede Stunde neue Einträge hinzu.
Wie kann ich über aktuelle Entwicklungen auf dem Laufenden bleiben?
Es gibt einen Blog, einen Twitter-Account und eine Status-Seite.
Wie kann ich das Projekt unterstützen?
Indem man die Suchmaschine nutzt und / oder als Firma Interesse an dem "AnaAds.de" - Werbenetzwerk zeigt bzw. vielleicht sogar einen leistungsfähigeren Server sponsert.
Fragen? Meinungen? Kritik? -
Diskutiere mit und stelle Fragen: Jetzt kostenlos anmelden!
lima-city: Gratis werbefreier Webspace für deine eigene Homepage
-
Was ist der Unterschied zu bekannten Suchmaschinen wie Google oder Bing?
Das stößt mir direkt sehr sauer auf. Das ist schlicht und einfach unmöglich für dich zu sagen. Deine Seite läuft bei serverbiz.de. Inwiefern kannst du für diese Firma garantieren, dass diese keine IP Adressen speichern? Denn das ganze läuft zudem noch auf einem vServer, du hast also schlicht und einfach nicht einmal die Hoheit über die Maschine auf der das ganze läuft...
Freiheit und Datenschutz. Diese Suchmaschine speichert keine vollen IP-Adressen, sondern nur abgekürzte, die dann noch verschlüsselt werden. Außerdem werden keine Profile der Besucher angelegt und Daten nur dann gelöscht, wenn es wirklich nötig ist. Und im Gegensatz zu Suchmaschinen wie DuckDuckGo ist diese Suchmaschine auch nicht von den Daten anderer Firmen abhängig, sondern ist, durch den eigenen Index, völlig unabhängig.
Beitrag zuletzt geändert: 21.9.2014 16:40:49 von ra1n -
ra1n schrieb:
Inwiefern kannst du für diese Firma garantieren, dass diese keine IP Adressen speichern?
Das Ganze könnte man ja noch weiter spinnen, denn selbst ServerBiz ist auch nur Kunde von Interwerk - aber ich habe den Server eingerichtet und die Dienste, die von mir eingerichtet wurden sind alle so konfiguriert, wie ich es auf meiner Webseite angebe. Und solange ServerBiz oder Interwerk nicht etwas macht, von dem ich nichts wüsste, stimmt das auch so.
ra1n schrieb:
Deine Seite läuft bei serverbiz.de. [...] Denn das ganze läuft zudem noch auf einem vServer, du hast also schlicht und einfach nicht einmal die Hoheit über die Maschine auf der das ganze läuft...
Ich habe zwei Server (von zwei verschiedenen Anbietern), die in Zukunft auch dynamisch miteinander arbeiten sollten - das heißt, sollten mir die Bedingungen eines Anbieters nicht passen, wechsle ich einfach. - Was kein großes Problem wäre, da täglich automatische Backups angelegt werden (die bei mir lokal gespeichert werden). -
Aus welchem Grund will man das nutzen, wo es doch beispielsweise mit yacy bzw. seinem »freeworld«-Index schon einen deutlich größeren, verteilten Index gibt, den man bereits jetzt nutzen kann? Warum erstellst du einen eigenen Index, so wie es schon gefühlte 1000 gibt, die von einander »unabhängig« sind, aber auch viel zu klein, als dass sie dann nützlich wären (weil eben zu wenig gefunden werden kann), und trägst nicht beispielsweise zum »freeworld«-Index bei und nutzt diesen auch mit? Wäre es nicht sinnvoller, die Kraft zu bündeln und beispielsweise yacy so weit zu unterstützen und verbessern, dass das tatsächlich mal alltagstauglich eingesetzt werden kann?
Du hast also eine komplett eigene Suchmaschine erstellt. Hast du denn überhaupt das nötige Wissen und die nötigen Ressourcen, um einen großen Index verwalten und so durchsuchbar machen zu können, dass man 1) exakt das findet was man sucht und 2) auch in angemessener Zeit ein brauchbares Ergebnis geliefert bekommt? Hast du genügend Speicherplatz und Rechenleistung, um einen derart großen Index überhaupt speichern und verarbeiten zu können? Hast du genug Ressourcen, um »das Internet indexieren zu können« (Internet-Anbindung usw, ein Index will ja auch aktuell bleiben)? Wie sieht es mit Dingen aus wie dem »Recht auf Vergessen«? Davon wärst du ja schließlich auch betroffen … im Gegensatz zum vorhin genannten verteilten Index, bei dem schlichtweg nichts von einer einzelnen Person gelöscht werden kann. Viele der Fragen werden jetzt am Anfang wohl noch nebensächlich erscheinen, aber die Zeit wird kommen (falls dieses Projekt je Erfolg haben sollte), wo du dich ernsthaft damit auseinandersetzen wirst müssen
Ich würde mir an deiner Stelle, bevor ich da ein Unternehmen gründe oder Geld investiere, die Fragen jedenfalls schon mal durchdenken und überlegen, ob es denn überhaupt funktionieren kann, das Projekt so wie es jetzt ist weiterzuführen. Vergiss nicht: du brauchst Nutzer, und die bekommt man, speziell als Suchmaschine, sehr schwer. Frag mal deine Eltern, »welche Suchmaschinen die so kennen«, und du wirst vermutlich »Google«, »Bing« und eventuell noch »Yahoo« hören. Jetzt gibt es aber derzeit deutlich mehr, wie beispielsweise das von dir genannte »DuckDuckGo«, das man gerade noch so kennen könnte, wenn man mit der Sache zu tun hat. Wie willst du dann, als ganz kleines, ich nenns mal »Startup«, bekannt genug werden, dass es mehr als nur deine Freunde/Bekannte nutzen? Du nimmst dir hier also etwas relativ großes vor …
Eventuell solltest du auch mal hier vorbeischauen für weitere Ideen / Gedanken / Anregungen zum Thema … -
webfreclan schrieb:
Wie kann ich eine Seite hinzufügen?
Eigentlich ist es nur eine Frage der Zeit, bis jede Webseite von dem Crawler aufgerufen wurde, allerdings kann man auch manuell Seiten eintragen. Das geht hier.
Meinungen? Kritik?
IMHO gehört der manuelle Eintragslink auf die Frontpage, wer soll den sonst, ausser ein paar Eingeweihte finden? -
Hallo
Wieder mal völlig illusorische Vorstellungen für ein Projekt, das die Welt nicht braucht. (ich erinnere an forenhosting.net und webpage4.me)
Und das ganze wird auf einem ganzen vServer gehostet, mit einem zweiten, der zum Wechseln bereitsteht. Wahnsinn!
mfg -
voloya schrieb:
Wieder mal völlig illusorische Vorstellungen für ein Projekt, das die Welt nicht braucht. (ich erinnere an forenhosting.net und webpage4.me)
Ich verbessere meine Fähigkeiten mit solchen Projekten - ein Buch zu lesen, fällt mir nicht so leicht, wie ein Projekt aufzubauen ...
cuf-world schrieb:
IMHO gehört der manuelle Eintragslink auf die Frontpage, wer soll den sonst, ausser ein paar Eingeweihte finden?
Der Eintraglink soll - so wie bei Google - nur dann angezeigt werden, wenn man danach sucht.
hackyourlife schrieb:
Wäre es nicht sinnvoller, die Kraft zu bündeln und beispielsweise yacy so weit zu unterstützen und verbessern, dass das tatsächlich mal alltagstauglich eingesetzt werden kann?
(..)
Hast du denn überhaupt das nötige Wissen und die nötigen Ressourcen, um einen großen Index verwalten und so durchsuchbar machen zu können, dass man 1) exakt das findet was man sucht und 2) auch in angemessener Zeit ein brauchbares Ergebnis geliefert bekommt? Hast du genügend Speicherplatz und Rechenleistung, um einen derart großen Index überhaupt speichern und verarbeiten zu können? Hast du genug Ressourcen, um »das Internet indexieren zu können« (Internet-Anbindung usw, ein Index will ja auch aktuell bleiben)? Wie sieht es mit Dingen aus wie dem »Recht auf Vergessen«?
Ich will mein eigenes Ding machen und so meine Fähigkeiten verbessern - ich will also immer mal wieder etwas verbessern und entwickeln. Speicherplatz sowie Rechenleistung sind ja erweiterbar, außerdem kann ich das Ganze ja jederzeit stoppen oder langsamer laufen lassen - mir geht es nicht primär um das Projekt, sondern darum, Neues zu lernen und mein Können zu verbessern - das wird mir als Fachinformatiker (für Anwendungsentwicklung - noch in der Ausbildung) sowieso irgendwann nur Vorteile bringen -
Die Suchergebnisse sind schrecklich wenn ich z.b. lima-city .de eingebettet kommen nur seiten von Lima-City wenn ich mich über eine Seite informieren möchte kann ich das also nicht machen.
Ich bleibe bei duckduckgo -
rocococo schrieb:
Die Suchergebnisse sind schrecklich (...) kommen nur seiten von Lima-City
Das liegt daran, dass noch nicht so viele Seiten gecrawled wurden - es gibt also zu dem Thema "lima-city" zurzeit schlicht nicht mehr Seiten außer lima-city, webwiki.de und Twitter.
Mit der Zeit sollte sich das ändern, also bitte noch nicht abschreiben, sondern einfach abwarten -
webfreclan schrieb:
Ich will mein eigenes Ding machen und so meine Fähigkeiten verbessern - ich will also immer mal wieder etwas verbessern und entwickeln. Speicherplatz sowie Rechenleistung sind ja erweiterbar, außerdem kann ich das Ganze ja jederzeit stoppen oder langsamer laufen lassen - mir geht es nicht primär um das Projekt, sondern darum, Neues zu lernen und mein Können zu verbessern - das wird mir als Fachinformatiker (für Anwendungsentwicklung - noch in der Ausbildung) sowieso irgendwann nur Vorteile bringen
Na das relativiert sich ja zum EP von einem ernsthaften Projekt, degradiert zu einem Lern/Spassprojet. Du glaubst doch nicht wirklich und im Ernst, das dies hier oder woanders dann noch jemand ernst nimmt? -
Mich würde mal interessieren, nach welchem System die Reihenfolge der Suchergebnisse anzeigt?
Ich habe mal getestet:
Bolivien - nur 3 Ergebnisse, lohnt also nicht, über Reihenfolge zu sprechen
Deutschland
1.Platz: Website infranken.de
2.Platz: Gelbe Seiten
3.Platz: ein spezieller Artikel aus Süddeutschen Zeitung
Ich kann nicht gerade sagen, dass das relevant ist.
Außerdem gibt es ein Zeichensatzproblem. Bei mir steht dann z.B.
Braucht Deutschland eine Rüstungsindustrie? - Politik - Süddeutsche.de
-
webfreclan schrieb:
Das hättest du gerne auch am Anfang gleich dazu sagen können — so sah es so aus, als ob du ernsthaft eine öffentliche, von vielen Leuten genutzte Suchmaschine aufziehen wolltest.
Ich will mein eigenes Ding machen und so meine Fähigkeiten verbessern - ich will also immer mal wieder etwas verbessern und entwickeln. Speicherplatz sowie Rechenleistung sind ja erweiterbar, außerdem kann ich das Ganze ja jederzeit stoppen oder langsamer laufen lassen - mir geht es nicht primär um das Projekt, sondern darum, Neues zu lernen und mein Können zu verbessern - das wird mir als Fachinformatiker (für Anwendungsentwicklung - noch in der Ausbildung) sowieso irgendwann nur Vorteile bringen
Außerdem darfst du nicht vergessen: »Speicherplatz und Rechenleistung« kann man zwar erweitern, aber die Anwendung muss mit der zusätzlichen Rechenleistung und dem zusätzlichen Speicherplatz auch umgehen können. Was nützt dir schon ein 12-Kern-Prozessor, wenn du nur einen nutzen kannst, weil deine Anwendung nicht parallelisierbar ist? Du musst dir also schon lange bevor du je was »erweiterst« überlegen, wie du so ein System überhaupt aufbauen musst, damit du es später überhaupt erweitern kannst. Ob du mit einem Suchalgorithmus (ich nenn das einfach mal so) in PHP und einer MySQL-Datenbank im Hintergrund weit kommst bezweifle ich übrigens, da gäbe es andere Systeme, die für eine Suchmaschine deutlich effizienter sind.
Eventuell ist das ja für dich auch interessant: willstdueswissen hat sozusagen dein Projekt »in einem Tag fertiggestellt«, ohne auch nur eine Zeile Programmcode o.ä. geschrieben zu haben: *klick*
Neues lernen indem man Projekte baut ist ja durchaus gut. Eine (gute) Suchmaschine ist allerdings deutlich mehr und deutlich komplexer, als nur ein paar PHP-Skriptchen, die Webseiten in einer MySQL-Datenbank speichern und dann mit einer einfachen Abfrage ala »WHERE content LIKE %suchwort%« durchsuchen -
wünsche dir viel glück.
...
Wie kann ich eine Seite hinzufügen?
Eigentlich ist es nur eine Frage der Zeit, bis jede Webseite von dem Crawler aufgerufen wurde, allerdings
schön gesagt, nur eine frage der zeit....
es sind ja nur geschätzte milliarden websites (teils mit ein paar unterseiten) im netz.
aber wenn man die nicht relevanten weglässt geht es sicher schneller.
Beitrag zuletzt geändert: 23.9.2014 8:04:36 von flamm -
cuf-world schrieb:
Na das relativiert sich ja zum EP von einem ernsthaften Projekt, degradiert zu einem Lern/Spassprojet.
hackyourlife schrieb:
so sah es so aus, als ob du ernsthaft eine öffentliche, von vielen Leuten genutzte Suchmaschine aufziehen wolltest.
Naja, auch ein Spaßprojekt kann ja zu einem ernsthaften Projekt werden
hackyourlife schrieb:
Eine (gute) Suchmaschine ist allerdings deutlich mehr und deutlich komplexer, als nur ein paar PHP-Skriptchen, die Webseiten in einer MySQL-Datenbank speichern und dann mit einer einfachen Abfrage ala »WHERE content LIKE %suchwort%« durchsuchen
Diese Abfrage ist durchaus eine der wichtigsten Punkte für eine Suchmaschine. Allein bei meiner Abfrage werden schon mehr als 5 Punkte beachtet (und zwar nur nach ORDER BY ...), und das, obwohl ich erst am Anfang bin und noch viel verbessern muss.
mein-wunschname schrieb:
Mich würde mal interessieren, nach welchem System die Reihenfolge der Suchergebnisse anzeigt?
Das hängt bei mir nicht nur von meiner Suchmaschine ab, sondern auch von den Nutzern: wenn ein Nutzer z.B.: nach Twitter sucht, aber auf Facebook klickt, erscheint bei der nächsten Suche nach Twitter der Eintrag von Facebook ganz oben - je mehr Leute also nach etwas suchen, desto besser wird auch meine Suchmaschine. -
Diskutiere mit und stelle Fragen: Jetzt kostenlos anmelden!
lima-city: Gratis werbefreier Webspace für deine eigene Homepage