Ideen für Webseite gesucht
lima-city → Forum → Die eigene Homepage → Homepage Allgemein
adresse
ausgeben
datenbank
http
idee
internet
jemand
machen
paar
problem
resultat
service
speichern
suche
suchen
suchmaschine
tabelle
weben
webseite
wissen
-
andreas-rauscher schrieb:
Naja Google ist ja eig. recht einfach aufgebaut
Jop.
Man muss nur die Webseite runterladen, alle Adressen auslesen, diese in einer Datenbank speichern und/oder wenn schon vorhanden anzahl +1 machen.
Haha, selten so gelacht
Was für eine komplexität hinter Suchmaschinen steckt ist dir wohl unklar? Dabei geht es nicht nur um den Scrawler, sondern auch um die Suchmethoden. Letztendlich musste die wichtigsten Seiten in ein paar TB herausfinden, filtern, ranken, etc. und das in ein paar Millisekunden...
Ich hab mich mal damit befasst und die effizienteste Methode war nicht das Speichern der einzelnen Webseiten in einer Datenbank, sondern das speichern einzelner Keywords in Bezug auf die Webseite:
websites:
id|adress
keywords
id|websiteid|keyword
Wenn dann zum Beispiel auf deiner Webseite "Hallo ich bin Mergener" steht, wurde das so gespeichert
websites:
1|http://mergener.lima-city.de
keywords:
1|1|Hallo
2|1|ich
3|1|bin
4|1|Merkener
Sucht man dann nach einem Wort, wird die Tabelle keywords durchgegangen und mit der Tabelle websites verknüft und ausgegeben. Zudem bestand natürlich auch eine extra tabelle, in der ich die auf der Webseite vorhandenen Links reingeschmissen habe um dies nacheinander durchzugehen.
Die Methode
websites:
id|adress|html
Ist viel zu langsam, habe ich auch erst probiert gehabt ;)
/Edit: Das dann noch aufn paar Cluster ausgelegt, dann hat man schonmal die Resultate, aber nicht immer noch kein Ranking, noch keine Ausschnitte von der Seite usw., also schon ein komplexes Thema ABER machbar (wenn man Kapital hat) ;)
Naja so viel zu dem Thema, wens interessiert ;)
Beitrag geändert: 28.9.2008 18:40:40 von trueweb -
Diskutiere mit und stelle Fragen: Jetzt kostenlos anmelden!
lima-city: Gratis werbefreier Webspace für deine eigene Homepage
-
Hab dann noch eine Idee, wie wäre es mit einem Freewebspaceanbieter, bei dem man von anfang an eine Datenbank hat. Finanziert durch Web-FTP mit integrierter Werbung. FTP und Domain dann über Aufpreis.
-
Sowas in der Art gibt es ja fast schon: www.bplaced.net, www.freehoster.ch
-
naja wenn ich das wüsste wurde ich das selbst machen... ich hab nähmlich konstant auch keine ideen
mfg andré -
Ich habe vor einiger Zeit eine Diagramm Klasse und eine Lima- Guldenstatistik geschrieben.
Klar, bei diagrammen gibt es haufenweise OpenSource, aber der Reiz ist es eben selbst sowas zu machen.
Auf den Guldenchecker kam ich indem ich meine Gulden überwachen wollte, und dann nachdem ich das Script schon geschrieben hatte war es ein leichtes das mit einer DB zu verknüpfen, die auch die Gulden eingetragener Nutzer überwacht.
Du kannst dir z.B. denken was du gerne im Web hättest, und das dann umsetzen. Genauso könntest du einen Kalender schreiben, bei dem jeder seine eigenen Termine eintragen kann und auch nur seine sieht ( siehe Googelkalender)
Gruß, Prog -
hey Community,
wie wäre es mit ner Site die Produktproben wie Lebensmittel, Zeitschriften usw. für umme rausgibt!
Oder gibt es sowas schon?
-
hey Community,
wie wäre es mit ner Site die Produktproben wie Lebensmittel, Zeitschriften usw. für umme rausgibt!
Oder gibt es sowas schon?
Mal abgesehen davon, dass man ja irgendwie erst mal an die Proben rankommen muss... Ich schätze mal, das ist ein "Ja": http://www.google.de/search?q=produktproben+kostenlos
Edith ergänzt noch kurz zum Thema Suchmaschinen:
@trueweb: Effizienter wäre wohl eine Speicherung a la "keyword|url1, url2, url3, url4, ...", man geht ja bei der Suche vom Suchbegriff aus. In der Realität fehlen da allerdings auch noch ein, zwei, viele Optimierungsschritte (Stopworteliminierung, Speicheroptimierung, etc.). Sorry, hab grad nicht allzu viel Zeit, aber ich hab ein Semester lang was über Suchmaschinen gehört und das ist bei Weitem nicht so einfach! Gehört allerdings auch nicht wirklich in diesen Thread ;)
Beitrag geändert: 29.9.2008 18:15:51 von tavern -
trueweb schrieb:
andreas-rauscher schrieb:
Naja Google ist ja eig. recht einfach aufgebaut
Jop.
Man muss nur die Webseite runterladen, alle Adressen auslesen, diese in einer Datenbank speichern und/oder wenn schon vorhanden anzahl +1 machen.
Haha, selten so gelacht
Was für eine komplexität hinter Suchmaschinen steckt ist dir wohl unklar? Dabei geht es nicht nur um den Scrawler, sondern auch um die Suchmethoden. Letztendlich musste die wichtigsten Seiten in ein paar TB herausfinden, filtern, ranken, etc. und das in ein paar Millisekunden...
Ich hab mich mal damit befasst und die effizienteste Methode war nicht das Speichern der einzelnen Webseiten in einer Datenbank, sondern das speichern einzelner Keywords in Bezug auf die Webseite:
websites:
id|adress
keywords
id|websiteid|keyword
Wenn dann zum Beispiel auf deiner Webseite 'Hallo ich bin Mergener' steht, wurde das so gespeichert
websites:
1|http://mergener.lima-city.de
keywords:
1|1|Hallo
2|1|ich
3|1|bin
4|1|Merkener
Sucht man dann nach einem Wort, wird die Tabelle keywords durchgegangen und mit der Tabelle websites verknüft und ausgegeben. Zudem bestand natürlich auch eine extra tabelle, in der ich die auf der Webseite vorhandenen Links reingeschmissen habe um dies nacheinander durchzugehen.
Die Methode
websites:
id|adress|html
Ist viel zu langsam, habe ich auch erst probiert gehabt ;)
/Edit: Das dann noch aufn paar Cluster ausgelegt, dann hat man schonmal die Resultate, aber nicht immer noch kein Ranking, noch keine Ausschnitte von der Seite usw., also schon ein komplexes Thema ABER machbar (wenn man Kapital hat) ;)
Naja so viel zu dem Thema, wens interessiert ;)
Beitrag geändert: 28.9.2008 18:40:40 von trueweb
Doch ist mir klar, ich wollte nur mein Post kurz halten.
Das schwierigste am Crawler ist die Volltextsuche.
Ich bin mir dort nicht sicher wie man solche sachen effizient speichern soll.
Ich hab bei mir nur ein Anriss gegeben für eine Suchmaschiene die nur nach Adressen suchen würde.
Sprich würdest du dort lima-city.de eingeben, würde dieser nur ausgeben, wieoft er eine URL, in der lima-city.de vorkommt, gefunden hat.
Deine Suche hätte das Problem das es keine Volltextsuche, wie z.b. für Foreneinträge, akzeptiert.
Und so nebenbei verwendet google meines wissens eine stark Modifizierte Form von MySQL.
tavern schrieb:
hey Community,
wie wäre es mit ner Site die Produktproben wie Lebensmittel, Zeitschriften usw. für umme rausgibt!
Oder gibt es sowas schon?
Mal abgesehen davon, dass man ja irgendwie erst mal an die Proben rankommen muss... Ich schätze mal, das ist ein 'Ja': http://www.google.de/search?q=produktproben+kostenlos
Edith ergänzt noch kurz zum Thema Suchmaschinen:
@trueweb: Effizienter wäre wohl eine Speicherung a la 'keyword|url1, url2, url3, url4, ...', man geht ja bei der Suche vom Suchbegriff aus. In der Realität fehlen da allerdings auch noch ein, zwei, viele Optimierungsschritte (Stopworteliminierung, Speicheroptimierung, etc.). Sorry, hab grad nicht allzu viel Zeit, aber ich hab ein Semester lang was über Suchmaschinen gehört und das ist bei Weitem nicht so einfach! Gehört allerdings auch nicht wirklich in diesen Thread ;)
Beitrag geändert: 29.9.2008 18:15:51 von tavern
Ich denke nicht, ich würde es wie Truewebs machen.
Wir können ja ein OpenSource-Searchengine schrieben XD -
Doch ist mir klar, ich wollte nur mein Post kurz halten.
Das schwierigste am Crawler ist die Volltextsuche.
Ich bin mir dort nicht sicher wie man solche sachen effizient speichern soll.
Ich hab bei mir nur ein Anriss gegeben für eine Suchmaschiene die nur nach Adressen suchen würde.
Sprich würdest du dort lima-city.de eingeben, würde dieser nur ausgeben, wieoft er eine URL, in der lima-city.de vorkommt, gefunden hat.
Deine Suche hätte das Problem das es keine Volltextsuche, wie z.b. für Foreneinträge, akzeptiert.
Und so nebenbei verwendet google meines wissens eine stark Modifizierte Form von MySQL.
1. Der Crawler sucht gar nix - der befüllt nur den Suchmaschinenindex ;)
2. Eine wirkliche Volltextsuche wird mMn keine Suchmaschine in vernünftiger Zeit anbieten (können), das ist viel zu aufwendig.
3. Dass Google eine Version von MySQL verwendet, möchte ich auch stark bezweifeln ;) Ich mein, natürlich werden die irgendeine Form einer Datenbank verwenden, aber wenn, dann vielleicht von "richtigem" SQL ausgehend ;)
Btw: Wenn Du schon die Forensuche ansprichst - schau Dir doch mal die Tabellen eines phpBB-Forums an, wie die ihre Suche lösen ;)
Ich denke nicht, ich würde es wie Truewebs machen.
Wir können ja ein OpenSource-Searchengine schrieben XD
Google-Stichwort: "invertierte Listen" ;)
Warum das Rad neu erfinden? http://lucene.apache.org/java/docs/
-
tavern schrieb:
Doch ist mir klar, ich wollte nur mein Post kurz halten.
Das schwierigste am Crawler ist die Volltextsuche.
Ich bin mir dort nicht sicher wie man solche sachen effizient speichern soll.
Ich hab bei mir nur ein Anriss gegeben für eine Suchmaschiene die nur nach Adressen suchen würde.
Sprich würdest du dort lima-city.de eingeben, würde dieser nur ausgeben, wieoft er eine URL, in der lima-city.de vorkommt, gefunden hat.
Deine Suche hätte das Problem das es keine Volltextsuche, wie z.b. für Foreneinträge, akzeptiert.
Und so nebenbei verwendet google meines wissens eine stark Modifizierte Form von MySQL.
1. Der Crawler sucht gar nix - der befüllt nur den Suchmaschinenindex ;)
Oder das :D
tavern schrieb:
2. Eine wirkliche Volltextsuche wird mMn keine Suchmaschine in vernünftiger Zeit anbieten (können), das ist viel zu aufwendig.
Was und wie macht google und co denn zurzeit? Die durchsuchen doch volltextmäßig die Seiten, sodass auch Foreninhalte durchsucht werden können.
tavern schrieb:
3. Dass Google eine Version von MySQL verwendet, möchte ich auch stark bezweifeln ;) Ich mein, natürlich werden die irgendeine Form einer Datenbank verwenden, aber wenn, dann vielleicht von 'richtigem' SQL ausgehend ;)
Ich an deiner Stelle würde dafür meine Hand nicht ins Feuer legen:
http://www.mysql.de/customers/customer.php?id=75
tavern schrieb:
Btw: Wenn Du schon die Forensuche ansprichst - schau Dir doch mal die Tabellen eines phpBB-Forums an, wie die ihre Suche lösen ;)
Dann müsste ich es ja installieren, sag es uns doch einfach!
tavern schrieb:
Ich denke nicht, ich würde es wie Truewebs machen.
Wir können ja ein OpenSource-Searchengine schrieben XD
Google-Stichwort: 'invertierte Listen' ;)
Werd ich mir mal anschauen.
tavern schrieb:
Warum das Rad neu erfinden? http://lucene.apache.org/java/docs/
Weil es mehr Spass macht als ein bestehendes zu benutzen. AUsserdem kann ich kein Java.
Beitrag geändert: 30.9.2008 15:11:36 von mergener -
Okay, ich hab meine Antwort mal ausgelagert, weil wir mMn hier in dem Thread doch ein wenig Offtopic sind ;)
--> http://www.lima-city.de/boards/thread/79431
-
hallo
versuche es einmal mit einem :
- free mail
- kostenlose sms verschicken
- community
mfg
viel spaß beim versuchen und coden -
ich fänd es wäre toll irgenwie so etwas gäbe wie ein riesen forum bei dem nicht einer die leitung übernimmt sonder viele dann hat jeder z.b. 2bereiche und dann kann man es ja enorm erweitern und der der dann einen bereich (als Mitglied) eröfnett der ist dafür zusändig und wenn er es nicht mehr macht übernimmt es jemand anderes und wenn es nimand übernimmt wird dieser bereich geschlossen und so erweitert es sich immer weiter selbst
würde beim aufbau vieleicht sogar helfen denn so etwas gibt es glaube ich nicht in diesem ausmaß
-
@Threadersteller: Geh einfach mal auf php.de, sehe dir die Sektion über Angebotene "Jobs" an. Wenn du kein Problem damit hast, dass du nicht Projektleiter bist, ists das richtige für dich. Oder lasse andere leute gezielt dir Aufträge geben mit der Sektion darunter...
-
Diskutiere mit und stelle Fragen: Jetzt kostenlos anmelden!
lima-city: Gratis werbefreier Webspace für deine eigene Homepage