Welche Programmiersprache für WebCrawler?
lima-city → Forum → Programmiersprachen → Sonstige Programmiersprachen
architektur
auswerten
bestimmten daten
datum
einfachen holen
erwarten
flag
http
inhalt
kalb
klasse
meinung
programmieren
roboter
sprache
stellen
testen
url
verarbeiten
wort
-
Hallo,
Ich würde gerne so etwas wie einen kleinen Web-Roboter programmieren.
Der soll dann mittels URLs Webseiten laden (+Inhalte, Js) und den Inhalt ggf auswerten
(nach Worten/Ausdrücken suchen, ...) und verarbeiten (Inhalte Speichern/Herunterladen, ...)
und sich dann nach bestimmter Logik weiter hangeln und dabei ggf auch passende Formulardaten ausfüllen und Daten an den Server senden (Bilder).
Jetzt wollte ich fragen, mit welcher Programmiersprache ich da die meiste Unterstützung für so etwas erwarten kann,
ohne, dass ich dabei jetzt neu irgendwelche Basisfunktionen wie
"Lade_Seite(URL)", "Hole_Alle_Links(Seite)", "Setze_Formular_Daten(formular, Daten)"
komplett selbst implementieren zu müssen?
Programmieren kann ich tw schon in C, C#.Net, php
habe aber auch schon mit perl und lwp ein script zum einfachen holen von bestimmten Daten aus einer Website geschrieben.
Welche Sprache wäre eurer Meinung nach am besten geeignet und welche Klassen dabei?
Habt ihr schon mal so etwas gemacht wie setzt man das von der Architektur am besten auf?
-
Diskutiere mit und stelle Fragen: Jetzt kostenlos anmelden!
lima-city: Gratis werbefreier Webspace für deine eigene Homepage
-
kalb schrieb:
Programmieren kann ich tw schon in C, C#.Net, php
habe aber auch schon mit perl und lwp ein script zum einfachen holen von bestimmten Daten aus einer Website geschrieben.
Welche Sprache wäre eurer Meinung nach am besten geeignet und welche Klassen dabei?
Habt ihr schon mal so etwas gemacht wie setzt man das von der Architektur am besten auf?
Schau Dir mal snoopy an -
gaec schrieb:
Also, ich würde nicht PHP benutzen!
Und warum nicht?
Allgemein werden viele WebCrawler mit PHP realisiert. (Beispiele: http://phpcrawl.cuab.de/, http://php-crawler.sourceforge.net/, http://whiteboxcomputing.com/php/crawler/)
Ich würde dir deshalb zu PHP raten. -
Mit PHP baust du ein mutierendes Abfragesystem, das sollte recht einfach sein. Also ein sich selbst steuerndes System, welches sich selbst immer wieder startet. Über ein DB Flag kannste es dann abschalten.
Ich persönlich würde Javascript verwenden. Mit NodeJS arbeite ich sehr sehr gerne, und damit wäre das wohl auch gut machbar. Das HTTP Modul kann auch Anfragen stellen, das kann man geschickt bauen.
Aber ich denke, da du PHP bereits kannst, solltest du dir die oben geposteten Projekte anschauen, und das mit PHP machen, wäre für das Verständnis wohl am effektivsten und einfachsten.
Liebe Grüße -
Bei JavaScript könntest du dir auch phantoomjs ansehen… damit sollte sich auch ein Crawler bauen lassen, obwohl es eigentlich eher zum Testen von Webseiten gedacht ist.
Beitrag zuletzt geändert: 25.2.2013 19:06:15 von hackyourlife -
Diskutiere mit und stelle Fragen: Jetzt kostenlos anmelden!
lima-city: Gratis werbefreier Webspace für deine eigene Homepage