Welche Programmiersprache für WebCrawler?

lima-city → Forum → Programmiersprachen → Sonstige Programmiersprachen

Autor dieses Themas
kalb

kalb hat kostenlosen Webspace.

0:51, 25.2.2013
Hallo,

Ich würde gerne so etwas wie einen kleinen Web-Roboter programmieren.
Der soll dann mittels URLs Webseiten laden (+Inhalte, Js) und den Inhalt ggf auswerten
(nach Worten/Ausdrücken suchen, ...) und verarbeiten (Inhalte Speichern/Herunterladen, ...)
und sich dann nach bestimmter Logik weiter hangeln und dabei ggf auch passende Formulardaten ausfüllen und Daten an den Server senden (Bilder).

Jetzt wollte ich fragen, mit welcher Programmiersprache ich da die meiste Unterstützung für so etwas erwarten kann,
ohne, dass ich dabei jetzt neu irgendwelche Basisfunktionen wie
"Lade_Seite(URL)", "Hole_Alle_Links(Seite)", "Setze_Formular_Daten(formular, Daten)"
komplett selbst implementieren zu müssen?

Programmieren kann ich tw schon in C, C#.Net, php
habe aber auch schon mit perl und lwp ein script zum einfachen holen von bestimmten Daten aus einer Website geschrieben.

Welche Sprache wäre eurer Meinung nach am besten geeignet und welche Klassen dabei?
Habt ihr schon mal so etwas gemacht wie setzt man das von der Architektur am besten auf?
Diskutiere mit und stelle Fragen: Jetzt kostenlos anmelden!

lima-city: Gratis werbefreier Webspace für deine eigene Homepage
simuliertes

simuliertes hat kostenlosen Webspace.

1:45, 25.2.2013

kalb schrieb:

Programmieren kann ich tw schon in C, C#.Net, php
habe aber auch schon mit perl und lwp ein script zum einfachen holen von bestimmten Daten aus einer Website geschrieben.

Welche Sprache wäre eurer Meinung nach am besten geeignet und welche Klassen dabei?
Habt ihr schon mal so etwas gemacht wie setzt man das von der Architektur am besten auf?

Schau Dir mal snoopy an
webfreclan

webfreclan hat kostenlosen Webspace.

16:14, 25.2.2013

gaec schrieb:
Also, ich würde nicht PHP benutzen!

Und warum nicht?
Allgemein werden viele WebCrawler mit PHP realisiert. (Beispiele: http://phpcrawl.cuab.de/, http://php-crawler.sourceforge.net/, http://whiteboxcomputing.com/php/crawler/)
Ich würde dir deshalb zu PHP raten.
~~g****e~~

18:08, 25.2.2013
Mit PHP baust du ein mutierendes Abfragesystem, das sollte recht einfach sein. Also ein sich selbst steuerndes System, welches sich selbst immer wieder startet. Über ein DB Flag kannste es dann abschalten.
Ich persönlich würde Javascript verwenden. Mit NodeJS arbeite ich sehr sehr gerne, und damit wäre das wohl auch gut machbar. Das HTTP Modul kann auch Anfragen stellen, das kann man geschickt bauen.

Aber ich denke, da du PHP bereits kannst, solltest du dir die oben geposteten Projekte anschauen, und das mit PHP machen, wäre für das Verständnis wohl am effektivsten und einfachsten.

Liebe Grüße
hackyourlife

Moderator

hackyourlife hat kostenlosen Webspace.

19:05, 25.2.2013
Bei JavaScript könntest du dir auch phantoomjs ansehen… damit sollte sich auch ein Crawler bauen lassen, obwohl es eigentlich eher zum Testen von Webseiten gedacht ist.

Beitrag zuletzt geändert: 25.2.2013 19:06:15 von hackyourlife
Diskutiere mit und stelle Fragen: Jetzt kostenlos anmelden!

lima-city: Gratis werbefreier Webspace für deine eigene Homepage

Dir gefällt dieses Thema?

Über lima-city

lima-city bietet dir kostenlosen und werbefreien Speicherplatz für Deine Homepage. Sofort anmelden und direkt loslegen mit Webspace, PHP, Datenbanken, günstigen Domains und einer tollen Community!

kostenloser Webspace werbefrei: lima-city

Welche Programmiersprache für WebCrawler?

lima-city → Forum → Programmiersprachen → Sonstige Programmiersprachen

Dir gefällt dieses Thema?

Über lima-city

Login zum Webhosting ohne Werbung!