kostenloser Webspace werbefrei: lima-city


Welche Programmiersprache für WebCrawler?

lima-cityForumProgrammiersprachenSonstige Programmiersprachen

  1. Autor dieses Themas

    kalb

    kalb hat kostenlosen Webspace.

    Hallo,

    Ich würde gerne so etwas wie einen kleinen Web-Roboter programmieren.
    Der soll dann mittels URLs Webseiten laden (+Inhalte, Js) und den Inhalt ggf auswerten
    (nach Worten/Ausdrücken suchen, ...) und verarbeiten (Inhalte Speichern/Herunterladen, ...)
    und sich dann nach bestimmter Logik weiter hangeln und dabei ggf auch passende Formulardaten ausfüllen und Daten an den Server senden (Bilder).

    Jetzt wollte ich fragen, mit welcher Programmiersprache ich da die meiste Unterstützung für so etwas erwarten kann,
    ohne, dass ich dabei jetzt neu irgendwelche Basisfunktionen wie
    "Lade_Seite(URL)", "Hole_Alle_Links(Seite)", "Setze_Formular_Daten(formular, Daten)"
    komplett selbst implementieren zu müssen?

    Programmieren kann ich tw schon in C, C#.Net, php
    habe aber auch schon mit perl und lwp ein script zum einfachen holen von bestimmten Daten aus einer Website geschrieben.

    Welche Sprache wäre eurer Meinung nach am besten geeignet und welche Klassen dabei?
    Habt ihr schon mal so etwas gemacht wie setzt man das von der Architektur am besten auf?
  2. Diskutiere mit und stelle Fragen: Jetzt kostenlos anmelden!

    lima-city: Gratis werbefreier Webspace für deine eigene Homepage

  3. kalb schrieb:

    Programmieren kann ich tw schon in C, C#.Net, php
    habe aber auch schon mit perl und lwp ein script zum einfachen holen von bestimmten Daten aus einer Website geschrieben.

    Welche Sprache wäre eurer Meinung nach am besten geeignet und welche Klassen dabei?
    Habt ihr schon mal so etwas gemacht wie setzt man das von der Architektur am besten auf?


    Schau Dir mal snoopy an
  4. gaec schrieb:
    Also, ich würde nicht PHP benutzen!

    Und warum nicht?
    Allgemein werden viele WebCrawler mit PHP realisiert. (Beispiele: http://phpcrawl.cuab.de/, http://php-crawler.sourceforge.net/, http://whiteboxcomputing.com/php/crawler/)
    Ich würde dir deshalb zu PHP raten.
  5. g****e

    Mit PHP baust du ein mutierendes Abfragesystem, das sollte recht einfach sein. Also ein sich selbst steuerndes System, welches sich selbst immer wieder startet. Über ein DB Flag kannste es dann abschalten.
    Ich persönlich würde Javascript verwenden. Mit NodeJS arbeite ich sehr sehr gerne, und damit wäre das wohl auch gut machbar. Das HTTP Modul kann auch Anfragen stellen, das kann man geschickt bauen.

    Aber ich denke, da du PHP bereits kannst, solltest du dir die oben geposteten Projekte anschauen, und das mit PHP machen, wäre für das Verständnis wohl am effektivsten und einfachsten.

    Liebe Grüße
  6. hackyourlife

    Moderator Kostenloser Webspace von hackyourlife

    hackyourlife hat kostenlosen Webspace.

    Bei JavaScript könntest du dir auch phantoomjs ansehen… damit sollte sich auch ein Crawler bauen lassen, obwohl es eigentlich eher zum Testen von Webseiten gedacht ist.

    Beitrag zuletzt geändert: 25.2.2013 19:06:15 von hackyourlife
  7. Diskutiere mit und stelle Fragen: Jetzt kostenlos anmelden!

    lima-city: Gratis werbefreier Webspace für deine eigene Homepage

Dir gefällt dieses Thema?

Über lima-city

Login zum Webhosting ohne Werbung!