Programmieren eines Internet Suchers?
lima-city → Forum → Programmiersprachen → Sonstige Programmiersprachen
beginne
bestimmten wort
datei
durchsuchen
entsprechen
file
funktion
gedanke
http
inhalt
lernen
programmiersprache
projekt
riesigen projekte
schema
speicherung
sprache
sucher
url
versenden
-
Ich möchte einen art Internet sucher programmieren.
Ich möchte dem Programm eine URL übergeben die dann abgerufen und der Inhalt (html) durchsucht wird.
Es wird Links auf der Seite gefolgt (aber nur denen die Schema A1, A2 oder A3 entsprechen).
Die Seiten denen auf diese Weiße gefolgt wird werden eben so behandelt.
(Es sei denn sie wurden schon besucht)
Andere Links auf diesen Seiten werden gespeichert,
aber nur jene die Schema B1, B2 oder B3 entsprechen.
(Erst mal die Speicherung nur in ein File, spter vl mal SqLite, MySQL, …)
Schema A(1,2,3) & B(1,2,3) werden am besten in einem Config File hinterlegt.
Jetzt wollte ich mal wissen welche Programmiersprache/Skrip Sprache dafür am geeignetsten ist.
Und ob wer einfache Tutorials kennt, die einem an genau die Materie heran führen?
-
Diskutiere mit und stelle Fragen: Jetzt kostenlos anmelden!
lima-city: Gratis werbefreier Webspace für deine eigene Homepage
-
Interner Sucher? Du meinst Webcrawler. http://de.wikipedia.org/wiki/Webcrawler
Es gibt da verschiedene fertige Erzeignisse. Sowas "mal eben selbst" zu bauen kann ich nicht empfehlen.
http://en.wikipedia.org/wiki/Web_crawler#Open-source_crawlers -
Wenn du einen Webcrawler in PHP umsetzen möchtest, ist die PHP-Klasse Snoopy möglicherweise interessant für dich: http://sourceforge.net/projects/snoopy/
Snoopy gaukelt den Websites vor, ein ganz normaler Browser zu sein und liefert schon einige Funktionen mit, die zu für einen Crawler benötigst, beispielsweise alle Links einer Seite auszulesen, oder Dateien einfach per POST zu versenden. Für einen PHP-Crawler ist Snoopy daher absolut empfehlenswert, es sei denn, du möchtest alle Funktionen von Grund auf zu Lernzwecken selber schreiben.
Weiterhin solltest du dir Gedanken darüber machen, was du überhaupt mit den abgecrawlten Websites machen möchtest. Du könntest diese als HTML-Datei auf der Platte abspeichern, oder einfach nur nach einem bestimmten Wort durchsuchen und danach den Inhalt wieder verwerfen.
Ich lege dir daher nahe, für ein solches größeres Projekt erstmal ein gewisses Grundkonzept aufzustellen, bevor du mit der eigentlichen Programmierarbeit beginnst. -
Crawler.
Ok.
Naja, es soll funktionieren & was dabei lernen ist ja auch nicht schlecht!
Die Frage ist ja mal auch welche Sprache überhaupt.
Könne ... tu ich nichts und alles.
Ne also Gut kann ich denke ich keine (also so dass ich zufrieden wäre)
Aber habe schon mit: PHP, C, Java, ASM, C#, sh, ... was am Hut gehabt.
Aber meist keine riesigen Projekte. (wird der aber jetzt auch nicht werden)
PHP mag ich jetzt zB. nicht auf Windows. (auf Linux kein Problem)
Mit der Klasse, wirkt das jetzt für mich eigentlich "schon fast einfach".
Wäre dann hald aber auch Interessant vl mit anderen Sprachen mal zu realisieren um es auch bei denen zu lernen.
Bei C/C++ könnt ich mir zB gar nicht vorstellen wie ich da beginne,
(also Site holen, regex drauf, ...)
Aber vl mach ich auch einfach zuerst in PHP und schau nacher,
ob ich es wo anders hin portiere.
ie gesagt, Die Links werden einfach mal gespeichert in ein file.
Sehe das Projekt jetzt auch nicht als größeres.
Bräuchte ein tool das eben oben beschriebenes Macht,
denke mir bisi was dabei lernen schadet nicht.
Wie gesagt sehe das als nicht groß ... also ...
Konzept? Was ist das;) -
Diskutiere mit und stelle Fragen: Jetzt kostenlos anmelden!
lima-city: Gratis werbefreier Webspace für deine eigene Homepage