schneller htmlparser für java
lima-city → Forum → Programmiersprachen → Java
art
code
dokument
dom
einsatzzweck
file
funktionieren
greifen
http
information
jemand
komfort
mittelweg
modeln
nachteil
navigieren
paar
performance
programmieren
url
-
hi kennt jemand einen guten html-parser welcher sich leicht in java einbinden lässt und mit dem ich auch auf seiten mit anmeldung zugreifen kann? habe schon mal htmlunit ausprobiert allerdings war dies in meinem fall nicht sehr performant. ich hab mal etwas von sax-parsern(sollen sehr schnell sein) gehört die auch mit html funktionieren sollen kann mich da bitte jemand aufklären.thx
-
Diskutiere mit und stelle Fragen: Jetzt kostenlos anmelden!
lima-city: Gratis werbefreier Webspace für deine eigene Homepage
-
http://htmlparser.sourceforge.net/
einfach einzubinden da lib
performant ist immer relativ (java sowiso nicht das schnellste). Der einsatzzweck wäre noch interessant. -
Da HTML ja nur eine sehr spezielle Variante von XML ist, solltest du jeden XML-Parser nehmen können. Konkret hast du also 3 gute Möglichkeiten:
Sax (Simple Api for Xml): Sehr schnell aber nicht sehr komfortabel. Wenn du nur ein paar Informationen aus dem HTML-Code lesen willst, wird dies das richtige für dich sein. Wenn du aber in dem HTML-Code navigieren musst würde ich lieber zu Dom greifen.
Tutorial
Dom (Document Object Model): Nicht so schnell wie SAX, aber das wird bei einem wenige Kilobyte großen HTML-Dokument kaum spürbar sein. Dafür hast du sowohl den Navigationskomfort der mit Dom eben kommt (Sibling/Child-Funktionen...) als auch eine Art Query-Library (XPath). Du kannst mit Dom auch XML schreiben.
Tutorial (English)
Stax (Streaming API for XML): Ein Mittelweg zwischen DOM und Sax sowohl was Performance als auch Komfort angeht. Ein Nachteil ist, dass Stax eine externe Bibliothek ist, und du sie praktisch mitliefern musst.Wiki
Lg -
Diskutiere mit und stelle Fragen: Jetzt kostenlos anmelden!
lima-city: Gratis werbefreier Webspace für deine eigene Homepage