PDF parsen (PDF zu String) in PHP
lima-city → Forum → Programmiersprachen → PHP, MySQL & .htaccess
auslese
dokument
einfacher gehen
ergebnis
finger
haufe
helfen
hinweis
http
jemand
melde
posten
reiner text
string
tabelle
test
text
tip
url
verwendung
-
Hi Leute,
ich möchte ein PDF Dokument für die Verwendung in einer Datenbank auslesen, und habe mir die finger bereits wund gegoogelt.
Folgendes ist das PDF Dokument:
http://www.haufen.at/test/pdf/2011_10_17-2011_10_21%20Klassen%20MagA%20V05%20offiziell%20Vertretung%20V2.pdf
Daraus möchte ich die Inhalte lesen, und wenn es nur ein großer zusammengesetzter String ist.
Falls jemand eine Lösung hat, bitte posten!
//EDIT
Habe es geschafft mit den Tool pdf2text folgendes zu bekommen. Helfen tut mir das leider nicht.
http://www.haufen.at/test/pdf/indexv1.php
Irgendwelche Tipps
Vielen Dank
Stefan
Beitrag zuletzt geändert: 14.10.2011 10:58:41 von aklasse -
Diskutiere mit und stelle Fragen: Jetzt kostenlos anmelden!
lima-city: Gratis werbefreier Webspace für deine eigene Homepage
-
Hallo
ich denke es könnte mit OCR - Optical Character Recognition gehen
z.B. http://www.phpclasses.org/phpocr aber keine Ahnung ob das auch mit PDF geht
Vielleicht hilft ja auch das hier http://php.livejournal.com/295413.html?thread=4830453#t4830453 bei deinem Code
sonst kennst Du sicher die Kommntare bei http://de3.php.net/manual/de/ref.pdf.php
oder das hier http://www.fpdf.de/forum/showthread.php?t=1655 Hinweise in Antw. beachten
oder hier http://www.php.de/php-tipps-2007/22298-pdf-zu-php-3.html
.... scheint garnisht so einfach zu sein
habe selber Interesse an dem Thema ... aber wenn dann eher pdf2html.
also nicht nur reiner text sondern alles, auch Tabellen, Bilder, etc.
-
OCR ist prinzipiell nicht nötig da der Text wirklich als Text vorhanden ist. Das muss einfacher gehen.
Ich versuche es bisher mit folgender Klasse: http://www.haufen.at/test/pdf/class.pdf2text.txt
Damit kann ich problemlos PDFs parsen und bekomme wunderschonen plain Text.
Aus http://www.haufen.at/test/pdf/sample.pdf wird http://www.haufen.at/test/pdf/indexsample.php
Genau wie gewünscht.
Nur bei meinem Supplierplan funktioniert es nicht. Die Ergebnisse sehen bisher nämlich so aus:
http://www.haufen.at/test/pdf/indexv1.php
Da läuft irgendetwas schief.
Falls Jemand helfen kann, pls melden!
Liebe Grüße
Stefan -
Diskutiere mit und stelle Fragen: Jetzt kostenlos anmelden!
lima-city: Gratis werbefreier Webspace für deine eigene Homepage