Anzeige - [Hier werben / Mediadaten]
(?) Tags raten (?) pdf, text, umwandeln (edit)
 
Reply to this topicStart new topicStart Poll
> PDF-Dokumente mit PHP in Text umwandeln
Friedrich
Geschrieben am: Mi 31.01.2007, 10:29
Report PostQuote Post

AyomRank 3
******

Gruppe: Member (aktiv)
Beiträge: 48
Mitglied seit: 21.10.2006


Hallo,

für ein Projekt möchte ich abgelegte PDF-Dokumente durchsuchen können (einfache Suchfunktion).
Dafür müssten diese Dokumente als Textdokumente extra abgespeichert werden.

Hier fand ich ein paar Codes "pdf2text":
http://de3.php.net/manual/de/ref.pdf.php

Bei einigen PDF-Dateien funktioniert es sogar. Aber auch nur bei einigen.
Woran könnte das liegen? Und wie könnte man dieses Woran entfernen?
Oder kennt ihr andere Möglichkeiten NUR den Text aus PDF-Dokumenten zu lesen?

Friedrich


--------------------
Top
PMEmail Poster
Top
 
 
Ronald Nickel
Ronnic Arts - Arts ´n graphics
#2 Geschrieben am: Mi 31.01.2007, 11:41 (+01:12)
Report PostQuote Post

AyomRank 7
**************

Gruppe: Member (aktiv)
Beiträge: 1286
Mitglied seit: 27.12.2005


also wenn es nur um das Auffinden von Strings geht suche mal nach "Verity search engine". Das funktioniert mit html, pdf, txt, Doc und Datenbanken

Gruß Ronny


--------------------
Skypename: "ronaldnickel"
www.ronnic-arts.de
Ich suche dringend ...
Meine Bilder aus Model-Kartei.de ...
Illustrationen, Vektorgrafiken, Bildbearbeitung,Photoshop
ColdFusion
Top
PMEmail PosterUsers Website
Top
 
jeliel
#3 Geschrieben am: Mi 31.01.2007, 11:41 (+00:00)
Report PostQuote Post

AyomRank 4
********

Gruppe: Member (aktiv)
Beiträge: 184
Mitglied seit: 22.01.2007


hi

also ich würde mit xpdf arbeiten. installiert du auf deinem server (wenn möglich sonst frag dein admin) und kannst über exec dann ansprechen. finde ich die beste variante. über php klassen, dauerte es in meinem projekten meist zu lange oder war zu ungenau die "extraction".

hoffe konnte dir weiterhelfen

grüsse
jeliel


--------------------
Top
PMEmail Poster
Top
 
Friedrich
#4 Geschrieben am: Do 1.02.2007, 15:45 (+28:03)
Report PostQuote Post

AyomRank 3
******

Gruppe: Member (aktiv)
Beiträge: 48
Mitglied seit: 21.10.2006


Hallo,

Was meinst du mit "über php klassen, dauerte es in meinem projekten meist zu lange oder war zu ungenau die "extraction"."?
Es gibt also auch die Möglichkeit per PHP PDF-Dateien in Textdateien umzuwandeln? Bei mir kam (mit den Scripten, die ich ausprobiert habe) manchmal ein richtiges Ergebnis heraus, manchmal gar nichts und manchmal einfach nur komisch schöne Zeichen.

Oder kann man einfach nach einem Begriff in einer PDF-Datei mit Hilfe von PHP suchen und dann das Ergebnis (vorhanden ja/nein) ausgeben?

Wie macht das eigentlich Google?

Friedrich


--------------------
Top
PMEmail Poster
Top
 
jeliel
#5 Geschrieben am: Do 1.02.2007, 16:25 (+00:40)
Report PostQuote Post

AyomRank 4
********

Gruppe: Member (aktiv)
Beiträge: 184
Mitglied seit: 22.01.2007


hi,

ich fang mal von hinten an. google oder grosse firmen, die auch eine bestimmte masse an dokumenten indexieren wollen würden nicht auf php zurückgreifen. glaub dann eher auf richtige software auf basis von c, c++ usw.

komische zeichen kriegst du schon mal dadurch das ein pdf images, fonts, javascript, encoding usw mit einbindet. dies müste auch alles gefiltert werden. dann müsstest du dort, wo der text object existiert noch den richtigen komprimierungsverfahren herausfinden und davor vl noch, falls verschlüsselt wurde, den key und die verschlüsselungsart. im grossen und ganzen nicht wirklich schwer aber sicher etwas übertrieben aufwändig nur um texte zu indexieren.

mein vorschlag wäre, installier ghostscript oder xpdf. dann über exec ansprechen. mit ghostscript könntest sogar dann ein thumbnail aufbauen als voransicht.

falls aber dein provider dir diese möglichkeit nicht anbietet, sachen zu installieren, dann installiere php und ne datenbank lokal, schreib ein skript der eins der tools ausführt und am ende eine verbindung zu deiner 'live' datenbank aufbaut und die texte einträgt.

liebe grüsse,
jeliel


--------------------
Top
PMEmail Poster
Top
 
Thema wird von 0 Benutzer(n) gelesen (0 Gäste und 0 anonyme Benutzer)
0 Mitglieder:
Trackback-Url: http://www.ayom.com/track/t/16451

Topic Options Reply to this topicStart new topicStart Poll

 


> Ähnliche Themen
[B] Text zum Thema: Biathlon Schwede 32 0 Mi 3.12.2008, 08:48
Suche: Exklusiven Text 100x100 101 0 Di 18.11.2008, 19:52
[B] Umfangreichen "Energie"-Text zum Kauf Schwede 105 0 Do 6.11.2008, 15:17
[B] Umfangreichen Text zum Kauf Schwede 80 0 Mo 27.10.2008, 13:51
Kaufen ein deutsche Website/Domain oder Text Link günter31 538 11 Di 21.10.2008, 19:46
Wörter aus Text in Links umwandeln halbesbit 240 1 Fr 17.10.2008, 00:22
[S] Text. Thema SEO Thomas G. 130 0 Mo 22.09.2008, 12:30
Digitalgrafiken in Vektordateien (eps) umwandeln Moritz Klussmann 121 0 Sa 20.09.2008, 18:21
[B] Text über Rechtschutz-Versicherungen sylvia73 140 0 Sa 20.09.2008, 16:29
Guter Anbieter für Text/Bannerwerbung gesucht fluchen_net 377 9 Mo 15.09.2008, 17:17




Anzeige - [Hier werben / Mediadaten]



Anzeigen


[Hier werben / Mediadaten]