| Friedrich |
Geschrieben am: Mi 31.01.2007, 10:29
|
|
AyomRank 3 ![]() ![]() ![]() ![]() ![]() ![]() Gruppe: Member (aktiv) Beiträge: 48 Mitglied seit: 21.10.2006 |
Hallo,
für ein Projekt möchte ich abgelegte PDF-Dokumente durchsuchen können (einfache Suchfunktion). Dafür müssten diese Dokumente als Textdokumente extra abgespeichert werden. Hier fand ich ein paar Codes "pdf2text": http://de3.php.net/manual/de/ref.pdf.php Bei einigen PDF-Dateien funktioniert es sogar. Aber auch nur bei einigen. Woran könnte das liegen? Und wie könnte man dieses Woran entfernen? Oder kennt ihr andere Möglichkeiten NUR den Text aus PDF-Dokumenten zu lesen? Friedrich -------------------- |
![]() |
| Ronald Nickel Ronnic Arts - Arts ´n graphics |
#2 Geschrieben am: Mi 31.01.2007, 11:41 (+01:12)
|
![]() AyomRank 7 ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() Gruppe: Member (aktiv) Beiträge: 1286 Mitglied seit: 27.12.2005 |
also wenn es nur um das Auffinden von Strings geht suche mal nach "Verity search engine". Das funktioniert mit html, pdf, txt, Doc und Datenbanken
Gruß Ronny -------------------- Skypename: "ronaldnickel"
www.ronnic-arts.de Ich suche dringend ... Meine Bilder aus Model-Kartei.de ... Illustrationen, Vektorgrafiken, Bildbearbeitung,Photoshop ColdFusion |
![]() |
| jeliel |
#3 Geschrieben am: Mi 31.01.2007, 11:41 (+00:00)
|
|
AyomRank 4 ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() Gruppe: Member (aktiv) Beiträge: 184 Mitglied seit: 22.01.2007 |
hi
also ich würde mit xpdf arbeiten. installiert du auf deinem server (wenn möglich sonst frag dein admin) und kannst über exec dann ansprechen. finde ich die beste variante. über php klassen, dauerte es in meinem projekten meist zu lange oder war zu ungenau die "extraction". hoffe konnte dir weiterhelfen grüsse jeliel -------------------- |
![]() |
| Friedrich |
#4 Geschrieben am: Do 1.02.2007, 15:45 (+28:03)
|
|
AyomRank 3 ![]() ![]() ![]() ![]() ![]() ![]() Gruppe: Member (aktiv) Beiträge: 48 Mitglied seit: 21.10.2006 |
Hallo,
Was meinst du mit "über php klassen, dauerte es in meinem projekten meist zu lange oder war zu ungenau die "extraction"."? Es gibt also auch die Möglichkeit per PHP PDF-Dateien in Textdateien umzuwandeln? Bei mir kam (mit den Scripten, die ich ausprobiert habe) manchmal ein richtiges Ergebnis heraus, manchmal gar nichts und manchmal einfach nur komisch schöne Zeichen. Oder kann man einfach nach einem Begriff in einer PDF-Datei mit Hilfe von PHP suchen und dann das Ergebnis (vorhanden ja/nein) ausgeben? Wie macht das eigentlich Google? Friedrich -------------------- |
![]() |
| jeliel |
#5 Geschrieben am: Do 1.02.2007, 16:25 (+00:40)
|
|
AyomRank 4 ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() Gruppe: Member (aktiv) Beiträge: 184 Mitglied seit: 22.01.2007 |
hi,
ich fang mal von hinten an. google oder grosse firmen, die auch eine bestimmte masse an dokumenten indexieren wollen würden nicht auf php zurückgreifen. glaub dann eher auf richtige software auf basis von c, c++ usw. komische zeichen kriegst du schon mal dadurch das ein pdf images, fonts, javascript, encoding usw mit einbindet. dies müste auch alles gefiltert werden. dann müsstest du dort, wo der text object existiert noch den richtigen komprimierungsverfahren herausfinden und davor vl noch, falls verschlüsselt wurde, den key und die verschlüsselungsart. im grossen und ganzen nicht wirklich schwer aber sicher etwas übertrieben aufwändig nur um texte zu indexieren. mein vorschlag wäre, installier ghostscript oder xpdf. dann über exec ansprechen. mit ghostscript könntest sogar dann ein thumbnail aufbauen als voransicht. falls aber dein provider dir diese möglichkeit nicht anbietet, sachen zu installieren, dann installiere php und ne datenbank lokal, schreib ein skript der eins der tools ausführt und am ende eine verbindung zu deiner 'live' datenbank aufbaut und die texte einträgt. liebe grüsse, jeliel -------------------- |
![]() |
Thema wird von 0 Benutzer(n) gelesen (0 Gäste und 0 anonyme Benutzer)
0 Mitglieder:
« CGI Fehler ? Ladezeit unendlich lange | Programmierung Allgemein | Button Freigabe nach X Sekunden »
Trackback-Url: http://www.ayom.com/track/t/16451
![]() |
![]() ![]() ![]() |
| Themen Titel | Autor | Views | Antworten | Letzte Aktion |
| [B] Text zum Thema: Biathlon | Schwede | 32 | 0 | Mi 3.12.2008, 08:48 |
| Suche: Exklusiven Text | 100x100 | 101 | 0 | Di 18.11.2008, 19:52 |
| [B] Umfangreichen "Energie"-Text zum Kauf | Schwede | 105 | 0 | Do 6.11.2008, 15:17 |
| [B] Umfangreichen Text zum Kauf | Schwede | 80 | 0 | Mo 27.10.2008, 13:51 |
| Kaufen ein deutsche Website/Domain oder Text Link | günter31 | 538 | 11 | Di 21.10.2008, 19:46 |
| Wörter aus Text in Links umwandeln | halbesbit | 240 | 1 | Fr 17.10.2008, 00:22 |
| [S] Text. Thema SEO | Thomas G. | 130 | 0 | Mo 22.09.2008, 12:30 |
| Digitalgrafiken in Vektordateien (eps) umwandeln | Moritz Klussmann | 121 | 0 | Sa 20.09.2008, 18:21 |
| [B] Text über Rechtschutz-Versicherungen | sylvia73 | 140 | 0 | Sa 20.09.2008, 16:29 |
| Guter Anbieter für Text/Bannerwerbung gesucht | fluchen_net | 377 | 9 | Mo 15.09.2008, 17:17 |
Anzeige - [Hier werben / Mediadaten]















