Volltextsuche in PDFs

  • Hallo,

    habe Plone 4.2.1 mit Hilfe des Windows Installers auf meinem DELL XPS15 mit Windows 7 Home 64bit installiert.
    Danach ein Update auf 4.2.4 gemacht, es läuft soweit auch alles.
    Ich habe meine erste Seite angelegt, das Logo geändert....
    Aber ------------
    Wenn ich ein PDF Dokument als Datei einbinde, werden die Inhalte in der Suche nicht gefunden. Laut Beschreibung sollte doch aber die Volltextsuche in PDF's funktionieren.
    Fehlt mir da noch irgendwas, oder muß man irgendwo was einstellen oder aktivieren ???

    Danke
    ulf850

  • 1. Guckst du hier: http://plone.org/documentation/…ithout-problems
    Ist für Plone 3 aber der Hinweis das du irgendeine Anwendung brauchst die pdf in text umwandelt damit das pdf indiziert werden kann ist weiterhin gültig.
    2. Ist das PDF File nicht aus Text enstanden sondern z.Bsp. eingescannt worden kann es nicht indiziert werden, selbst wenn wie unter 1. eine pdf-zu-text Anwendung installiert ist.

  • Ich habe xpdf3 installiert. Aber kein Erfolg.
    Folgendes habe ich alles versucht.
    - plone wieder deinstalliert
    - xpdf3 installiert und in PATH-Variable eingetragen
    - plone wieder neu installiert
    - pdf-Dokument hochgeladen
    - KEINE Volltextsuche möglich.

  • Vorweg: Obwohl Enfold Systems mit dem Installer für Windows hervorragende Arbeit leisten, macht Plone auf Windows mehr Ärger als Spaß. Das merkst du unter anderem daran, dass Sachen wie die Indizierung von PDF-Dateien die auf Linux quasi "out of the box" laufen mit Windows einiges an Frickelei benötigen.
    1. Damit die Volltextsuche möglich ist muss die PDF-Datei tatsächlich durchsuchbar sein.
    2. Ich weiß nicht was xpdf3 ist und wo du es her hast. Ich habe mir von http://www.foolabs.com/xpdf/ eine Datei namens xpdfbin-win-3.03.zip heruntergeladen. Dann habe ich die Datei pdftotext.exe aus dem Ordner bin64 der Zip-Datei nach c:\Windows\SysWOW64 kopiert.(Meine Windowskiste ist ebenfalls Home 7 64bit. Auf 32bit muß man vermutlich die pdftotext.exe aus dem Ordner bin32 der Zip-Datei nach c:\Windows\System32 kopieren).
    3.Da auf Windows Plone als Dienst installiert wird habe ich die Instanz heruntergefahren indem ich den Dienst Plone 4.2 (nicht den Dienst 4.2 Zeo) gestoppt habe. Dann habe ich mir eine Eingabeaufforderung geöffnet bin in das Verzeichniss C:\Plone gewechselt und habe die Instanz mit bin\instance.exe fg im Vordergrund neu gestartet.
    4. Habe ich über http://localhost:8080/manage im ZopeManagementInterface (ZMI) eine neue Plone Seite angelegt. Im ZMI/neue Seite/portal_transforms war dann auch schon eine Transformation namens pdf_to_text angelegt.
    5. Habe ich Martin Aspelis hervorragendes Buch Profesionell Plone 4 Devellopement welches ich als Pdf-Datei besitze auf die neue Seite heraufgeladen.
    6.Habe ich im ZMI/neue Seite/portal_catalog im Reiter Catalog den Link auf die heraufgeladene Datei angeklickt und auf der sich öffnenden Seite unter Index Contents => SearchableText gesehen, dass die Datei korrekt indiziert wurde.
    7.Habe ich auf der neuen Seite im Suchfeld den Namen Aspel eingegeben und bekam sofort die Pdf_Datei als Suchergebniss angezeigt.
    8.Habe ich auf einer bereits früher angelegten Seite in portal_transforms eine neue Transformation mit der id pdf_to_text und dem Modul Products.PortalTransforms.transforms.pdf_to_text angelegt und dann die Schritte 5-7 erfolgreich durchgeführt.

    Ich habe vorher auch deinen Weg mit irgendwo installieren (meint den bin64 Ordner aus der Zip-Datei nach c:\Program Files(x86) kopieren, Ordner bin64 nach xpdf umbennen und Ordner in PATH eintragen) gegangen. Das war aber nicht erfolgreich: Unter der bereits früher angelegten Seite endete jeder Versuch eine neue Transformation anzulegen mit einer Fehlermeldung und einem irreführenden Traceback das es einen Fehler im Modul Products.Mimetypesrgistry gegeben hätte. In einer neu angelegten Seite war zwar die Transformation vorhanden aber nach dem heraufladen der schon erwähnten Datei war in SearchableText der Text "'c','program','nicht',......'falsch','geschrieben'" zu finden. Ein bißchen googlen hat erbracht, dass das ganze wohl eher ein Berechtigunsproblem ist.

    Versuch es also noch einmal mit meiner Vorgehensweise. Wenn es nicht funktioniert bin ich gerne bereit weiter zu helfen unter der Vorrausetzung dass du 1. ein bißchen ausfühlicher wirst(z.Bsp. was heisst installiert,was ist und woher hast du xpdf3, usw) und zweitens nicht wieder die beleidigte Leberwurst spielst weil der Hinweis nicht erfolgreich war und RUMSCHREIST.

    Gruß Daniel

  • Hallo Daniel,

    vielen Dank für Deine ausführliche Anleitung. Jetzt klappt es. Super.....
    Entschuldigung fürs Rumschreien, habe ich in dem Moment nicht drangedacht, beleidigt war ich aber nicht.

    xpdf3 habe ich irgendwo im Netz gefunden, weiß aber nicht mehr wo. Sollte ein Installer für das auch von Dir verwendete xpdf sein.

    gruß
    ulf