Seitenzahlen bei doppelseitigen Pdf-Dateien automatisch erkennbar?

Katarina C. hinzugefügt 4 Jahren her
beantwortet

Hallo!

Wenn ich pdfs annotiere, funktioniert es einwandfrei, dass ausgehend von einem Zitat, in dem ich die Seitenzahl angegeben habe, für weitere Zitate die Seitenzahlen von Citavi richtig eingeschätzt werden (was ich klasse finde) - das geht aber leider nur, wenn eine pdf-Seite auch einer Seite entspricht.

Der weitaus häufigere Fall ist wohl (das ist sogar im Handbuch von Citavi so), dass man eine pdf-Datei hat, auf der jeweils zwei Seiten abgebildet sind. Es wäre fantastisch, wenn ich Citavi dazu bringen könnte, das zu erkennen - linke Spalte eine Seite, rechte Spalte nächste Seite.

Das geht bislang nicht, oder?

Herzlichen Gruß,

Katarina

Antworten (3)

Foto
1

Hallo, Katarina,

das ist leider ein beinahe unlösbares Problem, denn was unterscheidet ein echt zweispaltiges PDF von einem, das zwei Seiten pro "Blatt" enthält. Vermutlich nur die Orientierung des Blattes (Quer- gegenüber Hochformat). Dazu kommt dann noch, dass eventuelle leere Halbseiten mitgezählt werden müssen. Letztlich liefe die Erkennung der Seitenzahl auf Raten hinaus.

Der bessere Weg wäre, das gescannte PDF mit einer Funktion der OCR-Software oder einem Tool wie Scantailor so vorzubehandeln, dass auf einem PDF-"Blatt" auch tatsächlich nur eine "logische" Seite ist.

Viele Grüße

Sebastian

Foto
1

Hallo Sebastian,

danke für die schnelle Antwort. Stimmt natürlich mit den Spalten, aber ich könnte dem pdf/Citavi ja auch einfach sagen, dass die Seiten diesen Aufbau haben, dann müsste Citavi nicht raten, und wenn mal ne leere Seite dazwischen ist, stimmt ja auch die andere Zählung nicht mehr, dann ist halt einmal ne Korrektur nötig (ich geh davon aus, dass Citavi sich immer am vorherigen Zitat orientiert). Ich weiß nicht, ob das leicht zu programmieren wäre und ob ihr an Citavi 5 noch bastelt, aber ich würd's mir wünschen :-)

Mein Versuch, pdf's zu zerlegen, hat jeweils zu einer so massiven Qualitätsverschlechterung geführt, dass ich aufgegeben habe (zumal es natürlich irre viel Zeit in Anspruch nimmt). Ich guck mir mal das Programm an. - [Nachtrag: Das nimmt keine pdfs.]

Herzlichen Gruß

Katarina

Foto
1

Vielleicht muss ich meine Ausgangslage noch genauer beschreiben, da sich eine Citavi-interne Lösung wohl eher nicht abzeichnet. Vielleicht hat ja jemand einen Tipp.

Ich habe qualitativ gute Scans als OCR-bearbeitete Pdf-Dateien vorliegen. Dass Citavi die Dateien lesen kann, ist wichtig, aber nicht so wichtig, wie dass ich sie angenehm lesen kann. Die Weiterverarbeitung soll ohne Qualitätsverlust und möglichst auch unter Beibehaltung des bereits erkannten Textes erfolgen und am besten natürlich auch nicht viel Zeit in Anspruch nehmen (ich möchte keine Dateien aus Einzelseiten zusammensetzen müssen, zum Beispiel).

Hat jemand eine Idee, wie ich das hinkriege?

Perfekt wäre es, wenn bereits vorhandene Annotationen erhalten und verknüpft bleiben, aber ich bin auch für Vorschläge offen, die sich nur auf neue Scans beziehen. Aus Kosten- und Zeitgründen nicht wirklich akzeptabel ist die Variante, die Artikel von vornherein in Einzelseiten zu scannen.

Bin gespannt und hoffe auf Tipps!

Herzlichen Gruß

Katarina

Foto
1

Hier nun mein bestes Ergebnis nach zwei Stunden Experimentiererei:

Ich kann meine PDF-Dateien mit dem Adobe Acrobat Pro (hier: Vs. 9) wie folgt akzeptabel bearbeiten, dauert nur etwas:

  • PDF-Datei über PDF-Drucker wieder ausdrucken, dabei mit folgenden Einstellungen: große Seiten teilen, Größe der Teile: 73% (da muss man herumexperimentieren, wann man genau zwei Teile bekommt), für mich funktioniert die Einstellung "Druckausgabequalität" (nicht alle Varianten lassen nachträgliches OCR zu).
  • Anschließend OCR mit "ClearScan" (das ist die wichtigste Info!) und einer möglichst geringen Neuberechnung (hohe dpi-Zahl).
  • Anschließend Seiten beschneiden (ungerade und gerade separat).
  • Und wenn man schon dabei ist, kann man die Seiten auch neu nummerieren, z.B. über das Kontextmenü in der Miniaturvorschau (oder erweitert - Dokumentverarbeitung).

Der Kontrast ist nicht mehr ganz so gut wie vorher, aber ClearScan kriegt ganz gute Buchstaben hin, so dass die Dateien gut lesbar sind.

Foto
4

Das erscheint mir relativ viel Aufwand zu sein. Ich nehme seit Jahren Briss für diese Aufgabe, welches die PDFs ohne Neuberechnung zerteilt. Als Nebenbemerkung: die DPI bei ClearScan hat auf die eigentliche Schrift keine Auswirkung, das ist ja gerade der Witz an Clearscan: alles, was als Text erkannt wird, wird nicht mehr als Bild gespeichert, sondern als Text mit einem eigens erzeugten Font, welcher dem Font des Originals so nah wie möglich kommt. Das ist dann ein Vektor, keine Bitmap mit Auflösung. Die DPI wirkt sich nur noch auf Bilder aus. Citavis PDF-Komponente mag Clearscan übrigens nicht so gerne, und wehe man hat deutschsprachige PDFs mit Clearscan einmal an einem Mac mit PDFKit geöffnet und markiert. Danach ist die gesamte Kodierung fort, und das Dokument ist unbrauchbar geworden. (Dessen ungeachtet: wenn ich eine PDF selber aus einem Scan erzeuge, nehme ich auch Clearscan, sieht am Besten aus, und Macs habe ich genau aus diesem Grunde aufgegeben.)

Foto
1

Ich teste gerade Briss - das ist genau das, was ich brauche! DANKE SEHR! Tolles Tool.

Es zerlegt die Seiten nicht nur, die OCR bleibt dabei sogar erhalten! [Nachtrag: Aber scheinbar nur, wenn man die Vorschau speichert?]

Und: Gut zu wissen, dass ClearScan die Dateien zerlegt - ich dachte, die Infos blieben irgendwie in einem Layer erhalten. Das Ergebnis ist echt gut lesbar, was so ziemlich das wichtigste ist - aber ich sollte dann wohl irgendwo eine Sicherung des Originals aufbewahren.

Foto
1

Nachtrag zum Nachtrag: Weiß nicht, wo es da zuerst gehakt hat, aber die OCR bleibt beim Croppen erhalten. Alles super.

Foto
1

Vier Jahre später schalte ich mich auch noch ein, um 1. auf aktuelle Alternativen zur PDF-Seitenzerteilung mit Briss hinzuweisen und 2. zu betonen, dass Katharina C.s erster Kommentar auf die Antwort von Sebastian P. eine wichtige Anregung enthält, die die EntwicklerInnen nicht unter den Tisch fallen lassen sollten.

1) Angenehmer als die Installation und der Umgang mit Briss empfinde ich Online-Tools. Sejda (https://www.sejda.com/de/split-pdf-down-the-middle) zeigt praktischerweise auch die zu teilende Seite und erlaubt die Schneidlinie manuell einzustellen, sodass auch ungleichformatige Seiten sich teilen ließen. Dies funktioniert jedoch nur limitiert. Online2PDF ist daher für Vielnutzende das Mittel der Wahl (https://online2pdf.com/de/pdf-seiten-halbieren), hier ist nur das Dateilimit von 100mb zu beachten. Eine OCR-Behandlung und Komprimierung mit Desktopanwendungen (am Besten leider das überteuerte Adobe Pro), ggf. sogar eine Aufteilung in mehrere Dateien empfiehlt sich also VOR dem Zerschneiden der Doppelseiten, um eine möglichst kleine Datei hochladen zu müssen und dennoch die volle Qualität für die OCR-Behandlung zu haben.

2) Für Dokumente mit Spalten-, statt Seitenangaben, bspw. Quelleneditionen aus dem 19. Jahrhundert oder Lexikonartikel ist mir dagegen keine vernünftige Lösung bekannt. Daher würde Citavi in der Tat gut daran tun, ein Tool zur Definition der Seiten/Spalten auf einer PDF-Seite einzubauen, mit dem der User in der Lage ist zu bestimmen, wo die Grenze zwischen erster und zweiter Spalte/Seite verläuft.


Beste Grüße

Foto
Foto
1

Ich habe gerade keinen Zugang zum PC, aber in meiner Erinnerung kann man einfach mit gedrückter Maustaste ein zweites Rechteck ziehen, um eine Seite in zwei zu teilen. Ich kann da morgen aber auch Mal ein Screencast machen.

Mit Clearscan wollte ich auch nicht verwirren. Der "zerlegt" die Dateien in Wortsinn schon, da Text und Bild getrennt werden, aber im Regelfall geht da kein Informationsverlust mit einher, das Schriftbild sieht evtl leicht anders aus (es gab, der Vollständigkeit halber, mal Kopierer von Canon, die was ähnliches gemacht haben, und da war dann tatsächlich Mal eine Ziffer aus Millionen nachher falsch kopiert). Das Kaputtgehen am Mac ist ein Problem von Mac OS, nicht von Adobe, das erwähnte ich nur, weil ich von Clearscan abraten würde, wenn ich weiß, daß die Datei auch am Mac genutzt wird.

On Tue, Feb 26, 2019, 21:06 Citavi Service, <service@citavi.com> wrote:

Foto
1

Für mich brauchst du keine Anleitung zu verfassen, ich habe schnell alles in den Griff bekommen. Eigentlich ist das alles nicht schwer zu handhaben, ich hab schon mehrere Dateien bearbeitet und ersetzt. Stimmt: Man kann Rechtecke ziehen und löschen und anpassen und kopieren (z.B. auf der ersten Seite erstellen und dann auf die zweite kopieren). Ich bin extrem dankbar für deinen Hinweis auf Briss!

Da, wo Citavi mit der OCR nicht gut zurechtkommt, lasse ich jetzt nochmal OCR-Clearscan drüberlaufen, und alles funktioniert so viel besser. Das waren jetzt schon zwei erfolgreiche Tage für mich - wenn ich mal davon absehe, dass ich fast nichts geschrieben habe ;-)

Foto
Foto
1

Go by this way may be this will solve the problem just select document > OCR Text Recognition > Recognize Text Using OCR and then click on radio button and enter ok.


Available here https://admiretg.com Transportation Services in Hermitage TN


Antwort schreiben
 
Dateianlage anfügen (KEINE vertraulichen Dokumente!)