Dubletten durch "Teil 1" und "Teil 2"

Erika L. hinzugefügt 4 Monaten her
beantwortet

Hallo Citavi-Team

Wie kann ich nachfolgende Dubletten-Regel bei Zeitschriftenartikeln anwenden, welche aus Teil 1 und Teil 2 bestehen?

3. Erreicht der Levenshtein-Algorithmus, der die Distanz zwischen zwei Texten im Feld Autor, Herausgeber oder Institutionen sowie beim Titel misst, einen definierten Schwellenwert? Falls ja, liegt eine Dublette vor.

Wo liegt der Schwellenwert bei Titeln, welche aus Teil1 und Teil 2 bestehen? Wenn ich im Titel "Teil 1 - Bla Bla" schreibe, dann wären es vor dem Bindestrich doch 5 Zeichen. Oder unterscheidet C6 zwischen Buchstaben und Ziffern? Dann sind es nur 4 Buchstaben. Oder rechnet C6 die Zeichenzahl nur bis zum Punkt? Dann wären es nur 1 Ziffer Unterschied. Auch das Ausschreiben der Ziffern (erster, zweiter) bewahrt nicht vor falsch-positiven Dubletten.

Zur Unterscheidung in der Spalte Titel reichen mir die Angaben "1. Teil - Bla Bla" und "2. Teil - Bla Bla". Aber wenn ich eine Dublettensuche mache, habe ich etliche falsch-positive Dubletten.

Wie muss ich den Titel erfassen, damit der Schwellenwert greifen kann? Sonst wäre hier eine Checkbox hilfreich.

FG Erika

Kommentare (20)

Foto
1

Hallo Erika

Auch hier wäre die bessere Lösung, eine konfigurierbare Duplikatprüfung, die es aber aktuell nicht gibt. Versuchen Sie bitte diese Alternative: Schreiben Sie ins Titel-Feld ergänzend (Teil eins) bzw. (Teil zwei).

Freundliche Grüsse

Peter

Foto
1

Hallo Peter,

Das mit der konfigurierbaren Duplikatprüfung hört sich gut an.

Das mit der Schreibweise funktioniert nicht: wird immer noch als Dublette erkannt. Ich muss wohl damit leben, dass C6 mir die Artikel immer noch als Dubletten ausgibt bis die o.g. Erweiterung verfügbar sein wird.

FG Erika

Foto
1

Da muss ich Erika recht geben, das gleiche Problem habe ich mit Dokumenten wie z.B. eigene Unterlagen zu durchgeführten Studien. Studienpläne und die anschließenden Reports der Studienergebnisse unterscheiden sich meist genau nur durch den Zusatz "Study Plan" und "Study Report". Titel, Autor und Jahr sind meist ident. Diese werden daher immer als Dubletten erkannt.

Liebe Grüße

Sonja

Foto
1

Hallo Sonja,

Wie löst Du das Problem mit den falsch-positiven Dubletten?

FG Erika

Foto
1

Hallo Erika,

bisher konnte ich das noch nicht lösen. Daher fand ich Deinen Vorschlag, mittels einer Checkbox bestimmte von Citavi erkannte Dubletten zu ignorieren gut.

FG Sonja

Foto
1

Ich habe heute eine Kategorie "Duplikate" angelegt. Dort hinein kommen alle falsch positiven. Die filtere ich dann aus dem Ergebnis der Suche nach Duplikaten aus.

Freundliche Grüße, Pragmarius

Foto
1

Das ist natürlich eine schlaue Idee! Ich werde das gleich mal ausprobieren.

LIebe Grüße, Sonja

Foto
1

Ich möchte darauf hinweisen, dass die Beta-Version, die wir gestern veröffentlicht haben, eine verfeinerte Duplikat-Erkennung bringt.

Freundliche Grüsse

Peter

Foto
1

/937fabed7c6f3009a6ab0e9034506575

Aanderuf, Abel und Belch haben scheinbar überhaupt keine Doppel, bei Bruhn und Dillerup werden die unterschiedlichen Jahreszahlen nicht erkannt, der Deutsche Bundestag ist ganz schlimm :-):

/0cd64ba5656f974f73c8b84db0107dfa

und

/9911735a92a1b05e778998ddd81da816

Foto
1

wie gesagt, ich hab mich nie beklagt, lebe einfach damit und weiß damit umzugehen.

Foto
1

Bitte neues Projekt erstellen mit den falsch erkannten Duplikaten an service@citavi.com senden.

Freundliche Grüsse

Peter

Foto
1

Das neue Projekt ist unterwegs. Interessant: Es wurden 33 Titel im Ursprungsprojekt gefunden und exportiert. Suche ich im neuen Projekt nach Duplikaten, findet Citavi 30. Immerhin. Zur Fehleranalyse sicherlich gut. (Aber wahrscheinlich habe ich was falsch gemacht.)

Foto
Foto
1

Ich darf über diese Neuerungen informieren, die wir in Citavi 6.4 umsetzen werden:


"1. Teil - Der Intuition auf der Spur?"

"2. Teil - Der Intuition auf der Spur?"

Die "Nummern-Logik" im verwendeten Levenshtein-Algorithmus wurde angepasst, damit keine Dublette mehr erkannt wird.

"Müdigkeit/Fatigue bei Gesunden und bei krebskranken Menschen"

Der Untertitel wird zur Dublettenprüfung hinzugezogen.

"Haarerkrankungen in der dermatologischen Praxis"

"Nagelerkrankungen in der dermatologischen Praxis"

Der Schwellenwert des Levenshtein-Algorithmus wurde von 0.9. auf 0.92 erhöht.

Freundliche Grüsse

Peter

Foto
1

Lieber Peter,

das sind gute Neuigkeiten, dankeschön!

Liebe Grüße

Sonja

Foto
1

Lieber Peter,

Super! Da freue ich mich auf das update.

FG Erika

Foto
1

Anbei wie gewünscht das Projekt mit den falschen Dubletten.

Liebe Grüße

Werner

Am 15.03.2019 um 11:57 schrieb Citavi Service:

Foto
1

Lieber Werner

Nach viel zu langer Zeit endlich eine Rückmeldung zum zugesandten Beispielprojekt. Citavi gab an, dort 30 Dubletten gefunden zu haben. Ich habe unter den 30 Dubletten 4 falsch-positive Treffer gefunden: jeweils die Werke, in denen "Gesetz für moderne Dienstleistungen am Arbeitsmarkt" im Titel auftauchte.

Bei allen anderen Werken teilten sich zwei Titel jeweils die identische DOI-Adresse oder ISBN. In einem Fall war das nicht auf Anhieb ersichtlich, weil die ISBN einmal in der 10- und einmal in der 13-stelligen Form auftauchte.

Ich sende gleich die Auswertung noch per Mail und werde intern noch klären, warum die Gesetzes-Beispiele als Dubletten erkannt wurden, obwohl im Titel entweder Erstes, Zweites, Drittes oder Viertes stand.

Freundliche Grüsse

Peter

Foto
1

Lieber Peter,

herzlichen Dank. Das ist hochinteressant – ich habe keine Ahnung, wie das mit den doppelten dois passiert sein konnte. Eigentlich vertraue ich auf die Automatik, da muss ich in Zukunft besser aufpassen.

Sorry für die Mühe. Das hilft aber vielleicht anderen, auch mal danach zu schauen.

Freundliche Grüße, Pragmarius

Foto
1

Lieber Peter,

dank der Hilfe konnte ich jetzt die Datenbank bereinigen, noch einmal vielen Dank. Und ich bin auf einen Fehler gestoßen, wofür ausnahmsweise mal Citavi nichts kann :-)

Rüegger, C., 2012. Die soziale Dimension psychischer Krankheit und Gesundheit. Eine handlungstheoretische Wissensbasis der Klinischen Sozialen Arbeit in der Psychiatrie. Coburg: ZKS. → lässt sich herunterladen und nennt eine offensichtlich falsche ISBN:

/e4a2ad5089163e2ea1d0e80f730ff46d

Denn das ist bei der DNB was anderes: http://d-nb.info/97087491X

Ich gebe zu, das hätte ich nicht erwartet. Aber sei's drum. Nun ist das wenigstens OK.

Freundliche Grüße, Pragmarius

Foto
1

Lieber Pragmarius

Solche "falschen" ISBNs gibt es leider tatsächlich öfter als man erwarten würde.

Freundliche Grüsse

Peter