Wie erkennt Citavi Dubletten?

Erika L. hinzugefügt 2 Jahren her
unbeantwortet

Hallo Citavi-Team,

Wiedereinmal kämpfe ich mit der Dubletten-Anzeige von C6. Es werden mit Dubletten angezeigt, welche gar keine sind, d.h. Autor ist identisch, Jahr und ISBN sind unterschiedlich. Oder der Untertitel deklariert, dass es sich um Teil 1 und Teil 2 handelt.

Gibt es eine Möglichkeit, geprüfte Dubletten für C6 zu markieren, damit diese zukünftig von der Dublettensuche ausgeschlossen werden? Bei 987 angezeigten Dubletten ist es sehr mühsam, die falsch positiven einzeln durchzusehen...

Dann zeigt mir C6 eine Dublette an (Tabellenansicht), bei der ich nicht nachvollziehenkann, warum das eine Dublette sein soll. Erst nachdem ich einige Spalten sortiert habe, habe ich die doppelten Titel auf zwei nebeneinanderliegenden Zeilen. Was ist die primäre Sortierung, bzw. mit welcher Reihenfolge der Sortierung der Spalten finden ich am schnellsten die zwei Titel? Bei der Sortierung wäre es nun praktisch, wenn C6 die markierte Zeile fixiert. Aktuell kann ich sortieren, muss aber rumscrollen, bis ich meine Zeile wieder finde.

FG Erika

Kommentare (5)

Foto
1

Hallo Erika

Bitte kopieren Sie einige Titel, die nach Ihrer Beobachtung fälschlicherweise als Dubletten erkannt wurden, in ein neues Projekt und senden Sie uns dieses Projekt zur Prüfung. Zum Übermitteln der Datei(en) verwenden Sie bitte unsere geschützte Upload-Möglichkeit: http://www.citavi.com/transfer . Bitte verwenden Sie dieselbe Mail-Adresse wie für die ursprüngliche Anfrage an uns und geben Sie in das Feld "Nachricht" des Upload-Formulars die Ticket-ID dieser Support-Anfrage ein: # 72728. Wir sichern Ihnen zu, dass die Datei(en) nicht in fremde Hände geraten.

Freundliche Grüsse

Peter

Foto
1

Hallo Peter,

Habe Ihnen eine Auswahl geschickt.

FG Erika

Foto
1

Hallo Erika

Danke für das Testprojekt. Zuerst nochmal ein Auszug aus unserem Handbuch zur Dublettenerkennung:


Im Detail prüft Citavi mögliche Dubletten anhand folgender Kriterien:

  1. Stimmen ISBN, DOI, PubMedID, PMC-ID oder ArXiv ID überein? Falls ja, liegt eine Dublette vor.
  2. Unterscheiden sich Jahr oder Auflage? Falls ja, liegt keine Dublette vor.
  3. Erreicht der Levenshtein-Algorithmus, der die Distanz zwischen zwei Texten im Feld Autor, Herausgeber oder Institutionen sowie beim Titel misst, einen definierten Schwellenwert? Falls ja, liegt eine Dublette vor.

Ihre Beispiele:

Titel: Flick (Hg.) 2011 – Qualitative Sozialforschung

Dublette erkannt durch Regel 1: beide Titel haben dieselbe ISBN (einmal in der 10-stelligen, einmal in der 13-stelligen Notation)

Titel: Struik, Lacasse et al. 2013 – Nocturnal non-invasive positive pressure ventilation

Dublette erkannt durch Regel 1: beide Titel haben dieselbe DOI

Titel: Brechbühler – Expedition in sechs Etappen

Dublette erkannt durch Regel 3: Autorin und Titel sind identisch

Titel: Raab 2012 – Nagelerkrankungen in der dermatologischen Praxis

Dublette erkannt (falsch-positiv) durch Regel 3, weil der Schwellenwert für einen Dublettenverdacht überschritten wurden (beide Titel unterscheiden sich in vier Buchstaben)


Den "Beitrag Thyreoditis" konnte ich nicht prüfen, weil der nicht in Ihrem Beispielprojekt vorhanden war.

Freundliche Grüsse

Peter

Foto
1

Hallo Peter,

Titel: Flick (Hg.) 2011 – Qualitative Sozialforschung

Dublette erkannt durch Regel 1: beide Titel haben dieselbe ISBN (einmal in der 10-stelligen, einmal in der 13-stelligen Notation)

>>>> warum gibt der eine Titel dann (2011) und der andere Titel (2012) an? Regel 1 scheint 2 ausser Acht gelassen zu haben. Gibt es eine Möglichkeit C6 zu sagen, dass bei diesen beiden Titeln die Regel 1 ignoriert, bzw. das ISBN-Feld ignoriert werden kann. Oder muss ich manuell die ISBN im Notizfeld unterbringen?


Titel: Struik, Lacasse et al. 2013 – Nocturnal non-invasive positive pressure ventilation

Dublette erkannt durch Regel 1: beide Titel haben dieselbe DOI

>>>> das eine ist eine Zusammenfassung (3 Seiten) , das andere die Leitlinie (31 Seiten). Bleibt mir hier auch nichts anderes übrig, als die DOI manuell ins Notizfeld zu verschieben?

Titel: Brechbühler – Expedition in sechs Etappen

Dublette erkannt durch Regel 3: Autorin und Titel sind identisch

>>>> Und dummerweise sind die Artikel auch noch vom gleichen Jahr. Hier wäre es praktisch eine Checkbox zu haben, welche C6 mitteilt, dass es sich nicht um einen doppelten Artikel handelt und dies manuell geprüft wurde.

Titel: Raab 2012 – Nagelerkrankungen in der dermatologischen Praxis


Dublette erkannt (falsch-positiv) durch Regel 3

>>>> Hier wäre es praktisch eine Checkbox zu haben, welche C6 mitteilt, dass es sich nicht um eine Dublette handelt und dies manuell geprüft wurde.

Der "Beitrag Thyreoditis" war nicht vorhanden

>>> auch nicht bei den Anhängen?

Unbefriedigend ist für mich noch das Problem mit mit Titeln, welche aus Teil1 und Teil 2 bestehen. Wenn ich im Titel "Teil 1 - Bla Bla" schreibe, dann wären es vor dem Bindestrich doch 5 Zeichen. Oder unterscheidet C6 zwischen Buchstaben und Ziffern? Dann sind es nur 4 Buchstaben. Oder rechnet C6 die Zeichenzahl nur bis zum Punkt? Dann wären es nur 1 Ziffer Unterschied. Auch das Ausschreiben der Ziffern (erster, zweiter) bewahrt nicht vor falsch-positiven Dubletten.

Und dann wäre da noch, dass ich den Artikel von Müller, 1xdeutsch und 1x englisch erfasst habe. Liegt wahrscheinlich an DOI und PUBMED. Es handelt sich ja um einendeutschen Titel, welcher auch in einer englischsprachigen DB erfasst ist.

Vermutlich habe ich den Artikel zuerst via PubMed runtergeladen und englisch erfasst. Weil der Artikel auf deutsch ist (Gütekriterien von Xy), suchte ich in C6 nach Gütekriterien AND Müller. C6 zeigte nichts an. Deshalb habe ich den Artikel von der Zeitschrift aus runter geladen und nun Dubletten.

Hat C6 Möglichkeiten beim Import zu definieren, in welcher Sprache der Titel erfasstwerden soll?

FG Erika

Foto
1

Hallo Erika

Titel: Flick (Hg.) 2011 – Qualitative Sozialforschung

Die ISBN schlägt das Kriterium Jahr. Sie müssten eine der ISBNs verschieben, wenn die ignoriert werden soll.

Titel: Struik, Lacasse et al. 2013 – Nocturnal non-invasive positive pressure ventilation

Ich würde eher vorschlagen, die zweite PDF beim ersten Titel anzuhängen und dann die Dublette zu löschen.

Titel: Brechbühler – Expedition in sechs Etappen

Wir können jeden denkbaren Fall abdecken, aber dann wird das Programm zu schwer bedienbar. Es ist eine goldene Regel, die häufigsten und wichtigsten Funktionen abzudecken und die Sonderfälle aussen vor zu lassen.

Titel: Raab 2012 – Nagelerkrankungen in der dermatologischen Praxis

(siehe oben)

Bitte erfassen Sie für Anschlussfragen ein neues Posting. Das erleichtert allen Mitleserinnen und Mitlesern von Ihren Vorschlägen und Bedenken zu profitieren. Ich werde darum auch bei diesem Posting - Ihr Einverständnis vorausgesetzt - den Titel leicht umformulieren, damit andere unter den vielen hundert Postings schnell die interessanten finden.

Freundliche Grüsse

Peter

Antwort schreiben
 
Dateianlage anfügen (KEINE vertraulichen Dokumente!)