Dubletten-Finder für alle Listen

Max R. hinzugefügt 2 Jahren her
NEU

In allen Listen (Schlagwörter, Personen, Zeitschriften, - Orte, falls das wie anderorts diskutiert auch kommen könnte) wäre ein "intelligenter" Assistent zum finden von doppelten Einträgen hilfreich - im einfachsten Fall einfach anhand einer (frei zu wählenden) Mindestanzahl von übereinstimmenden Buchstaben in einem oder mehreren Wörtern. Ein klassischer Fall ist zB. der Doppeleintrag von Zeitschriften mit und ohne Abkürzung - also zB Behav Ecol Sociobio und Behavioural Ecology and Sociobiology - wenn ein Import keine Abkürzung im RIS-File hat, so wird ein neuer Eintrag angelegt. Wenn es schon nicht möglich ist, die beiden Einträge automatisch zusammenzuführen, so könnte so ein Assistent die Arbeit erleichtern. Momentan kann man nur hoffen, dass man zufällig auf solche doppelten Einträge stößt, bzw. diese einem gleich beim Import auffallen (wo man dann aber auch jeden einzelnen putzen muss), aber man kann sie kaum systematisch korrigieren - oder nur, indem man sich stundenlang durch die jeweiligen Listen wühlte. Ich habe aktuell in meinem Projekt mit knapp 4300 Titeln knapp 7800 Personen, 6950 Schlagwörter, 600 Zeitschriften und 300 Verlage, und tu mir ca. alle 1.5 Jahre einen größeren, systematischen Hausputz an - der mit etwas Hilfe schneller gehen könnte.

Kommentare (2)

Foto
1

Hallo Max

Echte Dubletten (i.S.v. zwei gleichlautende Einträge z.B. in der Liste "Schlagwörter") darf es nicht geben.

Dagegen kann es in der Liste der "Personen und Institutionen" zu Quasi-Dubletten kommen, wenn ein Name in verschiedenen Schreibvarianten auftritt:

  • Miller, Sue Maria
  • Miller SM
  • Miller, S. Maria
  • ... etc.

Da könnten wir Vorschläge zum Zusammenführen machen, aber das kann schnell zum Gegenteil von gut werden, nämlich: gut gemeint. Da werden dann schnell Namen zusammengeführt, die erst noch hätten verifiziert werden müssen (Miller, S. Maria =? Miller, Sue Maria ... Miller, Svenja Maria).

Die Liste der "Zeitschriften und Zeitungen" ist wg. der Vielzahl der Schreibvarianten für Zeitschriftennamen und häufigem Fehlen der ISSN ein echtes Problem. Mit einem Dubletten-Finder legen Sie die Aufgabe "Klarschiffmachen" in die Hände der Anwender. Mir wäre wohler, wenn wir ein paar Schritte vorher anfangen, z.B. durch einen Webservice, der die Zeitschriftennamen validiert/ergänzt.

Freundliche Grüsse

Peter

Foto
1

Hallo Peter,

Natürlich ging es um logische Dubletten, und nicht um identische Einträge.

Das Problem bei einem Webservice, der sicher ein Anfang sein könnte, sehe ich darin, dass so etwas mit der Qualität der Datenquelle steht und fällt. Konkret: Ich hab mich am Wochenende über das Zeitschriftennamen-AddIn drübergetraut...mit dem Ergebnis, das zwar tatsächlich viele Dubletten verschwunden sind, es mir aber völlig die Abkürzungen zerschossen hat, weil die Hälfte der Einträge des Verwendeten Datensatzes die Abkürzung 1 ohne Punkte (Behav Ecol Sociobiol) und die Abkürzung 2 mit Punkten (Behav. Ecol. Sociobiol.) hatte, die andere Hälfte aber genau umgekehrt...zumindest war das bei mir das Ergebnis des AddInn-Einsatzes. Hat mich 2,5 Stunden händisches Nachbessern und Zurück-Ändern gekostet... :-(


lg


Max

Foto
1

Gute Güte! Ich melde das dem Entwickler!

Freundliche Grüsse

Peter

Foto