B.I.T.online Heft 4/2009: Erkennung bibliographischer Dubletten mittels Trigrammen: Messungen zur Performanz

Erkennung bibliographischer Dubletten mittels Trigrammen:
Messungen zur Performanz - Teil 2

Teil 1 - B.I.T.online Heft 3/2009
Abstracts

1 Einleitung
2 Der Einsatz von Trigrammen
3 Zeichennormierung
4 Die gewählten Berechnungsverfahren

Teil 2 - B.I.T.online Heft 4/2009
5 Ähnlichkeit auf der Ebene von Datensätzen
6 Vorgehensweise
7 Ergebnisdarstellung: Berechnung der Ähnlichkeiten
8 Literaturverzeichnis

von Harald Jele

5 Ähnlichkeit auf der Ebene von Datensätzen

Bisher wurden die Berechnung und Interpretation der Zeichenketten-Ähnlichkeit auf der Ebene einzelner Felder bzw. ihrer bibliographischen Kategorien betrachtet.

Um zwei oder mehrere Datensätze als ähnlich oder gleich (im Sinne einer möglichen Titel-Dublette) zu qualifizieren bedarf es jedoch einer umfangreicheren Interpretation.

Der einfachste dabei zu verfolgende Ansatz ist - entsprechend den verwendeten Vektormodellen - einen Gesamtvektor über die zum Vergleich herangezogenen und bereits normalisierten Kategorieninhalte zu berechnen.

In diesem Fall wäre der Gesamtvektor die Summe seiner Teilvektoren.

Dieser Ansatz vernachlässigt jedoch, dass bei der Interpretation der errechneten Ergebnisse eine Wertigkeit festgestellt werden kann, mit der zum Ausdruck gebracht wird, dass eine errechnete Ähnlichkeit innerhalb einer bestimmten Kategorie "mehr Wert" sein kann, als die gleiche innerhalb einer anderen Kategorie.

Aus diesem Grund wird bei der Aufsummierung der Teilvektoren zumeist eine Gewichtung vorgenommen, mit der diese Wertigkeit formuliert wird. Der Gewichtungsfaktor wird mit dem entsprechenden Ähnlichkeitswert eines bestimmten Kategorieninhalts multipliziert. Die Summe aller so berechneten Werte ergibt das Maß für die Bestimmung der Ähnlichkeit der zum Vergleich herangezogenen Datensätze.

Wenn also die Kategorien Personenname (P), Sachtitel (T), Ausgabebezeichnung (B), Erscheinungsorte (O), Verleger/in (V), Erscheinungsjahr (J), Umfangsangabe (U) und ISBN (I) zur Dublettenkontrolle zweier monographischer Werke herangezogen werden und diese in gewichteter Form¹³ aufsummiert werden, ergibt sich folgende Berechnung für die Gesamt-Ähnlichkeit (G):¹⁴

Entsprechend der bisherigen Beschreibung wird dabei angenommen, dass der errechnete Wert für die Gesamt-Ähnlichkeit (eines gewählten Datensatzes zu einem zweiten) einen Schwellenwert (T, Threshold) übersteigen muss, um als Dublette gewertet zu werden.

Reichart Mönnich (vgl. 1994, S.204) weisen darauf hin, dass diese Annahme (nämlich das alleinige Aufaddieren positiv gewichteter Werte) unter bestimmten Umständen zu verfälschten Ergebnissen führen kann.

Als Beispiele dafür führen sie errechnete Titeldubletten an, die in den Kategorien Personenname, Sachtitel, Verleger/in und Erscheinungsorte keine, dafür aber in den Kategorien Erscheinungsjahr, Umfangsangabe und Ausgabebezeichnung leichte Abweichungen aufweisen (also z.B. ein Werk, das ein oder zwei Jahre später in einer höheren Auflage erschienen ist).

Nach der Analyse und dem Referieren verschiedener Verfahren gelangen Reichart Mönnich (vgl. ebda., S.205) letztlich zum Ergebnis, dass die Zuverlässigkeit der Ergebnisse gesteigert werden kann, wenn das Berechnungsverfahren einer "Kombination von Bedingungen" gehorcht.¹⁵

Abb.2: Wertetabelle der positiven und negativen Gewichtungsfaktoren im Modell des KOBV

Quelle: Lohrum, Schneider & Willenborg (1999, S.17)

Dieser Empfehlung folgend wird auch in der Modellberechnung des KOBV eine Titeldublette erst dann als eine solche gewertet, wenn die positiv gewichtete Summe der Gesamt-Ähnlichkeit über dem zu berechnenden Gesamt-Schwellenwert und zugleich die negativ gewichtete Summe unter dem entsprechenden Schwellenwert liegt.¹⁶

Eine positive Gewichtung erfährt eine Kategorie, welche im Paar-Vergleich zweier Datensätze den bereits beschriebenen Schwellenwert von 0.8 übersteigt. Anderenfalls wird deren Ähnlichkeitswert negativ gewichtet.¹⁷

6 Vorgehensweise

Die hier beschriebenen Verfahren - nämlich die Berechnung des Jaccard-Maßes, des euklidischen Abstands sowie des Ähnlichkeitswertes des KOBV - wurden vergleichend eingesetzt und anschließend die Ergebnisse einander gegenübergestellt. Dabei wurden Messungen zur Performanz der Verfahren durchgeführt.

Das heißt, dass sequentiell alle Datensätze der zu ladenden Datenmenge nach beiden Verfahren auf Duplizität geprüft wurden, sowie dass die dafür benötigte Zeitdauer gemessen wurde.

Um die dabei erzielten Werte besser einschätzen und entsprechend kommentieren zu können, wurden bei der Berechnung weitere Kennzahlen festgehalten:

die Zahl der Durchläufe pro Berechnung bei der Zerlegung und Verrechnung der Trigramm-Zeichenketten (dieser Vorgang ist eher rechenintesiv und kann u.a. durch den Einsatz schnellerer Hardware-Prozessoren verbessert werden),

die Anzahl der zu prüfenden bibliographischen Datensätze (die Performanz des Lesens und Schreibens der Datensätze ist sehr von den Ein- und Ausgabe-Optionen der Datenbank abhängig und kann durch den Einsatz größerer Arbeitsspeicher ("Memory") sowie durch schnellere Festplatten verbessert werden),

die Messung der Zeitdauer der einzelnen Schritte vom Datenentladen bis zur fertigen Ergebnisdatenbank

Bei der Gegenüberstellung der Ergebnisse wurde vorallem auch jene Differenzmenge gebildet, die sich durch den Umstand ergibt, dass die beiden Berechnungsmethoden voneinander abweichende Dublettenmengen ergeben.

Stichprobenartig wurden dieser Differenzmenge einzelne Datensätze entnommen. Anhand dieser wurde versucht zu erklären, wodurch sich im Einzelnen die Unterschiede in den berechneten Ergebnismengen zeigen.

Die stichprobenartige Überprüfung einiger weniger Ergebnisse kann innerhalb dieser Arbeit jedoch bloß als eine Überprüfung angesehen werden, die vorwiegend dazu dient, die eigene Intuition bezüglich möglicher passender oder fehlerhafter Ergebnisse zu schärfen. Eine vollständige und umfassende Auswertung der erzielten Ergebnismenge muss nachfolgen.

Ein wesentlicher Schwerpunkt der nachfolgend zu leistenden Interpretation wird natürlich einer der Ausgangspunkte dieses Vorhabens sein:

Nämlich vorrangig jene Titel bestimmen zu können, deren Aufnahmen voneinander so deutlich verschieden sind, dass sie als Dublette nicht in Frage kommen und damit in weiterer Folge wie neu einzubringende Datensätze geladen werden können.

6.1 Auswahl der Datensätze

Nachdem die Datensätze zur anstehenden Dublettenprüfung übernommen waren, wurden diese in strukturierter Form in eine relationale Datenbank geladen, deren Spaltenkonfiguration den zu prüfenden Kategorien entsprachen.

Anschließend wurden sämtliche Datensätze dupliziert und in die in Kap.3 beschriebene normierte Form vor der weiteren Verarbeitung übergeführt.

Die Speicherung innerhalb einer Datenbank ist für den weiteren Vorgang weder wesentlich noch notwendig - jedoch ist die zu leistende Programmierung der Anwendungen damit deutlich vereinfacht:

Über den Index der Datenbank lässt sich relativ einfach ermitteln, welche weiteren Datensätze einen bestimmten Eintrag innerhalb eines Datensatzes tragen und sich dementsprechend als potentielle Treffer für eine Dublettenkontrolle qualifizieren.

Gesucht wurde im Index der Datenbank ausschließlich nach Begriffen, die nicht als Stoppwörter gekennzeichnet waren, sowie nach einem einfachen Algorithmus für jeden Datensatz mehrfach:

Das Auffinden vergleichbarer Datensätze wurde immer durch mindestens zwei Suchvorgänge voneinander verschiedener Begriffe aus dem Personennamen- und Sachtitelfeld angestrebt. Führte die Suche nach dem ersten Begriff zu keinem Treffer und lag ein weiterer suchbarer Begriff aus dem Titel vor, so wurde eine Suche auch nach diesem durchgeführt.

Im Extremfall konnte es also dazu kommen, dass bestimmte Titeldatensätze so oft gesucht wurden, bis die Anzahl ihrer Begriffe erreicht war.

Begriffe, die zu sehr großen Treffermengen führten, mussten aus der weiteren Verrechnung nicht ausgeschieden werden. Diese wurden jedoch als potentielle Stoppwörter markiert und entsprechend geprüft.¹⁸ Bei einem Online-Verfahren zur Dublettenermittlung wäre dies aus zeitökonomischen Gesichtspunkten evtl. notwendig.

Nach erfolgter Dublettenberechnung wurden in der Datenbank zu jedem der zu prüfenden Datensätze die Satznummer der als ähnlich berechneten Datensätze hinzugefügt. Diese mussten anschließend intellektuell kontrolliert werden - während jene, die keine hinreichende Ähnlichkeit zu den bestehenden Titeldatensätzen aufweisten und formal korrekt vorlagen, übernommen wurden.

6.2 Messungen zur Performanz

6.2.1 Arbeitsmittel und Vorgehensweise

Sämtliche hier dokumentierte Ergebnisse sind auf handelsüblicher PC-Hardware erbracht worden. Zur besseren Einschätzung und Erstellung von Vergleichswerten sind folgende technische Angaben zur Hard- und Software zu berücksichtigen:

CPU AMD Athlon64 3800+ Sockel AM2,

2 GB Hauptspeicher,

Festplatte Western Digital SATA 80 GB, 7500rpm, 8 MB Cache,

Betriebssystem Linux Ubuntu Dapper (32bit),

Perl v.5.8.7, Datenbank MySQL v.5.0.22

Um die einzelnen Schritte vom Entladen der Quell-Datenbanken bis hin zur Feststellung der bibliographischen Dubletten möglichst einfach und modular zu halten wurde beschlossen, dass die einzelnen Schritte im Wesentlichen nach folgendem Schema ablaufen:

Die entsprechenden und zur jeweiligen Verrechnung heranzuziehenden Datensätze werden in der Datenbank durch Anwendung der spezifischen Routinen selektiert, entsprechend den jeweiligen Vorgaben aufbereitet und letztendlich in eine neue Tabelle geschrieben - oder aber in eine flache Textdatei gespeichert, die im nächsten Schritt wieder geladen wird.

Diese, aus rein pragmatischen Gründen getroffene Entscheidung, so vorzugehen, ist wohl nicht jene, die in jedem Fall als besonders schnell oder gar als elegant anzusehen ist. Dafür ist gewährleistet, dass die Datenbank immer nur jene Daten vorhalten muss, die auch tatsächlich gebraucht werden und das Verfahren in jedem Einzelschritt in sehr einfacher Weise wiederholt oder an jedem Punkt des Gesamtverfahrens fortgesetzt werden kann.¹⁹

Aus diesem Grund werden bei der Beschreibung der einzelnen Schritte sowohl die sich ergebenden Datenmengen als auch die Lade- und Entladezeiten der Datenbank angegeben.

6.2.2 Das Entladen der Daten aus der Quelldatenbank (1h versus 48h, 8 GB Daten)

Abb.3: Verteilung jener Kategorien, die potentiell zur Dublettenerkennung herangezogen werden

Ein wesentlicher Schritt im Gesamtverfahren ist die Entscheidung darüber, welche Kategorieninhalte zur Berechnung der Datensatzähnlichkeit herangezogen werden.

Aufgrund m.u. verschiedener, zum Einsatz kommender Katalogisierungsregeln innerhalb der Vergleichsmengen wurde an dieser Stelle die Entscheidung getroffen, eine Vielzahl an inhaltsähnlichen Kategorien der Quelldatenbank zu entnehmen und erst durch eine nachgereihte und möglichst flexibel gehaltene Entscheidungslogik diese, entsprechend der vorgefundenen Datenlage, als Basis zur Entscheidung dafür heranzuziehen, welche Inhalte letztlich verwendet werden.

Die Methode, mit der das Entladen der zur Berechnung notwendigen Daten geschieht, hat gleichzeitig auch direkten und wesentlichen Einfluss auf die Performanz dieses Schrittes.

Das Extrahieren der o.a. Kategorien aus einem sog. "Full-Table-Export" ist jene Methode, die im Wesentlichen sehr rasch durchzuführen ist: Sind die Daten einmal entladen, dauert das Selektieren der darin enthaltenen Kategorien nach dem oben beschriebenen Schema weniger als eine Stunde.²⁰ Dagegen dauert das sequentielle Entladen der gesamten Titeldaten im Online-Verfahren mittels der üblichen Datenbankschnittstellen bei gleicher Konstellation knapp über 48 Stunden.

Bei der Anwendung der einen oder anderen Methode zum Entladen der Titelinformationen ist die Entscheidung zwischen Aktualität der Daten versus ihrer schnellen Verfügbarkeit zu treffen. Möglicherweise wird diese Entscheidung erst dann zu fällen sein, wenn hinreichende Erfahrungen im Umgang mit der Aufbereitung der Titeldaten vorliegen und Klarheit darüber herrscht, welche Kategorien konkret verrechnet werden sollen und sich zudem kaum mehr "Überraschungen" aus der Datenlage des Quellsystems ergeben.

6.2.3 Umsetzung einer nachgereihten Entscheidungslogik (8m21s, 72 MB Daten)

Insgesamt wurden die Inhalte aus 28 bibliographischen Kategorien sowie die eindeutige Datensatz-ID den Quelldatenbanken entnommen und diese entsprechend ihrem Vorkommen jenen 12 Kategorien zugeordnet, die zur weiteren Berechnung herangezogen wurden. Die Vorgehensweise dabei war nach folgendem Muster definiert:

KAT100, 100b, 100c, 100f, 359 -> KAT100

Die in der Aufzählung vom Pfeil links stehenden Kategorien wurden in der angegebenen Reihenfolge für jeden Datensatz selektiert und jene, die (dieser Reihe folgend) "als erste" mit Inhalten gefüllt war, wurde für die Berechnung letztlich herangezogen.

Für die weiteren Kategorien galt das folgende Schema:

KAT200, 200b, 200c -> KAT200

KAT403 -> KAT403

KAT410, 410a -> KAT410

KAT412, 412a -> KAT412

KAT425a, 425b, 425c -> KAT425

KAT433, 433a, 433b -> KAT433

KAT540a, 540b, 540 -> KAT540

Die Kategorien für den Sachtitel 331 und 335 wurden zu einem Textstring zusammengefasst.

Zusätzlich wurden für die Auswertung der Reihentitel die Kategorien 453m, 453r und 455 exportiert und innerhalb der entsprechenden Datenbankschemata gespeichert. Mit der Information aus diesen Kategorien konnten letztlich die Bände bzw. Stücktitel mit den übergeordneten Reihentiteln zusammengeführt - und in weiterer Folge wie monographische Titel behandelt - werden.

Somit waren (in Begriffen relationaler Datenbanken gesprochen) 29 Datenbank-Spalten mit exakt 437.533 Datensätzen nach der o.a. Logik zu verarbeiten. In einer flachen Textdatei liegt die entladene Datenmenge in einem Umfang von 72 MB vor. Das Laden dieser Datei in eine Tabelle der Datenbank nimmt 1m44s in Anspruch.

Diese Tabelle wurde von jenen bibliographischen Angaben bereinigt, die in der Datenbank als gelöscht (40.688 Datensätze, Löschdauer 1m02s) bzw. als "provisorische" Aufnahmen (4.299 Datensätze, Löschdauer 5s) markiert waren.

Die Anwendung der eben beschriebenen Entscheidungslogik zur Verwendung einzelner Kategorieninhalte brachte eine Verarbeitungsdauer von 5m30s bei einer verbleibenden Anzahl von 392.616 Datensätzen mit sich und reduzierte die Datenmenge von eingangs 72 MB auf im Weiteren 53 MB. Das Laden dieser Menge in die Zieltabelle nahm 32s in Anspruch.

6.2.4 Generieren der Stoppworttabelle (4m77s, 699 Begriffe)

Wie in Kap.6.1 bereits kurz angeführt beruht das Verfahren des Datensatzretrievals auf einer Stoppworttabelle, deren Erstellung im Wesentlichen in zwei Schritten geschah:

in einem ersten Schritt wurden sämtliche Datensätze nach jenen Begriffen durchsucht, die als Stoppwörter durch die Zeichen ">>" und "<<" markiert waren. Das Sammeln dieser brachte 684 unterschiedliche Begriffe in die Stoppworttabelle ein und nahm 4m27s in Anspruch

im zweiten Schritt wurden jene Begriffe in die Stoppworttabelle aufgenommen, deren Suche zu einem Ergebnis mit mehr als 2.000 Treffern (Titeldatensätzen) führte. Davon waren 15 weitere Begriffe betroffen, die einzeln überprüft und letztlich der Stoppworttabelle hinzugefügt wurden

Daneben wurden jene Begriffe mit in die Tabelle aufgenommen, die sich zwar weder im ersten noch im zweiten Schritt als Stoppwörter qualifizierten, jedoch in der Stichwortsuche zu deutlich mehr als 1.000 Treffern führten und als solche in anderen bibliographischen Datenbanken (wie z.B. im Bibliothekssystem allegroC) als Stoppwörter geführt werden.

6.2.5 Normalisieren / Normieren der Daten (46m47s, 392.616 Datensätze, 53 MB)

Dieser als "Normierung" in Kap.3 beschriebene Vorgang zählt neben der eigentlichen Berechnung zu den zeitlich und programmtechnisch aufwändigsten. Allein die Umsetzung der vorkommenden Zeichen in ihre Grundformen bedarf eines langwierigen Prozesses, der erst dann als beendet angesehen werden kann, wenn alle für die weitere Berechnung nicht zugelassenen Zeichen ersetzt sind.

Für die Normierung der zu verarbeitenden 392.616 Sätze wurden 46m47s benötigt. Die Überprüfung der Ergebnisse erfolgte mit einer eigenen Routine, mit der sämtliche Zeichen, die sich außerhalb der Menge der zugelassenen befanden, gesammelt und für die weitere Umsetzung dokumentiert wurden. Diese Überprüfung nahm 6m2s in Anspruch.

Die daraus entstandenen Daten hatten einen Umfang von 43 MB in einer flachen Textstruktur (gegenüber den 53 MB vor der Normierung).

7 Ergebnisdarstellung: Berechnung der Ähnlichkeiten

(258h, 29.414.802 Datensätze, 4,3 GB)

Die umfassende Beschäftigung mit diesem Thema hat zum Ergebnis vor allem auch jenes, dass sich die Auswertung der Ergebnisse genauso umfang- und detailreich zeigt wie die Erbringung dieser. Die Ergebnisse zur Dublettenerkennung mittels N-Grammen wie sie in der angeführten Literatur vorliegen, lassen allein nicht darauf schließen, welches der hier besprochenen Verfahren in der praktischen Anwendung und für die empirische Überprüfung geeignet oder gar am besten geeignet ist. Zudem zeigte sich mit zunehmendem Fortschritt immer deutlicher, dass ein Vergleich der publizierten Ergebnisse mit den Ergebnissen aus der hier verrechneten Datenmenge und Datenqualität nicht aussagekräftig sein kann: Die bereits publizierten Mess- und Erfahrungswerte beruhen überwiegend auf einer deutlich geringeren Menge an bibliographischen Daten²¹, die zudem nur in den seltensten Fällen in großem Umfang einem "Echtsystem"²² entnommen sind.

Aus diesen Gründen wurden in diesem Text allein die zum Einsatz kommenden Verfahren und Methoden sowie deren Performanz (vgl. auch Fußnote4) beschrieben.

Als ein wesentliches Ergebnis aus dem Erbringen der diese Verfahren beschreibenden Kennzahlen ist letztlich die Angabe der Berechnungsdauer sowie des dabei zu erbringenden Aufwands zur Nachstellung der empirischen Überprüfung anzusehen.

Die Berechnung im Batch-Verfahren, bei der die Menge von 3.100 bibliographischen Datensätzen (=die Anfragemenge) gegen eine größere Menge von 392.616 Datensätzen (=die Abfragemenge) mittels N-Grammen auf Dubletten geprüft wurde ergab, dass im Schnitt pro Anfrage 90 Abfrageergebnisse erzielt wurden, die durch den Dublettenvergleich geprüft werden mussten. Das ergibt letztlich für den Gesamtdurchlauf 279.000 Ergebnisdatensätze, die pro Datensatz 21 Einzelberechnungen beinhalten.²³

Exportiert in eine flache Textdatei entspricht die Ergebnismenge einer Größe von 40.8 MB. Die Zeitdauer, die für die Berechnung dieser Menge in Anspruch genommen wurde beträgt 2.4 Stunden.

Um diese Ergebnisse im Weiteren besser einschätzen zu können und um für die noch zu erbringende Ergebnisauswertung eine deutlich umfangreichere Menge an Berechnungswerten vorliegen zu haben, wurde die Abfragemenge (die 392.616 Datensätze) zudem auch gegen sich selbst abgefragt.

Dies hatte zum Ziel, die in der Abfragemenge enthaltenen Dubletten zu identifizieren und letztlich zu einer dublettenfreien Menge zu gelangen. Diese könnte in weiterer Folge als Referenzmenge dienen, um einerseits weitere Daten gegen diese Menge zu prüfen. Andererseits ist eine umfangreiche dublettenfreie Menge an bibliographischen Datensätzen nützlich, um weitere (und möglicherweise notwendige) Veränderungen an den Berechnungsparametern günstig überprüfen zu können.

Bei der Berechnung der Menge von 392.616 Abfrage- und gleichzeitig gleich vielen Anfragedatensätzen ergaben sich im Schnitt 75 Abfrageergebnisse pro Datensatz. Dies wiederum ergab insgesamt 29,414.802 Ergebnisdatensätze mit den o.a. beinhalteten 21 Einzelberechnungen. Die entstandene Datenmenge entsprach 4.3 GB in einer flachen Textdatei. Die Berechnungdauer für den Gesamtdurchgang der Dublettenberechnung betrug zusammengezählt 258 Stunden, die auf mehrere Rechnern verteilt erbracht wurde. Bei einer Verteilung auf vier voneinander unabhängige Recheneinheiten konnte die Rechenleistung in 2.5 Tagen erbracht werden.

8 Literaturverzeichnis

8.1 Gedruckte Quellen

Cousins, Shirley Anne (1998): Duplicate detection and record consolidation in large bibliographic databases: the COPAC database experience. In: Journal of Information Science, Vol. 24, No. 4, S.231-240

Ferber, Reginald (2003): Information Retrieval. Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web. dpunkt.verlag, Heidelberg

Goyal, Pankaj (1987): Duplicate Record Identification in Bibliographic Databases. In: Information Systems, Vol. 12, No. 3, S.239-242

Hylton, Jeremy A. (1996): Identifying and Merging Related Bibliographic Records. Master thesis, submitted to the Department of Electrical Engineering and Computer Science. M.I.T. Laboratory for Computer Science Technical Report 678
online: http://ltt-www.lcs.mit.edu/ltt-www/People/ jeremy/thesis/MIT-LCS-TR-678.ps

Hickey, Thomas B. (1979): Automatic Detection of Duplicate Monographic Records. In: Journal of Library Automation, Vol. 12, No. 2, S.125-142

Jones, William P. Furnas, George W. (1987): Pictures of Relevance: A Geometric Analysis of Similarity Measures. In: Journal of the American Society for Information Science, Vol. 38, No. 6, S.420-442

Kirriemuir, John W. Willet, Peter (1995): Identification of duplicate and near-duplicate full-text records in database search-outputs using hierarchic cluster analysis. In: Program, Vol. 29, No. 3, S.241-256

Kende, Jiri Uhlig, Steffen (1995): Dublettenermittlung bei der Zusammenführung von Bibliotheken: (Nicht nur) ein statistisches Verfahren. In: Bibliothek, Forschung und Praxis, Jahrgang 19, Nr. 3, S.411-419

Kramer, Andre (2004): Falsche Fuffziger. Textplagiate per Software auf der Spur. In: c't. Zeitschrift für Computertechnik, Heft 21, S.176-181

Kuberek, Monika (1999): Dublettenbehandlung (Match- und Merge-Verfahren) in der KOBV-Suchmaschine - Grundlagen. Konrad-Zuse-Zentrum für Informationstechnik in Berlin (ZIB). Preprint SC 99-16
online: http://www.zib.de/Publications/Reports/ SC-99-16.pdf

Lohrum, Stefan; Schneider, Wolfram Willenborg, Josef (1999): De-duplication in KOBV. Konrad-Zuse-Zentrum für Informationstechnik in Berlin (ZIB). Preprint SC 99-05
online: http://www.zib.de/Publications/Reports/ SC-99-05.pdf

Mandreoli, Federica; Martoglia, Riccardo Tiberio, Paolo (2004): A document comparison scheme for secure duplicate detection. In: International Journal on Digital Libraries, Vol. 4, S.223-244

O'Neill, Edward T.; Rogers, Sally A. Oskins, W. Michael (1993): Characteristics of Duplicate Records in OCLC's Online Union Catalog. In: Library Rsources Technical Services, Vol. 37, No. 1, S.59-71

Reichart, Markus Mönnich, Michael W. (1994): Dublettenkontrolle in bibliographischen Datenbanken. In: Bibliothek, Forschung und Praxis, Jahrgang 18, Nr. 2, S.193-216

Rusch, Beate (1999): Normierungen von Zeichenfolgen als erster Schritt des Match. Zur Dublettenbehandlung im Kooperativen Bibliotheksverbund Berlin-Brandenburg. Konrad-Zuse-Zentrum für Informationstechnik in Berlin (ZIB). Preprint SC 99-13
online: http://www.zib.de/Publications/Reports/ SC-99-13.pdf

Salton, Gerard (1968): Automatic Information Organization and Retrieval. (=McGraw-Hill Computer Science Series). McGraw-Hill Book Company, New York

Salton, Gerard McGill, Michael J. (1987): Information Retrieval - Grundlegendes für Informationswissenschaftler. (=McGraw-Hill Texte). McGraw-Hill Book Company, Hamburg

Schneider, Wolfram (1999): Ein verteiltes Bibliotheks-Informationssystem auf Basis des Z39.50 Protokolls. Diplomarbeit, Technische Universität Berlin
online: http://wolfram.schneider.org/lv/diplom/ diplom.pdf

Zamora, E. M.; Pollock, J. J. Zamora, Antonio (1981): The Use of Trigram Analysis for Spelling Error Detection. In: Information Processing Management, Vol. 17, No. 6, S.305-316

Zengping Tian, Hongjun Lu, Wenyun Ji, Aoying Zhou Zhong Tian (2002): An n-gram-based approach for detecting approximately duplicate database records. In: International Journal on Digital Libraries, Vol. 3, No. 4, S.325-331

8.2 Online-Quellen

http://www.tillmann-wegst.de: Wegst, Tillmann: Ähnlichkeitsbestimmung bei Zeichenketten

http://www.uni-klu.ac.at/126hjele/publikationen/ngramme/haendisches/index.html: Händische Ausfertigung der Berechnungen entsprechend den Werten aus Abb.1

http://www.uni-klu.ac.at/126hjele/publikationen/ngramme/routinen/index.html: Erstellte Programmroutinen zur Berechnung

Autor

Dr. Harald Jele

Leiter der Abteilung EDV-Administration und -Entwickung der Universitätsbibliothek Klagenfurt
Universitätsstraße 65-67
A-9020 Klagenfurt
harald.jele@uni-klu.ac.at

Anmerkungen

13. die hier herangezogenen Gewichte entsprechen jenen des KOBV, wie sie in Lohrum, Schneider Willenborg (1999, S.17) genannt sind. Siehe dazu auch Abb.2.

14. eine Übersicht zu den (bei einer Dublettenbestimmung üblicherweise herangezogenen) bibliographischen Kategorien findet sich in Kuberek (1999, S.25 (=Anlage 1)).
Für den angelsächsischen Raum bzw. für typische bibliographische Datenbanken, deren Datenformat auf MARC basiert kann der Beitrag von O'Neill, Rogers Oskins (1993) von Interesse sein, wenn im Datenbestand zugleich eine Analyse der zur Dublettenerkennung heranzuziehenden Kategorien durchgeführt werden muss.

15. ob diese Annahme auch in den hier vorgestellten Verfahren ihre Gültigkeit bzw. Tauglichkeit auch für ein Offline-Verfahren behält, muss die weitere Auswertung der empirisch ermittelten Ergebnisse noch zeigen.
Dies wird - wie in der Einleitung zu diesem Text bereits erwähnt - in einem nachzureichenden Text besprochen.

16. zur Beschreibung der eingeführten Entscheidungslogik siehe vorallem den abgebildeten Algorithmus inLohrum, Schneider Willenborg (1999, S.9).
Einschränkend muss an dieser Stelle angemerkt werden, dass dem zitierten Text nicht entnommen werden kann, ob der eben angesprochene Algorithmus tatsächlich zum Einsatz kommt oder ob dieser ausschließlich als eine mögliche aber nicht realisierte Variante angeführt wurde

17. eine Vergleichstabelle zur Gewichtung bibliographischer Kategorien findet sich in Kuberek (1999, S.26 (=Anlage 2)).

18. "entsprechend geprüft" meint in diesem Fall, dass für jeden als potentielles Stoppwort markierten Begriff die Abfragesituation geklärt wurde, die entsteht, wenn nach diesem Begriff nicht weiter gesucht werden kann. Aufgrund der großen Rechenleistung moderner PCs stellte diese Klärung im Wesentlichen keinen besonders nennenswerten Umstand dar.

19. an dieser Stelle muss besonders auf den Umstand hingewiesen werden, dass die Berücksichtigung der entstehenden Datenmengen im hier beschriebenen Verfahren nicht unerheblich ist. Durch die Berechnung von Ähnlichkeiten aufgrund einer Stichwort-Auswahl entstehen Ergebnismengen, deren Umfang eine typische PC-Hardware leicht überfordert.

20. die Angabe der hier genannten Zahlen bezieht sich auf die Menge von 400.000 Datensätzen, die einer von vier Spalten aus einer einzigen Tabelle innerhalb eines relationalen Datenbanksystems entnommen sind.

21. von zumeist einigen tausend bibliographischen Datensätzen.

22. darunter verstehe ich ein Bibliothekssystem, das sich seit vielen Jahren im Produktionseinsatz befindet.

23. die Einzelberechnungen, die hier durchgeführt wurden, setzen sich aus den drei oben genannten (Jaccard-Maß, euklidischer Abstand und der Ähnlichkeitswert des KOBV) sowie deren gewichtete und nicht gewichtete Funktionen zusammen.