Abstracts B.I.T.online Heft 3/2009: Erkennung bibliographischer Dubletten mittels Trigrammen: Messungen zur Performanz

Abstracts

Erkennung bibliographischer Dubletten mittels Trigrammen:
Messungen zur Performanz

- Harald Jele -

Erkennung bibliographischer Dubletten mittels Trigrammen: Messungen zur Performanz
Die Bildung von Trigrammen wird in der automatisierten Dublettenerkennung häufig in Situationen angewandt, in denen "sehr ähnliche" aber nicht idente Datensätze als Duplikate identifiziert werden sollen.
   In dieser Arbeit werden drei auf Trigrammen beruhende Erkennungsverfahren (das Jaccard-Maß, der euklidische Abstand sowie der Ähnlichkeitswert des KOBV) praktisch angewandt, sämtliche dabei notwendigen Schritte umgesetzt und schließlich der Verbrauch an Zeit und Ressourcen (=die "Performanz") gemessen.
   Die hier zur Anwendung gelangte Datenmenge umfasst 392.616 bibliographische Titeldatensätze, die im Österreichischen Bibliothekenverbund erbracht wurden.
B.I.T.online 12(2009) Nr. 3
Detection of Bibliographic Duplicates with Trigrams: Measuring the Performance
Trigrams are frequently used in the automated recognition of duplicate title entries; particularly in a situation comparing "very simular" but not equal items.
   In this paper three methods of detecting duplicates on the base of their trigrams (the Jaccard similarity coefficient, the euclidean distance and the similarity coefficient from KOBV) are shown in a practical way, all necessary steps where implemented in detail and finally the amount of used time and resources (=the "performance") are measured.
   All calculations where done with 392.616 bibliographic title records from the Austrian Central Catalog.
B.I.T.online 12(2009) Nr. 3
Reconnaissance de doublets bibliographiques à l'aide de trigrammes: Mesures de la performance
Dans la reconnaissance automatique de doublets, on se sert fréquemment de trigrammes, tout et particulièrement dans les situations où il s'agit d'identifier des phrases de données "très ressemblantes", mais non identiques.
   Dans ce travail, trois procédés de reconnaissance reposant sur des trigrammes (la mesure Jaccard, la distance euclidienne ainsi que le coefficient de similarité de KOBV) sont utilisés de façon pratique, toutes les démarches nécessaires sont mises en oeuvre et finalement les besoins en temps et ressources (=la "performance") sont mesurés.
   Tous ces calculs ont été effectués sur 392.616 phrases de données titres issues du Catalogue Central des Bibliothèques Autrichiennes.
B.I.T.online 12(2009) Nr. 3

Abstracts Erkennung bibliographischer Dubletten mittels Trigrammen: Messungen zur Performanz - Harald Jele -
Erkennung bibliographischer Dubletten mittels Trigrammen: Messungen zur Performanz Die Bildung von Trigrammen wird in der automatisierten Dublettenerkennung häufig in Situationen angewandt, in denen "sehr ähnliche" aber nicht idente Datensätze als Duplikate identifiziert werden sollen. In dieser Arbeit werden drei auf Trigrammen beruhende Erkennungsverfahren (das Jaccard-Maß, der euklidische Abstand sowie der Ähnlichkeitswert des KOBV) praktisch angewandt, sämtliche dabei notwendigen Schritte umgesetzt und schließlich der Verbrauch an Zeit und Ressourcen (=die "Performanz") gemessen. Die hier zur Anwendung gelangte Datenmenge umfasst 392.616 bibliographische Titeldatensätze, die im Österreichischen Bibliothekenverbund erbracht wurden. B.I.T.online 12(2009) Nr. 3	Detection of Bibliographic Duplicates with Trigrams: Measuring the Performance Trigrams are frequently used in the automated recognition of duplicate title entries; particularly in a situation comparing "very simular" but not equal items. In this paper three methods of detecting duplicates on the base of their trigrams (the Jaccard similarity coefficient, the euclidean distance and the similarity coefficient from KOBV) are shown in a practical way, all necessary steps where implemented in detail and finally the amount of used time and resources (=the "performance") are measured. All calculations where done with 392.616 bibliographic title records from the Austrian Central Catalog. B.I.T.online 12(2009) Nr. 3	Reconnaissance de doublets bibliographiques à l'aide de trigrammes: Mesures de la performance Dans la reconnaissance automatique de doublets, on se sert fréquemment de trigrammes, tout et particulièrement dans les situations où il s'agit d'identifier des phrases de données "très ressemblantes", mais non identiques. Dans ce travail, trois procédés de reconnaissance reposant sur des trigrammes (la mesure Jaccard, la distance euclidienne ainsi que le coefficient de similarité de KOBV) sont utilisés de façon pratique, toutes les démarches nécessaires sont mises en oeuvre et finalement les besoins en temps et ressources (=la "performance") sont mesurés. Tous ces calculs ont été effectués sur 392.616 phrases de données titres issues du Catalogue Central des Bibliothèques Autrichiennes. B.I.T.online 12(2009) Nr. 3