b.i.t.online News-Ticker

INNOVATIV

Band 91:
Eva Seidlmayer u.a.

Band 90:
Jan-Pieter Barbian

Band 89: Meike Kirner

Band 88:
Verena-Christin Schmidt

Band 87: Marieke Tödter

Band 86:
Alexandra Schenk

Band 85: Luis Moßburger

Band 84: Silvia Kruse

Band 83: Linda Freyberg, Sabine Wolf (Hrsg.)

Band 82: Sarah Pielmeier

Band 81: Kirstin Grantz

Band 80:
Stephan Holländer,
Willy Sühl-Strohmenger
und Ludger Syré

Band 79: Janet Wagner

Band 78: Philip Franklin Orr

Band 77: Carina Dony

Band 76:
Linda Freyberg
Sabine Wolf (Hrsg.)

Band 75: Denise Rudolph

Band 74: Sophia Paplowski

Band 73: Carmen Krause

Band 72:
Katrin Toetzke
Dirk Wissen

Band 71: Rahel Zoller

Band 70: Sabrina Lorenz

Band 69: Jennifer Hale

Band 68:
Linda Schünhoff
Benjamin Flämig

Band 67:
Wilfried Sühl-Strohmenger
Jan-Pieter Barbian

Band 66: Tina Schurig

Band 65: Christine Niehoff

Band 64: Eva May

Band 63: Eva Bunge

Band 62: Nathalie Hild

Band 61: Martina Haller

Band 60: Leonie Flachsmann

Band 59: Susanne Göttker

Band 58: Georg Ruppelt

Band 57: Karin Holste-Flinspach

Band 56: Rafael Ball

Band 55: Bettina Schröder

Band 54: Florian Hagen

Band 53: Anthea Zöller

Band 52: Ursula Georgy

Band 51: Ursula Jaksch

Band 50: Hermann Rösch (Hrsg)

Band 49: Lisa Maria Geisler

Band 48: Raphaela Schneider

Band 47: Eike Kleiner

Bestellen Sie jetzt online!

20. April 2024

WEITERE NEWS

Aktuelles aus

ibrary

Essentials

In der Ausgabe 2/2024 (März 2024) lesen Sie u.a.:

„Need to have”
statt „nice to have”.
Die Evolution
der Daten in der Forschungsliteratur
Open-Access-Publikationen: Schlüssel zu höheren Zitationsraten
Gen Z und Millennials lieben
digitale Medien UND Bibliotheken
Verliert Google seinen Kompass?
Durch SEO-Spam werden
Suchmaschinen zum Bingospiel
Die Renaissance des gedruckten Buches: Warum physische Bücher in der digitalen Welt relevant bleiben
KI-Halluzinationen: Ein Verwirrspiel
Die Technologie-Trends des Jahres 2024
KI-Policies und Bibliotheken: Ein globaler Überblick und Handlungsempfehlungen
Warum Bücherklauen aus der Mode gekommen ist

u.v.m.

[mehr]

Hier geht es zur Newsletter-Anmeldung

fachbuchjournal

Ausgabe 6 / 2023

BIOGRAFIEN
Vergessene Frauen werden sichtbar

FOTOGRAFIE
„In Lothars Bücherwelt walten magische Kräfte.“
Glamour Collection, Lothar Schirmer, Katalog einer Sammlung

WISSENSCHAFTSGESCHICHTE
Hingabe an die Sache des Wissens

MUSIK
Klaus Pringsheim aus Tokyo
Ein Wanderer zwischen den Welten

MAKE METAL SMALL AGAIN
20 Jahre Malmzeit

ASTRONOMIE
Sonne, Mond, Sterne

LANDESKUNDE
Vietnam – der aufsteigende Drache

MEDIZIN | FOTOGRAFIE
„Und ja, mein einziger Bezugspunkt
bin ich jetzt selbst“

RECHT
Stiftungsrecht und Steuerrecht I Verfassungsrecht I Medizinrecht I Strafprozessrecht

uvm

[mehr]

Hier geht es direkt zu den Rezensionen

NEWS

Smarte Informationsextraktion für Literaturdatenbanken –
DFG fördert Forschungsprojekt „Smart Harvesting 2“

Freier, digitaler Zugang zu Fachliteratur ist eine Voraussetzung für hochwertige Forschungsarbeit und die Vermittlung von Wissen. Doch die immer größer werdende Publikationslandschaft macht es für Anbieter von Literaturdatenbanken schwierig, bibliographische Daten zu erheben, aufzubereiten und diese schnell an ihre Nutzer weiterzugeben. Im Forschungsprojekt „Smart Harvesting 2“ arbeiten Forscherinnen und Forscher der TH Köln, Universität Trier und des GESIS – Leibniz-Institut für Sozialwissenschaften jetzt an einer softwarebasierten Lösung zur Erfassung und Aufbereitung bibliografischer Daten aus dem World-Wide-Web. Das Projekt wird mit 414.000 Euro durch die Deutsche Forschungsgemeinschaft (DFG) gefördert. Die Software soll Open Source für Betreiber aller Fachdisziplinen zur Verfügung stehen.

Bisher werden Internetseiten von Verlagen und Publikationsservern meist aufwendig manuell durchsucht, um bibliographische Daten für Literaturdatenbanken zu erheben. Durch die kontinuierlich steigende Zahl wissenschaftlicher Publikationen und Internetseiten stößt diese personal- und zeitintensive Arbeitsweise an ihre Grenzen. Automatisierte Verfahren bieten noch keine universelle Lösung, um Daten zu Fachliteratur effizient und qualitativ hochwertig zu sammeln: Bei der computergesteuerten Informationsextraktion suchen sogenannte Wrapper die Seiteninhalte nach strukturierten Datentexten ab. Dabei wird für jede Art von Datenstruktur ein passender Wrapper benötigt.

„Unsere bisherigen Untersuchungen haben gezeigt, dass die Entwicklung eines universell einsetzbaren, lernenden Algorithmus, der die Muster von Literaturangaben selbstständig erkennt, nicht fehlerfrei möglich ist“, sagt Prof. Dr. Philipp Schaer von der Fakultät für Informations- und Kommunikationswissenschaften der TH Köln. „Die Vielzahl der im Web verwendeten Technologien und Datenstrukturen sowie die sich dynamisch ändernden Seiteninhalte stellen immer noch eine große Herausforderung dar: Bereits nach drei Monaten ist ein bestehendes Wrappersystem veraltet und muss neu programmiert werden. Dieser Entwicklungsaufwand ist für die Einrichtungen einfach zu hoch, weshalb viele noch bei den manuellen Verfahren bleiben.“

Schwerpunkt des DFG-Projekts Smart Harvesting 2 ist deshalb die Entwicklung von wartungsarmen Wrappern, die von Nicht-Informatikern einfach bedient und laufend auf neue Website-Strukturen angepasst werden können. „Bei der Mustererkennung ist das menschliche Gehirn nämlich äußerst smart“, so Philipp Schaer. Die Idee ist, dass eine Informationsfachkraft den ersten Schritt der Mustererkennung übernimmt, in dem er exemplarisch einen Titel, Autor, Seitenzahl etc. auf einer Internetseite markiert. Auf Grundlage der HTML-Struktur liest die Software aus diesen Angaben regelbasierte Muster für die übrigen Inhalte der Website aus.

Der Aufgabenschwerpunkt der TH Köln ist dabei, ein interaktives Interface für die Benutzerinnen und Benutzer zu bauen, mit dem sie auf beliebigen Webseiten Informationen extrahieren und diesen Prozess verwalten können. Als Basis dient die Infrastruktur der Universität Trier. Unter der Leitung von Dr. Michael Ley wurde hier mit der Computer Science Bibliography dblp ein Publikationsserver im Bereich der Informatik entwickelt, der die Daten bereits weitestgehend automatisch generiert. Das neue Interface wird im ersten Schritt für die Weiterentwicklung von dblp und für GESIS – Leibniz-Institut für Sozialwissenschaften (Leitung Prof. Dr. Brigitte Mathiak) eingesetzt – um es anschließend in eine Open Source-Software zu überführen. So sollen die entwickelten Technologien und Lösungen auch für andere Disziplinen genutzt werden können.

Das Projekt wird von der der DFG über zwei Jahre gefördert Erste Ergebnisse für die Fachöffentlichkeit sind für Anfang 2018 geplant.

Smarte Informationsextraktion für Literaturdatenbanken – DFG fördert Forschungsprojekt „Smart Harvesting 2“

Smarte Informationsextraktion für Literaturdatenbanken –
DFG fördert Forschungsprojekt „Smart Harvesting 2“