Heim(d)aten: Forschungsinfrastruktur und multilinguale Modellierung

Das Infrastrukturprojekt ist zuständig für Speicherung und Management der Forschungsdaten, die Entwicklung einer Forschungsinfrastruktur sowie Zusammenstellung und Beforschung von Heimattextkorpora.

Projektbeschreibung

Das INF-Projekt koordiniert die Datenmanagementprozesse, unterstützt die Datenveröffentlichung und -langzeitsicherung der Daten und erzeugt eine Datenbank und eine Visualisierungsschnittstelle für die im SFB entwickelten Modelle einzelner Teilprojekte. Darüber hinaus baut das INF-Projekt eine Korpusinfrastruktur auf, in der sämtliche digital vorliegenden Textdaten der Einzelprojekte zusammengetragen, nach Ressourcenverfügbarkeit aufbereitet und lexikalisch-semantischen Analysen sowie, in Abhängigkeit von der Korpusgröße, einer Erforschung mit Machine-Learning-Verfahren unterzogen werden, deren Ergebnisse in die Forschung als Input der Projekte zurückfließen. Die Plattform wird zudem mit einer Reihe von Tools für eigenständige Arbeit und mit Instrumenten für statische Analysen ausgestattet, die ihre Nutzung als kollaborative Forschungsumgebung erlauben. Parallel baut das INF-Projekt ein mehrsprachiges Korpus von Heimatdiskursen aus verschiedenen Kommunikationsbereichen auf, das auch als Vergleichsgrundlage für Analysen zu modernen Sprachen dienen soll. Das INF-Projekt führt in Zusammenarbeit mit einzelnen Teilprojekten interdisziplinäre Annotationsstudien durch, um die Interaktionen einzelfachlich relevanter und sprachlicher Heimatphänomene, -praktiken, -darstellungen und -dimensionen offenzulegen sowie in einem zweiten Schritt Sprachmodelle für automatische Identifikation dieser Phänomene zu trainieren. Als eigenen Forschungsbeitrag baut das INF-Projekt anhand lexikalisch-statistischer Verfahren eine „Lexik der Heimat im Fokus von Wortfeldern und assoziierter Konzepte“ als mehrsprachige Enzyklopädie auf und sichert somit eine weitere globale Perspektive auf das Phänomen Heimat. Parallel dazu werden die aufgebauten Korpora mit annotationsbasierten Verfahren zur Erforschung der textpragmatischen Seite in der Heimatkommunikation, insbesondere zur Klärung emotionaler, agonal-argumentativer und moralisierender Dimensionen dieser Diskurse untersucht. Schließlich wird im Projekt ausgetestet, in wie weit die von Large Language Models generierten Heimatdiskurse mit menschlicher Sprachproduktion vergleichbar sind.