C08

Integration von Prozess- und Textdaten der Studierenden zur Messung der Wechselwirkung zwischen domänenspezifischem und generischem Critical Online Reasoning

Konzeptueller Hintergrund und Studienschwerpunkt

Nach dem aktuellen Wissensstand zur Erfassung von Lernergebnissen wird Assessment als ein Entscheidungsprozess angesehen, bei dem aus den notwendigerweise begrenzten Nachweisen über das, was Studierende tun, Aussagen darüber getroffen werden, was sie wissen und in der realen Welt umsetzen können. Im Gegensatz dazu wird die Analyse von Prozess- und Textdaten, die von Studierenden während des Lernens kontinuierlich generiert werden, als eine authentischere Alternative angesehen. Diese multimodalen Prozess- und Textdaten haben das Potenzial, ein vollständigeres Bild der Critical Online Reasoning (COR-)Prozesse zu vermitteln, welche mit datenwissenschaftlichen Methoden analysiert werden können. Es stellt sich daher die Frage, inwieweit diese Methoden einen Beitrag bei aktuellen Assessments in der Untersuchung von COR-Prozessen leisten können.

Konzept und Forschungsziel

C08 verfolgt drei Ziele, um die Bildungsforschung voranzubringen. (1) wird C08 eine authentische digitale Assessment- und Lernumgebung in der AZURE-Cloud bereitstellen, in der sich Studierende so verhalten können, wie sie es auf ihren Computern tun. (2) wird C08 die Aktivitäten der Studierenden durch die Integration von multimodalen Text- und Antwortprozessdaten in einer Forschungsinfrastruktur namens Multimodal Learning Data Science System (MLDS) erfassen. MLDS wird die Untersuchung von Prozessdaten der Studierenden (z. B. Scrollen auf Webseiten, verbrachte Zeit) und Textdaten (z. B. bearbeitete Webseiten, geschriebener Text) in generischen (GEN)- und domänenspezifischen (DOM)- COR-Aufgaben ermöglichen. (3) wird C08 den multimodalen Datensatz analysieren und erforschen, um latente Beziehungen zwischen den von den Studierenden verarbeiteten oder geschriebenen Textdaten und den Verhaltensdaten (z.B. Browserverläufe, Dauer) bei der Lösung von COR-Aufgaben zu erfassen.

Messung und Analysen

C08 stellt eine authentische digitale Assessment- und Lernplattform in der AZURE-Cloud bereit, um einen Windows-PC zu simulieren. Diese Plattform ist für Tests in realen Internet-Szenarien und die entsprechenden Simulationen verwendet. Es werden die Bedeutung und das Verhältnis von Text- und Prozessdaten bei der erfolgreichen Bearbeitung von COR-Aufgaben untersucht und wie sie mit dem Domänenwissen und den Charaktereigenschaften der Studierenden zusammenhängen.

C08 prüft die Bedeutung von datenwissenschaftlichen Methoden im Bildungsbereich. Das Projekt identifiziert den Mehrwert und die Grenzen datenwissenschaftlicher Methoden für die Verarbeitung multimodaler Texte und verarbeitet Daten, die im Rahmen von GEN- und DOM-COR-Assessments generiert werden, um neue Erkenntnisse und Methoden für die Erziehungswissenschaft zu gewinnen.

C08 verwendet Methoden und Techniken aus der Computerlinguistik (CL) zur Analyse und Verarbeitung von Text und multimodalen Daten. Um eine effiziente und automatische Analyse zu ermöglichen, wird DUUI als ein System entwickelt, das durch den Einsatz von Clustern skalierbar ist, kompatible und austauschbare CL-Tools bereitstellt, die Reproduzierbarkeit vereinfacht und leicht zu bedienen ist. Die Verwendung von standardisierten Datenformaten ermöglicht die Integration in MLDS und die Systemlandschaft von C08.

Neben der automatisierten Annotation stellt C08 für alle Projekte browserbasierte Tools zur Verfügung, die manuelle Annotations- und Bewertungsarbeiten vereinfachen. Dazu gehören unter anderem ein Tool zur Bewertung der Antworten von Teilnehmenden, ein Tool zur Klassifizierung von Webseiten und ein Tool zur Annotation von sprachlichen Strukturen. Diese Tools werden im TextAnnotator zur Verfügung gestellt und verwenden dieselben standardisierten Formate, was einen direkten Austausch und eine einfache Nutzung ermöglicht.

Ergebnisse

Die Kombination aus der Vorverarbeitung mit DUUI und den Annotations-Tools in TextAnnotator bildet einen Annotationszyklus: Manuelle Annotationen ermöglichen die iterative Verbesserung von NLP-Werkzeugen, wodurch die Abhängigkeit von manuellen Annotationsaufgaben im Laufe der Zeit durch die Verbesserung und Validierung automatisierter Prozesse verringert wird.

Die verarbeiteten Daten und generierten Analysen sind für alle Projekte über ein Webseiten-basiertes Tool und eine Schnittstelle des MLDS leicht zugänglich.

Beitrag zur Forschungsgruppe

C08 arbeitet mit allen FOR-Projekten zusammen, um einen einzigartige Big Data für die GEN- und DOM-COR-Forschung zu erstellen und auszuwerten, und entwickelt eine Infrastruktur zur Analyse und Erforschung dieser Daten. Es fließt einerseits datenwissenschaftliches Fachwissen in die FOR ein, andererseits wird auch das Fachwissen aus anderen beteiligten Disziplinen benötigt, um Methoden anzupassen und zu präzisieren.

Publikationen

Peer Review Artikel

Abrami, G., Baumartz, D., & Mehler, A. (2025). DUUI: A toolbox for the construction of a new kind of natural language processing. In Proceedings of DHd 2025 (pp. 446–448). https://doi.org/10.5281/zenodo.14887461

Bönisch, K., Abrami, G., & Mehler, A. (2025). Towards unified, dynamic and annotation-based visualisations and exploration of annotated big data corpora with the help of unified corpus explorer [System demonstration]. Annual Conference of the Nations of the Americas Chapter of the Association for Computational Linguistics (NAACL 2025).

Abrami, G., Genios, M., Fitzermann, F., Baumartz, D., & Mehler, A. (2025). Docker Unified UIMA Interface: New perspectives for NLP on big data. SoftwareX, 29, 102033. https://doi.org/10.1016/j.softx.2024.102033

Mehler, A., Bagci, M., Schrottenbacher, P., Henlein, A., Konca, M., Abrami, G., Bönisch, K., Stoeckel, M., Spiekermann, C., & Engel, J. (2024). Towards new data spaces for the study of multiple documents with Va.Si.Li-Lab: A conceptual analysis. In O. Zlatkin-Troitschanskaia, M.-T. Nagel, V. Klose, & A. Mehler (Eds.), Students’, graduates’ and young professionals’ critical use of online information: Digital performance assessment and training within and across domains (pp. 259–303). Springer Nature Switzerland. https://doi.org/10.1007/978-3-031-69510-0_12

Abrami, G., & Mehler, A. (2024). Efficient, uniform and scalable parallel NLP pre-processing with DUUI: Perspectives and best practice for the digital humanities. In Digital Humanities Conference 2024: Book of abstracts (pp. 15–18). https://doi.org/10.5281/zenodo.13761079

Leonhardt, A., Abrami, G., Baumartz, D., & Mehler, A. (2023). Unlocking the heterogeneous landscape of big data NLP with DUUI. In Findings of the Association for Computational Linguistics: EMNLP 2023 (pp. 1–15).

Paper und Poster Präsentationen

Abrami, G., Baumartz, D. & Mehler, A. (2025). DUUI: A Toolbox for the Construction of a new Kind of Natural Language Processing. Proceedings of the DHd 2025: Under Construction. Geisteswissenschaften und Data Humanities, 446–448. 10.5281/zenodo.14887461

Abrami, G. & Mehler, A. (2024). Efficient, uniform and scalable parallel NLP pre-processing with DUUI: Perspectives and Best Practice for the Digital Humanities. Digital Humanities Conference 2024 - Book of Abstracts (DH 2024), 15–18. 10.5281/zenodo.13761079

Baumartz, D. (2023, September 15). Dispositionen, Strategien und Erfolg von Hochschulstudierenden [Symposium]. Arbeitsgemeinschaft für Empirische Pädagogische Forschung (AEPF) Conference, Potsdam, Deutschland.

Projektverantwortliche

Prof. Dr. Hendrik Drachsler
DIPF | Leibniz-Institut für Bildungsforschung und Bildungsinformation Frankfurt

Prof. Dr. Alexander Mehler
Text Technology Lab – Goethe-Universität Frankfurt

Team DIPF

George-Petru Ciordas-Hertel
DIPF | Leibniz-Institut für Bildungsforschung und Bildungsinformation Frankfurt

Sebastian Gombert
DIPF | Leibniz-Institut für Bildungsforschung und Bildungsinformation Frankfurt

Gianluca Romano
DIPF | Leibniz-Institut für Bildungsforschung und Bildungsinformation Frankfurt

Team TTL

Guiseppe Abrami
Text Technology Lab – Goethe-Universität Frankfurt

Daniel Baumartz
Text Technology Lab – Goethe-Universität Frankfurt

Maxim Konca
Text Technology Lab – Goethe-Universität Frankfurt

Patrick Schrottenbacher
Text Technology Lab – Goethe-Universität Frankfurt

Kontakt DIPF

Prof. Dr. Hendrik Drachsler
DIPF | Leibniz-Institut für Bildungsforschung und Bildungsinformation
Rostocker Straße 6
60323 Frankfurt am Main

E-Mail: h.drachlser@dipf.de

Kontakt TTL

Prof. Dr. Alexander Mehler
Text Technology Lab – Goethe-Universität
FB 12 Informatik und Mathematik
Robert-Mayer-Straße 10
60325 Frankfurt am Main

E-Mail: mehler@em.uni-frankfurt.de