Integration von Prozess- und Textdaten der Studierenden zur Messung der Wechselwirkung zwischen domänenspezifischem und generischem Critical Online Reasoning
Konzeptueller Hintergrund und Studienschwerpunkt
Nach dem aktuellen Wissensstand zur Erfassung von Lernergebnissen wird Assessment als ein Entscheidungsprozess angesehen, bei dem aus den notwendigerweise begrenzten Nachweisen über das, was Studierende tun, Aussagen darüber getroffen werden, was sie wissen und in der realen Welt umsetzen können. Im Gegensatz dazu wird die Analyse von Prozess- und Textdaten, die von Studierenden während des Lernens kontinuierlich generiert werden, als eine authentischere Alternative angesehen. Diese multimodalen Prozess- und Textdaten haben das Potenzial, ein vollständigeres Bild der Critical Online Reasoning (COR-)Prozesse zu vermitteln, welche mit datenwissenschaftlichen Methoden analysiert werden können. Es stellt sich daher die Frage, inwieweit diese Methoden einen Beitrag bei aktuellen Assessments in der Untersuchung von COR-Prozessen leisten können.
Konzept und Forschungsziel
C08 verfolgt drei Ziele, um die Bildungsforschung voranzubringen. (1) wird C08 eine authentische digitale Assessment- und Lernumgebung in der AZURE-Cloud bereitstellen, in der sich Studierende so verhalten können, wie sie es auf ihren Computern tun. (2) wird C08 die Aktivitäten der Studierenden durch die Integration von multimodalen Text- und Antwortprozessdaten in einer Forschungsinfrastruktur namens Multimodal Learning Data Science System (MLDS) erfassen. MLDS wird die Untersuchung von Prozessdaten der Studierenden (z. B. Scrollen auf Webseiten, verbrachte Zeit) und Textdaten (z. B. bearbeitete Webseiten, geschriebener Text) in generischen (GEN)- und domänenspezifischen (DOM)- COR-Aufgaben ermöglichen. (3) wird C08 den multimodalen Datensatz analysieren und erforschen, um latente Beziehungen zwischen den von den Studierenden verarbeiteten oder geschriebenen Textdaten und den Verhaltensdaten (z.B. Browserverläufe, Dauer) bei der Lösung von COR-Aufgaben zu erfassen.
Messung und Analysen
C08 stellt eine authentische digitale Assessment- und Lernplattform in der AZURE-Cloud bereit, um einen Windows-PC zu simulieren. Diese Plattform ist für Tests in realen Internet-Szenarien und die entsprechenden Simulationen verwendet. Es werden die Bedeutung und das Verhältnis von Text- und Prozessdaten bei der erfolgreichen Bearbeitung von COR-Aufgaben untersucht und wie sie mit dem Domänenwissen und den Charaktereigenschaften der Studierenden zusammenhängen.
C08 prüft die Bedeutung von datenwissenschaftlichen Methoden im Bildungsbereich. Das Projekt identifiziert den Mehrwert und die Grenzen datenwissenschaftlicher Methoden für die Verarbeitung multimodaler Texte und verarbeitet Daten, die im Rahmen von GEN- und DOM-COR-Assessments generiert werden, um neue Erkenntnisse und Methoden für die Erziehungswissenschaft zu gewinnen.
C08 verwendet Methoden und Techniken aus der Computerlinguistik (CL) zur Analyse und Verarbeitung von Text und multimodalen Daten. Um eine effiziente und automatische Analyse zu ermöglichen, wird DUUI als ein System entwickelt, das durch den Einsatz von Clustern skalierbar ist, kompatible und austauschbare CL-Tools bereitstellt, die Reproduzierbarkeit vereinfacht und leicht zu bedienen ist. Die Verwendung von standardisierten Datenformaten ermöglicht die Integration in MLDS und die Systemlandschaft von C08.
Neben der automatisierten Annotation stellt C08 für alle Projekte browserbasierte Tools zur Verfügung, die manuelle Annotations- und Bewertungsarbeiten vereinfachen. Dazu gehören unter anderem ein Tool zur Bewertung der Antworten von Teilnehmenden, ein Tool zur Klassifizierung von Webseiten und ein Tool zur Annotation von sprachlichen Strukturen. Diese Tools werden im TextAnnotator zur Verfügung gestellt und verwenden dieselben standardisierten Formate, was einen direkten Austausch und eine einfache Nutzung ermöglicht.
Ergebnisse
Die Kombination aus der Vorverarbeitung mit DUUI und den Annotations-Tools in TextAnnotator bildet einen Annotationszyklus: Manuelle Annotationen ermöglichen die iterative Verbesserung von NLP-Werkzeugen, wodurch die Abhängigkeit von manuellen Annotationsaufgaben im Laufe der Zeit durch die Verbesserung und Validierung automatisierter Prozesse verringert wird.
Die verarbeiteten Daten und generierten Analysen sind für alle Projekte über ein Webseiten-basiertes Tool und eine Schnittstelle des MLDS leicht zugänglich.
Beitrag zur Forschungsgruppe
C08 arbeitet mit allen FOR-Projekten zusammen, um einen einzigartige Big Data für die GEN- und DOM-COR-Forschung zu erstellen und auszuwerten, und entwickelt eine Infrastruktur zur Analyse und Erforschung dieser Daten. Es fließt einerseits datenwissenschaftliches Fachwissen in die FOR ein, andererseits wird auch das Fachwissen aus anderen beteiligten Disziplinen benötigt, um Methoden anzupassen und zu präzisieren.
Publikationen
Peer Review Artikel
Abrami, G., Baumartz, D., & Mehler, A. (2025). DUUI: A toolbox for the construction of a new kind of natural language processing. In Proceedings of DHd 2025 (pp. 446–448). https://doi.org/10.5281/zenodo.14887461
Bönisch, K., Abrami, G., & Mehler, A. (2025). Towards unified, dynamic and annotation-based visualisations and exploration of annotated big data corpora with the help of unified corpus explorer [System demonstration]. Annual Conference of the Nations of the Americas Chapter of the Association for Computational Linguistics (NAACL 2025).
Abrami, G., Genios, M., Fitzermann, F., Baumartz, D., & Mehler, A. (2025). Docker Unified UIMA Interface: New perspectives for NLP on big data. SoftwareX, 29, 102033. https://doi.org/10.1016/j.softx.2024.102033
Mehler, A., Bagci, M., Schrottenbacher, P., Henlein, A., Konca, M., Abrami, G., Bönisch, K., Stoeckel, M., Spiekermann, C., & Engel, J. (2024). Towards new data spaces for the study of multiple documents with Va.Si.Li-Lab: A conceptual analysis. In O. Zlatkin-Troitschanskaia, M.-T. Nagel, V. Klose, & A. Mehler (Eds.), Students’, graduates’ and young professionals’ critical use of online information: Digital performance assessment and training within and across domains (pp. 259–303). Springer Nature Switzerland. https://doi.org/10.1007/978-3-031-69510-0_12
Abrami, G., & Mehler, A. (2024). Efficient, uniform and scalable parallel NLP pre-processing with DUUI: Perspectives and best practice for the digital humanities. In Digital Humanities Conference 2024: Book of abstracts (pp. 15–18). https://doi.org/10.5281/zenodo.13761079
Leonhardt, A., Abrami, G., Baumartz, D., & Mehler, A. (2023). Unlocking the heterogeneous landscape of big data NLP with DUUI. In Findings of the Association for Computational Linguistics: EMNLP 2023 (pp. 1–15).
Paper und Poster Präsentationen
Abrami, G., Baumartz, D. & Mehler, A. (2025). DUUI: A Toolbox for the Construction of a new Kind of Natural Language Processing. Proceedings of the DHd 2025: Under Construction. Geisteswissenschaften und Data Humanities, 446–448. 10.5281/zenodo.14887461
Abrami, G. & Mehler, A. (2024). Efficient, uniform and scalable parallel NLP pre-processing with DUUI: Perspectives and Best Practice for the Digital Humanities. Digital Humanities Conference 2024 - Book of Abstracts (DH 2024), 15–18. 10.5281/zenodo.13761079
Baumartz, D. (2023, September 15). Dispositionen, Strategien und Erfolg von Hochschulstudierenden [Symposium]. Arbeitsgemeinschaft für Empirische Pädagogische Forschung (AEPF) Conference, Potsdam, Deutschland.