In diese Repository befinden sich Trainings- und Evaluierungspipelines für automatische Spracherkennung (ASR) basierend auf Kaldi (https://github.com/kaldi-asr/kaldi).
- asr_training: Trainingspipeline für automatische Spracherkennung basierend auf Kaldi
- evaluation: Evaluierungspipeline für automatische Spracherkennung basierend auf Kaldi
- scraping: Python-Skripte für das Scraping, Parsing, und Aufbereitung von Videos und Transkripten (österr. Deutsch).
- chunking: Pipelines für das "chunking", d.h. das automatische Verarbeiten von langen Audio bzw. Videoaufnahmen mit unsauberen Transkripten, um Daten für das Trainieren von Spracherkennungssystemen zu erzeugen.