Sprachdatensatz Common Voice zum digitalen öffentlichen Gut ernannt

Die Digital Public Goods Alliance hat das Mozilla-Projekt eines offenen Sprachdatensatzes nach ihrem Standard zertifiziert.

In Pocket speichern vorlesen Druckansicht 4 Kommentare lesen

lassedesignen/Shutterstock.com

(Bild: Shutterstock)

Lesezeit: 2 Min.

Die Mozilla Foundation hat bekannt gegeben, dass der Sprachdatensatz Common Voice offiziell von der Digital Public Goods Alliance als digitales öffentliches Gut (Digital Public Good, DPG) anerkannt ist. Der Datensatz mit gesprochenen Inhalten in diversen Sprachen gehört seit Anfang Februar zu den derzeit 88 zertifizierten Projekten in der Registry der Allianz.

Mozilla hat Common Voice 2017 als Crowdsourcing-Projekt ins Leben gerufen, um öffentlich zugängliche Sprachdaten für Spracherkennungssoftware bereitzustellen. Der Datensatz ist als offene Alternative zu den Sprachdaten in den Händen von Unternehmen wie Amazon, Microsoft, Apple oder Google für ihre jeweiligen Machine-Learning-Angebote ausgelegt.

Erklärtes Ziel des Projekts ist zudem, mehr Diversität bei den Sprachdaten zu schaffen. Mozilla sieht bei den anderen Datensätzen einen überproportionalen Anteil englischsprachiger weißer Männer. Durch diesen Bias funktionierten ML-Anwendungen besser für diese Zielgruppe als für andere Menschen. Derzeit bietet Common Voice gesprochene Datensätze aus 87 Sprachen an.

2020 war Common Voice im Zuge der radikalen Sparmaßnahmen und Entlassungen bei Mozilla ins Wanken geraten, und der Leiter hatte seinerzeit das Unternehmen verlassen. 2021 kündigte Nvidia an im Rahmen der Vorstellung des Conversational-AI-Frameworks Jarvis an, Common Voice als Grundlage zum Entwickeln vortrainierter Modelle zu nutzen und kostenfrei der Allgemeinheit zur Verfügung zu stellen.

2020 regte der UN-Generalsekretär António Guterres die Gründung der Digital Public Goods Alliance an, die dafür sorgen soll, dass der Anteil an öffentlichen Ressourcen wie Open-Source-Software und offen zugänglichen Daten wächst.

Die Initiative zertifiziert digitale öffentliche Güter wie Open-Source-Software, offene KI-Modelle, offene Standards und offene Inhalte, die den Datenschutz und Ziele für nachhaltige Entwicklung (Sustainable Development Goals, SDG) berücksichtigen. In ihrer Registry führt sie neben den zertifizierten Digital Public Goods 652 nominierte Projekte auf.

Der Großteil der Projekte in der DGP-Registry kommt aus dem Bereich Open-Source-Software, daneben finden sich offene Daten, Inhalte und Standards.

(Bild: Digital Public Goods Alliance)

Die Mozilla Foundation erhofft sich von der Zertifizierung von Common Voice als Digital Public Good vor allem eine erhöhte Sichtbarkeit und wachsende Unterstützung für das Projekt. Weitere Details lassen sich dem Blog der Mozilla Foundation entnehmen.

(rme)