Common Voice

Common Voice
Ilustracja
Typ strony

Zbiór danych mowy

Komercyjna

Nie

Data powstania

19 czerwca 2017[1]

Właściciel

Fundacja Mozilla

Rejestracja

Opcjonalna

Wersje językowe

Wiele języków, w tym język polski

Strona internetowa

Common Voiceprojekt crowdsourcingowy zapoczątkowany przez Mozillę mający na celu stworzenia bezpłatnej bazy danych dla oprogramowań do rozpoznawania mowy. Projekt wspierają wolontariusze, którzy nagrywają próbki głosu i sprawdzają nagrania innych użytkowników. Transkrybowane próbki są gromadzone w bazie danych dostępnej na licencji publicznej CC0. Ta licencja zapewnia programistom możliwość korzystania z bazy danych bez ograniczeń i kosztów. Istnieje też nieoficjalna aplikacja na system Android.

Cele

Common Voice ma na celu zapewnienie różnorodnych próbek głosu. Według Kathariny Borchert wiele projektów pobierało zbiory danych z radia lub zbiory danych, które niedostatecznie reprezentowały zarówno kobiety, jak i osoby z wyraźnym akcentem. Common Voice ma na celu rozwiązać te problemy[2].

Baza danych

Do czasu opublikowania pierwszego zbioru danych 29 listopada 2017, ponad 20 000 użytkowników nagrało i sprawdziło 400 000 zdań, o łącznej długości 500 godzin[3].

Łącznie nagrano 9283 godzin próbek i sprawdzono 7335 godzin próbek w 60 językach, w tym 108 godzin nagrań w języku polskim (stan na 26 marca 2021)[4].

Przypisy

  1. Daniel Kessler, Raising Our Common Voice For The Web – Internet Citizen [online], The Mozilla Blog, 19 czerwca 2017 [dostęp 2021-03-26] (ang.).
  2. Why do we gender AI? Voice tech firms move to be more inclusive [online], the Guardian, 11 stycznia 2020 [dostęp 2021-03-26] (ang.).
  3. Sean White, Announcing the Initial Release of Mozilla’s Open Source Speech Recognition Model and Voice Dataset [online], The Mozilla Blog [dostęp 2021-03-26] (ang.).
  4. Common Voice by Mozilla [online], commonvoice.mozilla.org [dostęp 2021-03-26] (ang.).

Content Disclaimer

Informasi ini disarikan dari Wikipedia dan disajikan kembali untuk tujuan edukasi. Konten tersedia di bawah lisensi CC BY-SA 3.0. Kami tidak bertanggung jawab atas ketidakakuratan data yang bersumber dari kontribusi publik tersebut.

  1. The information displayed on this website is sourced in part or in whole from Wikipedia and has been adapted for the purpose of restating it. We strive to provide accurate and relevant information, however:
  2. There is no guarantee of absolute accuracy. Wikipedia is an open, collaborative project that can be edited by anyone, so information is subject to change.
  3. It is not intended to constitute professional advice. The content displayed is for informational and educational purposes only. For important decisions (e.g., medical, legal, or financial), please consult a professional.
  4. Content copyright. Wikipedia is licensed under the Creative Commons Attribution-ShareAlike License (CC BY-SA). This means that content may be reused with appropriate attribution and shared under a similar license.
  5. Responsible use. Any risk arising from the use of information from this website is entirely the responsibility of the user.
Kembali kehalaman sebelumnya