16149 shaares
256 liens privés
256 liens privés
2 résultats
taggé
audioToText
Whisper est un système de reconnaissance automatique de la parole (ASR) entraîné sur 680 000 heures de données supervisées multilingues et multitâches collectées sur le web. Nous montrons que l'utilisation d'un ensemble de données aussi vaste et diversifié permet d'améliorer la robustesse aux accents, au bruit de fond et au langage technique.
En outre, il permet la transcription dans plusieurs langues, ainsi que la traduction de ces langues vers l'anglais. Nous mettons en libre accès les modèles et le code d'inférence pour servir de base à la création d'applications utiles et à la poursuite de la recherche sur le traitement robuste de la parole.