Comment transformer votre voix en texte avec Whisper d’OpenAI pour Windows

Comment transformer votre voix en texte avec Whisper d’OpenAI pour Windows

Whisper d’OpenAI est une nouvelle solution alimentée par l’IA qui peut transformer votre voix en texte. Mieux encore, cela ne coûte rien.

Cependant, il y a un hic : il est plus difficile à installer et à utiliser que votre utilitaire Windows moyen. Surtout si vous souhaitez utiliser les Tensor Cores de votre GPU Nvidia pour lui donner un bon coup de pouce.

Ne vous inquiétez pas, cependant. C’est pourquoi nous sommes ici ! Lisez la suite pour savoir comment l’installer et l’utiliser, mais aussi, si vous en possédez un, pour que Whisper profite de votre GPU Nvidia.

Qu’est-ce que Whisper d’OpenAI ?

ChatGPT fait fureur de nos jours, et nous avons déjà vu comment vous pouvez utiliser ChatGPT par OpenAI. Et pourtant, ce n’est pas le seul projet intéressant d’OpenAI.

Propulsé par l’apprentissage en profondeur et les réseaux de neurones, Whisper est un système de traitement du langage naturel capable de « comprendre » la parole et de la transcrire en texte. Mais c’est aussi sa propre chose, assis à une place parmi toutes les solutions similaires :

  • Whisper est une solution d’IA « formée » au langage naturel. Il est donc plus efficace pour comprendre la parole humaine « normale » que les solutions plus anciennes.
  • Whisper n’est pas livré avec une interface et ne peut pas non plus enregistrer d’audio. Il ne peut prendre que des fichiers audio existants et produire des fichiers texte.
  • Puisqu’il est bon pour « donner un sens à la langue », Whisper a également le super pouvoir de la traduction automatique en une seule étape.
  • Whisper n’est pas un service en ligne et peut fonctionner entièrement hors ligne.
  • Si vous avez un GPU Nvidia relativement moderne (GTX970 ou plus récent), Whisper peut fonctionner en « mode accéléré matériel » pour augmenter sa vitesse.
  • Il n’y a aucune obligation de s’inscrire, d’acheter une licence ou d’acheter un abonnement.

Pourquoi les GPU AMD ne sont-ils pas pris en charge ?

Pour que les GPU soient utiles pour plus que des graphiques, ils devraient agir comme des processeurs entièrement programmables. C’est pourquoi Nvidia a créé CUDA, officiellement considéré comme « une plate-forme informatique parallèle et un modèle de programmation ». Pour en savoir plus sur CUDA et le matériel associé (« cœurs CUDA »), lisez notre article sur ce que sont les cœurs CUDA et comment ils améliorent les jeux sur PC.

CUDA est une technologie propriétaire Nvidia, uniquement compatible avec les GPU Nvidia. Les alternatives les plus proches pour le matériel d’AMD sont OpenCL et Radeon Compute Platform. Pour en savoir plus sur la comparaison des solutions de chaque entreprise, consultez notre article sur les unités de calcul AMD par rapport aux cœurs Nvidia CUDA.

Par rapport aux alternatives, CUDA est considéré comme plus mature, performant et plus facile à utiliser. Ainsi, la plupart des développeurs ne ciblent que CUDA, ce qui signifie que leur logiciel ne tire parti que des fonctionnalités matérielles des GPU Nvidia. Et cela inclut Whisper.

Comment télécharger et installer Whisper

Malheureusement, Whisper n’est pas une application autonome que vous pouvez télécharger, installer et exécuter. Il s’appuie sur d’autres logiciels, qui doivent également être installés.

Pour Windows, pour que ce guide reste simple, nous utiliserons intensivement Chocolatey pour installer la plupart des composants logiciels nécessaires. Consultez notre guide sur la manière la plus rapide d’installer le logiciel Windows pour plus d’informations sur Chocolatey.

Pour Linux et Mac, le processus d’installation (à l’exception de la variable de chemin Windows et des fichiers batch faciles à utiliser que nous créerons) devrait être similaire.

  1. Pour installer et utiliser Whisper, vous devez avoir Python et son outil PIP installés et ajoutés à la variable « Path » de Windows. Pour plus d’informations à ce sujet, consultez notre article sur l’installation de Python PIP sur Windows, Mac et Linux.
  2. Installez FFMPEG via Chocolatey avec cette commande : Installez également sa version Python avec : choco install ffmpeg pip3 install python-ffmpeg
    pip installer python ffmpeg
  3. Enfin, installez Whisper depuis sa page Github avec : pip3 install git+https://github.com/openai/whisper.git

Obtenir la version compatible CUDA de Whisper

Bien que Whisper n’utilise pas de GPU Nvidia, le package de torche sur lequel il s’appuie propose une version accélérée par CUDA. L’utiliser au lieu de la version « simple » peut aider Whisper à terminer ses transcriptions beaucoup plus rapidement à l’aide de votre GPU Nvidia.

Pour que Whisper utilise les cœurs CUDA de votre GPU Nvidia :

  1. Si vous avez déjà installé la version « vanille » de la torche, désinstallez-la et purgez les restes avec : Une fois que c’est fait, suivez-la avec : pip3 uninstall torch pip cache purge
  2. Installez la version compatible CUDA de la torche avec : pip3 install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu117
    pip3 installer la torche torchvision torchaudio
  3. Pour vérifier si Whisper peut utiliser votre GPU Nvidia, utilisez : Vous devriez voir (par défaut : cuda) au lieu de (par défaut : cpu) . whisper --help | findstr -i pytorch

Que faire si la torche ne s’installe pas

Si vous rencontrez l’erreur « aucune version trouvée » lors de l’installation de torche, vous devrez peut-être installer une ancienne version de Python parallèlement à votre version actuelle.

Utilisez cette commande pour le faire :

choco install python --version OLDER_VERSION --side-by-side

Remplacez « OLDER_VERSION » par une version, comme 3.10.

choco installer la version alternative de python

Ensuite, utilisez le chemin de la version secondaire pour toutes les commandes Whisper « génériques » (par exemple, « c:\Python310\Scripts\pip.exe » plutôt que simplement « pip »).

Comment enregistrer votre voix

Vous pouvez utiliser n’importe quelle application d’enregistrement sonore pour transformer votre voix en fichier WAV ou MP3. Windows inclut une telle application – pour plus d’informations à ce sujet, voir comment utiliser l’application Windows 10 Voice Recorder.

Pour une option plus complète, essayez Audacity . Apprenez à le faire avec notre guide sur la façon d’utiliser Audacity pour enregistrer de l’audio sur Windows et Mac.

Enregistrer la voix avec Audacity

Comment commencer à transcrire avec Whisper

Bien que Whisper ne soit pas livré avec une interface graphique conviviale, son utilisation est ultra-simple.

Disons que nous avons le fichier LatestNote.mp3 qui contient de la parole en grec, dans le dossier c:\MyAudioFiles , et que nous voulons le traduire en anglais et le transcrire dans un fichier texte.

  1. Nous commençons par exécuter Command Prompt ou PowerShell .
  2. Nous « changeons de répertoire » où le fichier audio est stocké avec cette commande : cd C:\MyAudioFiles
  3. On lâche Whisper sur le dossier avec : whisper --model base --language gr --task translate LatestNote.mp3
    Chuchoter traduire gr

Une fois traité, le fichier texte (nommé « LatestNote.mp3.txt ») apparaîtra dans le même dossier. Ouvrez-le dans un éditeur de texte comme le Bloc -notes pour afficher le texte traduit.

Nous avons utilisé un exemple de traduction car la transcription en anglais est encore plus simple : il suffit de « perdre » les drapeaux « –language » et « -task ». Ainsi, pour une transcription simple, la commande ci-dessus serait :

whisper --model base LatestNote.mp3

Le drapeau « modèle » est requis car Whisper utilise l’une des différentes options. Développons-les pour vous aider à choisir le meilleur pour vos besoins.

Quel modèle choisir ?

Whisper propose différents modèles de langage. Plus le modèle est grand, plus sa précision est améliorée, mais aussi plus ses exigences matérielles sont élevées. Ils sont:

  1. Minuscule.
  2. Base.
  3. Petit.
  4. Moyen.
  5. Grand.

La plupart des anglophones devraient être d’accord avec les modèles minuscules ou de base . Les anglophones non natifs peuvent voir de meilleurs résultats avec des modèles plus grands, comme les petits et moyens .

Notez cependant que les modèles moyens et grands nécessitent plus de 8 Go de VRAM (c’est-à-dire « la mémoire de votre GPU »).

modèle murmure petit

Pour en sélectionner un, spécifiez le modèle après le commutateur « -model » dans la commande :

whisper --model tiny/small/medium/large [file]

Par exemple:

whisper --model small My_Voice_Note.mp3

Comment rationaliser votre transcription

Devoir taper toute la commande Whisper à chaque fois que vous souhaitez transcrire de l’audio peut rapidement devenir ennuyeux. Créons un fichier de commandes accessible dans le monde entier pour rationaliser le processus.

  1. Exécutez l’ Explorateur Windows et visitez votre lecteur C:.
  2. Créez un dossier pour vos scripts et copiez son chemin dans le Presse-papiers.
  3. Dans le menu Démarrer de Windows, recherchez « chemin » et sélectionnez Modifier les variables d’environnement système .
    Windows Démarrer Modifier les variables d'environnement système
  4. Recherchez la variable Path sous Variables utilisateur pour YOUR_USERNAME . Double-cliquez dessus pour le modifier. Cliquez sur Nouveau et collez le chemin vers votre dossier de scripts. Cliquez sur OK pour accepter les modifications.
    Chemin d'accès au compte d'utilisateur des variables d'environnement
  5. Revenez à votre dossier de scripts dans l’Explorateur Windows. Créez-y un nouveau fichier batch nommé « wht.bat ». « À l’intérieur », placez cette commande : whisper --model tiny --language en %1
    Création d'un fichier batch WHT
  6. Créez deux autres fichiers batch, « whs » et « whm ».
  7. Placez ceci dans le premier script : whisper --model small --language en %1
  8. Placez ceci à l’intérieur de la seconde : whisper --model medium --language en %1

Félicitations, vous disposez maintenant de trois scripts pour utiliser facilement les modèles minuscules, petits et moyens de Whisper avec vos fichiers audio ! Pour transcrire n’importe quel fichier audio en texte :

  1. Localisez le fichier avec l’ Explorateur de fichiers Windows .
  2. Cliquez avec le bouton droit sur un emplacement vide et choisissez Ouvrir dans le terminal .
  3. Tapez cette commande, en remplaçant « wht » par « whs » ou « whm » pour utiliser les modèles de langage petit ou moyen : wht YOUR_AUDIO_FILE.mp3

Taper à la vitesse du son avec Whisper

Même les dactylographes les plus rapides ne peuvent égaler la vitesse à laquelle nous parlons. Cependant, jusqu’à récemment, parler au lieu de taper n’était pas optimal pour créer des documents.

La plupart des solutions voix-texte ont produit des résultats médiocres. Vous pouviez trouver quelques solutions qui valaient la peine d’être essayées, mais elles étaient compliquées à utiliser ou coûteuses. Heureusement, Whisper a changé tout cela.

Après les étapes ci-dessus, vous devriez être prêt à transcrire ou traduire votre voix avec une grande précision, en utilisant une seule commande.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *