NVIDIA NVML Pilote/bibliothèque incompatibilité de version

Quand je lance nvidia-smi je reçois le message suivant:

Failed to initialize NVML: Driver/library version mismatch

Y a une heure j'ai reçu le même message et désinstallé mon cuda bibliothèque et j'ai été en mesure d'exécuter nvidia-smi, d'obtenir le résultat suivant:

Après ce que j'ai téléchargé cuda-repo-ubuntu1604-8-0-local-ga2_8.0.61-1_amd64.deb de l'officiel de NVIDIA page et puis tout simplement:

sudo dpkg -i cuda-repo-ubuntu1604-8-0-local-ga2_8.0.61-1_amd64.deb
sudo apt-get update
sudo apt-get install cuda
export PATH=/usr/local/cuda-8.0/bin${PATH:+:${PATH}}

Maintenant, j'ai cuda installé, mais j'ai l'mentionnées erreur d'incompatibilité.

Certaines informations pouvant s'avérer utiles:

De course cat /proc/driver/nvidia/version j'obtiens:

NVRM version: NVIDIA UNIX x86_64 Kernel Module  378.13  Tue Feb  7 20:10:06 PST 2017
GCC version:  gcc version 5.4.0 20160609 (Ubuntu 5.4.0-6ubuntu1~16.04.4)

Je suis sur Ubuntu 16.04.2 LTS.

De version du noyau est: 4.4.0-66-générique.

Merci!

Vous avez probablement mélangé à une précédente runfile installer avec votre (actuel) le gestionnaire de package installer (apt-get). Suivez les instructions dans le cuda linux guide d'installation pour supprimer tous les anciens pilotes NVIDIA et CUDA fichiers, puis de la réinstaller après avoir nettoyé que jusqu'à. Avant de commencer votre réinstaller, vous pouvez lire l'intégralité de l'installation de linux guide de la doc je l'ai lié. Le conflit presque certainement provient de votre tentative d'installer le CUDA 8 GA2 paquet sur le dessus de votre 378.13 d'installation de pilote.

InformationsquelleAutor etal | 2017-03-25

228

Surprise, Surprise, le redémarrage a résolu le problème (je pensais que j'avais déjà essayé).

La solution Robert Crovella mentionné dans les commentaires peut également être utile à quelqu'un d'autre, car il est assez similaire à ce que j'ai fait pour résoudre le problème la première fois que je l'ai eu.
- n'oubliez pas de revenir dans quelques jours et accepter cette réponse si cette question tombe en suspens de liste pour le CUDA de la balise
- pas de travail pour moi.
- J'étais sceptique à propos de ce travail après un redémarrage, mais néanmoins j'ai essayé et CELA a FONCTIONNÉ!! Merci!
- Si vous vous demandez pourquoi redémarrage travaillé, il est peut-être à cause de cela: la vérification de /var/log/apt/history.log sur Ubuntu a révélé que le système est automatiquement mis à jour libcuda, qui est sans doute nécessaire de redémarrer pour continuer de fonctionner correctement. Depuis, j'ai désactivé les mises à jour dans l'espoir que je ne vais pas le voir à nouveau.
- eu même problème, redémarrez travaillé, et vérifié qu'en fait il y avait une mise à jour automatique, comme enregistré dans le fichier que vous mentionnez. merci! auriez-vous l'esprit de partage comment désactiver ces mises à jour? aussi, il pourrait être judicieux d'ajouter cette info à la réponse actuelle ou une nouvelle réponse.
- eu même problème, redémarrez travaillé! mais je ne trouve pas /var/log/apt/history.log. J'utilise centOS, où est ce fichier?
- Malheureusement, ce n'est pas une solution permanente. Le problème pourrait réapparaître. La solution est d'installer une version plus récente du paquet nvidia (nvidia-390). Voir ma réponse ci-dessous
- Voulais ajouter que cela a fonctionné pour moi sur NVIDIA-SMI 418.39, la Version du Pilote: 418.39, CUDA Version: 10.1 (si nous en charge cuda 10 bibliothèques pour TF). On va finir par avoir besoin de mise à niveau de ce pilote/fw combo pour la dernière fois Tensorflow peut soutenir cuda 10.1 correctement, mais pour l'instant, le redémarrage certainement fonctionne toujours.
InformationsquelleAutor etal
176

Comme @etal dit, le redémarrage résoudre ce problème, mais je pense que d'une procédure sans redémarrage de l'aide.

Pour les Chinois, vérifiez mon blog -> 中文版

Le message d'erreur

NVML: Pilote/bibliothèque incompatibilité de version

nous dire le pilote Nvidia kernel module (kmod) ont une mauvaise version, il faut donc nous décharger de ce pilote, puis de charger la version correcte de kmod

Comment faire ?

Tout d'abord, nous devons savoir quels sont les pilotes chargés.

lsmod | grep nvidia

vous pouvez obtenir
```
nvidia_uvm            634880  8
nvidia_drm             53248  0
nvidia_modeset        790528  1 nvidia_drm
nvidia              12312576  86 nvidia_modeset,nvidia_uvm
```
notre objectif final est de décharger nvidia mod, donc il nous faut décharger le module dépendent nvidia

sudo rmmod nvidia_drm

sudo rmmod nvidia_modeset

sudo rmmod nvidia_uvm

puis, déchargez nvidia

sudo rmmod nvidia

Dépannage

si vous obtenez une erreur comme rmmod: ERROR: Module nvidia is in use, ce qui indique que le module du noyau en cours d'utilisation, vous devez tuer le processus à l'aide de la kmod:

sudo lsof /dev/nvidia*

et ensuite de tuer ces processus, puis continuer à décharger le kmods

Test

confirmer vous réussi à décharger ces kmods

lsmod | grep nvidia

vous devriez obtenir rien, puis confirmez vous pouvez charger le pilote correct

nvidia-smi

vous devriez obtenir le résultat correct
- ce n'est pas seulement lié. la réponse est bien écrit. le seul problème est qu'il n'a pas divulgué son affiliation, et vous l'avez fait.
- Cela fonctionne vraiment. La question est de savoir si le mal de trucs est chargé en premier, pourquoi nvidia-smi charger le bon, après ça? Je veux dire, comment fait-il savoir quelles sont les bonnes?
- Le mal n'existe plus sur le disque, mais toujours en mémoire. nvidia-smi simplement déclencher une nouvelle procédure de chargement d'un je pense.
- Génial! N'avait aucune idée de ce qui a causé le problème. Si le redémarrage fait la même chose?
- Évidemment, le redémarrage de décharger puis recharger le module.
- travaillé mais redémarrage apporte le problème de retour .. et ma résolution n'est pas droit. Ce n'est pas une installation propre à tous..
InformationsquelleAutor Comzyh
4

Aussi ce qui m'est arrivé sur Ubuntu 16.04 à l'aide de la nvidia-348 paquet (dernière nvidia version sur Ubuntu 16.04).

Cependant j'ai pu résoudre le problème en installant nvidia-390 par le biais de la Propriétaire GPU Pilotes PPA.

Donc une solution pour le problème décrit sur Ubuntu 16.04 est cela:
- sudo add-apt-repository ppa:graphics-drivers/ppa
- sudo apt-get update
- sudo apt-get install nvidia-390
Remarque: Ce guide suppose un nettoyer Ubuntu installer. Si vous avez les pilotes installés un redémarrage mlgh être nécessaire de recharger tous les modules du noyau.
- Ce et un redémarrage n'a pour moi!
InformationsquelleAutor Stefan Horning
4

Si j'ai eu ce problème, aucun des autres voies de recours travaillé. Le message d'erreur était opaque, mais la vérification de la commande dmesg a été la clé:
```
[   10.118255] NVRM: API mismatch: the client has the version 410.79, but
           NVRM: this kernel module has the version 384.130.  Please
           NVRM: make sure that this kernel module and all NVIDIA driver
           NVRM: components have the same version.
```
Pourtant j'avais complètement éliminé les 384 version, et enlevé tout le reste des pilotes du noyau nvidia-384*. Mais même après le redémarrage, j'étais encore en train de ce. Voyant cela signifie que le noyau était toujours compilé de référence 384, mais a été seulement de trouver de 410. J'ai donc recompilé mon noyau:
```
# uname -a # find the kernel it's using
Linux blah 4.13.0-43-generic #48~16.04.1-Ubuntu SMP Thu May 17 12:56:46 UTC 2018 x86_64 x86_64 x86_64 GNU/Linux
# update-initramfs -c -k 4.13.0-43-generic #recompile it
# reboot
```
Et puis il a travaillé.

Après le retrait 384, j'ai toujours eu 384 fichiers dans:
/var/lib/dkms/nvidia-XXX/XXX.AA/4.13.0-43-générique/x86_64/module
/lib/modules/4.13.0-43-generic/kernel/drivers

Je recommande d'utiliser le locate de commande (il n'est pas installé par défaut) plutôt que de chercher le système de fichiers à chaque fois.
- Merci beaucoup! C'est une bonne idée d'utiliser locate nvidia-smi. J'ai utilisé la commande à comprendre que l'autre pilote a été installé.
InformationsquelleAutor UserOneFourTwo
4

J'ai obtenu l'erreur failed to initialize NVML: Driver/Library version mismatch de ma nvidia gpu-température-indicateur. Et nvidia-smi impossible d'imprimer de l'info. J'ai essayé de trouver si il y avait d'autres versions de pilote nvidia installé dans mon ubuntu. Mais je viens de trouver nvidia-driver-390. En fin de compte, reboot m'a aidé à résoudre le problème.

InformationsquelleAutor Yossarian42
0

Y a eu le problème aussi. (Je suis sur ubuntu 18.04)

Ce que j'ai fait:

dpkg -l | grep -i nvidia

Alors
sudo apt-get remove --purge nvidia-381 (et tous en double version, dans mon cas, j'ai eu 381, 384 et 387)

Puis sudo ubuntu-drivers devices à la liste de ce qui est disponible

Et je choisis sudo apt install nvidia-driver-430

Après, nvidia-smi a donné de bons résultats (pas besoin de redémarrer). Mais je suppose que vous pouvez le redémarrer en cas de doute.

J'ai également suivi cette installation réinstaller cuda+cudnn.

InformationsquelleAutor Benjamin Crouzier
-3

Pour mon cas, j'ai installé les pilotes nvidia et puis cuda. J'ai trouvé qu'il peut être résolu en installer cuda. https://developer.nvidia.com/cuda-toolkit

InformationsquelleAutor maple

Vous devez vous connecter pour publier un commentaire.

Comment faire ?

Dépannage

Test