Nombre Maximum de fichiers/répertoires sous Linux?

Je suis l'élaboration d'une LAMPE de boutique en ligne, qui permettra aux admins pour télécharger plusieurs images pour chaque élément.

Mon souci c'est - à droite au large de la chauve-souris, il y aura 20000 éléments de signification environ 60000 images.

Questions:

Quel est le nombre maximum de fichiers et/ou répertoires sous Linux?
Quelle est la manière habituelle de traiter cette situation (les bonnes pratiques)?

Mon idée était de faire un répertoire pour chaque élément, en fonction de son ID unique, mais je vais encore avoir 20000 annuaires dans l'un des principaux uploads répertoire, et il va croître indéfiniment, comme les anciens éléments ne sont pas supprimés.

Merci pour toute aide.

InformationsquelleAutor CodeVirtuoso | 2011-11-23

74

ext[234] les systèmes de fichiers ont un nombre maximum fixe d'inodes; chaque fichier ou répertoire nécessite un inode. Vous pouvez voir le nombre et les limites avec df -i. Par exemple, sur un 15 GO système de fichiers ext3, créé avec les paramètres par défaut:
```
Filesystem           Inodes  IUsed   IFree IUse% Mounted on
/dev/xvda           1933312 134815 1798497    7% /
```
Il n'y a pas de limite sur les annuaires en particulier au-delà; gardez à l'esprit que chaque fichier ou répertoire nécessite au moins un bloc de système de fichiers (généralement de 4 ko), bien que, même si c'est un répertoire avec un seul élément en elle.

Comme vous pouvez le voir, cependant, de 80 000 inodes est peu probable d'être un problème. Et avec le dir_index option (enablable avec tune2fs), les recherches dans les grands répertoires ne sont pas trop une grosse affaire. Toutefois, notez que de nombreux outils d'administration (comme ls ou rm) peuvent avoir un moment difficile de traiter avec les répertoires avec un trop grand nombre de fichiers en eux. En tant que tel, il est recommandé de diviser vos fichiers de sorte que vous n'avez pas plus de quelques centaines à un millier d'éléments de n'importe quel répertoire donné. Un moyen facile de faire cela est de hachage quelle que soit l'ID que vous utilisez, et d'utiliser les premiers chiffres hexadécimaux que les répertoires intermédiaires.

Par exemple, disons que vous avez l'ID de l'élément 12345, et il hachages pour 'DEADBEEF02842.......'. Vous pouvez stocker vos fichiers sous /storage/root/d/e/12345. Vous avez maintenant de réduire le nombre de fichiers dans chaque répertoire par 1/256e.
- Je sais que c'est un vieux post... mais après quelques recherches a été incapable de trouver quelque chose de décent. Est-t-il une méthode de hachage qui vous permettra d'attendre spécifiques caractères alphanumériques pour être en mesure de les stocker dans des dossiers séparés?
- Je ne suis pas vous. Vous pouvez utiliser n'importe quelle fonction de hachage, convertir le résultat en hexadécimal et prendre la première à deux chiffres hexadécimaux. Ensuite, idéalement, vous avez une répartition égale entre [0-9a-f] pour les deux chiffres.
- Je viens généré environ 150 000 fichiers dans le répertoire, mais la commande ls ne pouvait pas en faire la liste à l'aide de ls myfile* commande. Mais depuis que je sais le nom du fichier, j'ai essayé et j'ai pu ouvrir le premier et le dernier fichier. Donc, je sais que les fichiers existent.
InformationsquelleAutor bdonlan
8

Si votre serveur de système de fichiers a la dir_index fonction activée (voir tune2fs(8) pour plus de détails sur la vérification et le tournage de la fonction), alors vous pouvez raisonnablement magasin de plus de 100 000 fichiers dans un répertoire avant les performances se dégradent. (dir_index a été la valeur par défaut pour les nouveaux systèmes de fichiers pour la plupart des distributions depuis plusieurs années maintenant, de sorte qu'il ne serait un vieux système de fichiers qui n'ont pas la fonctionnalité par défaut.)

Cela dit, en ajoutant un autre niveau de répertoire afin de réduire le nombre de fichiers dans un répertoire par un facteur de 16 ou 256 considérablement améliorer les chances des choses comme ls * de travail, sans tourner le noyau maximum argv taille.

Généralement, cela se fait par quelque chose comme:
```
/a/a1111
/a/a1112
...
/b/b1111
...
/c/c6565
...
```
c'est à dire, ajoutant une lettre ou un chiffre pour le chemin d'accès, basée sur une fonction, vous pouvez calculer hors tension le nom. (Les deux premiers caractères de md5sum ou sha1sum du nom de fichier est une approche commune, mais si vous avez unique id d'objet, puis 'a'+ id % 16 est assez facile mécanisme pour déterminer le répertoire à utiliser.)

InformationsquelleAutor sarnold
6

60000 n'est rien, 20000 ainsi. Mais il faut mettre du groupe de ces 20000 par tous les moyens afin d'accélérer l'accès à eux. Peut-être dans des groupes de 100 ou 1000, en prenant le numéro de l'annuaire et de le diviser par 100, 500, 1000, que ce soit.

E. g., J'ai un projet dans lequel les fichiers ont des numéros. J'groupe dans 1000s, j'ai donc
```
id/1/1332
id/3/3256
id/12/12334
id/350/350934
```
Vous fait peut avoir une dure limite sur certains systèmes 32 bits inodes, de sorte que vous êtes limité à un nombre de 2^32 par système de fichiers.
- Sur le défaut mke2fs paramètres, vous auriez besoin de quelques dizaines de téraoctets d'espace disque avant de commencer à vous d'avoir suffisamment d'espace pour 2^32 inodes dans l'inode tables 🙂
- attendez quelques années et nous sommes là... 🙂
InformationsquelleAutor glglgl
4

En plus des réponses générales (en gros "ne vous embêtez pas beaucoup", et "régler votre système de fichiers", et "d'organiser votre répertoire avec des sous-répertoires contenant quelques milliers de fichiers"):

Si les images sont de petite taille (par exemple moins de quelques kilo-octets), au lieu de les mettre dans un dossier, vous pouvez aussi les mettre dans une base de données (par exemple avec MySQL comme un BLOB) ou peut-être à l'intérieur d'un GDBM de fichiers indexés. Ensuite, chaque petit élément à ne pas consommer un inode (sur beaucoup de systèmes de fichiers, chaque inode veut au moins quelques kilo-octets). Vous pouvez aussi le faire pour un certain seuil (par exemple, mettre des images plus grandes que 4kbytes dans des fichiers individuels, et de plus petits dans une base de données GDBM fichier). Bien sûr, n'oubliez pas de sauvegarder vos données (et de définir une stratégie de sauvegarde).
- C'est un bon mécanisme de réduction de l'utilisation du disque, mais empêche zéro-copie des mécanismes tels que sendfile(2) pour le transfert de fichiers sans logiciel de serveur d'intervention.
InformationsquelleAutor Basile Starynkevitch
1

L'année 2014. Je reviens dans le temps d'ajouter à cette réponse.
Beaucoup de grands et de petits fichiers? Vous pouvez utiliser Amazon S3 et d'autres solutions basées sur des Ceph comme DreamObjects, où il n'existe pas de répertoire des limites à s'inquiéter.

J'espère que cela aide quelqu'un à décider de toutes les solutions de rechange.
- Ah l'ironie.... Je me retrouve à la lecture de ce thread particulier parce que j'ai téléchargé 2 mois d'AWS CloudTrail journaux à défaut d'une meilleure façon de les consommer. Il semble y avoir environ 300 fichiers json par jour. Multiplier les temps de 60 jours. J'ai environ 18 000 fichiers, et j'ai perdu tous dans le même répertoire. Morale de l'histoire: l'année 2014 et nuage magique services de créer un tas de problèmes nouveaux pour remplacer ceux qu'ils résolu.
- Vous pouvez utiliser les autres fournisseurs de rdc qui peuvent fournir des logs au format W3C. J'ai trouvé un tas d'exemples de codes et les a combinés pour générer ce dont j'ai besoin. Puis de les transmettre à AWStats par exemple, pour obtenir mes stats. Tout programmeur qui a la moitié de la grave peut atteindre cet objectif. Il suffit de dire magasin d'Objet n'est pas une solution miracle, mais pour le problème mentionné ci-dessus c'est une bonne solution en 2014
InformationsquelleAutor Abhishek Dujari

-3

md5($id) ==> 0123456789ABCDEF

$file_path = items/012/345/678/9AB/CDE/F.jpg 

1 node = 4096 subnodes (fast)

InformationsquelleAutor gibz

Vous devez vous connecter pour publier un commentaire.