Deduplication Par Fslint/findup

Flam · le 28 septembre 2010

Je viens de d

cricx · le 28 septembre 2010

Je viens de d

Flam · le 30 septembre 2010

dans le même genre on a aussi fdupes, qui a l'immense intérêt de rechercher les fichiers identiques même si leur nom est différent.

Autant pour moi, la commande que j'utilise est:

> findup -m <repertoire>

Concernant fdupes, je crois qu'il ne propose que de lister ou d'effacer les fichiers.

findup permet de les conserver en les hardlinkant (option -m) ou en softlinkant (-s) et recherche les fichiers quelque soit leur nom.

En plus il est beaucoup plus rapide

cricx · le 30 septembre 2010

Autant pour moi, la commande que j'utilise est:

> findup -m <repertoire>

Concernant fdupes, je crois qu'il ne propose que de lister ou d'effacer les fichiers.

findup permet de les conserver en les hardlinkant (option -m) ou en softlinkant (-s) et recherche les fichiers quelque soit leur nom.

En plus il est beaucoup plus rapide

pour r

MS_Totor · le 2 octobre 2010

wouaou

CQFD à la façon crixc

j'ai pris note merci pour l'info

Flam · le 2 octobre 2010

Ou est-ce que tu vois que fdupes permet de remplacer les fichiers par des links ???

Pour ce qui est de la vitesse de parcours cela dépend de plusieurs facteurs.

Entre autre de la taille des fichiers et du nombre de doublons.

De plus utiliser un hash n'est pas toujours intéressant.

C'est vrai que findup est un script mais pour MES fichiers, findup a fait le boulot +rapidement

Attention à ne pas confondre bête et simple.

Tout ce qui est plus compliqué n'est pas forcement mieux ni efficace.

Perso je n'ai aucun jugement de valeur par rapport à des outils.

cricx · le 2 octobre 2010

Ou est-ce que tu vois que fdupes permet de remplacer les fichiers par des links ???

o

Flam · le 3 octobre 2010

où as-tu vu que j'ai écrit que fdupes le permettait ? Je sais très bien qu'il ne le fait pas (et ce n'est pas un problème pour moi par rapport à l'usage que j'en ai)

Ce n'est pas toi qui a comparé fdupes à findup en terme de vitesse ?

Je te rappelle que le théme de ce sujet était TRES clair:

Deduplication "en hardlinkant les fichiers doublons, identiques et devant le rester."

Ce que tu as fait c'est comparer des pommes et de chaussures. Pas cool.

Bah, peut-être ! mais il ne faut pas s'arrêter à un cas particulier.

Justement je te parle de mon expérience, à chacun de tester. Sauf que comme il s'agit de pommes et de chaussures il n'y a pas photo puisqu'il n'y a que findup qui remplisse la fonction demandée.

Ceci dit, fdupes est une petit exécutable compilé (écrit en C) qui tourne bien sur les petits synos, et qui ne nécessite pas findutils et python comme dépendances. Il reste à mon avis une solution plus adaptée aux synos.

J'ai testé fdupes sur mes arborescences et c'était très long, de plus il ne faisait pas ce que je voulais ce qui veut dire qu'il n'y a aucune raison de les comparer en terme de vitesse.

moi non plus !

Traiter un outil de "bête" est un jugement de valeur.

Pour moi les deux sont et restent des outils. Mais le seul approprié sans modification ou ajout à la déduplication est findup

et pour la vitesse, il faudrait faire le test sur un échantillon significatif de données, ce que je n'ai pas fait.

La vitesse est irrelevant dans notre cas puisqu'il ne fait pas la déduplication.

Bon pour clore le débat, il existe quelques autres outils free "compilables" pour la déduplication et plus performants.

Mais ils ne sont pas disponibles en package syno et je n'ai pas envie de m'en occuper vu que je vais lancer cette commande une fois par an.

Donc que le programme tourne pendant 20 minutes ou 30 minutes m'est tout à fait égal.

Les récupérer, compiler et tester me demanderait 1 heure au moins.

Ne pas perdre de vue le rapport investissement/gain, ce ne sont que des outils, pas la finalité.

Mais si tu as une solution de déduplication avec hardlink plus performante, je suis prêt à la récupérer.

cricx · le 4 octobre 2010

Ce n'est pas toi qui a comparé fdupes à findup en terme de vitesse ?

Je te rappelle que le théme de ce sujet était TRES clair:

Deduplication "en hardlinkant les fichiers doublons, identiques et devant le rester."

Ce que tu as fait c'est comparer des pommes et de chaussures. Pas cool.

bah, moi pressé, j'ai vu "Deduplication Par Fslint/findup" et j'ai bêtement dit "dans le même genre on a aussi fdupes".

après, si l'outil dont tu parles est restreint à ton cas unique, pas la peine d'en parler ! parce que fichiers doublons, identiques et devant le rester, ça ne court pas les rues !

et hardlinker ou softlinker, ça pose toujours des problèmes (genre j'efface le softlink -> ok, mais zut, c'était le fichier = catastrophe, pour les hardlinks c'est moins grave, mais tu as essayé de hardlinker sur des filesystems différents ?

Justement je te parle de mon expérience, à chacun de tester. Sauf que comme il s'agit de pommes et de chaussures il n'y a pas photo puisqu'il n'y a que findup qui remplisse la fonction demandée.

bah, moi aussi. Mais dans un cadre professionnel où l'erreur n'est pas trop permise (je ne me vois pas dire à un de mes utilisateurs : "je t'ai hardlinké tes doublons pour faire de la place sur le serveur", par contre je peux leur dire : je t'envoie la liste de tes fichiers en double, vérifie ceux que tu peux supprimer)

J'ai testé fdupes sur mes arborescences et c'était très long, de plus il ne faisait pas ce que je voulais ce qui veut dire qu'il n'y a aucune raison de les comparer en terme de vitesse.

l'efficacité d'un outil dépend des conditions d'emploi. par exemple, calculer les doublons d'une collection de fichiers iso de 700 Mo c'est long, si on calcule la somme md5 sur l'intégralité du fichier. Si on se contente de le faire sur une partie du fichier, c'est plus rapide, même si l'unicité de la somme md5 ne peut pas être garantie avec le même niveau de fiabilité.

Par contre ta remarque sur le fait que fdupes ne faisait pas ce que tu voulais est tout-à-fait recevable (et je t'avoue que, à titre personnel (donc pas pour le boulot), j'avais recherché un programme efficace pour linker les doublons. Jusqu'au jour où je me suis rendu compte que l'ouverture de mes photos avec un logiciel de retouche me retouchait... l'original également)

Traiter un outil de "bête" est un jugement de valeur.
Pour moi les deux sont et restent des outils. Mais le seul approprié sans modification ou ajout à la déduplication est findup

tu verras à l'usage...

Mais bon, arrêtons de troller sur ce sujet, et je suis malgré tout preneur de toute info sur un programme qui ferait le hardlink des doublons, vu que j'ai la flemme de l'écrire

Et à propos, as-tu testé la visibilité des fichiers softlinkés depuis un autre os, comme windows ?

parce que si sur les joujoux @home, le paramètre follow symlinks de samba est à yes, ailleurs il est souvent à no, pour des raisons de sécurité...

Bon pour clore le débat, il existe quelques autres outils free "compilables" pour la déduplication et plus performants.
Mais ils ne sont pas disponibles en package syno et je n'ai pas envie de m'en occuper vu que je vais lancer cette commande une fois par an.

Donc que le programme tourne pendant 20 minutes ou 30 minutes m'est tout à fait égal.

ça c'est bien vrai !

Mais si tu as une solution de déduplication avec hardlink plus performante, je suis prêt à la récupérer.

promis, dès que je suis à la retraite je m'y mets !

Flam · le 4 octobre 2010

bah, moi pressé, j'ai vu "Deduplication Par Fslint/findup" et j'ai bêtement dit "dans le même genre on a aussi fdupes".

après, si l'outil dont tu parles est restreint à ton cas unique, pas la peine d'en parler ! parce que fichiers doublons, identiques et devant le rester, ça ne court pas les rues !

et hardlinker ou softlinker, ça pose toujours des problèmes (genre j'efface le softlink -> ok, mais zut, c'était le fichier = catastrophe, pour les hardlinks c'est moins grave, mais tu as essayé de hardlinker sur des filesystems différents ?

findup/fslint est un outil général fiable. Pour findup c'est le seul outil dispo sur syno permettant de faire de la déduplication hardlink fdupes ne permet que d'effacer les fichiers).

Je n'utilise que l'option hardlink pour des raisons évidentes.

J'utilise le NAS pour stocker différentes données, des vidéos (très gros fichiers), des photos (gros et moyens fichiers), des documents (moyens et petits fichiers), des icones (très petits fichiers mais les plus nombreux avec beaucoup de doublons) provenants de plusieurs utilisateurs.

En tout 200.000 fichiers sur deux To, et j'ai économisé 7%. Ce n'est pas énorme mais loin de "ne pas courir les rues"

Maintenant cela dépend de ce que tu stockes sur ton NAS.

Plus le nombre d'utilisateurs est élevé plus il y aura de doublons en proportion, donc plus le % de gain sera important.

Il sera presque nul pour une personne unique qui gère très bien ses données.

bah, moi aussi. Mais dans un cadre professionnel où l'erreur n'est pas trop permise (je ne me vois pas dire à un de mes utilisateurs : "je t'ai hardlinké tes doublons pour faire de la place sur le serveur", par contre je peux leur dire : je t'envoie la liste de tes fichiers en double, vérifie ceux que tu peux supprimer)

Tu ne perds strictement rien si tu les hardlink et c'est transparent.

Comment crois-tu qu'amazon fait avec son service ????

Je peux te garantir qu'ils utilisent ce système pour les doublons (en fait même plus optimisé, au niveau des chunks).

Je me suis rendu compte que l'ouverture de mes photos avec un logiciel de retouche me retouchait... l'original également)

Recevable car de nombreux logiciels et pas que des retouches photos modifient le fichier original en cas d'ouverture.

Pour ma part je trouve cela anormal.

Et à propos, as-tu testé la visibilité des fichiers softlinkés depuis un autre os, comme windows ?

Je n'utilise que les hardlinks donc je ne peux pas te répondre.

En fait depuis NT4.0 microsoft a intégré (en fait par des transferts de technologie de SGI) les "hardlinks" dans leur fs NTFS, ils l'appellent différemment mais c'est le même principe.

Syno ne propose les backup que sur ext3/ext4, cela pourrait être possible de le faire sur NTFS mais il faudrait adapter le code aux appels uSoft et être sûr de la librairie (ce qui n'est pas évident sur ces fonctions limites) et présente donc peu d'intérêt pour un NAS.

cricx · le 4 octobre 2010

findup/fslint est un outil g

Flam · le 5 octobre 2010

Tr

cricx · le 5 octobre 2010

Comme le sujet t'int

Flam · le 5 octobre 2010

Merci pour l'info, je n'avais jamais pris le temps de chercher.

Moi non plus jusqu'à la semaine dernière mais comme toi l'idée me taraudait depuis pas mal de temps...

Si tu en fais un package je suis preneur

Pour les particuliers le gain n'est pas terrible en terme de place.

Pour les grosses sociétés, les hébergeurs de nombreux sites, etc, le gain doit être plus conséquent.

Il l'est par contre un peu plus pour les backup et transferts.

Je me demande juste si en plus si on a pas un petit gain d'accès aux fichiers pour le fs, dépendant de la gestion du cache fs.

Le cache fs est implanté (implémenté??) au dessus ou en dessous des inodes ?

Si quelqu'un la réponse, mais c'est juste pour connaissance perso donc pas la peine de passer du temps dessus.

Connexion

Deduplication Par Fslint/findup

Messages recommandés

Flam

cricx

Flam

cricx

MS_Totor

Flam

cricx

Flam

cricx

Flam

cricx

Flam

cricx

Flam

Rejoindre la conversation

Qui est en ligne 4 membres, 0 anonyme, 123 invités (Afficher la liste complète)

Contributeurs populaires

Forum

Discussions

Articles

Information importante