Может показаться ненужным беспокоиться о дублирующихся файлах, если у вас терабайты памяти . Однако, если вы заботитесь об организации файлов, вам следует избегать дублирования в вашей системе Linux. Найти и удалить дубликаты файлов можно либо через командную строку, либо с помощью специального настольного приложения.
Используйте команду «Найти»
Если вы не знакомы с этой мощной командой, вы можете узнайте об этом в нашем руководстве . Объединив find
с другими важными командами Linux, такими как xargs , мы можем получить список повторяющихся файлов в папке (и всех ее подпапках). Команда сначала сравнивает файлы по размеру, затем проверяет их хэши MD5, которые представляют собой уникальные биты информации о каждом файле. Чтобы найти дубликаты файлов, откройте консоль, перейдите к нужной папке и введите:
find -not -empty -type f -printf "%s\n" | sort -rn | uniq -d | xargs -I{} -n1 find -type f -size {}c -print0 | xargs -0 md5sum | sort | uniq -w32 --all-repeated=separate
Этот однострочный текст выполняет следующие действия:
find -not -empty -type f -printf "%s\n"
— ищет обычные файлы, которые не являются пустыми, и выводит их размер. Если вас волнует организация файлов, вы можете легко найти и удалить дубликаты файлов либо с помощью командной строки, либо с помощью специального настольного приложения.
sort -rn
— сортирует размеры файлов в обратном порядке.
uniq -d | xargs -I{} -n1 find -type f -size {}c -print0
— печатаются только повторяющиеся строки. В данном случае это имена дубликатов файлов.
xargs -0 md5sum | sort |
— сортирует MD5-хеши отсканированных файлов.
uniq -w32 --all-repeated=separate
— сравнивает первые 32 символа хэшей MD5 и выводит дубликаты.
Обратите внимание, что эта команда не удаляет дубликаты автоматически — она только выводит список, и вы можете удалить файлы вручную, если хотите. Если вы предпочитаете управлять своими файлами в приложении, которое предлагает больше возможностей одновременно, вам может подойти следующее решение.
Нанять dupeGuru
DupeGuru — это кроссплатформенное приложение, доступное в трех редакциях: Standard (SE), Music и Picture. Он предназначен для поиска дубликатов файлов по множеству критериев (имена файлов, размер файлов, хеши MD5) и использует нечеткое сопоставление для обнаружения похожих файлов. Пользователи Windows и OS X могут загрузить установочные файлы из официальный сайт , а пользователи Ubuntu могут получить dupeGuru из репозитория:
sudo add-apt-repository ppa:hsoft/ppa sudo apt-get update sudo apt-get install dupeguru
Для поиска дубликатов сначала добавьте несколько папок, нажав кнопку «+». Установка состояния папки на «Ссылка» означает, что содержимое других папок сравнивается с ней. Прежде чем нажать «Сканировать», проверьте диалоговое окно «Вид ->Настройки», чтобы убедиться, что все настроено правильно.
Если вам важна организация файлов, вы можете легко найти и удалить дубликаты файлов либо с помощью командной строки, либо с помощью специального настольного приложения.
Тип сканирования зависит от версии dupeGuru; в стандартном режиме вы можете сравнивать файлы и папки по содержимому и имени файла. Редакция изображений предлагает сравнение по временной метке EXIF и «блокам изображений» — трудоемкой опции, которая делит каждое изображение на сетку и вычисляет средний цвет для каждой плитки. В версии «Музыка» вы можете анализировать «Поля», «Теги» и «Аудиоконтент». Некоторые настройки зависят от типа сканирования: «Взвешивание слов» и «Сопоставление похожих слов» работают только при поиске по именам файлов. И наоборот, «Жесткость фильтра» не применяется при сканировании «Содержимого».
DupeGuru может игнорировать небольшие файлы и ссылки (ярлыки) на файл и позволяет использовать обычные выражения для дальнейшей настройки запроса. Вы также можете сохранить результаты поиска, чтобы работать над ними позже. Поклонникам Apple понравится тот факт, что dupeGuru поддерживает библиотеки iPhoto и Aperture, а также может управлять библиотеками iTunes.
Когда dupeGuru находит дубликаты, открывается новое окно со справочными файлами, окрашенными в синий цвет, и их дубликатами, перечисленными ниже. На панели инструментов отображается основная информация, и вы можете увидеть больше о каждом файле, если выберете его и нажмите кнопку «Подробнее».
Вы можете управлять дубликатами файлов прямо из dupeGuru — в меню «Действия» показано все, что вы можете сделать. Выберите файлы, поставив галочку или щелкнув по их названию; вы можете выбрать все или несколько файлов, используя сочетания клавиш (удерживайте Shift/Ctrl и щелкните нужные файлы). Если вас интересуют различия между повторяющимися файлами, включите «Дельта-значения». Результаты могут быть изменены по приоритету (так что файлы, перечисленные как дубликаты, станут ссылками) и отсортированы по различным критериям, таким как дата изменения и размер. Книга официальное руководство пользователя dupeGuru полезна и четко написана, поэтому вы можете положиться на нее, если вдруг застрянете.
Естественно, было бы практичнее, если бы dupeGuru не разделялся на три редакции – в конце концов, большинство пользователей любят универсальные решения. Тем не менее, если вы не хотите использовать команду find
, dupeGuru предлагает аккуратный и быстрый способ удалить дубликаты из вашей файловой системы. Можете ли вы порекомендовать еще какие-нибудь инструменты для удаления дубликатов файлов ? Вы предпочитаете командную строку для этой задачи? Расскажите нам в комментариях.