Намерете и премахнете дублиращи се файлове в Linux
Може да ви е ненужно да се притеснявате за дублиращи се файлове, когато разполагате с терабайти за съхранение. Ако обаче се интересувате от организацията на файловете, ще искате да избегнете дублиране на вашата Linux система. Можете да намерите и премахнете дублиращи се файлове, или чрез командния ред, или чрез специализирано приложение за настолни компютри.
Използвайте командата "Намери"
В случай, че не сте запознати с тази мощна команда, можете да научите за това в нашето ръководство. Чрез комбиниране на find
с други основни команди на Linux, като xargs, можем да получим списък с дублиращи се файлове в папка (и всички негови подпапки). Командата първо сравнява файловете по размери, след това проверява своите MD5 хешове, които са уникални бита за всеки файл. За да сканирате за дублирани файлове, отворете конзолата си, отидете до желаната папка и въведете:
find -not -empty -type f -printf "% s \ n" сортиране -rn | uniq -d | xargs -I {} -n1 намерете -type f -size {} c -print0 | xargs -0 md5sum | сортиране | uniq -w32 - всички повтарящи се = отделни
Този един-линеен прави следното:
find -not -empty -type f -printf "%s\n"
- търси обикновени файлове, които не са празни и отпечатва техния размер. Ако ви интересува организацията на файлове, можете лесно да намерите и премахнете дублиращи се файлове, или чрез командния ред, или чрез специализирано приложение за настолни компютри.
sort -rn
- сортира размерите на файловете в обратен ред.
uniq -d | xargs -I{} -n1 find -type f -size {}c -print0
uniq -d | xargs -I{} -n1 find -type f -size {}c -print0
- отпечатва само дублирани линии. В този случай имената на дублиращите се файлове.
xargs -0 md5sum | sort |
- сортира MD5 хешове на сканирани файлове.
uniq -w32 --all-repeated=separate
- сравнява първите 32 знака на MD5 хешове и отпечатва тези, които са дублирани.
Имайте предвид, че тази команда не премахва автоматично дубликатите - извежда само списък и можете ръчно да изтриете файлове, ако искате. Ако предпочитате да управлявате файловете си в приложение, което предлага повече опции наведнъж, може да ви е удобно следващото решение.
Използвайте дупеГуру
DupeGuru е приложение за различни платформи, което се предлага в три издания: Стандартен (SE), Музикален и Картинен. Той е разработен, за да намери дублиращи се файлове въз основа на няколко критерия (имена на файлове, размер на файла, MD5 хешове) и използва размити съвпадение за откриване на подобни файлове. Потребителите на Windows и OS X могат да изтеглят инсталационните файлове от официалния уебсайт, а потребителите на Ubuntu могат да изтеглят dupeGuru от хранилището:
sudo add-apt-repository ppa: hsoft / ppa sudo apt-get актуализация sudo apt-get инсталирате dupeguru
За да търсите дубликати, първо добавете някои папки, като натиснете бутона "+". Задаването на състояние на папка в "Референция" означава, че съдържанието на други папки се сравнява с него. Преди да кликнете върху "Сканиране", проверете диалога "Преглед -> Предпочитания", за да сте сигурни, че всичко е настроено правилно.
Ако ви интересува организацията на файлове, можете лесно да намерите и премахнете дублиращи се файлове, или чрез командния ред, или чрез специализирано приложение за настолни компютри.
"Тип сканиране" е различен в различните издания на dupeGuru; в Стандарт можете да сравнявате файлове и папки по съдържание и име на файл. Изданието за снимки предлага сравнение между EXIF и маркерите "Picture blocks" - отнемаща време опция, която разделя всяка картина на мрежата и изчислява средния цвят за всяка плочка. В "Музикално издание" можете да анализирате "Полета", "Етикети" и "Аудиосъдържание". Някои настройки зависят от вида на сканиране: "Корекция на думи" и "Съответстващи думи". Обратно, "Твърдост на филтъра" не се прилага, когато правите сканиране "Съдържание".
DupeGuru може да пренебрегва малките файлове и връзки (преки пътища) към даден файл и ви позволява да използвате регулярни изрази, за да персонализирате допълнително заявката си. Освен това можете да запазите резултатите от търсенето, за да работите по-късно. Феновете на Apple ще се радват на факта, че dupeGuru поддържа библиотеките iPhoto и Aperture и може да управлява iTunes библиотеките.
Когато дупегуру намери дубликати, се отваря нов прозорец с референтни файлове, оцветени в синьо, и техните дубликати, изброени по-долу. Лентата с инструменти показва основната информация и можете да видите повече за всеки файл, ако го изберете, и щракнете върху бутона "Детайли".
Можете да управлявате дублирани файлове директно от dupeGuru - менюто "Действия" показва всичко, което можете да направите. Изберете файлове, като поставите отметка в квадратчето или кликнете върху името им; можете да изберете всички или няколко файла, като използвате клавишни комбинации (задръжте Shift / Ctrl и кликнете върху желаните файлове). Ако проявявате интерес към разликите между дублиращи се файлове, превключете Delta Values. Резултатите могат да бъдат преоценени (така че файловете, изброени като дупе се превръщат в справки) и да се сортират по различни критерии като дата и размер на модификацията. Официалното ръководство на потребителя dupeGuru е полезно и ясно написано, така че можете да разчитате на него, ако някога сте се забили.
Разбира се, би било по-практично, ако дупегуру не е разделен на три издания - в края на краищата повечето потребители обичат едно гише. Все пак, ако не искате да използвате командата за find
, dupeGuru осигурява бърз и бърз начин за изкореняване на дупките от вашата файлова система. Можете ли да препоръчате други инструменти за премахване на дублирани файлове? Предпочитате ли командния ред за тази задача? Кажете ни в коментарите.