Убрать дублирующиеся строки из CSV
Одна строка появляется трижды — плохой join, пропущенный DISTINCT, вчерашний скрипт запустили дважды. Сравниваем каждую строку со всеми остальными и убираем точные совпадения, сохраняя первое вхождение.
Дубли убраны
До
A,B 1,2 1,2 3,4
После
A,B 1,2 3,4
Перетащите CSV-файл сюда
или нажмите, чтобы выбрать
Исправление «duplicate rows» будет обнаружено автоматически.
Что это и почему важно?
Дубли появляются при слиянии таблиц, повторном экспорте, copy-paste записей, или комбинировании файлов с пересекающимися источниками. В больших файлах их легко пропустить — счётчики раздуты, суммы неправильные, не поймёшь, какие записи настоящие.
CSV First Aid сравнивает каждую строку с каждой и помечает точные дубли. Первое вхождение всегда сохраняется, удаляются только повторные копии.
Так как этот фикс запускается после других (трим пробелов, чистка невидимых символов), он также ловит строки, становящиеся дублями только после чистки — например, две строки, выглядевшие разными из-за скрытых пробелов.
Как это работает
- 1Перетащите CSV. Сравниваем каждую строку, чтобы найти точные дубли.
- 2В диагнозе — сколько дублей найдено. Этот фикс НЕ включён по умолчанию — вы включаете его вручную, потому что иногда дубли намеренны.
- 3Включите, Применить → дубли убраны. Отчёт показывает, сколько строк ушло.
FAQ
Почему этот фикс opt-in, а не включён по умолчанию?
В некоторых датасетах законно есть идентичные строки (например, логи транзакций, временные ряды). Удаление по умолчанию могло бы привести к потере данных. Нужно осознанно включить.
Детектит ли почти-дубли (fuzzy matching)?
Сейчас только точные дубли (все ячейки идентичны). Fuzzy-дедупликация требует доменных правил и запланирована на будущий релиз.
Какое вхождение сохраняется — первое или последнее?
Всегда первое. Все последующие идентичные строки удаляются.
Похожие инструменты
Триммер пробелов CSV
Один хвостовой пробел — причина, почему VLOOKUP не находит, почему две строки выглядят как дубли, но таковыми не являются, почему join молча теряет половину записей. Один проход триммит каждую ячейку — матчи снова работают.
Убрать невидимые символы из CSV
NBSP, zero-width joiners, залётные control-байты — вы их не видите в Excel, но VLOOKUP видит и не матчит. Сканируем каждую ячейку и убираем то, чего не должно быть.
CSV в Excel (XLSX)
CSV на входе, .xlsx на выходе. Кодировка определяется по байтам, спецсимволы переживают round-trip, ширина колонок автоподгоняется. Открывается одинаково в Excel, Google Sheets и Numbers.