Перейти к основному содержимому
CSV First Aid

Убрать дублирующиеся строки из CSV

Одна строка появляется трижды — плохой join, пропущенный DISTINCT, вчерашний скрипт запустили дважды. Сравниваем каждую строку со всеми остальными и убираем точные совпадения, сохраняя первое вхождение.

Дубли убраны

До

A,B
1,2
1,2
3,4

После

A,B
1,2
3,4

Перетащите CSV-файл сюда

или нажмите, чтобы выбрать

Исправление «duplicate rows» будет обнаружено автоматически.

Что это и почему важно?

Дубли появляются при слиянии таблиц, повторном экспорте, copy-paste записей, или комбинировании файлов с пересекающимися источниками. В больших файлах их легко пропустить — счётчики раздуты, суммы неправильные, не поймёшь, какие записи настоящие.

CSV First Aid сравнивает каждую строку с каждой и помечает точные дубли. Первое вхождение всегда сохраняется, удаляются только повторные копии.

Так как этот фикс запускается после других (трим пробелов, чистка невидимых символов), он также ловит строки, становящиеся дублями только после чистки — например, две строки, выглядевшие разными из-за скрытых пробелов.

Как это работает

  1. 1Перетащите CSV. Сравниваем каждую строку, чтобы найти точные дубли.
  2. 2В диагнозе — сколько дублей найдено. Этот фикс НЕ включён по умолчанию — вы включаете его вручную, потому что иногда дубли намеренны.
  3. 3Включите, Применить → дубли убраны. Отчёт показывает, сколько строк ушло.

FAQ

Почему этот фикс opt-in, а не включён по умолчанию?

В некоторых датасетах законно есть идентичные строки (например, логи транзакций, временные ряды). Удаление по умолчанию могло бы привести к потере данных. Нужно осознанно включить.

Детектит ли почти-дубли (fuzzy matching)?

Сейчас только точные дубли (все ячейки идентичны). Fuzzy-дедупликация требует доменных правил и запланирована на будущий релиз.

Какое вхождение сохраняется — первое или последнее?

Всегда первое. Все последующие идентичные строки удаляются.

Похожие инструменты