Перейти к основному содержимому
CSV First Aid

6 самых частых ошибок импорта CSV и как их починить

Каждый дата-инженер терял часы на отладку CSV-импорта. Вот шесть самых частых ошибок, почему они случаются и самый быстрый способ починить каждую.

Ошибка 1: Искажённые символы (несоответствие кодировки)

Симптом: искажённые последовательности вроде é вместо читаемых символов. Причина: файл сохранён в Windows-1252, открыт как UTF-8. Фикс: перекодировать с правильной кодировкой, или использовать автоопределение CSV First Aid.


Ошибка 2: Первый заголовок начинается с мусора (BOM)

Симптом: заголовок '\ufeffid' вместо 'id'. Key lookup-ы падают. Причина: UTF-8 BOM от Excel-овского 'Сохранить как CSV UTF-8'. Фикс: убрать 3-байтовый BOM-префикс.


Ошибка 3: Данные в одной колонке (неверный разделитель)

Симптом: вся строка оказывается в одной ячейке. Причина: файл использует точку с запятой/табы, но парсер ждёт запятые. Фикс: определить реальный разделитель и переэкспортировать.


Ошибка 4: Съехавшие колонки (битые кавычки)

Симптом: с определённой строки данные оказываются не в тех колонках. Причина: незакрытая или неэкранированная кавычка. Фикс: починить квотинг по RFC 4180.


Ошибка 5: 'Expected N columns, got M' (несогласованное число колонок)

Симптом: импорт отвергает файл или обрезает строки. Причина: у некоторых строк лишние или пропущенные поля. Фикс: добить короткие строки и пометить длинные.


Ошибка 6: Фантомные пустые строки или лишние NULL-записи

Симптом: в БД пустые строки, счётчик раздут. Причина: висячие переводы строк, пустые строки между блоками. Фикс: убрать пустые строки.


Починить все 6 разом

CSV First Aid автоматически диагностирует все эти проблемы и больше (всего 14 типов). Бросьте файл, посмотрите диагноз, примените нужные фиксы, скачайте чистый CSV. Бесплатно, без регистрации, только браузер.

Файл с несколькими сразу? CSV First Aid запускает все шесть проверок за один проход.

Почините CSV сейчас →

Похожие инструменты

Починить кодировку CSV

Видите é, ü, ö вместо é, ü, ö? Файл сохранили в одной кодировке, прочитали в другой. Мы определяем, в какой именно, и конвертируем в UTF-8 — Müller снова выглядит как Müller.

Убрать UTF-8 BOM из CSV

Первая колонка выглядит как 'ID' вместо 'ID'? Это UTF-8 BOM — три невидимых байта, которые оставляет большинство экспортёров. Мы их срезаем, и заголовок снова читается чисто.

Ремонт кавычек CSV

Одна пропущенная закрывающая кавычка превращает одно поле в многострочного монстра и сдвигает все колонки после. Находим незакрытые, закрываем, переэкранируем внутренние — по RFC 4180.

Фиксер разделителей CSV

Европейские экспорты используют точки с запятой. Дампы БД — табы или пайпы. Ваш импорт ждёт запятые. Мы вынюхиваем, что файл реально использует, и переписываем в нужный формат — запятая, точка с запятой, таб или пайп.

Починить несогласованное число колонок CSV

Заголовок говорит 5 колонок, у некоторых строк 4, у одной 7 — и ваш импорт сдаётся. Добиваем короткие, помечаем длинные и говорим, какие номера строк проверить.

Убрать пустые строки из CSV

Пустые строки прячутся между данными и ломают подсчёт строк, импорт, каждый SUM(). Мы сканируем каждую строку и удаляем те, где все ячейки пусты. Хоть одно значение — строка остаётся.