Нормализатор дат CSV — смешанные даты в ISO 8601
Колонка с 01/03/2024, 2024-03-01 и '1 марта 2024 г.' вперемешку — это колонка, которую нельзя отсортировать. Переписываем всё в ГГГГ-ММ-ДД — однозначно, сортируется, безопасно для любой БД.
Даты нормализованы
До
15/03/2024 03-15-2024
После
2024-03-15 2024-03-15
Перетащите CSV-файл сюда
или нажмите, чтобы выбрать
Исправление «date format» будет обнаружено автоматически.
Что это и почему важно?
Смешанные форматы дат — одна из самых частых проблем качества данных. Возникают, когда данные приходят из нескольких источников, ручной ввод смешивается с автоматическим экспортом, или настройки локали разнятся у пользователей. 01/02/2024 — это 2 января или 1 февраля? Без контекста неоднозначно.
CSV First Aid анализирует каждую колонку на значения, похожие на даты. Определяет типичные форматы: DD/MM/YYYY, MM/DD/YYYY, YYYY-MM-DD, DD-Mon-YYYY и другие. Если в колонке смешанные форматы — тул нормализует всё в ISO 8601 (ГГГГ-ММ-ДД), однозначный международный стандарт.
Неоднозначные даты (вроде 01/02/2024) разрешаются по доминирующему паттерну колонки. Если 90% дат в колонке в формате DD/MM/YYYY — неоднозначные трактуются так же.
Как это работает
- 1Перетащите CSV. Детектор сканирует каждую колонку на паттерны дат.
- 2Колонки со смешанными форматами помечаются. Диагноз показывает, сколько дат нужно нормализовать.
- 3Применить → все даты становятся ГГГГ-ММ-ДД. Скачать.
FAQ
А если дата действительно неоднозначна (как 01/02/2024)?
Тул использует большинство в колонке для разрешения. Если большинство явно DD/MM — неоднозначные парсятся так же. Edge-кейсы помечаются в отчёте как 'partial'.
Можно выбрать другой формат вывода?
Сейчас вывод ISO 8601 (ГГГГ-ММ-ДД). Это безопаснейший формат для обмена данными: однозначный и правильно сортируется. Кастомные форматы в планах.
А таймстемпы (дата с временем)?
Значения даты-времени вроде '2024-01-15 14:30:00' сохраняются как есть. Нормализуется только часть с датой, когда паттерн — только дата.
Похожие инструменты
Фиксер числового формата CSV
В Европе 1.234,56 значит тысяча двести тридцать четыре запятая пятьдесят шесть. В США ту же цифру пишут 1,234.56. Мы видим европейский паттерн по всей колонке и переписываем в международный формат — тот, что реально принимает любая БД.
Триммер пробелов CSV
Один хвостовой пробел — причина, почему VLOOKUP не находит, почему две строки выглядят как дубли, но таковыми не являются, почему join молча теряет половину записей. Один проход триммит каждую ячейку — матчи снова работают.
Починить кодировку CSV
Видите é, ü, ö вместо é, ü, ö? Файл сохранили в одной кодировке, прочитали в другой. Мы определяем, в какой именно, и конвертируем в UTF-8 — Müller снова выглядит как Müller.