Нормализатор дат CSV — смешанные даты в ISO 8601
Колонка с 01/03/2024, 2024-03-01 и '1 марта 2024 г.' вперемешку — это колонка, которую нельзя отсортировать. Переписываем всё в ГГГГ-ММ-ДД — однозначно, сортируется, безопасно для любой БД.
Даты нормализованы
До
15/03/2024 03-15-2024
После
2024-03-15 2024-03-15
Перетащите CSV-файл сюда
или нажмите, чтобы выбрать
Исправление «date format» будет обнаружено автоматически.
Что это и почему важно?
Смешанные форматы дат — одна из самых частых проблем качества данных. Возникают, когда данные приходят из нескольких источников, ручной ввод смешивается с автоматическим экспортом, или настройки локали разнятся у пользователей. 01/02/2024 — это 2 января или 1 февраля? Без контекста неоднозначно.
CSV First Aid анализирует каждую колонку на значения, похожие на даты. Определяет типичные форматы: DD/MM/YYYY, MM/DD/YYYY, YYYY-MM-DD, DD-Mon-YYYY и другие. Если в колонке смешанные форматы — тул нормализует всё в ISO 8601 (ГГГГ-ММ-ДД), однозначный международный стандарт.
Неоднозначные даты (вроде 01/02/2024) разрешаются по доминирующему паттерну колонки. Если 90% дат в колонке в формате DD/MM/YYYY — неоднозначные трактуются так же.
Как это работает
- 1Перетащите CSV. Детектор сканирует каждую колонку на паттерны дат.
- 2Колонки со смешанными форматами помечаются. Диагноз показывает, сколько дат нужно нормализовать.
- 3Применить → все даты становятся ГГГГ-ММ-ДД. Скачать.
FAQ
А если дата действительно неоднозначна (как 01/02/2024)?
Тул использует большинство в колонке для разрешения. Если большинство явно DD/MM — неоднозначные парсятся так же. Edge-кейсы помечаются в отчёте как 'partial'.
Можно выбрать другой формат вывода?
Сейчас вывод ISO 8601 (ГГГГ-ММ-ДД). Это безопаснейший формат для обмена данными: однозначный и правильно сортируется. Кастомные форматы в планах.
А таймстемпы (дата с временем)?
Значения даты-времени вроде '2024-01-15 14:30:00' сохраняются как есть. Нормализуется только часть с датой, когда паттерн — только дата.