Как объединить избыточные данные, сохранив другую уникальную информацию (см. рисунок)?

avatar
grxthy
1 июля 2021 в 16:51
40
1
0

A sample similar to the kind of database I'm dealing with.

Я пытаюсь объединить все избыточные данные в один, сохранив при этом уникальную информацию о Джоне Смите и его уникальном идентификаторе.

Очевидно, что с ошибками при вводе данных, вызванными человеческим фактором (вице-президент и вице-президент и X-Corp/X Corporation), можно сделать очень мало, но как я могу объединить все эти данные в как можно меньшее количество строк без потери уникальных значений?

Как мне сократить 4 письма "john.smith@company.com" в одно, не затрагивая последующие данные в других столбцах? Или это невозможно, потому что они содержат разные значения в других полях?

Не лучше ли подойти к этому с помощью реляционной БД? Если да, то как мне построить?

Источник
Applecore
1 июля 2021 в 18:07
0

Одним из способов подхода в Access было бы написать некоторый VBA, который берет поле идентификатора, а затем для каждого из других полей выбирает данные с наибольшим значением и записывает все это в новую таблицу. Однако, если ваши данные в таком беспорядке, вам придется потратить много времени на исправление этого, а затем разработать способ гарантировать, что он не попадет в такой беспорядок в будущем.

grxthy
1 июля 2021 в 18:26
0

Привет Applecore, спасибо за комментарий. База данных от моей компании, мы переходим на новое программное обеспечение и должны очистить наши старые данные для переноса. БД, с которой я работаю, представляет собой объединенный список всех контактов нашей компании из всех мест. На данный момент мало что можно сделать с беспорядком данных, просто пытаюсь посмотреть, смогу ли я спасти и организовать большую часть из них. Я попробую метод Access, спасибо.

Applecore
1 июля 2021 в 18:41
0

Вы также можете включить индикатор того, насколько часто «сохраняются» данные. Если он появляется в 6 из 7 случаев, то это, вероятно, хорошо (хотя 1 другой фрагмент данных может быть более новым и, следовательно, правильным). Если он появляется в 3 из 7 случаев, то он может быть не таким надежным и может нуждаться в проверке вручную.

grxthy
1 июля 2021 в 18:50
0

Данные, с которыми я работаю (контактная информация), надежны и точны, если вы об этом. Основная проблема заключается в наличии более 10 строк для одного контакта, которые можно сжать в одну, заполнив пробелы и уменьшив дубликаты до одного значения.

Ответы (1)

avatar
Nicky Moorhead
1 июля 2021 в 17:39
0

Это все данные, которые у вас есть? Почему бы просто не убедиться, что у вас нет пустых ячеек, а затем использовать функцию удаления дубликатов, чтобы убедиться, что у вас есть только уникальные значения в столбце электронной почты?

grxthy
1 июля 2021 в 18:22
0

Прикрепленное изображение представляет собой пример образца, который я сделал в формате, аналогичном фактической базе данных, с которой я работаю. Фактическая БД имеет около 50 000 строк и имеет огромное количество описанных проблем.