Datos. Stanisław Romański. Usługi Informatyczne.
Datos. Stanisław Romański. Usługi Informatyczne.

Deduplikacja Deduplikacja



Deduplikacja to proces eliminacji z bazy danych rekordów równoważnych, jednak niekoniecznie identycznych.

Stosowana jest do łączenia dwóch niezależnych zbiorów danych w celu uzyskania zintegrowanej bazy bez powtarzających się informacji. Innym zastosowaniem deduplikacji jest pomijanie w bazie rekordów, które powielają informacje zawarte już w innych rekordach. Możemy jednak, usuwając powtarzające się rekordy, zachować jednocześnie dane, które wcześniej były rozproszone.

Proces deduplikacji składa się z kilku podstawowych faz:
- wyboru kryteriów i łączenia w grupy rekordów potencjalnie powielających się,
- wyboru rekordów nadmiarowych do usunięcia,
- ustalenia grup danych, które mogą być przenoszone pomiędzy rekordami
  równoważnymi,
- wzbogacenia rekordów pozostających w bazie, informacjami z rekordów wybranych
  do usunięcia,
- usunięcia rekordów zbędnych.

Optymalne wyniki deduplikacji uzyskuje się, łącząc ten proces z czyszczeniem baz danych.

Korzyści:
- obniżenie kosztów poprzez jednokrotną obsługę każdej z informacji (np. tylko
  jeden kontakt z klientem, jeden wykonany telefon, jeden wysłany katalog),
- podwyższenie skuteczności poprzez wzbogacenie posiadanych danych,
- zwiększenie precyzji raportów (lepsza identyfikacja, jednokrotne zliczanie).

Przykłady / praktyka:

Grupy rekordów potencjalnie równoważnych dobierane wg zasady: identyczna miejscowość, identyczna nazwa firm.
Zaznaczony adres stanowi zestaw pól obsługiwanych razem podczas przenoszenia danych miedzy rekordami. Podczas sklejania danych uwzględniane są wartości pól z całego zestawu.
Zaznaczone zostały rekordy wybrane do usunięcia.

Obraz bazy po dokonanej deduplikacji:

 

automatyczny skład, bazy danych, czyszczenie baz danych, deduplikacja, isis, kontrola poprawności danych, outsourcing, perl, poprawianie danych, porządkowanie baz danych, prezentacja bazy, skład, tekstowe bazy danych, tex, pdftex, wwwisis, wxis, postgresql, php,wydruki baz danych

O Firmie  Dlaczego DATOS? Linki Kontakt
OFERTA:  Publikacje z bazy danych Pielęgnacja baz danych: Czyszczenie baz danych Raport stanu bazy danych Wymiana danych