Цілісність даних – це достовірність даних, тобто узгодженість і правильність даних. У сфері зберігання даних ми часто чуємо термін “Сміття на вході, сміття на виході”. Якщо у сховищі даних немає цілісності даних, то будь-який звіт і аналіз не буде корисним.
У сховищі даних або вітрині даних є три області, де необхідно забезпечити цілісність даних:
Рівень бази даних
Ми можемо забезпечити цілісність даних на рівні бази даних. Найпоширеніші способи забезпечення цілісності даних включають в себе наступні:
Цілісність посилань
Зв’язок між первинним ключем однієї таблиці та зовнішнім ключем іншої таблиці повинен завжди підтримуватися. Наприклад, не можна видалити первинний ключ, якщо все ще існує зовнішній ключ, який посилається на цей первинний ключ.
Первинний ключ / Унікальне обмеження
Первинні ключі та обмеження UNIQUE використовуються для того, щоб гарантувати, що кожен рядок у таблиці може бути однозначно ідентифікований.
Не NULL проти NULL-можливого
Для стовпців, визначених як NOT NULL, вони можуть не мати значення NULL.
Допустимі значення
У базі даних допускаються лише дозволені значення. Наприклад, якщо стовпець може містити лише натуральні числа, значення ‘-1’ не може бути допустимим.
Процес ETL
На кожному кроці процесу ETL слід здійснювати перевірку цілісності даних, щоб переконатися, що вихідні дані збігаються з даними в пункті призначення. Найпоширеніші перевірки включають підрахунок кількості записів або сум записів.
Рівень доступу
Ми повинні гарантувати, що дані не будуть змінені будь-якими несанкціонованими засобами ні під час процесу ETL, ні в сховищі даних. Для цього необхідно забезпечити захист від несанкціонованого доступу до даних (включаючи фізичний доступ до серверів), а також реєстрацію всієї історії доступу до даних. Цілісність даних може бути забезпечена лише за умови відсутності несанкціонованого доступу до них.
🚀Долучайтесь до нашої спільноти Telegram:
🚀Долучайтесь до нашої спільноти FaceBook: