AWS DataZone: Короткий посібник із спрощення каталогу даних та пошуку даних

У міру вдосконалення або створення платформ даних виникає все більше проблем, пов’язаних з управлінням даними. Дані надходять з різних джерел і управляються окремими командами, що вимагає від цих команд способу пошуку та доступу до цієї інформації. В останні роки на ринку з’явилися інструменти, призначені для полегшення управління цими проблемами, такі як Datahub, Microsoft Purview та Alation. Amazon, щоб не відставати, також представив своє власне рішення для цієї сфери, відоме як Amazon DataZone.

Amazon DataZone — це оптимізована служба для управління даними, що забезпечує швидку каталогізацію, пошук, обмін та управління даними в AWS, локальних та сторонніх джерелах. Вона дозволяє адміністраторам та розпорядникам даних регулювати доступ до даних за допомогою точних засобів контролю, забезпечуючи відповідні рівні доступу та контекст. Це спрощує доступ до організаційних даних та спільну роботу з ними для широкого кола користувачів, включаючи інженерів, дата саєнтистів, менеджерів продуктів, аналітиків та бізнес-персонал, що дозволяє приймати обґрунтовані рішення.

Центральна частина пазлу AWS

AWS DataZone — це сервіс, доступний поза стандартною консоллю управління AWS через окреме посилання, відоме як портал даних(data porta). Він слугує платформою самообслуговування даних із трьома ключовими функціями, адаптованими до ролі користувача:

Куратори даних (Data stewards) мають можливість створювати бізнес-глосарій та встановлювати політики управління даними
Виробники: мають право завантажувати дані в каталог бізнес-даних.
Споживачі: можуть переглядати каталог, підписуватися на дані та використовувати їх в інтегрованих інструментах споживання даних.

DataZone — це вдосконалена додаткова послуга в екосистемі Amazon Cloud, призначена для доповнення, а не заміни існуючого набору Amazon Web Services (AWS). Ця послуга відрізняється своєю функціональністю, зосереджуючись на покращенні можливостей управління даними без дублювання функціональних можливостей існуючих пропозицій AWS. Однак такий підхід створює певний рівень складності, оскільки вимагає збереження оригінальних конфігурацій доступу та дозволів, встановлених у середовищі AWS.

Наприклад, управління доступом до баз даних Athena продовжує регулюватися LakeFormation, що вимагає від користувачів налаштування доступу через цей конкретний сервіс.Таке чітке розподілення обов’язків допомагає DataZone безперебійно працювати з інфраструктурою AWS, дотримуючись встановлених правил безпеки та управління.

Аналогічно, контроль доступу до сховища даних Redshift здійснюється за допомогою існуючих механізмів конфігурації Redshift та адміністративних груп. Для повноцінного використання функцій DataZone користувачам необхідно розуміти базові сервіси AWS

По суті, DataZone служить модульною частиною екосистеми AWS, що вимагає детального та ретельного підходу до налаштування та управління системою. Користувачі повинні ретельно зібрати та налаштувати всю систему, подібно до складання складного пазлу, де кожна деталь повинна ідеально підходити, щоб отримати бажаний результат. Цей процес підкреслює важливість глибокого розуміння служб AWS та конкретних ролей, які вони відіграють у забезпеченні безпечного, ефективного та результативного управління даними та доступу до них у хмарному середовищі.

AWS DataZone в дії
Щоб ефективно пояснити термінологію DataZone, я використав діаграми для ілюстрації шаблонів, що лежать в основі двох основних шаблонів, які підтримує DataZone: Data Lake Blueprint and the Data Warehouse Blueprint Це зроблено, щоб пояснити термінологію та структуру DataZone та показати, як конфігурації схем застосовуються для розгортання інфраструктури, необхідної командам у роботі з каталогом Amazon DataZone.
Ці схеми можуть слугувати практичним посібником для розуміння термінів середовища Amazon DataZone.

Data Warehouse Blueprint

На рисунку 2 показано потенційні застосування Data Warehouse Blueprint. Data Warehouse Blueprint визначає набір сервісів (Amazon Redshift), які запускаються та налаштовуються для публікації й використання ресурсів Amazon Redshift у каталозі Amazon DataZone.

Ось опис кожної опції:

Почнемо з створення домену. Домен виконує роль центрального вузла, що з’єднує таблиці (ресурси), користувачів та їхні проекти, кожен з яких має власне унікальне посилання на портал даних. Уявіть собі домен як незалежний веб-сайт.

2. Ми створюємо проект у межах домену. Домен може містити кілька проектів, логічно організованих за назвами команд, які володіють даними, наприклад «Маркетинг», «Реклама» тощо. Проекти дають змогу команді користувачів співпрацювати над різними бізнес-сценаріями.

3.Після створення проєкту ми можемо налаштувати середовище. Для цього ми використовуємо блакитні друки. Ми можемо налаштувати середовище за допомогою профілів середовища, які є заздалегідь встановленими комбінаціями ресурсів і блакитних друків для зручного налаштування. Використовуючи блакитний друк сховища даних, споживачі можуть підключатися до свого Amazon Redshift для пошуку даних і створення нових наборів даних. Виробники роблять те саме, але вони також можуть ділитися цими наборами даних у каталозі Amazon DataZone для використання іншими.

4. Цей варіант відповідає додаванню або оновленню існуючого джерела даних.

Примітка: джерело даних має вже існувати в Redshift, перш ніж його можна буде використовувати.

5. Після додавання джерела даних його можна виконати, після чого всі метадані у вигляді активів (інформація про кожну таблицю) будуть записані в розділі «Інвентар»…

6. На цьому етапі метадані перевіряються та редагуються, щоб забезпечити точність інформації в каталозі даних.

7. Після перевірки дані можуть бути опубліковані, що робить їх доступними для пошуку користувачам домену.

Примітка: тільки власник або учасник проекту може опублікувати ресурс у каталозі.

8. Як згадувалося раніше, існують виробники (власники даних, які додають дані до каталогу) та споживачі (користувачі, які шукають дані для аналізу або запитів). За допомогою DataZone користувачі можуть шукати та «гуглити» дані у своїй доменній зоні.

9. Коли користувач знаходить потрібні дані, він може підписатися на них, натиснувши кнопку «Підписатися» на порталі даних. Це надсилає запит власнику даних, який може його схвалити або відхилити.

Примітка: середовище повинно мати доступ до таблиць, які запитуються. Якщо це не так, користувач не зможе переглянути дані в Redshift. Це особливо важливо, якщо таблиця знаходиться в іншій базі даних, ніж та, що пов’язана із середовищем, оскільки міжбазові запити можуть бути обмежені залежно від типу кластера Redshift.

10. Після затвердження доступу власником даних користувач автоматично отримує доступ до запитуваних даних. Потім користувачі можуть перейти з порталу даних до середовища Redshift, щоб виконати запит до передплаченого ресурсу.

11. Користувачі також мають можливість створювати нові масиви даних, фактично створюючи нові таблиці в середовищі Redshift. Підключившись до Redshift, користувачі можуть виконувати сценарії SQL для створення таблиць, а потім повторно публікувати масиви даних, щоб зробити їх доступними для запитів.

12. Після публікації даних користувачі отримують можливість здійснювати запити до даних, завершуючи цикл управління даними в Amazon DataZone.

План створення озера даних

Другий доступний на даний момент план – це план Data Lake. Цей план описує, як запустити та налаштувати AWS Glue, AWS Lake Formation та Amazon Athena в каталозі Amazon DataZone.

На малюнку 9 показано опції, які можна використовувати для профілю Data Lake. Хоча ці опції в основному схожі з опціями профілю Data Warehouse, є деякі відмінності, про які я розповім далі.

1 і 2: Початкові кроки для створення домену та проекту залишаються незмінними.

3: На цьому етапі вибір профілю Data Lake означає, що метадані таблиці будуть отримуватися з каталогу даних AWS Glue.

4–8: Цей розділ містить важливу інформацію. Наразі Data Zone дозволяє користувачам здійснювати запити до даних за допомогою Redshift або Athena. Для запиту через Athena дані повинні управлятися Lake Formation. Наприклад, якщо налаштовано з’єднання JDBC і каталог даних AWS Glue заповнено за допомогою сканера AWS Glue, такий набір даних вважається некерованим. Хоча користувачі можуть запитувати доступ до некерованих ресурсів, процес виконання DataZone не схвалить доступ, дозволяючи користувачам лише переглядати метадані без можливості запитувати дані.

9. Після створення проєкту DataZone автоматично налаштовує дві бази даних в Amazon Athena: одна закінчується на _pub_db, а інша — на _sub_db. База даних «pub» призначена для команд, що генерують дані, для обміну своїми таблицями, а база даних «sub» містить дані, на які підписався користувач. Якщо дані зберігаються в S3 Data Lake і управляються Lake Formation, підписані користувачі можуть запитувати їх через Athena. Крім того, Glue Data Catalog повинен управлятися Lake Formation. Для ролі, що має доступ до DataZone, важливо мати дозволи для таблиць у Lake Formation, які користувачі повинні налаштувати самостійно — спочатку це може бути не очевидно. Крім того, місце розташування S3 з даними повинно бути зареєстровано в Lake Formation. З цими налаштуваннями користувачі можуть підписуватися на дані та виконувати запити через Athena.

10. Це піднімає важливе питання: що робити з некерованими даними, особливо коли користувачам потрібен доступ до них? Для управління цим необхідний спеціальний підхід. Якщо користувач підписується на некеровані дані, цю дію можна відстежити через EventBridge за допомогою події «Subscription Request Created» (Створено запит на підписку). Звідти архітектор даних може вирішити, які наступні кроки зробити, можливо, налаштувавши функцію Lambda або іншу програму для обробки надання доступу. Хоча це вимагає ретельної координації, це здійсненне завдання.

11 і 12: Користувачі можуть перейти до Athena, створити нові активи і, запустивши джерело даних, опублікувати ці активи в каталозі даних, аналогічно процесу, що використовується в Redshift. Усі новостворені активи будуть зберігатися в базі даних pub.

Підсумок та роздуми
Підбиваючи підсумки, можна сказати, що Amazon DataZone — це складний інструмент. Він вимагає глибокого розуміння пов’язаних сервісів, таких як Lake Formation, правильної конфігурації ролей IAM для Redshift та налаштування EventBridge для відстеження подій.

DataZone — це не просте готове рішення, яке можна одразу почати використовувати. Щоб повною мірою використовувати його можливості, потрібно добре знати екосистему AWS.

З точки зору користувача, після завершення початкового налаштування DataZone дійсно може значно оптимізувати робочі процеси. Наявність центрального хабу для всієї інформації, документації та навіть запитів на доступ, пов’язаних з даними, без необхідності використання додаткових інструментів, таких як Jira, є суттєвою перевагою.

Тим, хто розглядає DataZone, слід правильно розставляти пріоритети. Це не готове до використання рішення, яке відразу ж працює ідеально. Воно вимагає значного часу, розуміння архітектури та роботи розробників. Однак потенційні переваги є значними. Ви отримуєте оптимізоване, ефективне середовище, яке може значно поліпшити ваші проекти з управління даними. Тому підходьте до DataZone з терпінням і будьте готові витратити час на етапі налаштування — результати, ймовірно, варті зусиль.

ОРИГІНАЛ СТАТТІ:AWS DataZone: Quick Guide to Simplifying Data Catalog and Data Discovery
АВТОР СТАТІ:Yulia Sholohon

🚀Долучайтесь до нашої спільноти Telegram:

Data Life UA

Group Data Analysis UA

Group Data Engineering UA

🚀Долучайтесь до нашої спільноти FaceBook:

Data Life UA

🚀Долучайтесь до нашої спільноти Twiter X:

X

Leave a Reply Cancel reply

Related Posts

Інфраструктура для Data-Engineer DBT