Цей пост буде акцентуватися на тому, що я розумію👨🎓 під DBT (Data Build Tool) взагалі (заглибимося в більше деталей у наступних постах) і кому варто використовувати або не використовувати цей інструмент.
Вирішення бізнес-проблем за допомогою DBT👨💻 та Snowflake (Сніжинка)❄️
❖ Snowflake❄ + DBT👨💻 Повний Проект Частина 1: https://lnkd.in/gASCckRR
❖ Snowflake❄ + DBT👨💻 Повний Проект Частина 2: https://lnkd.in/gMqfKZRW
❖ Snowflake❄ + DBT👨💻 Повний Проект Частина 3: https://lnkd.in/g8BuWy66
◉ Беріть участь:
👉 GitHub: https://lnkd.in/ggt3ZzUx
🚀 Внесіть внесок, клонуйте та діліться!
◉ Знаходьте мій YouTube🎥: https://lnkd.in/esW5M3vb
- Що таке DBT?
- Чи є DBT безкоштовним?
- Яку проблему вирішує DBT?
- На якому етапі ETL використовується DBT?
- Які адаптери даних (платформи даних) підтримує DBT?
- Як DBT відрізняється від інших існуючих продуктів, таких як Databricks?
- Як вивчити DBT і використовувати його у своєму випадку використання?
Що таке DBT?
DBT (інструмент побудови даних) – це інструмент з відкритим вихідним кодом (версія Core), який використовується для перетворення робочих процесів за допомогою SQL-скриптів (.sql) та YAML-скриптів (.yml).
- SQL-скрипт допомагають трансформувати дані за модульним принципом, використовуючи спільні таблиці-вирази (CTE).
- YAML-скрипт допомагають визначити схему, описи та правила тестування для стовпців (not_null, unique та інші).
Чи DBT безкоштовний?
DBT має 2 версії: DBT Core та DBT Cloud:
- DBT Core: Це версія інтерфейсу командного рядка (CLI), яку можна встановити за допомогою простої команди pip install dbt-core. Для встановлення адаптера (наприклад, snowflakes, SQL server) для підключення використовуйте pip install dbt-snowflake.
- DBT Cloud: Це надає вам графічний інтерфейс користувача (GUI), де ви можете інтегрувати свій Git та адаптер (джерело даних), організовувати робочий простір за допомогою функцій перетягування та випадання, а також має додатковий функціонал планування ваших моделей (ваші файли .sql).
Яку проблему вирішує DBT?
Співпрацюйте безшовно:
- Користуйтеся єдиною платформою для колективної трансформації даних.
- Використовуйте інтеграцію CI/CD-Git для ефективної командної роботи.
Трансформуйте дані легко:
- Використовуйте прості SQL-запити SELECT для безпроблемної трансформації даних.
Забезпечте надійність за допомогою тестування:
- Тестуйте свої перетворення даних, включаючи власні тестові кейси.
Розгортайте(Deploy) та плануйте(Schedule) легко:
- Розгортайте та плануйте свій код в різних середовищах, таких як Розробка(Development) та Продакшн(Production).
Документуйте свою роботу просто:
- Документуйте весь свій процес за допомогою простого файлу .yml file.
- Створюйте всебічну документацію по всьому шляху трансформації даних.
На якому етапі ETL використовується DBT?
DBT використовує інший метод ELT✅, а не ETL❌, де ви витягуєте та завантажуєте всі свої дані на платформи даних (див. витяг нижче), а потім використовуєте DBT для їх трансформації та завантаження назад на платформи даних для різноманітних випадків використання.
Які адаптери даних (платформи даних) підтримує DBT?
На даний момент він підтримує наступні платформи даних напряму:
- Сніжинки (Snowflake)
- Google Big Query
- Data Bricks
- AWS Redshift
- Trino
Trino використовується для підключення до різних джерел даних не напряму, а через Trino. Дивіться зображення нижче для більшої ясності.
Як DBT відрізняється від інших існуючих продуктів, наприклад, Databricks?
- DBT: DBT намагається вирішити лише дві проблеми (в основному), які полягають у перетворенні та документуванні даних в DataWarehouse у дуже простий, ефективний та впорядкований спосіб, використовуючи
.sql
та.yml
файли в оточенні CI/CD-git. - Databricks (Відомий приклад): Databricks – це уніфікована аналітична платформа, яка забезпечує середовище для спільної роботи над аналізом великих даних. Вона включає функції для інженерії даних, машинного навчання та спільної роботи з даними. Здебільшого використовується для роботи зі Spark для розподіленої обробки даних.
DBT відіграє роль спеціалізованого елемента в головоломці даних, відмінно справляючись із перетворенням та моделюванням даних у складах даних. Хоча це є важливим, воно не є повністю вичерпним рішенням.
Як ви можете вивчити DBT і використовувати його у своєму випадку використання?
- Ви можете почати вивчення DBT на їхньому веб-сайті, де є всього 16 різних курсів, розподілених за рівнями складності: Професійний, Новачок та Середній.
- Існує багато статей на Medium та відеороликів на YouTube, які допоможуть вам краще вивчити DBT (Будьте на зв’язку для отримання більше матеріалів про DBT! Слідкуйте за моїми оновленнями для інформації про майбутні публікації та відеоролики про DBT).
Серія публікацій про DBT від Leo Godin: Посилання
Більше про мене:
Я ентузіаст даних у сфері науки про дані🌺. Навчаюсь і вивчаю, як математику, бізнес та технології можуть допомагати нам приймати кращі рішення в області науки про дані.
Хочете дізнатися більше: https://medium.com/@ravikumar10593/
Знайдіть всі мої профілі: https://linktr.ee/ravikumar10593
Знайдіть мій новинний лист: https://substack.com/@ravikumar10593
Якщо ця стаття вам допомогла, не забудьте підписатися, поставити лайк і поділитися нею з друзями👍 Щасливого навчання!
🚀Долучайтесь до нашої спільноти Telegram:
🚀Долучайтесь до нашої спільноти FaceBook: