DBT в двох словах 🥜

Цей пост буде акцентуватися на тому, що я розумію👨‍🎓 під DBT (Data Build Tool) взагалі (заглибимося в більше деталей у наступних постах)  і кому варто використовувати або не використовувати цей інструмент.


Вирішення бізнес-проблем за допомогою DBT👨‍💻 та Snowflake (Сніжинка)❄️

❖ Snowflake❄ + DBT👨‍💻 Повний Проект Частина 1: https://lnkd.in/gASCckRR
❖ Snowflake❄ + DBT👨‍💻 Повний Проект Частина 2: https://lnkd.in/gMqfKZRW
❖ Snowflake❄ + DBT👨‍💻 Повний Проект Частина 3: https://lnkd.in/g8BuWy66

◉ Беріть участь:
👉 GitHub: https://lnkd.in/ggt3ZzUx
🚀 Внесіть внесок, клонуйте та діліться!

◉ Знаходьте мій YouTube🎥: https://lnkd.in/esW5M3vb


Що таке DBT?

DBT (інструмент побудови даних) – це інструмент з відкритим вихідним кодом (версія Core), який використовується для перетворення робочих процесів за допомогою SQL-скриптів (.sql) та YAML-скриптів (.yml).

  • SQL-скрипт допомагають трансформувати дані за модульним принципом, використовуючи спільні таблиці-вирази (CTE).
  • YAML-скрипт допомагають визначити схему, описи та правила тестування для стовпців (not_null, unique та інші).

Чи DBT безкоштовний?

DBT має 2 версії: DBT Core та DBT Cloud:

  • DBT Core: Це версія інтерфейсу командного рядка (CLI), яку можна встановити за допомогою простої команди pip install dbt-core. Для встановлення адаптера (наприклад, snowflakes, SQL server) для підключення використовуйте pip install dbt-snowflake.
  • DBT Cloud: Це надає вам графічний інтерфейс користувача (GUI), де ви можете інтегрувати свій Git та адаптер (джерело даних), організовувати робочий простір за допомогою функцій перетягування та випадання, а також має додатковий функціонал планування ваших моделей (ваші файли .sql).

Яку проблему вирішує DBT?

Співпрацюйте безшовно:

  • Користуйтеся єдиною платформою для колективної трансформації даних.
  • Використовуйте інтеграцію CI/CD-Git для ефективної командної роботи.

Трансформуйте дані легко:

  • Використовуйте прості SQL-запити SELECT для безпроблемної трансформації даних.

Забезпечте надійність за допомогою тестування:

  • Тестуйте свої перетворення даних, включаючи власні тестові кейси.

Розгортайте(Deploy) та плануйте(Schedule) легко:

  • Розгортайте та плануйте свій код в різних середовищах, таких як Розробка(Development) та Продакшн(Production).

Документуйте свою роботу просто:

  • Документуйте весь свій процес за допомогою простого файлу .yml file.
  • Створюйте всебічну документацію по всьому шляху трансформації даних.

На якому етапі ETL використовується DBT?

DBT використовує інший метод ELT✅, а не ETL❌, де ви витягуєте та завантажуєте всі свої дані на платформи даних (див. витяг нижче), а потім використовуєте DBT для їх трансформації та завантаження назад на платформи даних для різноманітних випадків використання.

Які адаптери даних (платформи даних) підтримує DBT?

На даний момент він підтримує наступні платформи даних напряму:

  • Сніжинки (Snowflake)
  • Google Big Query
  • Data Bricks
  • AWS Redshift
  • Trino
Платформи даних

Trino використовується для підключення до різних джерел даних не напряму, а через Trino. Дивіться зображення нижче для більшої ясності.

Trino

Як DBT відрізняється від інших існуючих продуктів, наприклад, Databricks?

  • DBT:  DBT намагається вирішити лише дві проблеми (в основному), які полягають у перетворенні та документуванні даних в DataWarehouse у дуже простий, ефективний та впорядкований спосіб, використовуючи .sql та .yml файли в оточенні CI/CD-git.
  • Databricks (Відомий приклад): Databricks – це уніфікована аналітична платформа, яка забезпечує середовище для спільної роботи над аналізом великих даних. Вона включає функції для інженерії даних, машинного навчання та спільної роботи з даними. Здебільшого використовується для роботи зі Spark для розподіленої обробки даних.

DBT відіграє роль спеціалізованого елемента в головоломці даних, відмінно справляючись із перетворенням та моделюванням даних у складах даних. Хоча це є важливим, воно не є повністю вичерпним рішенням.

Як ви можете вивчити DBT і використовувати його у своєму випадку використання?

  • Ви можете почати вивчення DBT на їхньому веб-сайті, де є всього 16 різних курсів, розподілених за рівнями складності: Професійний, Новачок та Середній.
  • Існує багато статей на Medium та відеороликів на YouTube, які допоможуть вам краще вивчити DBT (Будьте на зв’язку для отримання більше матеріалів про DBT! Слідкуйте за моїми оновленнями для інформації про майбутні публікації та відеоролики про DBT).

Серія публікацій про DBT від Leo Godin: Посилання

Більше про мене:

Я ентузіаст даних у сфері науки про дані🌺. Навчаюсь і вивчаю, як математику, бізнес та технології можуть допомагати нам приймати кращі рішення в області науки про дані.

Хочете дізнатися більше: https://medium.com/@ravikumar10593/

Знайдіть всі мої профілі: https://linktr.ee/ravikumar10593

Знайдіть мій новинний лист: https://substack.com/@ravikumar10593

Якщо ця стаття вам допомогла, не забудьте підписатися, поставити лайк і поділитися нею з друзями👍 Щасливого навчання!

ОРИГІНАЛ СТАТТІ:DBT in a Nutshell🥜

АВТОР СТАТІ:Ravi Kumar

🚀Долучайтесь до нашої спільноти Telegram:

🚀Долучайтесь до нашої спільноти FaceBook:

Leave a Reply

Your email address will not be published. Required fields are marked *