Створення першого ETL-пайплайна за допомогою Python та SQL

Вступ

Якщо ви новачок в інженерії даних або роботі з конвеєрами даних, ви могли чути термін ETL. Він розшифровується як Extract, Transform, and Load – три кроки, що мають вирішальне значення для переміщення даних з однієї системи в іншу. Незалежно від того, чи готуєтеся ви до ролі інженера даних, чи просто хочете розширити свій набір навичок, цей гайд проведе вас через процес побудови вашого першого ETL-пайлпайна за допомогою Python та SQL.

У цьому гайді ми використаємо тестовий набір даних, очистимо та перетворимо його, а потім завантажимо в базу даних. Наприкінці ви матимете базове розуміння того, як автоматизувати завдання з обробки даних, що є фундаментальною навичкою для будь-кого, хто працює з даними.

Давайте зануримось!

Розділ 1: Розуміння основ ETL

Що таке ETL?
Перш ніж почати кодити, важливо зрозуміти, що таке ETL. ETL-пайплайни є основою систем зберігання даних та аналітики. Ось короткий опис:

Витяг: (Extract): Витяг даних з одного або декількох джерел, таких як бази даних, API або плоскі файли (наприклад, CSV).
Перетворення (Transform): Очищення, фільтрація, агрегування або перетворення даних у потрібний формат.
Завантаження (Load): Завантаження очищених і перетворених даних до бази даних або сховища даних для аналізу.

ETL-пайплайн автоматизує ці етапи, роблячи обробку даних більш ефективною.

Розділ 2: Налаштування середовища

Для цього вам знадобляться

Python (бажано версія 3. x)
SQL (будь-яка база даних SQL – PostgreSQL є чудовим вибором для цього гайду)
Бібліотека Python для SQL-з’єднань (наприклад, psycopg2 для PostgreSQL)

Ви можете встановити пакети Python за допомогою pip:

pip install pandas sqlalchemy psycopg2

Ми також будемо використовувати Pandas для роботи з набором даних. Почнемо з налаштування нашого середовища.

Розділ 3: Видобування даних

Крок 1: Завантажте свій набір даних

Ми працюватимемо зі зразком CSV-файлу, що містить фіктивні дані про клієнтів і продажі. Витягнемо його у Pandas DataFrame.

Ось код для завантаження набору даних:

import pandas as pd

# Load the dataset
data = pd.read_csv('sales_data.csv')
print(data.head())

Цей код зчитує дані і відображає перші кілька рядків, щоб переконатися, що все виглядає добре. На цьому етапі ви завершили етап витягу!

Розділ 4: Перетворення даних

Крок 2: Очищення та перетворення даних

Тепер, коли дані завантажені, ми очистимо і перетворимо їх. Скажімо, ми хочемо видалити відсутні значення і перетворити стовпець sale_date у правильний формат дати.

# Drop rows with missing values
data_cleaned = data.dropna()

# Convert sale_date to datetime
data_cleaned['sale_date'] = pd.to_datetime(data_cleaned['sale_date'])

print(data_cleaned.head())

Ви очистили свої дані, і вони готові до етапу перетворення

Розділ 5: Завантаження даних в SQL

Крок 3: Підключення до бази даних SQL

Далі давайте завантажимо ці очищені дані в базу даних PostgreSQL. Спочатку налаштуємо з’єднання за допомогою SQLAlchemy.

from sqlalchemy import create_engine
# Create connection to the PostgreSQL database
engine = create_engine('postgresql+psycopg2://user:password@localhost:5432/mydatabase')

# Load data into SQL
data_cleaned.to_sql('sales_data', engine, index=False, if_exists='replace')

Цей код підключається до вашої бази даних і завантажує DataFrame у таблицю SQL. Вітаємо, ви завершили етап завантаження!

Розділ 6: Налаштування розкладу вашого пайплайна

Щоб автоматизувати процес ETL, ви можете запланувати запуск цього скрипта Python через певні проміжки часу за допомогою таких інструментів, як Cron (Linux) або Планувальник завдань (Windows).

Ось приклад базового завдання cron:

0 0 * * * /usr/bin/python3 /path_to_script/etl_pipeline.py

Це дозволить запускати ваш ETL-скрипт щодня опівночі.

Типові помилки та оптимізації

Помилка 1: Не обробляємо відсутні дані
Якщо ви забудете очистити дані належним чином, це може призвести до помилок або неправильних результатів. Завжди перевіряйте наявність нульових значень і очищайте дані на етапі перетворення.

Помилка 2: Неефективне завантаження бази даних
Одночасне завантаження великих наборів даних може перевантажити вашу базу даних. Розбивайте великі набори даних на менші фрагменти за допомогою аргументу chunksize у Pandas.

data_cleaned.to_sql('sales_data', engine, index=False, if_exists='replace', chunksize=1000)

Висновок

Створення ETL-пайплайна є важливою навичкою для кожного, хто працює з даними. За допомогою Python та SQL ви можете створювати пайплайни, які автоматизують видобування, перетворення та завантаження даних. Дотримуючись цього посібника, ви створили свій перший ETL-пайплайн з нуля.

Тепер ваша черга експериментувати з наборами даних і занурюватися в більш складні робочі процеси ETL. Продовжуйте практикувати, і незабаром ви зможете автоматизувати різноманітні завдання з даними!

Перегляньте мій блог про найкращі практики оптимізації SQL-запитів, а також поради та методи для підвищення продуктивності та типові помилки, яких ми часто припускаємося. Також прочитайте про те, як працювати з великими наборами даних в SQL – методи для ефективної роботи з мільйонами рядків даних.

ОРИГІНАЛ СТАТТІ:Building Your First ETL Pipeline with Python and SQL
АВТОР СТАТІ:Satyam Sahu

🚀Долучайтесь до нашої спільноти Telegram:

Data Life UA

Group Data Analysis UA

Group Data Engineering UA

🚀Долучайтесь до нашої спільноти FaceBook:

Data Life UA

🚀Долучайтесь до нашої спільноти Twiter X:

X

Вступ

Розділ 1: Розуміння основ ETL

Розділ 2: Налаштування середовища

Розділ 3: Видобування даних

Розділ 4: Перетворення даних

Розділ 5: Завантаження даних в SQL

Розділ 6: Налаштування розкладу вашого пайплайна

Типові помилки та оптимізації

Висновок

Leave a Reply Cancel reply

Related Posts

Глибоке занурення в SQL-індекси

Інженер даних ∩ Аналітик даних = Аналітичний інженер

Коли витрати на AWS Athena різко зростають: основні уроки та як цього уникнути-serverless-архітектурі