Як я автоматизував очищення даних у Python за допомогою функцій та конвеєрів

Якщо ви працювали з даними протягом тривалого часу, ви знаєте, що очищення даних часто є найбільш трудомісткою частиною будь-якого аналітичного проекту. Ручна обробка відсутніх значень, дублікатів і невідповідностей типів даних може бути неприємною і повторюваною. Коли я почав автоматизувати свій робочий процес очищення даних у Python, все змінилося. Замість того, щоб витрачати години на ручне очищення даних, я тепер покладаюся на багаторазові функції та конвеєри, які роблять важку роботу за мене.

У цьому блозі я розповім вам про ключові методи Python, які допомогли мені автоматизувати завдання з очищення даних і спростити процес аналізу. Незалежно від того, чи ви новачок, чи досвідчений фахівець, ці методи допоможуть вам перетворити безладні набори даних на чисті, структуровані дані, готові до аналізу.

Навіщо автоматизувати очищення даних?

Перш ніж зануритися в код, давайте поговоримо про те, чому автоматизація очищення даних так важлива.

Послідовність: Очищаючи дані вручну, ви з більшою ймовірністю можете допустити помилки або невідповідності. Автоматизація процесу гарантує однорідність у всьому наборі даних.
Ефективність: Автоматизація прискорює виконання повторюваних завдань, таких як видалення дублікатів або обробка відсутніх значень. Це дає вам більше часу, щоб зосередитися на фактичному аналізі, а не на підготовці даних.
Масштабованість: Коли ваші набори даних стають більшими, ручне очищення стає непрактичним. Автоматизований робочий процес може обробляти набагато більші набори даних без додаткових зусиль.

Крок 1: Автоматизація обробки відсутніх значень за допомогою функцій Python

Пропущені дані – одна з найпоширеніших проблем у наборах даних, яка може призвести до хаосу, якщо її не вирішити належним чином. Залежно від вашого набору даних і проблеми, ви можете видалити рядки з відсутніми значеннями, заповнити їх значеннями за замовчуванням або навіть використовувати більш просунуті методи, такі як імплікація.

Ось як можна автоматизувати цей процес за допомогою функцій Python.

Приклад коду: Обробка пропущених значень

import pandas as pd

# Define a reusable function to handle missing values
def handle_missing_values(df, method='mean', fill_value=None):
    if method == 'drop':
        return df.dropna()
    elif method == 'fill':
        return df.fillna(fill_value)
    elif method == 'mean':
        return df.fillna(df.mean())
    else:
        raise ValueError("Invalid method provided")

# Example dataset
data = {'Name': ['Alice', 'Bob', None, 'David'],
        'Age': [25, None, 30, 22],
        'Salary': [50000, 60000, None, 45000]}
df = pd.DataFrame(data)

# Use the function to handle missing values by filling with the mean
cleaned_df = handle_missing_values(df, method='mean')
print(cleaned_df)

Вихід:

Name   Age   Salary
0   Alice  25.0  50000.0
1     Bob  25.7  60000.0
2    None  30.0  52500.0
3   David  22.0  45000.0

У цій функції:

У цій функції:Ви можете відкинути відсутні значення за допомогою dropna().
Ви можете заповнити відсутні значення певним значенням за допомогою функції fillna().
Ви можете автоматично заповнити числові стовпчики середнім значенням стовпчика, що є поширеною стратегією для безперервних даних.

Поширена помилка:

Поширена помилка: багато людей вручну опускають або заповнюють відсутні значення, не думаючи про те, як це впливає на весь набір даних. Важливо використовувати послідовний метод.

Крок 2: Ефективне видалення дублікатів

Повторювані рядки – ще одна поширена проблема в наборах даних. Видалити їх здається простим завданням, але буває складно переконатися, що ви випадково не видалите цінні дані.

Приклад коду: Видалення дублікатів

# Define a function to remove duplicates based on specific columns
def remove_duplicates(df, subset=None):
    return df.drop_duplicates(subset=subset)

# Example dataset with duplicates
data = {'Name': ['Alice', 'Bob', 'Alice', 'David'],
        'Age': [25, 30, 25, 22],
        'Salary': [50000, 60000, 50000, 45000]}
df = pd.DataFrame(data)

# Remove duplicates based on the 'Name' column
cleaned_df = remove_duplicates(df, subset=['Name'])
print(cleaned_df)

Вихід:

Name  Age   Salary
0  Alice   25  50000.0
1    Bob   30  60000.0
3  David   22  45000.0

У цьому прикладі ми використали параметр підмножини, щоб вказати, які стовпці перевіряти на наявність дублікатів. Це запобігає випадковому видаленню рядків, у яких повторюються лише деякі стовпці.

Поширена помилка:

Багато початківців використовують функцію drop_duplicates(), не перевіряючи, які стовпці містять дублікати, що може призвести до втрати важливої інформації.

Крок 3: Перетворення типів даних у конвеєрі

Під час роботи з безладними даними часто зустрічаються некоректні типи даних, наприклад, числові значення, що зберігаються у вигляді рядків. Ви можете автоматизувати цей процес перетворення та інтегрувати його в конвеєр даних.

Приклад коду: Автоматизація перетворення типів даних

# Define a function to transform data types
def transform_data_types(df, col_types):
    for col, dtype in col_types.items():
        df[col] = df[col].astype(dtype)
    return df

# Example dataset with incorrect data types
data = {'Name': ['Alice', 'Bob', 'David'],
        'Age': ['25', '30', '22'],
        'Salary': ['50000', '60000', '45000']}
df = pd.DataFrame(data)

# Specify the correct data types
col_types = {'Age': 'int', 'Salary': 'float'}

# Apply the transformation
cleaned_df = transform_data_types(df, col_types)
print(cleaned_df.dtype)

Вихід:

Name       object
Age         int64
Salary    float64
dtype: object

У цьому прикладі ми створюємо функцію багаторазового використання для перетворення типів даних певних стовпців, забезпечуючи правильну обробку числових даних для подальшого аналізу.

Поширена помилка:

Ручне перетворення типів даних рядок за рядком є неефективним і схильним до помилок, особливо при роботі з великими наборами даних.

Крок 4: Побудова автоматизованої лінії очищення даних

Після того, як ви підготували функції очищення, ви можете об’єднати їх у конвеєр очищення даних. Такий підхід дозволяє обробляти будь-який набір даних за допомогою послідовного та автоматизованого робочого процесу.

Приклад коду: Конвеєр очищення даних

# Build a complete data cleaning pipeline
def data_cleaning_pipeline(df, missing_values_method='mean', fill_value=None, subset=None, col_types=None):
    # Handle missing values
    df = handle_missing_values(df, method=missing_values_method, fill_value=fill_value)
    
    # Remove duplicates
    df = remove_duplicates(df, subset=subset)
    
    # Transform data types
    if col_types:
        df = transform_data_types(df, col_types)
    
    return df

# Example dataset with various issues
data = {'Name': ['Alice', 'Bob', None, 'Alice'],
        'Age': ['25', None, '30', '22'],
        'Salary': [50000, 60000, None, 50000]}

df = pd.DataFrame(data)

# Define data types and run the pipeline
col_types = {'Age': 'int', 'Salary': 'float'}
cleaned_df = data_cleaning_pipeline(df, missing_values_method='mean', subset=['Name'], col_types=col_types)
print(cleaned_df)

Вихід:

Name  Age   Salary
0   Alice   25  50000.0
1     Bob   25  60000.0
2    None   30  52500.0

Цей конвеєр автоматизує весь процес очищення – обробку відсутніх значень, видалення дублікатів і перетворення типів даних за один прохід. Ви можете налаштувати конвеєр відповідно до набору даних і вимог до очищення.

Висновок: Спрощення очищення даних за допомогою Python

Автоматизувавши очищення даних у Python, ви можете зробити свій робочий процес набагато ефективнішим, послідовнішим і масштабованішим. Використання багаторазових функцій і створення конвеєра очищення гарантує, що ваші дані завжди будуть готові до аналізу, незалежно від того, наскільки безладними вони можуть бути на вході.

Я виявив, що автоматизація цих завдань не лише економить час, але й зменшує кількість помилок. Незалежно від того, чи ви очищаєте невеликі набори даних, чи готуєте дані для масштабних проектів, ці методи можуть допомогти вам трансформувати ваш підхід до аналізу даних.

Впровадивши ці методи Python у свій робочий процес, ви будете краще підготовлені до вирішення проблем з очищенням даних. А коли ваші дані будуть чистими, ви будете готові зануритися в найцікавішу частину – аналіз даних!

Вам також може сподобатися:

https://data-life-ua.com/uncategorized/chomu-vash-analiz-danykh-nepravylnyy-vypravliaiemo-typovi-pomylky-sql

https://data-life-ua.com/uncategorized/avtomatyzatsiia-na-python-dlia-inzheneriv-danykh-yak-zaoshchadyty-chas-ta-optymizuvaty-robochyy-protses

https://data-life-ua.com/uncategorized/odyn-instrument-obrobky-danykh-yakyy-slid-znaty-dlia-roboty-z-danymy-api

❤️ Знайшли це корисним? Поділіться нею з кимось, кому вона може бути корисною! Було б також чудово, якби ви зробили кілька потисків 👏👏👏👏 – вони допоможуть більшій кількості людей відкрити для себе цей контент і стануть знаком вдячності. І звичайно, я б хотіла почути ваші думки!

🎯 Дякую, що прочитали! Якщо вам сподобалось, будь ласка, натисніть кнопку «Підписатися», щоб бути в курсі моїх останніх публікацій. Ви також можете підтримати мене, ☕купивши мені каву…

🚀 Хочеш зв’язатися? Не соромтеся звертатися до мене на LinkedIn.

🔔Я часто пишу інформативні блоги про основні концепції Data Engineering, SQL, Python, аналіз даних та науку про дані, серед інших тем. . Не соромтеся переглядати мою сторінку профілю, щоб знайти більше таких блогів.

Простою мовою 🚀

Дякуємо, що ви є частиною спільноти In Plain English Перш ніж ви підете:

Не забудьте аплодувати і підписатися на автора ️👏
Follow us: X | LinkedIn | YouTube | Discord | Newsletter | Podcast
Створіть безкоштовний блог на базі штучного інтелекту на Differ.
Більше контенту на PlainEnglish.io

Навіщо автоматизувати очищення даних?

Крок 1: Автоматизація обробки відсутніх значень за допомогою функцій Python

Крок 2: Ефективне видалення дублікатів

Крок 3: Перетворення типів даних у конвеєрі

Крок 4: Побудова автоматизованої лінії очищення даних

Висновок: Спрощення очищення даних за допомогою Python

Простою мовою 🚀

Leave a Reply Cancel reply

Related Posts

Оптимізація коду в PySpark з використанням найкращих практик

REG_EXP регулярні вирази. Навіщо, як і для чого

Вчимо GIT