📈📊Статистичні концепції, які кожен Data-Science повинен знати! 👨🏻‍💻👨🏻‍🎓!!

Важливі статистичні концепції для побудови базових знань сучасного Data-Science 📊

Джерело: Зображення з Pixels

У світі науки про дані існують деякі важливі ідеї, які сприяють ефективному прогресу в роботі та є суперінструментами. Ці ідеї допомагають вченим з данних розуміти всю інформацію, над якою вони працюють.

Так, це ніщо інше, як Статистика. Основні фундаментальні концепції, що утворюють процес у науці про дані.

У цій статті ми дослідимо, як статистичні концепції сприяють науці про дані. Незалежно від того, чи ви новачок у сфері науки про дані, чи працюєте в цій галузі вже деякий час, ці ідеї схожі на посібник. Вони допомагають вам краще розуміти числа та використовувати їх для прийняття розумних рішень.

Тож давайте поглибимось у ці основні статистичні ідеї, які роблять науку про дані такою потужною.

Спочатку давайте уточнимо, що таке наука про дані (Data Science)?

Сама назва пояснює, що ви берете дані та застосовуєте наукові концепції, такі як статистика, ймовірність та обчислення, щоб отримати з них значущі висновки.

Наука про дані полягає у розумінні минулої інформації та передбаченні майбутньої.

Джерело: Зображення Pixels

Приклади:

Наука про дані допомагає нам передбачати майбутнє, як, наприклад, прогноз погоди, який говорить нам, чи піде завтра дощ. Це не магія, вона використовує числа та машинне навчання. Справа в тому, щоб знайти правду у даних. Вона допомагає нам відповідати на запитання та вирішувати проблеми.

Тепер можемо перейти до того, чому статистика потрібна в науці про дані та як вона сприяє цьому?

Статистика є основою науки про дані.

Вона забезпечує необхідні інструменти, методи та принципи для дослідження, аналізу та отримання цінних висновків з даних. Без статистики, науці про дані бракувало б точності та надійності, необхідних для прийняття рішень на основі даних та вирішення складних проблем.

Вона вносить вклад у кожний процес у науці про дані, такий як:

✅ Дослідження та узагальнення даних

✅ Очищення та попередня обробка даних

✅ Вивід інференції

✅ Прогнозування

✅ Вибір ознак

✅ Оцінка моделі

✅ Аналіз часових рядів

У статистиці вона широко класифікується на різні типи, які застосовуються в науці про дані, перераховані нижче.

  • Описова статистика
  • Інференційна статистика
  • Регресійний аналіз
  • Вибірка даних
  • Виділення ознак
  • Статистичне оцінювання на моделі

1.Описова статистика

Описова статистика – це галузь статистики, яка займається презентацією та узагальненням даних. Її основна мета – надати чіткий та конкретний огляд даних, що сприяє їхньому легшому тлумаченню та розумінню.

Вона включає різні концепції, щоб упростити розуміння даних. Ось деякі з них:

Середнє (Середнє значення) – Вимірює середнє значення у розподілі числових даних.

Медіана – Надає середню інформацію більш ефективним способом порівняно з середнім, і не піддається впливу викидів у даних.

Дисперсія – Вимірює розкид даних.

Стандартне відхилення – Квадратний корінь з дисперсії, що надає більш інтерпретовані міри змінності даних.

Перцентиль – Це міра, яка вказує відсоток даних, які рівні або менше визначеного значення у наборі даних.

Міжквартильний розмах (IQR) – Це міра діапазону між першим і третім квартилями, яка допомагає визначити середину 50% даних.

Гістограма – Це міра частоти або кількості точок даних, що потрапляють у певні інтервали (біни) вздовж горизонтальної вісі.

Функція щільності ймовірності (PDF – Probability Density Function) – Це статистична функція, яка описує ймовірність того, що неперервна випадкова величина набуде певного значення у визначеному діапазоні.

Кумулятивна функція щільності (CDF – Cumulative Density Function) – Це статистична функція, яка надає кумулятивну ймовірність того, що випадкова величина менша або дорівнює певному значенню.

Асиметрія – Вона описує асиметрію в розподілі даних.

Ексцес (Куртозіс) – Він вимірює “хвостатість” розподілу даних.

Джерело: Зображення Pixels

2.Інферентна статистика

Інферентна статистика – це галузь статистики, яка використовує дані для отримання висновків, прогнозів або узагальнень про популяції на основі вибіркових даних. Вона допомагає нам робити висновки або формулювати твердження про більшу групу (популяцію), аналізуючи менший, репрезентативний піднабір цієї групи (вибірку).

Перевірка гіпотез – формулювання гіпотез про параметри популяції (наприклад, середнє значення популяції) та використання вибіркових даних для перевірки того, чи підтримуються або спростовуються ці гіпотези.

Оцінювання – оцінка параметрів популяції на основі вибіркових даних.

Довірчий інтервал – надає діапазон значень, в межах якого ймовірно розташований параметр популяції.

Статистичні тести – широкий спектр статистичних тестів, таких як t-тест, хі-квадрат тест, ANOVA та аналіз регресії, використовуються в інферентній статистиці для порівняння груп, оцінки взаємозв’язків та здійснення прогнозів.

Рівень значущості – Його часто позначають через α, що представляє ймовірність помилки першого типу, тобто помилкового відхилення істинної нульової гіпотези.

Джерело: Зображення Pixels

3.Регресійний аналіз

Регресійний аналіз – це статистичний метод, який використовується в науці про дані для кількісного оцінювання взаємозв’язку між однією або декількома незалежними змінними (прогностичними) та залежною змінною (результатом), щоб робити прогнози або розуміти вплив прогностичних факторів на результат.

Лінійна регресія – встановлює зв’язок між залежною змінною та однією або декількома незалежними змінними, адаптуючи лінійне рівняння до даних.

Множинна регресія – використовує дві або більше незалежних змінних для прогнозування однієї залежної змінної.

Поліноміальна регресія – встановлює зв’язок між змінними, що здається нелінійним, за допомогою поліноміального рівняння (наприклад, квадратичного або кубічного).

Ridge і Lasso регресія – варіації лінійної регресії, які включають техніки регуляризації для управління мультиколінеарністю та запобігання перенавчанню.

Фото від Enayet Raheem на Unsplash

4.Вибірка Даних (Data Sampling)

Вибірка даних – це статистичний метод, який використовується в науці про дані для вибору підмножини точок даних з великого набору даних. Мета вибірки – зробити аналіз даних більш керованим, економічно ефективним і практичним, особливо при роботі з великими або розгалуженими наборами даних.

Класичне випадкове вибіркове дослідження– У цьому методі кожен елемент або член популяції має рівну можливість бути обраним для вибірки. Це зменшує упередженість і гарантує, що вибірка є репрезентативною для популяції.

Стратифіковане вибіркове дослідження– Популяція поділяється на підгрупи або страти на основі певних характеристик (наприклад, вік, стать, місце проживання). Потім проводиться випадкова вибірка всередині кожної страти, щоб забезпечити репрезентативність усіх груп.

Систематичне вибіркове дослідження– Спочатку випадковим чином обирається стартова точка, а потім кожен “k-й” елемент включається до вибірки. Це простий і часто більш ефективний метод, ніж простий випадковий вибір.

Джерело: Зображення з Pixels

5.Відбір ознак (Feature Selection)

Він є статистичним методом, що допомагає вибирати відповідні ознаки (змінні) для прогностичного моделювання. Техніки, такі як визначення важливості ознак та аналіз кореляції, допомагають науковцям з даних вибирати найвпливовіші фактори.

Відбір ознак на основі кореляції – вибирає ознаки на основі їх кореляції з цільовою змінною, видаляючи зайві або дуже корельовані ознаки.

Визначення важливості ознак на основі дерев – Дерева рішень та моделі ансамблю (наприклад, Випадковий ліс, Градієнтний бустинг) можуть надавати оцінки важливості ознак, які можна використовувати для вибору найважливіших ознак.

Взаємна інформація – Вимірює залежність між ознаками та цільовою змінною, вибираючи ознаки з високою взаємною інформацією.

L1 регуляризація (Lasso) – Заохочує розрідженість моделі, штрафуючи абсолютні значення коефіцієнтів ознак, ефективно відбираючи підмножину ознак.

Джерело: Зображення з Pixels

6.Статистична оцінка моделі

Це включає різноманітні статистичні метрики та тести для кількісної оцінки того, наскільки добре модель виконується.

Точність – вимірює пропорцію правильно класифікованих випадків у моделі класифікації.

Середня абсолютна помилка (MAE – Mean Absolute Error) – вимірює середню абсолютну різницю між передбаченими значеннями та фактичними значеннями.

Середньоквадратична помилка (MSE – Mean Squared Error) – обчислює середнє квадратичне відхилення між передбаченими та фактичними значеннями.

Коренева середньоквадратична помилка (RMSE – Root Mean Squared Error) – це квадратний корінь з MSE, що надає інтерпретовану метрику у тих самих одиницях, що й цільова змінна.

R-квадрат (R²) або коефіцієнт визначеності – R² вимірює пропорцію дисперсії залежної змінної, яка пояснюється незалежними змінними в моделі.

Площа під характеристичною кривою функції сприйнятливості (ROC AUC) – вимірює площу під кривою функції сприйнятливості, яка відображає залежність між дійсною позитивною часткою (чутливість) та фальшивою позитивною часткою при різних порогах.

Матриця плутанини – таблиця, що показує кількість справжніх позитивних, справжніх негативних, хибних позитивних та хибних негативних, надаючи детальні відомості про продуктивність моделі класифікації.

Точність – вимірює співвідношення правильних позитивних передбачень до загальної кількості позитивних передбачень, підкреслюючи здатність моделі уникати помилкових позитивів.

Чутливість – вимірює співвідношення правильних позитивних до загальної кількості фактичних позитивів, підкреслюючи здатність моделі знаходити всі відповідні екземпляри.

F1-оцінка – гармонічне середнє точності та чутливості, що пропонує баланс між цими двома метриками.

Фото від ThisisEngineering RAEng на Unsplash

Якщо вам сподобався вищезазначений матеріал, будь ласка, поставте лайк і

Перегляньте мій профіль на Medium: Dhilip Maharish — Medium

Підпишіться на мій профіль у Linkedin: Dhilip Maharish | LinkedIn


Повідомлення від штучного інтелекту Mind

Дякуємо, що є частиною нашої спільноти! Перш ніж ви йдете:

ОРИГІНАЛ СТАТТІ:📈📊Statistical concepts that every Data Scientist should know👨🏻‍💻👨🏻‍🎓!!

АВТОР СТАТІ:Dhilip Maharish

🚀Долучайтесь до нашої спільноти Telegram:

🚀Долучайтесь до нашої спільноти FaceBook:

Leave a Reply

Your email address will not be published. Required fields are marked *