“Простір даних та штучного інтелекту швидко розвивається. Якщо ви не зупинитесь і не подивитесь навколо час від часу, ви просто можете все пропустити.”
2023 рік був роком GenAI. І 2024 рік буде… ще одним роком GenAI.
Але якщо у 2023 році команди боролися за те, щоб не втратити ім’я, то у 2024 році вони будуть ставити на перше місце реальні бізнес-завдання для своїх моделей ШІ (Штучний Інтелект). А з новим фокусом з’являються і нові пріоритети.
Коли мова заходить про майбутнє даних, приплив піднімає всі кораблі. І GenAI продовжуватиме зростати у 2024 році, підвищуючи стандарти – і пріоритети – індустрії даних разом з нею.
Ось мої 10 найкращих прогнозів щодо того, що чекає на команди з обробки даних та штучного інтелекту – і як ваша команда може бути на крок попереду.
1.Велика мовна модель (LLMs – large language model) трансформують стек
Це було очевидним.
Не буде перебільшенням сказати, що великі мовні моделі (ВММ) змінили обличчя технологій за останні 12 місяців. Від компаній з легітимними кейсами використання до нічних команд з технологіями, які полюють на проблему, – всі, а також їхні розпорядники даних намагаються використовувати генеративний ШІ (GenAI) у той чи інший спосіб.
LLM продовжать цю трансформацію до 2024 року і далі – від стимулювання зростаючого попиту на дані та необхідності нових архітектур, таких як векторні бази даних (так званий “стек штучного інтелекту”), до зміни способів маніпулювання даними та їх використання для наших кінцевих користувачів.
Автоматизований аналіз даних та їх активація стануть очікуваним інструментом в кожному продукті і на кожному рівні стеку даних. Питання в тому, як ми можемо забезпечити, що ці нові продукти надають реальну цінність в 2024 році, а не просто трошки нового блиску для PR.
2.Команди з обробки даних будуть схожі на програмні команди (software team)
Найдосвідченіші команди з обробки даних розглядають свої інформаційні активи як повноцінні інформаційні продукти – з вимогами до продукту, документацією, спринтами і навіть угодами про рівень обслуговування для кінцевих користувачів.
Отже, оскільки організації починають відображати все більше і більше цінності для своїх визначених продуктів даних, все більше і більше команд з обробки даних починають виглядати – і управлятися – як команди критично важливих продуктів, якими вони є.
3.А програмні команди стануть практиками з обробки даних
Коли інженери намагаються створити продукти даних чи GenAI, не задумуючись про дані, це закінчується не дуже добре. Просто запитайте у United Healthcare.
Оскільки штучний інтелект продовжує поглинати світ, інженерія та дані стануть одним цілим. Жодна серйозна розробка програмного забезпечення не вийде на ринок без урахування ШІ – і жодна серйозна система ШІ не вийде на ринок без певного рівня реальних корпоративних даних, які її підтримують.
Це означає, що коли інженери прагнуть створити нові продукти зі штучним інтелектом, їм потрібно розвивати навички роботи з даними, щоб створювати моделі, які додаватимуть нову і постійну цінність.
4.RAG (Retrieval Augmented Generation) буде лютим (RAGe)
Після серії високопрофільних невдач GenAI стало очевидним, що зростає потреба в чистих, надійних та уважно підготовлених контекстних даних для покращення продуктів штучного інтелекту.
Оскільки сфера штучного інтелекту продовжує розвиватися, а “сліпі зони” в загальній підготовці LLM стають до болю очевидними, команди, що володіють власними даними, масово звертаються до RAG (retrieval augmented generation) і тонкого налаштування, щоб розширити свої корпоративні продукти штучного інтелекту і забезпечити наочний рів цінності для своїх стейкхолдерів.
RAG ще досить новий на ринку (вперше представлений Meta AI в 2020 році), і організації ще не розвинули досвід чи найкращі практики в області RAG, але вони надходять.
5.Команди впроваджуватимуть готові до використання на підприємствах продукти штучного інтелекту
Тренд в інженерії даних, який продовжує залишатися в тренді – продукти даних. І ви не помиляєтесь, ШІ – це продукт даних.
Якщо 2023 рік був роком штучного інтелекту, то 2024 рік стане роком впровадження продуктів штучного інтелекту. Незалежно від того, чи з власної потреби, чи з примусу, команди з обробки даних у різних галузях будуть використовувати готові до впровадження продукти штучного інтелекту. Питання в тому, чи будуть вони справді готовими до впровадження?
Минули (сподіваємося) часи, коли ви створювали випадкові функції чату лише для того, щоб сказати, що інтегруєте штучний інтелект, коли вас про це запитає рада директорів. У 2024 році команди, ймовірно, стануть більш витонченими у розробці продуктів зі штучним інтелектом, використовуючи кращі практики навчання для створення цінності та визначення проблем, які потрібно вирішити, замість того, щоб викачувати технологію для створення нових проблем.
6.Спостереження за даними буде підтримувати штучний інтелект та векторні бази даних
У опитуванні CDO Insights 2023 від Amazon Web Services (AWS) запитувалося у респондентів, яка найбільша проблема у їхній організації при реалізації потенціалу генеративного штучного інтелекту.
Найпоширеніша відповідь? Якість даних.
Генеративний штучний інтелект, в основі, є продуктом даних. І, як будь-який продукт даних, він не працює без надійних даних. Але на рівні багатомовних мовних моделей (LLMs), ручний моніторинг не може забезпечити всебічного та ефективного покриття якості, необхідного для забезпечення надійності будь-якого штучного інтелекту.
Щоб досягти справжнього успіху, командам, що працюють з даними, потрібна стратегія спостереження за даними, адаптована до стеків ШІ, яка дасть їм змогу виявляти, вирішувати та запобігати простоюванню даних у контексті зростаючого та динамічного середовища. Крім того, ці рішення повинні надавати пріоритет роздільній здатності, ефективності конвеєра та потоковим/векторним інфраструктурам, які підтримують ШІ, щоб бути конкурентоспроможними в сучасній битві за надійність ШІ у 2024 році.
7.Великі дані(BigData) стануть меншими
Тридцять років тому персональний комп’ютер був новинкою. Зараз, коли сучасні Macbook можуть похвалитися такою ж обчислювальною потужністю, як і сервери AWS, на яких Snowflake запустив свій MVP-склад у 2012 році, апаратне забезпечення стирає межі між комерційними та корпоративними рішеннями.
Оскільки більшість робочих навантажень невеликі, команди з обробки даних почнуть використовувати бази даних в процесі роботи та в пам’яті/в процесі роботи для аналізу та переміщення наборів даних.
Особливо для команд, які повинні швидко масштабуватися, ці рішення швидко починають працювати і можуть досягти функціональності корпоративного рівня за допомогою комерційних пропозицій хмарних послуг.
8.Приділення правильних розмірів буде мати пріоритет
Перед сучасними лідерами в галузі даних стоїть нездійсненне завдання. Використовувати більше даних, створювати більший вплив, використовувати більше ШІ – але при цьому знизити витрати на хмарні технології.
Як висловлюється Harvard Business Review, керівники з питань даних та штучного інтелекту налаштовуються на загрозу невдачі. За даними IDC на початку 2023 року витрати на хмарну інфраструктуру зросли до 21,5 мільярда доларів. За даними McKinsey, багато компаній спостерігають, як витрати на хмарні послуги зростають на 30% щорічно.
Низькоефективні підходи, такі як моніторинг метаданих та інструменти, які дозволяють командам бачити та правильно налаштовувати використання ресурсів, будуть невід’ємними у 2024 році.
9.Айсберг буде підніматися (Apache Iceberg)
Apache Iceberg – це відкритий формат таблиць для data lakehouse, розроблений командою інжинірингу даних в Netflix з метою забезпечення швидкого та простого способу обробки великих наборів даних в масштабах. Він призначений для легких запитів SQL, навіть до аналітичних таблиць з петабайтами даних.
У порівнянні з сучасними дата-складами та lakehouse, які пропонують і обчислення, і зберігання, Iceberg фокусується на наданні ефективного за вартістю, структурованого зберігання, до якого можна отримати доступ з використанням різних двигунів, які можуть використовуватися одночасно в вашій організації, таких як Apache Spark, Trino, Apache Flink, Presto, Apache Hive і Impala.
Нещодавно Databricks оголосила, що метадані таблиць Delta також будуть сумісні з форматом Iceberg, і Snowflake також активно рушає в напрямку інтеграції з Iceberg. З поширенням lakehouse як фактичного рішення для багатьох організацій, Apache Iceberg, а також альтернативи Iceberg, ймовірно, продовжать набирати популярність.
10.Повернення до офісу для… когось
Повернення до офісу (RTO – Return To Office) – можливо, найменш улюблений акронім кожного. Або, можливо, його улюблений! Чесно кажучи, на цьому етапі мені важко встигнути за всім. Хоча команди, здається, розділені у цьому питанні, все більше та більше груп знову викликають на роботу своїх працівників принаймні на кілька днів на тиждень.
Згідно з звітом від вересня 2023 року від Resume Builder, 90% компаній планують впроваджувати політику повернення до офісу до кінця 2024 року – практично через чотири роки після того доленосного весняного періоду в 2020 році.
Фактично, кілька впливових генеральних директорів, включаючи Енді Джассі з Amazon, Сема Альтмана з OpenAI та Сундара Пічаї з Google, вже впровадили політику повернення до офісу протягом останніх кількох місяців. І здається, що принаймні деякі переваги є в роботі в офісі (принаймні на частковий робочий день) порівняно з виключно дистанційною роботою.
Ви перебуваєте в таборі тих, хто вічно сидить вдома? Здається, відповідь – як це завжди буває у випадку з даними – полягає у створенні більшої цінності. Незважаючи на нещодавні економічні потрясіння та ринок праці, дані та команди зі штучного інтелекту в попиті. Роботодавці часто готові зробити все, щоб залучити їх і утримати. У той час як деякі компанії зобов’язують всіх співробітників повертатися в офіс незалежно від ролі, інші компанії, такі як Salesforce, вимагають, щоб інженери, які не працюють віддалено, приходили в офіс набагато рідше, всього 10 днів за квартал.
🚀Долучайтесь до нашої спільноти Telegram:
🚀Долучайтесь до нашої спільноти FaceBook: