Міжнародний стандарт обміну даними SDMX (Statistical Data and Metadata eXchange)


В україньському інтернеті досить мало інформації про SDMX, незважаючи на те, що цей стандарт вже давно використовується для публікації та обміну даними багатьма країнами та міжнародними організаціями. Ініціатива розробки стандарту була запущена сімома міжнародними організаціями, які працюють із статистичними даними і фінансували розробку. Основною метою було спрощення обміну статистичними даними між цими організаціями, створення стандарту для такого обміну та опис процесу впровадження цього стандарту. Єдиною системою підходу не лише спрощується доступ до статистичних даних, але також за допомогою метаданих (дані про дані) полегшується розуміння їх сутності та змісту.

Головним веб-сайтом ініціативи SDMX є сайт sdmx.org, де також міститься список схвалених міждоменних концепцій, довідників та класифікаторів. Кожна організація, яка приєднується до стандарту, може розширити та доповнити його, використовуючи спеціальну адміністративну процедуру реєстрації.

Стандарт не є жорстким управлінням дій, організації самостійно вибирають, які елементи SDMX вони будуть використовувати і для яких цілей.

Трохи історії

Перша версія стандарту дозволяла обмінюватися статистичними даними і метаданими у форматах GESMES/TS (власний формат SDMX, схожий на CSV із роздільником, пізніше перейменований в SDMX-EDI) і XML-форматі даних SDML-ML. Версія 1.0 була схвалена у вересні 2004 року та прийнята як технічна специфікація ISO (ISO/TS 17369:2005) у квітні 2005 року. У листопаді 2005 року була готова і схвалена версія 2.0, яка була повністю сумісною з версією 1.0, але додала можливість обміну посиланнями (описовими) метаданими. Версія 2.1 (на 2018 рік) була випущена в травні 2011 року та в 2013 році була опублікована як міжнародний стандарт ISO 17369. Пізніше були описані стандарти обміну в форматах CSV та JSON.

Стандарт SDMX включає наступні компоненти:

  • Інформаційна модель (Information Model), що описує структуру, зміст і типи даних.
  • XSD-схеми, які описують структуру і типи даних.
  • Рекомендації щодо наповнення інформацією (Content-oriented Guidelines).
  • Набір програм та інструментів для роботи з SDMX.

Інформаційна модель SDMX є основою цього стандарту і включає концепти (CONCEPT), обмеження (CONSTRAIN), правила та операції, які визначають формат та склад статистичних даних, які надає організація. У цій статті не передбачено повного опису всіх SDMX-сутностей, але лише основні компоненти.

Інформаційна модель SDMX

Статистичні дані в основному не відрізняються від звичайних даних.

Статистичні дані– це набір даних, які упорядковані та класифіковані відносно певного масового явища або процесу. Вони включають в себе різні параметри (або концепти, за термінологією SDMX), зазвичай одним із них є часовий період. Для обробки та аналізу цих даних часто використовують BI(Business Intelligent) інструменти.

Статистичне спостереження – це набір конкретних значень концептів, які однозначно характеризують кожну одиницю в загальній масі даних.

Число “208.36” є прикладом статистичного спостереження, яке визначається набором концептів (зауважте, що всі ці дані є умовними).

У стандарті SDMX концепт є основним елементом структури та представляє собою якісну характеристику статистичних спостережень. Значеннями концепту можуть бути числа, рядки, дати або значення з кодових довідників (CODELIST). Це представлення може бути перевизначено в визначенні структури даних (Data Structure Definition), коли концепт використовується як вимірювання чи атрибут.

Справочники кодів – це простий список “ключ-значення”. У цьому списку перераховані різні значення, які будуть використовуватися у представленні: показники, атрибути та інші елементи структурної частини SDMX. Вони доповнюються іншими структурними метаданими, які можуть включати описи та ієрархічну організацію кодів, специфічну для різних мов.

Принцип кодування структурних об’єктів SDMX визначений в стандарті: допускаються латинські великі літери, цифри і символ підкреслення. Крім того, структури підтримують версіонність.

Опис структури даних (Data Structure Definition, DSD) визначає відповідний склад та порядок концептів для формування кінцевого набору даних (DATASET). Кожному концепту, який входить в структуру, надається визначення його ролі в наборі даних:

  • Вимір (DIMENSION) – це основний ідентифікатор даних. Набір значень всіх вимірювань, крім часового, створює унікальний код (CODE) для серії в межах однієї структури даних.
  • Атрибут (ATTRIBUTE) – це додатковий опис, який надається або для набору даних, або для конкретного спостереження. Прикладом атрибута може бути одиниця вимірювання або статус спостереження (попереднє, прогнозоване, переглянуте і т. д.).
  • Безпосередне значення (MEASURE) спостереження.

Отже, приклад, наведений вище, можна описати наступною структурою даних:

КонцептРольТип даних
ПеріодичністьВимірюванняДовідник
КраїнаВимірюванняДовідник
Функціональна категоріяВимірюванняДовідник
ПеріодВимірювання часуДата
Одиниця вимірюванняАтрибутДовідник
ЗначенняЗначенняЧисло

Набір даних (DATASET) – це колекція однорідних даних, які мають спільну структуру DSD. Вони можуть містити часові ряди (time series) або кілька рядів в певний момент часу (перекрізні дані – Cross-Sectional Data).

Зв`язок CONCEPTS, CODELISTS, DSD і DATASET

Приклад набору даних із веб-сайту Європейського центрального банку. У полі “Ключ” вказано набір вимірювань для кожної часової серії, розділених крапкою, і вони утворюють унікальний ключ.

Дані часової серії

Метадані

В SDMX метадані (Metadata) поділяються на дві групи:

  • Структурні метадані (Structural metadata) – це набір концепцій, які використовуються для опису та ідентифікації статистичних даних і метаданих.
  • Посилальні (або пояснювальні) метадані (Reference metadata) – це великий набір концепцій, які визначають та характеризують набори даних і зазвичай описують не окремі спостереження чи серії даних, а весь набір даних або навіть організацію, яка надає дані. Посилальні метадані зазвичай мають текстовий або HTML-формат і використовують концепції, що описують вміст, методологію та якість даних.

Опис структури метаданих (Metadata Structure Definition, MSD) містить інформацію про те, як організовані набори метаданих, що містять посилання на значення (аналогічно до Data Structure Definition, DSD). Зокрема, MSD описує, що входить у взаємодію з метаданими та як концепти взаємодіють між собою, як вони будуть відображені (у вигляді тексту чи значень зі справочника) та яким видом об’єкта (агентство, потік даних, постачальник даних, набір даних тощо) вони пов’язані.

Набір посилань на метадані (METADATASET) – це інформація, що безпосередньо описує статистичний підхід, організацію, яка надає дані, або структуру даних, графік публікації, якість даних та інше, відповідно до структури метаданих.

Подання посилальних метаданих на веб-сайті Європейського центрального банку.

Керівні принципи стосовно інформаційного наповнення

Рекомендації щодо контенту орієнтовані на забезпечення максимальної сумісності при обміні даними та метаданими між організаціями. Вони розроблені в рамках стандарту SDMX і заохочуються до використання між статистичними організаціями настільки, наскільки це можливо. Основними документами є:

  • Список междоменних концептів
  • Статистичні предметно-орієнтовані області
  • Загальний словник метаданих

Список междоменних концептів (Cross-Domain Concepts) містить перелік статистичних концепцій, які стосуються статистичного процесу та якості даних. Цей перелік базується на концепціях, що використовуються міжнародними організаціями-спонсорами. Він не є вичерпним і буде доповнюватися в майбутньому. Концепції можуть використовуватися як для даних, так і для метаданих. Кожен концепт має унікальний код, опис контексту, в якому цей концепт може бути використаний, а також презентацію в стандарті SDMX.

Статистичні предметно-орієнтовані області (Content-Oriented Domains) – це класифікація верхнього рівня, що базується на роботі Економічної комісії ООН з європейських країн (UNECE) щодо статистичних областей. Ця класифікація надає відправну точку для організації обміну статистичними даними та метаданими.

Загальний словник метаданих (Metadata Common Vocabulary, MCV) містить концепції та пов’язані з ними вимірювання, які використовуються в структурних та посилальних метаданих міжнародних організацій та національних агентств. MCV – словник, який рекомендує використовувати спільну термінологію з метою спрощення комунікації та розуміння. MCV тісно пов’язана з междоменними концептами та також містить всі ці концепти, вказуючи їх визначення та опис контексту.

IT-інструменти для роботи з SDMX

Список інструментів для роботи з SDMX доступний на сайті sdmx.org. Основним інструментом для роботи зі структурними метаданими є продукт компанії Metadata Technology під назвою Fusion Registry. Він працює як веб-додаток і має дві версії: Community (безкоштовна версія з обмеженими можливостями) і Enterprise Edition (платна версія). Цей програмний продукт використовується для створення єдиного реєстратора, що відповідає за збір і поширення даних та метаданих, і використовується Міжнародним валютним фондом за адресою sdmxcentral.imf.org. Крім того, цей програмний продукт також використовує SDMX-спільноту за адресою registry.sdmx.org.

У Fusion Registry останніх версій практично повністю реалізована вся функціональність стандарту. Проте, зауважимо, що в цьому додатку відсутня можливість формування даних та метаданих у форматі SDMX.

Data Structure Wizard – це Java-додаток для створення структурних метаданих версії 2.0 і 2.1, який підтримує створення всіх основних сутностей SDMX.

SDMX converter– це основний інструмент для роботи з даними SDMX, розроблений Євростатом. Він дозволяє створити набір даних (але не метадані) з файлів у форматах Excel, CSV та FLR, а також конвертувати дані між різними форматами SDMX.

Підсумовуємо

Стандартизація статистичної інформації в межах стандарту SDMX значно спрощує поширення та аналіз даних. Використання веб-сервісів дозволяє спростити обробку великих обсягів інформації та забезпечити інтеграцію з іншими системами, надаючи можливість кожному користувачеві отримувати та порівнювати макроекономічні показники, які цікавлять його, в різних країнах світу. Вказані переваги стандарту SDMX лежать в основі Державної статистики України з впровадження стандарту в практику розповсюдження статистичних даних як у рамках обміну інформацією з міжнародними організаціями, так і для надання даних широкому колу користувачів з використанням портальних технологій.

Ось список веб-сайтів на тему SDMX:

sdmx.org (A global initiative to emprove Statistical Data and Metadata eXchange)
ec.europa.eu/eurostat/ (Eurostat – European Commision)
sdmxcentral.imf.org (IMF SDMX Central)
sdmxsource.org (Open source reference implementation of SDMX)
dati.istat.it (Italian National Institute of Statistics)
https://stat.gov.ua/en/sdmx-api (Державна служба статистики України )

Долучайтесь до нашої спільноти Telegram
Data Life UA
Data Analysis UA
DATA ENGINEERING UA
Долучайтесь до нашої спільноти FaceBook
Data-Life-UA

Leave a Reply

Your email address will not be published. Required fields are marked *