Я

Як уряд відкриває дані: другий місяць виконання постанови

ТЕКСТИ продовжують відстежувати, як органи влади та держпідприємства відкривають нові набори даних. Цього разу мова піде про підсумки другого місяця впровадження оновленої версії Постанови КМУ №835. А також проаналізуємо найбільш поширені помилки розпорядників при оприлюднені відкритих даних.

Автори: Богдан Тишкевич (аналітик, Texty.org.ua), Катерина Оніліогву (керівник напряму відкритих даних проекту "Прозорість і підзвітність у державному управлінні та послугах", Андрій Газін (експерт проекту "Прозорість і підзвітність у державному управлінні та послугах")

Оновлення (18 квітня). До редакції надійшло уточнення від Міністерства внутрішніх справ України щодо кількості оприлюднених наборів даних. З урахування наборів Головного сервісного центру МВС їх загальна кількість становить 5 (раніше ми повідомляли, що - 4). У деяких випадках, закріплені за певним відомством набори оприлюднюється його структурним підрозділом, який володіє необхідною інформацією. У такому разі, рекомендуємо розпорядникам вказувати інформацію та посилання (метадані) про ці набори. Це допоможе спростити пошук для користувачів порталу.

Підсумки другого місяця

Вже минуло понад два місяці після того, як в Україні почало діяти нове законодавство про відкриті дані. Відповідно до постанови КМУ № 1100 від 20.12.2017, перелік наборів розширився, а розпорядники отримали чіткіші інструкції щодо їх публікації. Станом на 9 квітня центральні органи виконавчої влади та держпідприємства оприлюднили менше половини передбачених наборів даних. Ще менше датасетів можна вважати придатними для практичного використання. Тепер розпорядники мають лише місяць для того, щоб надолужити втрачене та виправити допущені помилки.

З 9-го березня по 9-те квітня центральні органи виконавчої влади оприлюднили 30 нових наборів даних. Таким чином, їх загальна кількість зросла до 251 (45% від передбаченого переліку). Серед 56 розпорядників, охоплених моніторингом, 12 оприлюднили всі набори, 23 - щонайменше 1, а 21 розпорядник не оприлюднив жодного. Візуалізація нижче показує, скільки наборів даних необхідно оприлюднити центральним органам виконавчої влади та держпідприємствам.

На ній ми показали тих розпорядників, які мають оприлюднити ще щонайменше 5 наборів даних. З повним переліком можна ознайомитись у первинних даних моніторингу.

Найбільший ривок у публікації відкритих даних зробила Державна служба статистики. Відомство оприлюднило 17 класифікаторів у машиночитаному форматі. Ці набори зможуть виконувати функцію довідників для інших наборів даних, які використовують, наприклад, класифікацію організаційно-правових форм або адміністративно-територіальних одиниць. Державна фіскальна служба та Державне агентство рибного господарства оприлюднили по 4 набори даних. Це дозволило їм повністю виконати норми законодавства.

Загалом, за березень Єдиний державний портал відкритих даних поповнився інформацією про зареєстровані кримінальні правопорушення (Генеральна прокуратура України), податкові перевірки (Державна фіскальна служба України), запаси та використання рибних ресурсів (Державне агентство рибного господарства України), тарифи (Національна комісія, що здійснює державне регулювання у сферах енергетики та комунальних послуг).

4 типові помилки розпорядників на data.gov.ua

Сам факт публікації на порталі відкритих даних не робить автоматично дані відкритими. Вони мають відповідати низці якісних критеріїв, що уможливить їх аналіз або використання е-сервісами. На жаль, переважна більшість розпорядників припускаються помилок при оприлюднені наборів. Розглянемо найпоширеніші з них.

Нерозуміння принципів відкритих даних

Поширеними прикладами нерозуміння принципів відкритих даних є оприлюднення агрегованих (зведених) показників, форм звітності та веб-сервісів. Інформація в такому форматі може видаватися розпорядникам зручною, логічною та такою, що легко сприймається. Веб-сервіси дозволяють шукати та візуалізувати дані.

Однак, цінність відкритих даних полягає у їх первинній та деталізованій формі. Саме тому, розпорядники мають оприлюднювати первинні дані та експортувати їх із власних інформаційних систем. Розглянемо декілька прикладів.

Генеральна прокуратура України оприлюднює інформацію про зареєстровані кримінальні правопорушення та результати їх досудового розслідування. У наборі наведені загальні показники злочинності по Україні, згруповані за місяцями. З такими даними неможливо нічого зробити, і потрібні додаткові запити в ГПУ, щоб зрозуміти, як тлумачити ці данні. Найкраще подавати інформацію про кожне зареєстроване правопорушення окремим записом в таблиці.

Деякі розпорядники опублікували посилання на власні веб-сервіси замість наборів даних: Єдиний електронний реєстр спортивних споруд від Міністерства молоді та спорту України, База даних спеціальних дозволів на користування надрами від Державної служби геології та надр України, Дані державного моніторингу поверхневих вод від Державного агентства водних ресурсів. У цих та інших випадках необхідно перенести дані інформаційних систем, на основі яких побудовані сервіси, на data.gov.ua, або надати користувачам доступ через API (прикладний програмний інтерфейс).

Некоректні формати збереження файлів

Перш ніж завантажити набір на data.gov.ua, необхідно визначити тип даних та зберегти файл у коректному форматі. Дані можуть бути текстовими, структурованими, графічними, геопросторовими або ж мати інші типи. У пункті 9 постанови КМУ №835 визначені формати для кожного з них.

Однак, як показує практика, розпорядники інколи допускають помилки при визначенні типу даних та збереженні файлів. 35 із 251 (14%) оприлюднених наборів даних на data.gov.ua мають формати, які не відповідають типові.

Переважно це структуровані дані, збережені у текстових форматах, наприклад, Реєстр договорів про співробітництво територіальних громад у форматі DOCX, або Ліцензійний реєстр суб’єктів туроператорської діяльності у форматі PDF. Найбільшу кількість таких наборів мають Міністерство економічного розвитку та торгівлі України - 6, Міністерство соціальної політики України - 4, Державна служба спеціального зв’язку та захисту інформації України - 4.

Інша проблема полягає в тому, що в машиночитаних форматах зберігаються неструктуровані дані. Деякі розпорядники просто викладають документи в тому ж вигляді, в якому готують в рамках своєї роботи. Таку помилку зробити у Реєстрі спортивних рекордів з визнаних в Україні видів спорту, Інформації про кількість проведених планових/позапланових перевірок та їх результати.

Документи Microsoft Excel містять “шапку”, поля для підпису та об’єднані клітини. Їх потрібно видалити перед тим, як перетворювати файл у CSV. У першому рядку документу потрібно залишити назви змінних, а у всіх наступних - їх значення. Лише після цього файл можна зберігати.

Багато плутанини виникає з кодуванням файлів.

Для публікації відкритих даних потрібно використовувати кодування UTF-8. Однак, розпорядники часто зберігають файли з іншим кодуванням (зазвичай Cyrillic 1251). На ілюстрації нижче ви можете побачити, як виглядають неправильно і правильно збережені файли.

Невпорядкованість наборів та ресурсів

Досить часто розпорядники недооцінюють важливість вибору назви набору даних. За підсумками моніторингу, назви 119 з 251 (47%) наборів даних, оприлюднених на data.gov.ua, повністю або частково не збігаються з назвами з Переліку, визначеного в Постанові КМУ №835. Така практика ускладнює пошук для активістів і робить ненадійним застосування автоматизованого збору інформації з сайту. Розпорядникам бажано називати набори відповідно до переліку, затвердженого Постановою КМУ №835, або діяти відповідно до стандартів.

Інша поширена практика - оприлюднювати кожен новий файл окремим набором даних. Для прикладу, Центральна виборча комісія оприлюднює кожен нормативно-правовий акт, як окремий набір даних. На сторінці відомства на data.gov.ua вже нагромаджено понад 450 наборів та ресурсів.

Знайти потрібну інформацію за таких обставин вкрай складно. Аналогічна ситуація і в Міністерства інфраструктури України (390 наборів даних та ресурсів), Державного агентства рибного господарства України (221), Державної казначейської служби України (214), Державної служби статистики України (134) та низки інших розпорядників. Для того, щоб вирішити проблему, необхідно групувати подібні ресурси в набори даних, чіткіше регламентувати процедури оприлюднення та роз’яснювати їх розпорядникам.

Некоректне оформлення ключових слів

Лише 78 з 251 (31%) наборів даних, оприлюднених на data.gov.ua, мають коректно сформульовані ключові слова. Візуалізація нижче демонструє найпоширеніші помилки.

Як бачимо, розпорядники найчастіше переносять назви наборів даних до ключових слів. Для того, щоб правильно оформити ключові слова, необхідно розділити назву набору даних на слова та словосполучення, та вибрати з них найбільш сутнісні.

Найбільшу кількість наборів даних з помилками у ключових словах мають Міністерство інфраструктури України - 22, Державна фіскальна служба України - 14, Державна служба інтелектуальної власності України - 12 та Державна служба статистики України - 12 наборів даних.

Висновки

У розпорядників відкритих даних лишається один місяць для того, щоб виконати норми законодавства і оприлюднити решту наборів. Дуже важливо при цьому приділяти однакову увагу як кількості, так і якості наборів. А для цього потрібно чітко усвідомлювати основні принципи відкритих даних та спиратися на стандарти їх оприлюднення.

Посилання

1. Первинні дані

2. Результати попереднього моніторингу

дані кабмін моніторинг реформи постанова835 інфографіка уряд

Знак гривні
Знак гривні