«Довідник із поганих даних» від Quartz

Цей довідник ґрунтовно розкриває проблеми, які виникають при роботі з даними, та пропонує, як їх вирішити.

Наш світ сповнений даними. А робота з даними сповнена труднощами. Цей довідник розкриває суть різноманітних проблем, з якими ви можете зіткнутись, працюючи з даними, та рекомендує шляхи їх рішення.

Більшість таких проблем мають спосіб вирішення. Проте існують і такі набори даних, з якими просто не варто працювати. Крім того, є набори даних, які містять невирішувані проблеми, але їх усе ще можна обійти, підійшовши до аналізу з урахуванням можливих ризиків.

Цей довідник складається з трьох частин, кожна з яких відповідає тому, хто може знайти рішення проблеми: ви самі як аналітик даних, розпорядники даних чи експерти. В описі кожної проблеми наведено поради щодо можливих варіантів вирішення та/чи до кого варто звернутись по допомогу.

Звісно, немає сенсу перевіряти кожен набір даних на кожну з описаних у цьому довіднику проблем. Якщо ви спробуєте, то, найімовірніше, ніколи не доведете аналіз до кінця. Водночас розуміння можливих труднощів підвищить ваші шанси виявити проблеми до того, як вони призведуть до помилок в аналізі.

Якщо у вас виникнуть запитання щодо довідника, будь ласка, зверніться до Кріса на електронну пошту.

Оригінал: «The Quartz Guide to Bad Data».

Переклад Олени Нікуліної, редагування Олександра Оксимця

Зауваження щодо перекладу надсилайте на цей імейл.

Ця публікація ліцензована згідно з Creative Commons Attribution-NonCommercial 4.0 International License.

Зміст

1. Рішення проблеми залежить від джерела даних

Частину значень пропущено
Пропущені значення позначені як «0»
Дані пропущені помилково
Рядки та значення дублюються
Непослідовний запис даних
Непослідовний формат запису даних
Не визначено одиниці вимірювання
Недоречно обрані категорії
Неоднозначні назви колонок
Не зазначено походження даних
Дані містять підозрілі значення
Дані агреговані в загальні категорії
Сумарні показники відрізняються від агрегованих даних
Таблиця містить 65536 рядків
Таблиця містить 255 колонок
Таблиця містить дати з 1900, 1904, 1969 чи 1970 років
Текст конвертовано в числа
Числа збережені як текст

2. Рішення проблеми залежить від вас

Текст спотворено
Закінчення рядків змінено
Дані надано у форматі PDF
Дані занадто детальні
Дані були введені вручну
Дані змішані з форматуванням та анотаціями
Узагальнені показники обчислені з урахуванням пропущених значень
Вибірка не є випадковою
Занадто велика похибка вибірки
Невизначена похибка
Упереджена вибірка
Дані були змінені вручну
Інфляція спричиняє відхилення в даних
Природні/сезонні обставини спричиняють відхилення в даних
Маніпуляції з періодом часу в даних
Маніпуляції в порівняннях

3. З рішенням проблеми може допомогти експерт

Дані з сумнівним авторством
Дані зібрані непрозоро
Дані є неправдоподібно точними
Дані містять викиди, які неможливо пояснити
Індекс «приховує» варіацію показників
Методи аналізу підібрано так, щоб гарантовано отримати статистично значущий результат
Дані не підпадають під Закон Бенфорда
Результати занадто гарні, щоб бути справжніми

4. З рішенням проблеми може допомогти програміст

Дані згруповані за неправильними категоріями або локаціями
Дані надано у сканованому вигляді

Зміст

Частину значень пропущено

Пропущені значення позначені як «0»

Дані пропущені помилково

Рядки та значення дублюються

Непослідовний запис даних

Непослідовний формат запису даних

Не визначено одиниці вимірювання

Недоречно обрані категорії

Неоднозначні назви колонок

Не зазначено походження даних

Дані містять підозрілі значення

Дані агреговані в загальні категорії

Cумарні показники відрізняються від агрегованих даних

Таблиця містить 65536 рядків

Таблиця містить 255 колонок

Таблиця містить дати з 1900, 1904, 1969 чи 1970 років

Текст конвертовано в числа

Числа збережені як текст

Текст спотворено

Закінчення рядків змінено

Дані надано у форматі PDF

Дані занадто детальні

Дані були введені вручну

Дані змішані з форматуванням та анотаціями

Узагальнені показники обчислені з урахуванням пропущених значень

Вибірка не є випадковою

Занадто велика похибка вибірки

Невизначена похибка

Упереджена вибірка

Дані були змінені вручну

Інфляція спричиняє відхилення в даних

Природні/сезонні обставини спричиняють відхилення в даних

Маніпуляції з періодом часу в даних

Маніпуляції в порівняннях

Дані з сумнівним авторством

Дані зібрані непрозоро

Дані є неправдоподібно точними

Дані містять викиди, які неможливо пояснити

Індекс «приховує» варіацію показників

Методи аналізу підібрано так, щоб гарантовано отримати статистично значущий результат

Дані не підпадають під Закон Бенфорда

Результати занадто гарні, щоб бути справжніми

Дані згруповані за неправильними категоріями або локаціями

Дані надано у сканованому вигляді


Частину значень пропущено

Остерігайтеся пустих клітинок або «null» значень у наборах даних, особливо якщо ви не впевнені щодо їх значення.

Пропуски або нулі можуть з’являтись у даних з різних причин. Можливо, у певний рік дані просто не збирали. Якщо це дані про результати опитування, може бути, що респондент не захотів відповідати на запитання.

Щоразу, коли ви маєте справу з даними, що містять пропуски, спершу спитайте себе: «Чи знаю я, чому це значення пропущено?»

Якщо відповідь «ні», варто звернутися до розпорядника даних та уточнити.


Пропущені значення позначені як «0»

Гіршими за набори даних з пропусками можуть бути лише дані, які містять клітинки з довільним значенням. Довільні значення можуть з’являтися внаслідок ручного введення або якщо автоматизований процес не зміг опрацювати нульові значення. У будь-якому разі, якщо ви бачите нулі в серії чисел (іноді також може використовуватись позначення «-1»), варто задатися питанням: «чи нуль насправді означає „нічого“?». Якщо ви не впевнені — уточніть це в розпорядника даних.

Так само варто бути обережними з деякими нечисловими значеннями, де 0 може бути представлений іншим чином. Наприклад, помилкове нульове значення у випадку з датами часто відображається так: 1970-01-01T00:00:00Z або 1969-12-31T24:59:59Z (вихідна дата Unix для позначок часу). Помилкове нульове значення для даних про локацію може відображатися як: 0°00'00.0"N+0°00'00.0"E чи 0°N 0°E (це точка в Атлантичному океані на південь від Гани, яку часто називають острів Нуль).

Дивіться також:
Дані містять підозрілі значення
Таблиця містить дати з 1900, 1904, 1969 чи 1970 років


Дані пропущені помилково

У деяких випадках логіку пропусків у даних можна легко зрозуміти. Наприклад, якщо масив містить регіональні дані для США, то з самого початку варто перевірити, чи є в ньому інформація щодо кожного з 50 штатів (і при цьому не забути про спеціальні території, такі як Пуерто-Рико). Якщо ви працюєте з набором даних про баскетбольних гравців, перевірте, чи вони містять інформацію про всі команди, які вас цікавлять. Далі ви можете обрати декількох відомих вам гравців і пересвідчитись, чи в масиві є інформація і про них. Покладіться на власну інтуїцію та перевіряйте дані, з якими працюєте. Всесвіт ваших даних може виявитись меншим, ніж вам здавалося спочатку.


Рядки та значення дублюються

Якщо якийсь рядок у ваших даних трапляється частіше, ніж один раз, варто з’ясувати, чому. Інколи це стосується навіть не цілого рядка а частини клітинок у рядку. Наприклад, дані про фінансування кампаній можуть включати «правки», які використовують ті самі унікальні ідентифікатори, що й первісна транзакція. Якщо ви працюєте з такими даними і не знаєте про цю особливість, тоді всі ваші розрахунки будуть хибними.

Якщо ви маєте підстави думати, що певні значення мають бути унікальними, перевірте чи це справді так. Якщо ні — зверніться до розпорядника даних.


Непослідовний запис даних

Спосіб запису — один із найбільш очевидних способів визначити, чи дані були введені вручну. Звертайте увагу не лише на імена людей (у них не так просто помітити помилки правопису), але й на географічні назви. Зокрема, важливо пересвідчитись, що назви міст та регіонів вживаються послідовно (тобто чи всюди використовуються одні й ті самі назви). Яскравий приклад такої помилки — Los Angelos (тоді як правильно «Los Angeles». — Прим. перекл.).

Якщо такі помилки є, це значить, що дані були введені або відредаговані вручну, що вже є достатньою підставою вважати їх сумнівними. Дані, що не були змінені вручну, з більшою ймовірністю будуть точними. Та навіть якщо ви виявили, що дані були змінені вручну, це ще не означає, що вам обов'язково варто покинути намір працювати з ними. Проте тоді потрібно виправити знайдені помилки або ж зазначити про них в описі результатів аналізу.

У процесі очищення даних та виправлення помилок ви можете скористатися спеціальним програмним забезпеченням. Наприклад, функція кластеризації тексту у програмі OpenRefine допоможе виправити такі помилки через пошук відповідників до помилкового значення (наприклад, зіставляючи Los Angelos та Los Angeles). При цьому важливо задокументовувати всі внесені вами правки, щоб забезпечити всю потрібну інформацію про походження даних.

Також дивіться:
Дані були введено вручну


Непослідовний формат запису даних

Ваші дані містять назви, характерні для близькосхідного чи азійського регіонів? Тоді важливо переконатись, що всі імена та прізвища в них вказані у правильному порядку. Чи можливо те, що дані містять мононіми? (мононіми — це повні імена, які складаються з одного слова. — Прим. перекл.).

Такі особливості даних часто призводять до помилок. Наприклад, якщо ви працюєте зі списком етнічно різноманітних імен (що не є рідкісним у сучасному світі), перед тим як перейти до аналізу, хоча б поверхово огляньте таку інформацію. Це треба зробити хоча б для того, щоб пересвідчитись, що об’єднання колонок first_name та last_name дасть очікуваний результат.

Також дивіться:
Дані були введено вручну


Не визначено одиниці вимірювання

Показники на кшталт вага або ціна передбачають використання одиниць вимірювання, проте самі по собі не надають про них достатньо інформації. Якщо ви працюєте з даними, зібраними у США, не поспішайте з висновками про те, що в них використовуються місцеві одиниці вимірювання, такі як фунти чи долари.

Наукові дані зазвичай представлені в метричних одиницях вимірювання. Водночас інформація про ціни в різних країнах може бути доповнена значеннями в місцевих грошових одиницях.

Якщо в даних не визначено, які саме одиниці вимірювання використовуються, варто з’ясувати це в розпорядника даних. Також варто бути обережними з даними, в яких використовуються одиниці вимірювання, що можуть змінюватися з часом. Наприклад, долар у 2010 році та долар сьогодні мають різний обмінний курс. Аналогічно з іншими одиницями вимірювання, окрім валют: американська тонна відрізняється від англійської тонни та тонни в міжнародній метричній системі.

Також дивіться:
Неоднозначні назви колонок
Інфляція спричиняє відхилення в даних


Недоречно обрані категорії

Остерігайтеся значень, які передбачають лише значення true чи false, але насправді такими не є. Така ситуація є характерною для даних про результати опитування, в яких, крім варіантів відповідей, також варто враховувати відсутність відповіді або відмову давати відповідь на запитання.

Ще однією поширеною проблемою є категорія інше. Наприклад, якщо в масиві даних категорії відповідають переліку країн і при цьому також є категорія інше, то що це може означати? Чи можливо, що людина, яка збирала дані, просто не знала правильної відповіді щодо того, як категоризувати певний об’єкт у даних? Чи можливо, що це стосується об’єктів у міжнародних водах або ж осіб без громадянства чи біженців?

Погано підібрані категорії також можуть штучно виключати дані. Це часто стається зі статистикою про кримінальні злочини. Наприклад, ФБР* довгий час визначало злочин «зґвалтування» в різний спосіб. У Бюро робили це настільки погано, що сьогодні багато криміналістів стверджують, що статистику ФБР щодо зґвалтувань не слід використовувати взагалі. Непослідовність у визначенні призвела до того, що частина цих злочинів опинилася в інших категоріях кримінальних правопорушень або не була врахована взагалі.

Тому, працюючи з поняттями, які не мають однозначного стандартного визначення (такими, наприклад, як раса чи етнічне походження), варто бути особливо обережними з визначенням категорій.

* Федеральне бюро розслідувань — агентство Міністерства юстиції США, яке виконує роль федерального кримінального слідчого органу і внутрішньої розвідки (контррозвідки). — Прим. перекл.


Неоднозначні назви колонок

Інколи в даних можна зустріти назву колонки проживання. Це може означати що завгодно: наприклад, місце, де людина фактично проживає, або місце прописки. Крім того, не очевидно, йдеться про місто чи про країну.

Назви полів у даних часто не є настільки детальними, наскільки б нам хотілося, і в цьому немає нічого незвичайного. Разом з тим, якщо назву можна інтерпретувати по-різному, слід бути особливо обережними. Навіть якщо вам вдалося правильно визначити, що малося на увазі, існує ризик, що така неоднозначність могла призвести до помилок при введенні даних раніше.


Не зазначено походження даних

Дані продукуються різними людьми та організаціями з різноманітних сфер: бізнесу, урядування, громадського сектору і навіть конспірології. Дані збираються в різний спосіб, включаючи опитування, датчики та супутники. Дані можуть бути надруковані, записані чи накреслені. Інформація про походження даних, з якими ви маєте справу, дає змогу виявити можливі обмеження та ризики при роботі з ними.

Наприклад, дані про результати опитування рідко бувають вичерпними самі по собі, без контексту. Супутники надають інформацію з різним рівнем точності. Урядові дані часто можуть бути упередженими щодо певної політичної позиції. Наприклад, дані, зібрані в зонах військових конфліктів, часто містять географічне упередження з причини того, що території активних бойових дій є небезпечними, а тому обмеженими в доступі.

Крім того, різні джерела даних зазвичай пов’язані між собою, що робить завдання ще складнішим. Політичні аналітики часто перерозподіляють дані, отримані від уряду. Дані, записані лікарем, можуть бути перекодовані медсестрою. Кожен етап у цьому ланцюжку додає додаткову можливість помилки. Тому важливо розуміти походження даних, з якими ви працюєте.

Також дивіться:
Не визначено одиниці вимірювання


Дані містять підозрілі значення

Нижче наведено значення, з якими варто бути особливо обережними, якщо ви виявили їх у своєму наборі даних (наведені приклади стосуються прийнятих у США способів запису даних. — Прим. перекл.):

Числові:

- 65,535
- 255
- 2,147,483,647
- 4,294,967,295
- 555-3485 (префікс на початку телефонних номерів, характерний для Північноамериканського регіону. Телефонні номери, що починаються з «555», часто використовуються у фільмах, серіалах та книгах для вигаданих номерів. — Прим. перекл.)
- 99999 (чи будь-яке інше число, яке складається з ряду дев’яток)
- 00000 (чи будь-яке інше число, яке складається з ряду нулів)

Дати:

- 1970-01-01T00:00:00Z (Кодування часу як числового значення. — Прим. перекл.)
- 1969-12-31T23:59:59Z (Кодування часу як числового значення. — Прим. перекл.)
- January 1st, 1900
- January 1st, 1904

Локації:

- 0°00'00.0"N+0°00'00.0"E або просто 0°N 0°E (геолокація острову Нуль)
- індекс міста Скенектаді (США, штат Нью-Йорк): 12345
- індекс міста Беверлі-Гіллз (США, штат Каліфорнія): 90210

Кожне з цих числових значень може свідчити про помилку, зроблену людиною чи комп'ютером. Тож якщо ви натрапили на ці значення в даних — переконайтеся, що вони насправді означають те, що ви очікуєте!

Дивіться також:
Таблиця містить 65536 рядків
Таблиця містить 255 колонок
Таблиця містить дати з 1900, 1904, 1969 чи 1970 років


Дані агреговані в загальні категорії

Уявіть, що ви отримали дані в розрізі регіонів, а вам потрібні за країнами. Або ж у вас є інформація про роботодавців, а вас цікавлять дані про найманих робітників. Чи дані наведені за роками, а ви хотіли би бачити цю інформацію в розрізі місяців. У багатьох випадках дані виявляються зведеними (агрегованими) невідповідно до наших цілей.

Зазвичай після зведення даних їх уже неможливо переагрегувати іншим чином. Тому якщо отримані вами дані виявились занадто загальними, варто звернутися до розпорядника даних з проханням надати уточнений варіант.

Цілком можливо, що виявиться, що його не має розпорядник даних. Або ж розпорядник може відмовитися надати вам потрібну версію набору даних через власне небажання або нездатність це зробити. Наприклад, державні інституції можуть надавати дані лише в розрізі всієї країни, проте без специфікації за адміністративними одиницями, щоб уникнути ризику розкриття особистих даних громадян.

Наприклад, згідно зі статистикою, у західному Техасі проживає один вихідець із Сомалі, що означає, що цю людину можна ідентифікувати та знайти навіть за допомогою деперсоніфікованих даних. У таких випадках усе, що можуть зробити фахівці, які працюють з даними, — це зробити запит і сподіватись на позитивне рішення.

Єдина річ, яку точно ніколи не варто робити при роботі з агрегованими даними, — це ділити річне значення на 12 і називати це «середнім значенням за місяць». Без розуміння розподілу значень ця цифра не матиме сенсу. (Не кажучи вже про можливість того, що певні значення залежать від періоду часу, наприклад певного місяця чи навіть сезону. Також потрібно враховувати ймовірність того, що дані зростають експоненційно, а не лінійно.) Це неправильно, не робіть цього.

Дивіться також:
Дані занадто детальні
Дані агреговані за неправильними категоріями або локаціями


Cумарні показники відрізняються від агрегованих даних

Уявіть собі, що після тривалої боротьби за право на інформацію ви отримали «повний» перелік випадків застосування сили представниками поліції. Цей масив даних містить 2467 рядків.

Чудово, саме час повідомити, чи поліція справді застосувала силу 2467 разів. Перш ніж опублікувати висновки, спробуйте знайти останній випадок, коли начальник поліції публічно заявляв про кількість випадків застосування сили працівниками свого відомства. Цілком можливо, що в заяві, яку він чи вона зробив(ла) кілька тижнів тому, фігуруватиме відповідь на кшталт «менш ніж 2000 разів» або інше число, яке не збігається з отриманими даними.

Розбіжності між опублікованою статистикою та вихідними даними можуть бути наслідком ряду причин. Часто пояснення виявляється досить простим: наприклад, заява начальника відомства та ваші дані стосуються різного часового періоду. Але інколи це справді означає, що ви спіймали посадовця на наданні недостовірної інформації. У всякому разі слід переконатись, що дані, оголошені публічно, відповідають отриманій вами статистиці.


Таблиця містить 65536 рядків

Максимальна кількість рядків, з якою можливо було працювати в застарілих версіях Excel, — 65536. Тому якщо вам трапився набір даних із такою кількістю рядків, є висока ймовірність, що ви отримали усічені дані, а тому варто звернутися до розпорядника даних за актуальною версією повного масиву.

Нові версії програми Excel дозволяють працювати з наборами даних, що містять 1048576 рядків, тож малоймовірно, що вам доведеться працювати з даними, що перевищують цей ліміт.


Таблиця містить 255 колонок

Максимальна кількість колонок, з якою можна працювати у додатку Apple Numbers, — 255. Якщо ж таблиця містить більше колонок, програма скоротить їх без попередження.

Тож якщо ви отримали набір даних, який містить 255 колонок, є сенс поцікавитись, чи був файл раніше відкритий або перетворений у Numbers.


Таблиця містить дати з 1900, 1904, 1969 чи 1970 років

З незрозумілих причин Excel за замовчуванням відраховує всі дати з 1 січня 1900 року. Якщо ж ви користуєтесь Excel на Macintosh, то — з 1 січня 1904 року. Існує безліч способів неправильно ввести або обчислити дані з датами в Excel. У результаті в клітинці ви отримаєте одну з цих двох дат: January 1st, 1900 або ж January 1st, 1994. Тож якщо ви помітили ці дати в даних, це може свідчити про помилку.

Крім того, багато баз даних та програм часто відображають дати як вихідну дату Unix для часових позначок: 1970-01-01T00:00:00Z або 1969-12-31T23:59:59Z. Це відбувається, коли система намагається відобразити порожнє або нульове значення як дату.


Текст конвертовано в числа

Не всі цифри є числами. Наприклад, в Бюро перепису населення США використовуються FIPS — спеціальні коди-ідентифікатори для кожної територіальної одиниці в США (український аналог — Державний класифікатор об'єктів адміністративно-територіального устрою України (КОАТУУ). — Прим. перекл.).

Ці коди мають різну довжину й записуються як числовий ряд, проте вони є номерами, а не цифрами. Наприклад, 037 (код FIPS для округу Лос-Анджелес) не є цифрою 37. Крім того, число 37 є кодом іншого округу — Північної Кароліни.

Excel та інші редактори для роботи з таблицями часто роблять помилки при роботі з такими даними, приймаючи номери як цифри та видаляючи нулі на початку. Це може спричинити проблеми при спробі змінити формат файлу або об'єднати його з іншим набором даних. Якщо з отриманими вами даними таке вже траплялося, варто бути уважними при роботі з числовими значеннями.


Числа збережені як текст

При роботі з таблицями числові значення можуть відображатися як текст із небажаним форматуванням. Це часто трапляється з таблицями, як були сформовані радше задля представлення даних, аніж для подальшого аналізу. Наприклад, таблиці, в якій для позначення мільйону доларів США у клітинку записують не номер "1000000", а варіації на кшталт «1,000,000» або «1 000 000» чи навіть «1 000 000 доларів США» з форматуванням комами, одиницями та пробілами, введеними як символами.

Excel може автоматично виправити частину простих випадків за допомогою вбудованих функцій, але тоді вам доведеться часто використовувати формули, щоб видалити символи й очистити клітинки від форматувань. Тому краще зберігати числові значення без будь-якого форматування та включати додаткову інформацію в назви стовпців або метадані.


Текст спотворено

Рішення проблеми залежить від вас

Комп’ютер представляє всі літери як цифри. Проблеми з кодуванням виникають тоді, коли текст представлено певним набором чисел (який і має назву «кодування»), який ви не можете ідентифікувати. Як наслідок, текст у ваших даних виглядає як безглуздо, наприклад як ��� (англійською це явище отримало назву mojibake).

У переважній більшості випадків ваш текстовий редактор чи програма для роботи з таблицями зможуть виявити правильне кодування. Однак у разі невдачі це може призвести до менш очевидних помилок, наприклад до того, що в одному з імен з’явиться якийсь дивний символ посередині. Розпорядник інформації має напевне знати, яке саме кодування характерне для набору даних. Якщо ж ні, це свідчить про те, що дані можуть виявитись не надто надійними. Щоб це перевірити, варто звернутись за порадою до експерта з програмування.


Закінчення рядків змінено

Текст та «текстові файли даних», такі як CSV, використовують невидимі символи для позначення закінчень рядків тексту. Комп'ютери з операційними системами Windows, Mac і Linux історично не сприймають ці символи. Спроба відкрити файл в одній операційний системі, якщо він був збережений в іншій, може призвести до неправильної ідентифікації розривів рядків тексту в Excel або інших програмах для роботи з таблицями.

Як правило, це легко вирішити, потрібно просто відкрити файл у будь-якому популярному текстовому редакторі та повторно зберегти. Якщо файл дуже великий — можливо, доведеться також використати інструменти в командному рядку або залучити допомогу програміста .

Більше про цю проблему ви можете знайти тут.


Дані надано у форматі PDF

Величезна кількість даних, а особливо опублікованих державними структурами, доступна лише у форматі PDF. Якщо PDF-файл містить текстові дані, є кілька способів витягнути їх та зберегти в машиночитаному форматі. (Якщо ж ви отримали дані як скановані документи, це зовсім інша проблема.)

Чудовим безкоштовним інструментом для роботи з такими є Tabula. Також, якщо ви маєте Adobe Creative Cloud, то можете використовувати для таких завдань Acrobat Pro, що має функцію експорту таблиць із PDF в Excel. Загалом для вирішення такого завдання підійде будь-який сервіс, здатний перетворювати табличні дані з PDF в машиночитані формати.

Також дивіться:
Дані надані у сканованому вигляді


Дані занадто детальні

Занадто детальні дані — зворотня ситуація до занадто загальних даних. Для прикладу, уявіть, що у вас є дані з інформацією по всіх областях та регіонах усередині країн, а для вас важливо опрацювати цю інформацію лише в розрізі країн. Або ж у вас є дані з розбивкою за місяцями, а вам потрібно за роками. На щастя, для такої проблеми є досить прості рішення.

Для агрегування даних можна використати зведені таблиці (Pivot Tables) в Excel або Google Docs, запити до бази даних SQL або написати спеціальний код. Крім того, зведені таблиці в Excel — чудовий інструмент, яким мають уміти користуватися всі, хто має справу з підготовкою звітів, проте і він має певні обмеження. Наприклад, зведені таблиці — не надто зручне рішення для роботи з великими наборами даних або нестандартних групувань. У таких випадках краще звернутися за допомогою до програміста, щоб знайти рішення, яке можна буде відтворити та верифікувати в подальшому.

Дивіться також:
Дані агреговані в загальні категорії
Дані згруповані за неправильними категоріями або локаціями


Дані були введені вручну

Введення даних вручну є настільки поширеною проблемою, що її наслідки обговорюються принаймні в 10 інших розділах цього посібника.

Не існує гіршого способу зіпсувати дані, ніж доручити їх введення людині вручну, без валідації. Наприклад, колись я отримав повну базу даних про ліцензування собак для округу Кук, штат Іллінойс. Дизайн системи реєстрації для ліцензування передбачає введення назви породи собаки власниками у спеціальне текстове поле замість вибору породи у випадному списку. Як наслідок, ця база даних містить щонайменше 250 варіацій написання назви породи Chihuahua (чихуахуа).

Навіть найкращі доступні інструменти для обробки не можуть врятувати настільки засмічені дані. Тобто фактично дані втрачають сенс та користь. Можливо, це й не має великого значення для даних про собак, проте уявіть, що така ситуація могла статися з даними про поранення солдатів або біржові котирування. Тому варто бути особливо обережними з даними, які були введені вручну.


Дані змішані з форматуванням та анотаціями

Формати HTML та XML дозволяють чітко розділити дані та форматування. Проте ці інструменти не підходять для роботи з даними у форматі таблиць. Попри це, люди намагаються поєднати різні способи форматування та описів у таблицях.

Це призводить до ряду проблем, як, приміром, використання першого рядку для описів або приміток, а не для назв колонок або власне даних. Або ж розташування ключів шифрування даних або словника даних посеред таблиці.

Також поширеним є повторення заголовків рядків. Або таблиця містить кілька таблиць (що можуть мати різні заголовки колонок), які йдуть одна за одною на одному аркуші, а не розділені на різні аркуші.

У всіх цих випадках головним рішенням є виявлення проблеми. Очевидно, що будь-який аналіз даних, представлених у таблиці з такими недоліками, приречений на поразку. Розпочинаючи роботу з новим для вас набором даних, переконайтесь, що в таблиці немає додаткових назв колонок або особливих символів чи форматування.


Узагальнені показники обчислені з урахуванням пропущених значень

Уявіть, що у вас є набір даних, який містить 100 рядків та колонку cost. При цьому для 50 рядків колонка costє пустою. Яким тоді буде середнє значення для цієї колонки: у розрахунку для всіх 100 рядків (sum_of_cost / 100) чи для 50 рядків (sum_of_cost / 50)? На це питання немає однозначної відповіді. Якщо вам потрібно обчислити узагальнені показники для колонок, в яких пропущені значення, ви можете це зробити, відфільтрувавши певні рядки. При цьому не варто порівнювати узагальнені показники з двох різних колонок, в яких відсутні значення в різних рядках! У деяких випадках пусті клітинки можуть відповідати значенню 0. Якщо ви не впевнені, запитайте експерта або просто не вдавайтеся до обчислень.

Цієї помилки можете припуститися як ви, так і розпорядники даних. Це варто враховувати при роботі з наборами даних, які містять обчислені узагальнені показники.

Також дивіться:
Частину значень пропущено
Пропущені значення позначені як «0»


Вибірка не є випадковою

Ситуація, коли вибірка не є випадковою, може виникнути, коли опитування чи інший метод збору даних серед певної вибірки навмисне чи ні не відповідає всій генеральній сукупності.

Це може статися з різних причин, починаючи від часу доби до «труднощів перекладу» на рідну мову респондента, що загалом є поширеним джерелом помилок у соціологічних дослідженнях. До такої ситуації можуть призвести і менш очевидні причини: наприклад, коли дослідники, виходячи з припущення, що вони мають повний набір даних, вирішують працювати лише з частиною даних.

Тоді, якщо виявиться, що оригінальний набір не був повним від початку за будь-якою ознакою, це відобразиться на всіх висновках. Найкраще, що ви можете зробити з даними, отриманими від вибірки, яка не є випадковою, — уникати використання цих даних.

Дивіться також:
Упереджена вибірка


Занадто велика похибка вибірки

Важко назвати умову, що може спричинити більше помилок у роботі з даними, ніж занадто велика похибка вибірки.
Похибка вибірки зазвичай асоціюється з даними опитувань. Найбільше шансів натрапити на це поняття ви маєте при роботі з результатами соцопитувань або досліджень суспільства від державних інституцій. Наприклад, із даними національного опитування американців від Бюро перепису населення США).

Похибка вибірки — це показник діапазону можливих значень. Цей показник може бути виражений в абсолютному (400 +/− 80) або відсотковому (400 +/− 20%) вимірі. Що меншою є опитана вибірка, то більшою буде показник похибки. Наприклад, згідно з результатами національного опитування американців, станом на 2014 рік у м. Нью-Йорк проживають 1 106 989 представників азіатського населення з показником похибки: + /− 3526 (0,3%). Кількість представників філіппінського населення становить із показником похибки 71 969 +/− 3088 (4,3%). А кількість осіб, що походять з Самоа, становить із показником похибки 203 +/− 144 (71%).

Перші два числа є цілком достовірними та доречними для звітності. Але третій показник (для вихідців із Самоа) краще ніколи не оголошувати на загал. Варто відзначити, що не існує однозначного правила щодо того, якою має бути максимальна або мінімальна величина похибки, щоб стверджувати про достатню точність результатів, але, як правило, максимальна величина похибки встановлюється на рівні 10%. Варто бути дуже обережними, опрацьовуючи дані з більшою похибкою.

Дивіться також:
Невизначена похибка


Невизначена похибка

Іноді проблема не в тому, що похибка вибірки є занадто великою, а в тому, що її взагалі не визначили. Ця проблема часто буває з результатами ненаукових опитувань. Без розрахунку похибки неможливо скласти уявлення про те, наскільки точними будуть результати.

Щоразу, коли ви працюєте з даними про результати опитувань, варто поцікавитись величиною похибки. Якщо розпорядник не може надати вам інформацію про величину похибки, то скоріш за все такі дані не варто використовувати для аналізу.

Дивіться також:
Занадто велика похибка


Упереджена вибірка

Як і у випадку з невипадковою вибіркою, упереджена вибірка може виникнути внаслідок недбальства при розрахунку вибірки або внаслідок свідомої маніпуляції. Наприклад, якщо опитування проводилось онлайн, то це могло призвести до того, що з вибірки випали бідні люди, які, як правило, рідше користуються Інтернетом.

Щоб забезпечити репрезентативність результатів опитування, потрібно ретельно спланувати охоплення всіх важливих для результату груп населення. Це майже неможливо зробити ідеально, і, як наслідок, на цьому етапі часто трапляються помилки.

Дивіться також:
Вибірка не є випадковою


Дані були змінені вручну

Ручне редагування даних — це проблема, дуже схожа на введення даних вручну, за винятком того, що це відбувається вже після етапу формування набору даних. До редагування вручну часто вдаються, щоб виправити помилки в даних, які виникли внаслідок ручного введення. Проблема лише поглиблюється, якщо людина, яка редагує дані, не має повного уявлення про вихідний масив.

Я колись був свідком того, як хтось спонтанно «виправляв» ім'я в наборі даних з «Сміт» на «Смітт». Чи справді ім'я цієї людини було «Смітт»? Цього я не знаю, але знаю напевно, що це значення стало проблемою для аналізу. Без запису цієї заміни у майбутньому неможливо буде верифікувати, який варіант написання повинен застосовуватись насправді.

Проблеми, які породжує редагуванням вручну, — одна з причин, чому важливо перевіряти походження даних. Відсутність інформації про походження даних може свідчити про те, що вони були кимось змінені. Наприклад, науковці та політичні аналітики часто отримують дані від державних структур, змінюють їх, а вже після цього надають висновки журналістам.

Якщо в дані вносилися зміни і це ніде не було задокументовано, то потім неможливо визначити, чи були ці зміни виправданими. У таких випадках, перш ніж починати власний аналіз, варто спробувати отримати первинну або принаймні найбільш ранню версію даних.

Дивіться також:
Не зазначено походження даних
Дані були введені вручну


Інфляція спричиняє відхилення в даних

Інфляція означає, що з часом грошові одиниці змінюються у вартості. Неможливо встановити, чи врахована інфляція в числах, просто поглянувши на них. Якщо ви отримали дані й не впевнені, чи врахований у них фактор інфляції, — уточніть це в розпорядника. Якщо ж виявиться, що інфляцію не було враховано, то є сенс скоригувати дані згідно з показниками інфляції. Почати можна з онлайн-інструмента «регулятор інфляції».

Дивіться також:
Природні/сезонні обставини спричиняють відхилення в даних


Природні/сезонні обставини спричиняють відхилення в даних

Існує багато типів даних, які можуть змінюватись від зовнішніх обставин. Один із найбільш поширених випадків — коливання рівня зайнятості залежно від пори року.

Економісти розробили низку методів компенсації такої варіативності, а тому аналітика даних зазвичай не потрібно заглиблюватись у тонкощі подібних методологій — достатньо знати, чи значення були скориговані відповідно до сезонних особливостей. Якщо ж виявиться, що ні, то варто звернутись за скоригованими даними до розпорядника інформації. (Скоригувати такі дані самостійно у випадку з сезонними чи навколишніми умовами набагато складніше, ніж з інфляцією.)

Дивіться також:
Інфляція спричиняє відхилення в даних


Маніпуляції з періодом часу в даних

Розпорядники інформації можуть ненавмисне чи з певною метою надавати вам дані, що відображають той чи інший період у часі. Яскравим прикладом є «національна кримінальна хвиля»* у США, яку активно тиражували у 2015 році. Насправді цієї хвилі не було. Тоді висновки про суттєве зростання рівня злочинності в країні зробили на основі пікових показників у кількох американських містах порівняно з загальною картиною кількох попередніх років. Детальний аналіз ситуації розвінчав цей міф (більше про це читайте у статті у «Washington Post». — Прим. перекл.).

Якби журналісти поглянули на статистику за довший період, вони могли би пересвідчитись, що 10 років тому рівень злочинності був вищим практично по усій країні. А 20 років тому рівень злочинності був вищим майже вдвічі.
Тож якщо дані охоплюють певний часовий проміжок, не варто починати аналіз із розрахунків для найбільш раннього періоду часу, для якого доступні дані. Натомість краще зробити аналіз для різних періодів. Це дозволить пересвідчитись, що результати залишатимуться валідними, навіть якщо ви вирішите взяти для аналізу більший чи менший період часу.

* «Національна кримінальна хвиля» («national crime wave») — у 2015 році в США набула поширення ідея про суттєве зростання кількості кримінальних злочинів начебто внаслідок «Ефекту Фергюсона» (явища, коли представники поліції бояться виконувати свої обов’язки із застосування санкцій, а особливо силових, внаслідок суспільної критики силових дій та популярності ідей ліберальної реформи поліції в суспільстві). Початок дискусії поклала стаття аналітикині Гізер Мак Дональд «Нова загальнонаціональна хвиля злочинності» в газеті «The Wall Street Journal», в якій авторка звертається до статистики кримінальних злочинів і показує зростання рівня злочинності у країні.

Дивіться також:
Маніпуляції в порівняннях


Маніпуляції в порівняннях

Кримінальною статистикою часто маніпулюють заради політичних цілей. Наприклад, наводять лише дані для періоду з найвищим рівнем злочинності. Причому зазвичай це подають або як відсотковий показник («рівень злочинності знизився на 60% з 2004 року»), або як індекс («рівень злочинності після 2004 року склав 40 пунктів, якщо 2004 = 100»). В обох випадках показник для 2004 року може бути або не бути релевантним для порівняння. Наприклад, якщо виявиться, що 2004 рік був надзвичайно криміногенним роком.

Ця ж проблема може виникнути при порівнянні країн чи населених пунктів. Якщо я захочу виставити певну країну чи регіон у поганому світлі, я порівняю їх із найбільш успішними територіями.

Ця проблема стає критичною, коли маніпуляція підтверджує стереотипні переконання, що існують у суспільстві. Тоді громадяни можуть просто сказати: «Усе як ми й думали — злочинів стало більше!». За можливості показники варто порівнювати за різними проміжками часу та об’єктами порівняння, щоб простежити, як це змінюватиме результати. І ніколи самі не вдавайтесь до такої маніпуляції, навіть якщо свято вірите у правоту власної позиції. Це неприпустимо.

Також дивіться:
Маніпуляції з періодом часу в даних


Дані з сумнівним авторством

Іноді вдається отримати лише дані з не надто надійних джерел. Бувають випадки, коли це прийнятно. Так, наприклад, лише виробники зброї можуть надати дані про кількість виготовлених рушниць.

Однак завжди варто залучити зовнішніх експертів для перевірки даних. Не публікуйте дані з упередженого джерела, якщо у вас немає надійного підтвердження результатів.


Дані зібрані непрозоро

У процесі збору даних легко помилитися з припущеннями чи пороговими значеннями. Важливо використовувати прозорі методи збору даних. Рідко ви можете знати напевно, як проходив збір даних, але є ознаки, які свідчать про проблеми: наприклад, якщо дані є неправдоподібно точними або результати занадто шарні, щоб бути справжніми.

Іноді збір даних може виявитись не надто доброчесним: чи справді автори дослідження могли провести інтерв'ю з 50 справжніми членами банди з південної сторони Чикаго? Коли метод збору даних виглядає сумнівним, а розпорядник даних не може надати підтвердження походження даних, завжди варто залучити зовнішнього експерта для рецензування.

Дивіться також:
Не зазначено походження даних
Дані є неправдоподібно точними
Результати занадто гарні, щоб бути справжніми


Дані є неправдоподібно точними

За межами точних наук не так багато речей вимірюються з точністю до більш ніж двох десяткових знаків. Уявіть, що ви працюєте з набором даних, що містить інформацію про викиди підприємств із точністю даних до семи десяткових знаків.

Проте така точність даних згенерована штучно з інших значень. Це саме по собі може й не стати проблемою при аналізі, проте принципово важливо давати повну інформацію про розрахунки. Є шанс, що вони можуть виявитись неправильними.


Дані містять викиди, які неможливо пояснити

Нещодавно я створив набір даних із інформацією про те, скільки часу потрібно для того, щоб надіслати повідомлення в різні локації у світі за допомогою Інтернету. Усі спостережувані випадки, за винятком трьох, були в діапазоні від 0,05 до 0,8 секунди. Час надсилання для цих трьох випадків становив понад 5 000 секунд. Такі значення — це великий червоний знак, що сигналізує, що під час створення набору даних щось пішло не так. У моєму випадку це було зумовлено помилкою в написаному коді, яка призвела до того, що програма продовжувала обрахунок часу, коли всі інші повідомлення були вже відправлені та отримані.

Такі викиди в даних можуть суттєво зіпсувати всі ваші статистичні висновки, особливо якщо при цьому ви використовуєте розрахунок середніх значень. (Тому кращою ідеєю було б розраховувати медіанні значення.) Щоразу, коли ви отримуєте новий набір даних, варто поглянути на найбільші та найменші значення в них та пересвідчитись, що вони перебувають у прийнятному діапазоні. Якщо ж дані за своєю природою містять значні викиди, ви можете вдатись до більш строгого статистичного аналізу, використовуючи методи стандартного відхилення (середнього квадратичного відхилення) або середнього абсолютного відхилення.

Інколи викиди у значеннях допомагають знайти справді вражаючі історії. Наприклад, уявіть, що виявилось би, що в якійсь країні повідомлення в Інтернеті справді надсилаються у 5 000 довше, ніж в усьому світі. Погодьтеся, це була б цікава історія.


Індекс «приховує» варіацію показників

Аналітики, які досліджують тенденції певної проблеми, часто використовують індекси різних значень для відстеження прогресу. Насправді немає нічого поганого у використанні індексів як таких, це потужний дослідницький інструмент. Проте важливо бути обережними з індексами, який поєднують різноманітні показники.

Наприклад, індекс гендерної нерівності від ООН формується на основі кількох показників, пов'язаних із рівністю жінок та чоловіків. Одним із таких показників є представництво жінок у парламенті. При цьому лише у двох країнах світу існують закони, що регулюють представництво жінок у парламентах: Китаї та Пакистані.

Тому в консолідованому рейтингу за цим індексом Китай та Пакистан отримують вищі місця, ніж інші країни, де за всіма іншими показниками ситуація з гендерною рівністю не є гіршою. Чи це справедливо? Це не має значення, тому що більшість аудиторії рейтингу все одно не знає про специфічний показник в індексу. Тому, звертаючись до таких індексів, важливо враховувати всі включені в них показники.


Методи аналізу підібрано так, щоб гарантовано отримати статистично значущий результат

При аналізі даних дослідники іноді вдаються до такого явища, як «P-hacking» (від терміна «p — значення»). Цей термін означає, що методи аналізу даних були підібрані та застосовані так, щоб отримати потрібні висновки. Прикладом «p-хакінгу» є припинення збору даних одразу ж після досягнення статистично значущих результатів.

Ще одним прикладом «p-хакінгу» є проведення аналізу кількома методами і вибір лише одного з отриманих результатів, який найбільше «підходить» під очікуваний результат. Більше щодо цієї проблеми можна почитати у статті.

Якщо ви збираєтесь опублікувати результати аналізу (наприклад, у науковій статті), важливо спочатку ознайомитися з основними поняттями статистики, зокрема з методом середніх та поняттям «p-значення». Велика частина безглуздих досліджень ніколи не була б опублікована на загал, якби журналісти розуміли, що таке «p-значення».

Дивіться також:
Занадто велика похибка вибірки


Дані не підпадають під Закон Бенфорда

Закон Бенфорда — це теорія, яка стверджує, що малі цифри (наприклад: 1, 2, 3) з'являються на початку числа значно частіше, ніж великі (наприклад: 7, 8, 9). У теорії закон Бенфорда може використовуватися для виявлення аномалій у практиці бухгалтерського обліку чи результатах виборів.

Проте потрібно розуміти, що на практиці його застосування може призвести й до хибних висновків. Якщо ви підозрюєте, що набір даних був створений або змінений з метою обману, закон Бенфорда — прекрасний інструмент для початку перевірки такої підозри, проте недостатній. Варто також звернутися за додатковою оцінкою експертів та перевірити, наскільки результати тесту валідні для набору даних, з яким ви працюєте.


Результати занадто гарні, щоб бути справжніми

Не існує наборів даних із глобальними результатами щодо громадської думки. Так само, невідомо, скільки саме людей проживають у Сибіру. Статистичні дані щодо рівня злочинності неможливо порівнювати між різними країнами. Урядові розпорядники часто не хочуть надавати запитувачам усі дані.

Тому варто скептично ставитись до наборів із даними, яких, ймовірніше за все, не існує. Скоріш за все, вони є просто чиїмось суб’єктивним припущенням. Проте в таких випадках все ще є місце для ймовірності, що ви отримали унікальні дані, а тому варто завжди заручитися оцінкою експерта.


Дані згруповані за неправильними категоріями або локаціями

Іноді у вашому наборі даних дотриманий доречний рівень деталізації (тобто дані є занадто загальними чи занадто детальними), але показники в них згруповані не так, як вам би цього хотілося.Типовий приклад — дані ідентифіковані та згруповані за поштовими індексами, а для вашого аналізу потрібна класифікація за районами міста.

Для більшості міст проблеми такого типу неможливо вирішити без отримання деталізованого набору від розпорядника. Проте іноді дані можуть бути пропорційно переміщені з однієї групи в іншу з урахуванням можливої похибки. Тож якщо ви отримали набір даних і вирішили перегрупувати показники, як вам потрібно, спершу проконсультуйтесь із програмістомістом.

Дивіться також:
Дані агреговані в загальні категорії
Дані занадто детальні
Занадто велика похибка


Дані надано у сканованому вигляді

Завдяки законодавству щодо доступу до публічної інформації державні інституції зобов'язані надавати вам дані, навіть якщо вони не стали б цього робити за інших умов. І щоб обійти цю вимогу такі розпорядники можуть надавати вам дані у вигляді сканів сторінок у форматі зображень (jpeg, png) або в PDF.

На щастя, зробити витяг тексту із зображення і перетворити його знову в дані можливо завдяки оптичному розпізнаванню символів (англ. OCR — optical-character recognition). Можливості сучасного ОCR дозволяють досягти майже 100% точності, але результат залежить від якості самого документа.

Сьогодні існує багато веб-сайтів, за допомогою яких ви можете опрацювати документ із використанням OCR. Часто вони є платними, проте є й безкоштовні інструменти, з налаштуванням яких може допомогти програміст.

Дивіться також:
Дані надано у форматі PDF


Знак гривні
Знак гривні