В ході своєї роботи співробітники університету Пенсільванії та Кембриджського університету у Великобританії вивчали лексику, використовувану в статусах Facebook. Під статусом розуміється короткий текст, що розміщується від свого імені в соцмережах. В тексті зазвичай вказують поточне заняття, настрій чи іншу інформацію.
Соціологи зібрали дані про 136 тисяч користувачів (всі вони підписалися на участь в науковому дослідженні), які в загальній складності оновили свою рядок статусу понад 13 мільйонів разів. Щоб отримати коректну інформацію, вчені брали тільки тих, хто за час експерименту написав більше 1000 слів в рядок статусу. В результаті вибірка авторів дослідження включала 15,4 мільйона статусів з 309 мільйонами слів від 74941 людини.
Далі соціологи взяли заповнені тими ж людьми онлайн-опитування і спробували знайти кореляції зустрічальності тих чи інших слів у статусі з тими або іншими характеристиками людини. Математичний аналіз матеріалу показав, що навіть поєднання символів, які були виділені слова суто формально (як довільна комбінація між двома пробілами), дозволяють дізнатися, наприклад, стать користувача. Поєднання знака більше і цифри 3 дозволяє впевнено говорити про те, що рядок статусу оновлена жінкою, а не чоловіком. У той же час лайка “fuck” вказує на чоловічу стать власника аккаунта.
Дослідники також запропонували добровольцям встановити онлайн-додаток My Personality з психологічними опитуваннями, заснованими на тесті NEO Personality Inventory Revised (NEO-PI-R). Цей тест видавав результати по п’яти різних шкалах: екстраверсія, зговірливість, свідомість, невротизм і відкритість; скорочена версія такого тесту вже використовувалася в інший присвяченій Facebook роботі.
Аналіз матеріалу тестів показав, що екстраверти частіше використовують слова “вечірка” і “дівчата”, в той час як інтроверти віддають перевагу комп’ютери та інтернет, а також аніме – хоча коефіцієнт кореляції для аніме та інтроверсії виявився нижче, ніж для інтроверсії і смайла “^_^”. Крім того, вчені побачили і характерні для певного віку вирази: наприклад, “домашнє завдання” і назви предметів видають школярів, а “дочка” або “чоловік” характерні для тих, кому більше тридцяти років.
Дослідники вважають, що їх робота дозволяє відокремити стереотипи про тієї чи іншої категорії користувачів від її реальних характеристик. Вони вважають вдалим рішення не підраховувати частотність того чи іншого слова з закритого списку (скажімо, з числа “позитивних емоцій” або з безлічі “лайки”), а взяти слова і поєднання символів, спочатку присутні у вибірці. Ще одна перевага підходу – порівняльна швидкість оновлення даних.
Поява соціальних мереж з мільйонами активних користувачів вивело (як стверджується у вступі до статті американо-британської групи) соціологію на новий рівень. Якщо раніше опитування хоча б тисячі чоловік вимагав складною польової роботи, то онлайн-дослідження дозволяють оперативно збирати на порядки більші вибірки і аналізувати їх з використанням автоматичних методів. Таким чином вже вдалося відстежити реакцію суспільства на різні події, простежити за епідеміями грипу і знайти спосіб визначити характеристики користувача по “лайкам” (хоча й з великою похибкою).
Джерело: DT.UA