Ученые создали ИИ-систему, предсказывающую уровень безработицы на основе постов в соцсети в несколько раз точнее аналитиков
Исследователи из Нью-Йоркского университета, Оксфорда, Всемирного банка и Университета Бен-Гуриона разработали ИИ-систему, способную прогнозировать уровень безработицы в США по публикациям в соцсетях за две недели до выхода официальной статистики. Результаты работы опубликованы в журнале PNAS Nexus.
Авторы создали модель JoblessBERT, обученную выявлять посты, в которых пользователи Twitter (Х) сообщают о потере работы. В отличие от традиционных методов, основанных на поиске конкретных фраз вроде I just lost my job, нейросеть распознаёт разговорные выражения, сленг и опечатки — например, neeeeeed a job или needa job. Это позволило обнаружить в 13 раз больше безработных пользователей при сохранении высокой точности.
Аудитория Twitter не отражает население страны в целом — в соцсети больше молодых людей и жителей крупных городов. Чтобы это компенсировать, исследователи определяли возраст, пол и местоположение пользователей по фотографиям профилей, а затем вносили в данные поправки на основе данных переписи населения.
Модель протестировали на данных 2020–2022 годов, включая период пандемии коронавируса. Как отмечается в работе, когда в марте 2020 года число заявок на пособие по безработице за неделю выросло с 252 тысяч до 2,9 млн, профессиональные аналитики в среднем предсказывали лишь 327 тысяч. JoblessBERT за два дня до конца отчётной недели дала прогноз в 2,66 млн.
В среднем за двухнедельный горизонт прогнозирования JoblessBERT оказывается на 54% точнее традиционных методов на национальном уровне и на 36% — на уровне штатов. Система также работает для отдельных городов и способна заполнять пробелы в официальной статистике там, где данные публикуются нерегулярно.
Авторы отмечают ограничения метода: исследование проводилось только на англоязычных постах, а с 2023 года доступ к данным Twitter существенно ограничен. Тем не менее, как пишут они, сам подход может быть применён к другим платформам и языкам, что особенно актуально для развивающихся стран, где статистические службы не располагают ресурсами для оперативного сбора данных о рынке труда.
