💳 Термінова новина! Trustee Plus — найкраще рішення для розрахунку криптою 👉
Марія БровінськаГоряченькое
15 февраля 2022, 12:44
2022-02-15
Украинский Big Data инженер успешно выявляет российскую пропаганду. Его анализ публикуют Der Spiegel, Соггіеге и Iltalehti
Украинский Big Data инженер Анатолий Шара успешно выявляет российскую пропаганду, которую распространяют с помощью ферм троллей и ботов. И делает он это вне основной работы уже более трех лет.
Шара анализирует массивы данных из сотен тысяч комментариев в информационном поле разных европейских стран.
Одно из ведущих немецких изданий Der Spiegel недавно опубликовало статью, где использовало исследование, которое проводили Анатолий и его коллега Дмитрий Будашный. В нем говорилось о том, как пророссийская партия «Альтернатива для Германии» использует российские фабрики троллей для собственной популяризации в социальной сети Facebook. После этого об украинских исследователях написали ведущие медиа Италии и Финляндии. А сейчас готовятся публикации в Польше и Чехии.
DOU опубликовал большой разговор с Анатолием о его проекте, методах и результатах исследований, их технической составляющей, главных заказчиков и международном признании. Публикуем самое интересное.
Кто я по образованию, четко сказать непросто. По первому образованию я филолог — изучал английский и немецкий языки в Кривом Роге. После этого поступил в Киевскую школу экономики, изучал анализ рынков. Параллельно с этим осваивал основы программирования, алгоритмику, математическую базу для машинного обучения, обработку естественного языка на курсах в Projector, а ныне завершаю бакалавриат у ИПСА КПИ на факультете «Искусственный интеллект».
В целом же в ИТ работаю четвертый год. Я — инженер в области НЛП.
Почему фейки
Собственно, для меня тема с российскими фейками и ботами началась во время обучения на ИТ-специалиста. Точкой отсчета стал курсовой проект Projector в 2019 году. Я учился на курсе Data Science. Natural Language Processing и задумывался, где эти знания могу применить. На ум пришла Германия и довольно искаженное представление Украины в ней, что очень похоже на российские нарративы. Я это знаю, потому что некоторое время проживал там, где работал журналистом.
Поэтому из любопытства начал анализировать комментарии под статьями о Революции достоинства в известном немецком издании Die Zeit. И увидел, что огромное количество материалов и впрямь слово в слово повторяли российскую пропаганду. «Майдан — это фашистский путч, там нацисты, скинхеды и тому подобное». Можно и не перечислять.
Я выбрал это темой курсовой работы. Натренировал классификатор, который должен был распознавать комментарии и отличать фейковые от настоящих. Представил результаты: 70% комментариев об Украине в этих статьях были хорошим переводом российских месседжей. Тогда же этой темой заинтересовались двое моих будущих партнеров по проекту — разработчики Senior-уровня, с которыми познакомились в Projector — Игорь и Дмитрий. Теперь работать с фейками продолжаем только мы с Дмитрием. Он занимается сбором данных, я — их анализом и переговорами с клиентами. Алгоритм действий с курсовой можно просмотреть на GitHub.
Как исследуются фейки
Метод наш был очень прост — использовать регулярные изречения, — но и одновременно сложен, ведь в немецком языке одно предложение можно написать 3-4 способами. И мы создавали сложную архитектуру синтаксической системы. Самостоятельно готовили специальную программу, которая могла найти комментарий в любом варианте написания.
Выяснилось, что 60% комментариев из этих сотен тысяч содержат полные соответствия месседжам. Например, Путин сболтнул: «Россия — надежный поставщик газа». Российский посол в Германии сказал, что США против «Северного потока-2», потому что хотят продавать свой сланцевый газ. И все это в комментариях без всяких изменений. Единственное — с переводом на немецкий. Наконец выяснилось, что около 60% комментариев во всех шести медиа совпадают абсолютно — то есть написаны «под копирку».
С помощью наших лексикографических анализаторов мы также выяснили, что несколько ключевых фраз для «вбивания» немцам в головы писались на добротном немецком языке, тогда как дополнительные — через Google Translate. Например, «Россия — надежный поставщик газа» написано нормально, все остальное — машинный перевод, иногда и просто набор слов.
Еще доходило до смешного: хотя большинство троллей и ботов имели немецкие имена, некоторые «палились»: «Алексей Петрович, Владимир Олегович». Кто же догадается, откуда они?
7 месяцев без финала
Длившийся семь месяцев проект так и не обрел логического завершения. Когда мы получили результаты первых итераций исследования, то начали показывать их украинским государственным органам. Общались с депутатами. Носили в «Нафтогаз», который тогда активно противодействовал строительству российского газопровода. На что нам ответили, что исследование неинтересное, вряд ли на это кто-то обратит внимание. Говорили, что они в «Нафтогазе» сотрудничают с американскими лоббистами, экспертами, и «Северный поток-2» никогда не будет достроен. Как теперь знаем, они ошибались.
Показывали результаты и руководству МИДа. А нам говорили: «Ребята, это все так классно, супер-пупер, но денег нет. Вот если бы вы бесплатно все это делали, может, и нашли бы какое-то применение».
Мы объясняли, что бесплатно — это невозможное условие. Потому что надо арендовать сервер, эти данные должны обрабатываться, Amazon стоит недешево, работа людей тоже должна оплачиваться и тому подобное. В целом заинтересованности в нашей работе не было.
Нашел клиентов
Летом 2019 года я сменил работу и начал работать в украинском офисе сингапурской финтех-компании. Но навыки и заинтересованность в теме сохранились. Поэтому я начал искать людей, которые готовы за такие данные платить. И находил.
Рассылал результаты первого исследования разнообразным исследовательским институтам, медиа, занимающимся международными отношениями, информационной безопасностью и тому подобное. Получил одобрительные отзывы от экспертов и журналистов из Финляндии, Норвегии, Дании, Германии, Чехии, Швеции, Эстонии, Литвы, Британии. Так мы приобретали узнаваемость в Европе.
В основном нашими клиентами стали немецкие аналитические центры и медиа. Немецкие — потому что благодаря немалому количеству моих знакомых там сработало сарафанное радио: и выходить на нас будущие клиенты оттуда начали уже самостоятельно.
Какие IT-навыки нужны
В то время мой стек состоял из Python, SQL и алгоритмов Machine Learning. Хотя я все же больше занимался менеджерской работой и аналитикой, чем программированием.
Одна из частых задач — классификация текстов, в частности публикаций, комментариев, сообщений, по определенным признакам. Когда у вас миллион текстов, то иногда надо делать так называемое тематическое моделирование (англ. topic modeling), их кластеризацию.
Обычно конструкции многоязычные, поэтому надо применять еще и новейшие фреймворки. Сперва использовали гугловский TensorFlow, но потом перешли на реализацию фейсбуковского фреймворка PyTorch и мультиязычные модели от Hugging Face или spaCy, натренированные на английский, немецкий и русский языки. Последний разделяет комментарии на положительные, отрицательные, нейтральные, условно положительные, условно нейтральные и тому подобное.
Также тренируем Ner-модели, чтобы определять именованные сущности, то есть фамилии, имена, названия аэропортов и тому подобное. Эта информация из комментариев часто интересует заказчиков. И определяем уровень токсичности каждого сообщения — является ли hate speech (язык вражды). У каждой страны свое понимание хейтспича, блейминга, шейминга и т. Мы создаем определенные словари — и по количеству совпадений с ними в комментарии определяется его токсичность.
Кроме того, конечно, используем SQL-базы и специальные защищенные серверы. Попытки слома — привычная для нас вещь. Были атаки и на наши ящики и личные страницы в социальных сетях. Безопасность у нас идет отдельной статьей расходов: мы закупали специальные продукты для ее обеспечения, включая мессенджеры, через которые команда общается о задаче.
Медіазамовники
Большинство результатов нашей работы — конфиденциальные. Первым, кто их опубликовал, собственно, и было ведущее немецкое издание Spiegel, которое и заказало исследование. Что интересно, то даже в самой Германии это издание считают умеренно-пророссийским.
Но когда они увидели данные о том, что россияне стоят за раскруткой пророссийской партии AfD таким образом, то отреагировали: «Блин, мы с ними торгуем: они нам газ, мы им технологии „Сименс“, „Бош“, а они хотят нас уничтожить изнутри». Такие враждебные действия шокировали. Они выпустили материал с нашими объяснениями и данными, которые очень скрупулезно проверили.
А после этого написали редакторскую статью (материал, который объясняет мнение редакторов издания относительно определенного факта или события — ред.), где призвали немецкое правительство предоставить Украине оружие для обороны. В 3: 30 ночи мне написала их журналистка:
Эта публикация вызвала резонанс в Германии. Но украинская власть почему-то не сделала из этого показательный момент.
Информацию подхватили и медиа других стран. О нас написали центральные издания Финляндии и Италии, сейчас готовятся к публикации статьи в Чехии и Польше.
Также могу рассказать о партнерском проекте с чешским исследовательским центром European Values Center for Security Policy. Мы исследовали, насколько глубоко российский государственный бизнес зашел в Европу. Наша команда взяла на себя Германию, Австрию, Польшу, Украину, чешская — свою страну. Анализируя Германию, мы выяснили, что российская сеть пиццерий тесно связана с русскими радикальными националистами и выходцами из спецслужб. Это вызвало резонанс в Германии, и эту сеть в конце концов не допустили на их рынок. Отчет исследование об этом деле — публичный.
Основные роснаративи в соцсетях
Итальянская пресса находится под серьезным влиянием российских фабрик троллей и ботов: «Италия слишком много платит в бюджет Евросоюза, взамен не получает ничего», «Украина должна выполнить Минские договоренности», «В Украине процветает фашизм, нацизм».
Собственно, последним месседжем Италию берут больше всего, потому что там ужасно боятся фашизма и всего с ним связанного.
Проукраинских журналистов и в целом проукраинских людей там много, но с ними никто не работает с нашей стороны.
В англоязычном сегменте Twitter очень активны российские тролли. Вот есть официальный Twitter-аккаунт американского посольства в Украине. Публикуют твит: «Сегодня Соединенные Штаты привезли в Украину 85 тонн боеприпасов». Что делают русские тролли?
И таких сообщений — тысячи.
Мы также анализировали англоязычный сегмент Twitter по оппозиционным выступлениям в Венесуэле в 2020 году. Там русские разворачивали огромную кампанию, чтобы заглушить сообщения о реальных событиях. Часто совсем не заморачивались языковым вопросом. Пишете текст на русском, переводите в Гугле на испанский — вот вам и комментарий. Такие же слово в слово сообщения были на английском и немецком языках.
Что дальше?
Сейчас я работаю как ФЛП. Выполняю много проектов для украинского медиамониторингового агентства Semantrum как IT-специалист, но я не в штате. Проекты с российскими фейками — все еще не моя основная деятельность, как и у моих партнеров. Что касается планов, то, возможно, в теме ботов и фейков мы начнем работать с Францией — там скоро президентские выборы, работы будет вдоволь. Также есть запрос на выполнение определенных задач для Эстонии.
По сотрудничеству собственно с украинскими структурами… Здесь все сложно. Но если мы и согласимся, то только на проектную основу — вот есть задача, бюджет, тогда беремся за дело.
УЧАСТЬ В АЗАРТНИХ ІГРАХ МОЖЕ ВИКЛИКАТИ ІГРОВУ ЗАЛЕЖНІСТЬ. ДОТРИМУЙТЕСЯ ПРАВИЛ (ПРИНЦИПІВ) ВІДПОВІДАЛЬНОЇ ГРИ.
Ліцензія видана ТОВ "СЛОТС Ю.ЕЙ." на провадження діяльності з організації та проведення азартних ігор казино у мережі Інтернет від 15.09.23 (рішення КРАІЛ №245 від 31.08.2023); ТОВ "СЛОТС Ю.ЕЙ." – на провадження діяльності з організації та проведення азартних ігор казино у мережі Інтернет від 26.04.2021 (рішення КРАІЛ №150 від 12.04.2021); ТОВ «СПЕЙСИКС» – на провадження діяльності з організації та проведення азартних ігор казино у мережі Інтернет від 08.02.2021 (рішення КРАІЛ №34 від 02.02.2021); ТОВ «ГЕЙМДЕВ» – на провадження діяльності з організації та проведення азартних ігор казино у мережі Інтернет від 16.02.2021 (рішення № 47 від 10.02.2021).
Битва за разум. Как Facebook и Twitter остановили операцию США, направленную против российской пропаганды в соцсетях
Twitter, Facebook и Instagram удалили ряд аккаунтов, которые были направлены против российской пропаганды и боролись с ней в том числе и с помощью мемов. По словам исследователей, кампания длилась около 5 лет. Рассказываем главное из материала Vice.
Американские военные создали в Twitter мемо-армию NAFO. Теперь они тролят росчиновников и собирают деньги для Украины
Американские военные в Twitter создали мемо-войско собак породы шиба-ину, которые тролят россиян и собирают донаты для Украины, пишет Vice. Созданная американскими военными армия мультяшных собак шиба-ину ведомства NAFO (North Atlantic Fellas Organization, Североатлантическая организация чуваков) шутят над роспропагандистами. А за мультяшными героями стоят настоящие военные — Джек Маккейн, пилот вертолета и сын Джона Маккейна, аналитик CNN и офицер армии США в отставке Марк Гертлинг и генерал-майор армии США Патрик Донахо.
Рассказываем интереснейшие факты о мемо-армии США.
Кибератаки, дипфейки про Зеленского и ложный «фактчекинг». Представитель Google рассказал Совбезу ООН о цифровой войне РФ против Украины
Джаред Коэн, глава входящей в Google компании Jigsaw, на заседании Совета безопасности ООН 21 июня рассказал о том, как, по мнению компании, россия ведет войну против Украины в цифровой сфере.
Джаред Коэн отметил, что Украина в течение последних 8 лет больше всех в мире испытывала мощные кибератаки. Кроме того, россия использует многие другие методы пропаганды в войне с Украиной.
Хотите сообщить важную новость? Пишите в Telegram-бот
Главные события и полезные ссылки в нашем Telegram-канале