💳 Термінова новина! Trustee Plus — найкраще рішення для розрахунку криптою 👉

Украинский Big Data инженер успешно выявляет российскую пропаганду. Его анализ публикуют Der Spiegel, Соггіеге и Iltalehti

Украинский Big Data инженер Анатолий Шара успешно выявляет российскую пропаганду, которую распространяют с помощью ферм троллей и ботов. И делает он это вне основной работы уже более трех лет. 

Шара анализирует массивы данных из сотен тысяч комментариев в информационном поле разных европейских стран. 

Одно из ведущих немецких изданий Der Spiegel недавно опубликовало статью, где использовало исследование, которое проводили Анатолий и его коллега Дмитрий Будашный. В нем говорилось о том, как пророссийская партия «Альтернатива для Германии» использует российские фабрики троллей для собственной популяризации в социальной сети Facebook. После этого об украинских исследователях написали ведущие медиа Италии и Финляндии. А сейчас готовятся публикации в Польше и Чехии.

DOU опубликовал большой разговор с Анатолием о его проекте, методах и результатах исследований, их технической составляющей, главных заказчиков и международном признании. Публикуем самое интересное.

Оставить комментарий
Украинский Big Data инженер успешно выявляет российскую пропаганду. Его анализ публикуют Der Spiegel, Соггіеге и Iltalehti

Украинский Big Data инженер Анатолий Шара успешно выявляет российскую пропаганду, которую распространяют с помощью ферм троллей и ботов. И делает он это вне основной работы уже более трех лет. 

Шара анализирует массивы данных из сотен тысяч комментариев в информационном поле разных европейских стран. 

Одно из ведущих немецких изданий Der Spiegel недавно опубликовало статью, где использовало исследование, которое проводили Анатолий и его коллега Дмитрий Будашный. В нем говорилось о том, как пророссийская партия «Альтернатива для Германии» использует российские фабрики троллей для собственной популяризации в социальной сети Facebook. После этого об украинских исследователях написали ведущие медиа Италии и Финляндии. А сейчас готовятся публикации в Польше и Чехии.

DOU опубликовал большой разговор с Анатолием о его проекте, методах и результатах исследований, их технической составляющей, главных заказчиков и международном признании. Публикуем самое интересное.

Филолог-аналитик-программист

Кто я по образованию, четко сказать непросто. По первому образованию я филолог — изучал английский и немецкий языки в Кривом Роге. После этого поступил в Киевскую школу экономики, изучал анализ рынков. Параллельно с этим осваивал основы программирования, алгоритмику, математическую базу для машинного обучения, обработку естественного языка на курсах в Projector, а ныне завершаю бакалавриат у ИПСА КПИ на факультете «Искусственный интеллект».

В целом же в ИТ работаю четвертый год. Я — инженер в области НЛП.

Почему фейки

Собственно, для меня тема с российскими фейками и ботами началась во время обучения на ИТ-специалиста. Точкой отсчета стал курсовой проект Projector в 2019 году. Я учился на курсе Data Science. Natural Language Processing и задумывался, где эти знания могу применить. На ум пришла Германия и довольно искаженное представление Украины в ней, что очень похоже на российские нарративы. Я это знаю, потому что некоторое время проживал там,  где работал журналистом.

Поэтому из любопытства начал анализировать комментарии под статьями о Революции достоинства в известном немецком издании Die Zeit. И увидел, что огромное количество материалов и впрямь слово в слово повторяли российскую пропаганду. «Майдан — это фашистский путч, там нацисты, скинхеды и тому подобное». Можно и не перечислять.

Я выбрал это темой курсовой работы. Натренировал классификатор, который должен был распознавать комментарии и отличать фейковые от настоящих. Представил результаты: 70% комментариев об Украине в этих статьях были хорошим переводом российских месседжей. Тогда же этой темой заинтересовались двое моих будущих партнеров по проекту — разработчики Senior-уровня, с которыми познакомились в Projector —  Игорь и Дмитрий. Теперь работать с фейками продолжаем только мы с Дмитрием. Он занимается сбором данных, я — их анализом и переговорами с клиентами. Алгоритм действий с курсовой можно просмотреть на GitHub.

Как исследуются фейки

Метод наш был очень прост — использовать регулярные изречения, — но и одновременно сложен, ведь в немецком языке одно предложение можно написать 3-4 способами. И мы создавали сложную архитектуру синтаксической системы. Самостоятельно готовили специальную программу, которая могла найти комментарий в любом варианте написания.

Выяснилось, что 60% комментариев из этих сотен тысяч содержат полные соответствия месседжам. Например, Путин сболтнул: «Россия — надежный поставщик газа». Российский посол в Германии сказал, что США против «Северного потока-2», потому что хотят продавать свой сланцевый газ. И все это в комментариях без всяких изменений. Единственное — с переводом на немецкий. Наконец выяснилось, что около 60% комментариев во всех шести медиа совпадают абсолютно — то есть написаны «под копирку».

С помощью наших лексикографических анализаторов мы также выяснили, что несколько ключевых фраз для «вбивания» немцам в головы писались на добротном немецком языке, тогда как дополнительные — через Google Translate. Например, «Россия — надежный поставщик газа» написано нормально, все остальное — машинный перевод, иногда и просто набор слов.

Еще доходило до смешного: хотя большинство троллей и ботов имели немецкие имена, некоторые «палились»: «Алексей Петрович, Владимир Олегович». Кто же догадается, откуда они?

7 месяцев без финала

Длившийся семь месяцев проект так и не обрел логического завершения. Когда мы получили результаты первых итераций исследования, то начали показывать их украинским государственным органам. Общались с депутатами. Носили в «Нафтогаз», который тогда активно противодействовал строительству российского газопровода. На что нам ответили, что исследование неинтересное, вряд ли на это кто-то обратит внимание. Говорили, что они в «Нафтогазе» сотрудничают с американскими лоббистами, экспертами, и «Северный поток-2» никогда не будет достроен. Как теперь знаем, они ошибались.

Показывали результаты и руководству МИДа. А нам говорили: «Ребята, это все так классно, супер-пупер, но денег нет. Вот если бы вы бесплатно все это делали, может, и нашли бы какое-то применение».

Мы объясняли, что бесплатно — это невозможное условие. Потому что надо арендовать сервер, эти данные должны обрабатываться, Amazon стоит недешево, работа людей тоже должна оплачиваться и тому подобное. В целом заинтересованности в нашей работе не было.

Нашел клиентов

Летом 2019 года я сменил работу и начал работать в украинском офисе сингапурской финтех-компании. Но навыки и заинтересованность в теме сохранились. Поэтому я начал искать людей, которые готовы за такие данные платить. И находил.

Рассылал результаты первого исследования разнообразным исследовательским институтам, медиа, занимающимся международными отношениями, информационной безопасностью и тому подобное. Получил одобрительные отзывы от экспертов и журналистов из Финляндии, Норвегии, Дании, Германии, Чехии, Швеции, Эстонии, Литвы, Британии. Так мы приобретали узнаваемость в Европе.

В основном нашими клиентами стали немецкие аналитические центры и медиа. Немецкие — потому что благодаря немалому количеству моих знакомых там сработало сарафанное радио: и выходить на нас будущие клиенты оттуда начали уже самостоятельно.

Какие IT-навыки нужны

В то время мой стек состоял из Python, SQL и алгоритмов Machine Learning. Хотя я все же больше занимался менеджерской работой и аналитикой, чем программированием.

Одна из частых задач — классификация текстов, в частности публикаций, комментариев, сообщений, по определенным признакам. Когда у вас миллион текстов, то иногда надо делать так называемое тематическое моделирование (англ. topic modeling), их кластеризацию.

Обычно конструкции многоязычные, поэтому надо применять еще и новейшие фреймворки. Сперва использовали гугловский TensorFlow, но потом перешли на реализацию фейсбуковского фреймворка PyTorch и мультиязычные модели от Hugging Face или spaCy, натренированные на английский, немецкий и русский языки. Последний разделяет комментарии на положительные, отрицательные, нейтральные, условно положительные, условно нейтральные и тому подобное.

Также тренируем Ner-модели, чтобы определять именованные сущности, то есть фамилии, имена, названия аэропортов и тому подобное. Эта информация из комментариев часто интересует заказчиков. И определяем уровень токсичности каждого сообщения — является ли hate speech (язык вражды). У каждой страны свое понимание хейтспича, блейминга, шейминга и т. Мы создаем определенные словари — и по количеству совпадений с ними в комментарии определяется его токсичность.

Кроме того, конечно, используем SQL-базы и специальные защищенные серверы. Попытки слома — привычная для нас вещь. Были атаки и на наши ящики и личные страницы в социальных сетях. Безопасность у нас идет отдельной статьей расходов: мы закупали специальные продукты для ее обеспечения, включая мессенджеры, через которые команда общается о задаче.

Медіазамовники

Большинство результатов нашей работы — конфиденциальные. Первым, кто их опубликовал, собственно, и было ведущее немецкое издание Spiegel, которое и заказало исследование. Что интересно, то даже в самой Германии это издание считают умеренно-пророссийским.

Но когда они увидели данные о том, что россияне стоят за раскруткой пророссийской партии AfD таким образом, то отреагировали: «Блин, мы с ними торгуем: они нам газ, мы им технологии „Сименс“, „Бош“, а они хотят нас уничтожить изнутри». Такие враждебные действия шокировали. Они выпустили материал с нашими объяснениями и данными, которые очень скрупулезно проверили.

А после этого написали редакторскую статью (материал, который объясняет мнение редакторов издания относительно определенного факта или события — ред.), где призвали немецкое правительство предоставить Украине оружие для обороны. В 3: 30 ночи мне написала их журналистка:

«Сегодня опубликуем editorial с таким призывом. Мы поняли, насколько все запущено, русские вконец обнаглели».

Эта публикация вызвала резонанс в Германии. Но украинская власть почему-то не сделала из этого показательный момент. 

Информацию подхватили и медиа других стран. О нас написали центральные издания Финляндии и Италии, сейчас готовятся к публикации статьи в Чехии и Польше.

Также могу рассказать о партнерском проекте с чешским исследовательским центром European Values Center for Security Policy. Мы исследовали, насколько глубоко российский государственный бизнес зашел в Европу. Наша команда взяла на себя Германию, Австрию, Польшу, Украину, чешская — свою страну. Анализируя Германию, мы выяснили, что российская сеть пиццерий тесно связана с русскими радикальными националистами и выходцами из спецслужб. Это вызвало резонанс в Германии, и эту сеть в конце концов не допустили на их рынок. Отчет исследование об этом деле — публичный.

Основные роснаративи в соцсетях

Итальянская пресса находится под серьезным влиянием российских фабрик троллей и ботов: «Италия слишком много платит в бюджет Евросоюза, взамен не получает ничего», «Украина должна выполнить Минские договоренности», «В Украине процветает фашизм, нацизм».

Собственно, последним месседжем Италию берут больше всего, потому что там ужасно боятся фашизма и всего с ним связанного.

Проукраинских журналистов и в целом проукраинских людей там много, но с ними никто не работает с нашей стороны.

В англоязычном сегменте Twitter очень активны российские тролли. Вот есть официальный Twitter-аккаунт американского посольства в Украине. Публикуют твит: «Сегодня Соединенные Штаты привезли в Украину 85 тонн боеприпасов». Что делают русские тролли?

Они в ту же секунду приходят под эту новость и пишут: «Украина — недострана, америкосы — гов**», «Украина не выдержит нападения» и тому подобное.

И таких сообщений — тысячи.

Мы также анализировали англоязычный сегмент Twitter по оппозиционным выступлениям в Венесуэле в 2020 году. Там русские разворачивали огромную кампанию, чтобы заглушить сообщения о реальных событиях. Часто совсем не заморачивались языковым вопросом. Пишете текст на русском, переводите в Гугле на испанский — вот вам и комментарий. Такие же слово в слово сообщения были на английском и немецком языках.

Что дальше? 

Сейчас я работаю как ФЛП. Выполняю много проектов для украинского медиамониторингового агентства Semantrum как IT-специалист, но я не в штате. Проекты с российскими фейками — все еще не моя основная деятельность, как и у моих партнеров. Что касается планов, то, возможно, в теме ботов и фейков мы начнем работать с Францией — там скоро президентские выборы, работы будет вдоволь. Также есть запрос на выполнение определенных задач для Эстонии.

По сотрудничеству собственно с украинскими структурами… Здесь все сложно. Но если мы и согласимся, то только на проектную основу — вот есть задача, бюджет, тогда беремся за дело. 

IT-рекрутери в LinkedIn скаржаться на фейкових кандидатів
IT-рекрутеры в LinkedIn жалуются на фейковых кандидатов
По теме
IT-рекрутеры в LinkedIn жалуются на фейковых кандидатов
У харківського суду пропала можливість підключитися до слухань по відеозвязку. Причина – кібератака від 14 cічня
У харьковского суда пропала возможность подключиться к слушаниям по видеосвязи. Причина-кибератака от 14 января
По теме
У харьковского суда пропала возможность подключиться к слушаниям по видеосвязи. Причина-кибератака от 14 января
«Кращі люди хочуть працювати в рамках великих місій». Інтервю з Марком Цукербергом про зміну курсу ребрендинг плани фейки та соцмережі
«Лучшие люди хотят работать в рамках больших миссий»» Интервью с Марком Цукербергом о смене курса, ребрендинг, планы, фейки и соцсети
По теме
«Лучшие люди хотят работать в рамках больших миссий»» Интервью с Марком Цукербергом о смене курса, ребрендинг, планы, фейки и соцсети
Читайте головні IT-новини країни в нашому телеграмі
Читайте главные IT-новости страны в нашей телеграмме
По теме
Читайте главные IT-новости страны в нашей телеграмме
УЧАСТЬ В АЗАРТНИХ ІГРАХ МОЖЕ ВИКЛИКАТИ ІГРОВУ ЗАЛЕЖНІСТЬ. ДОТРИМУЙТЕСЯ ПРАВИЛ (ПРИНЦИПІВ) ВІДПОВІДАЛЬНОЇ ГРИ.
Ліцензія видана ТОВ "СЛОТС Ю.ЕЙ." на провадження діяльності з організації та проведення азартних ігор казино у мережі Інтернет від 15.09.23 (рішення КРАІЛ №245 від 31.08.2023); ТОВ "СЛОТС Ю.ЕЙ." – на провадження діяльності з організації та проведення азартних ігор казино у мережі Інтернет від 26.04.2021 (рішення КРАІЛ №150 від 12.04.2021); ТОВ «СПЕЙСИКС» – на провадження діяльності з організації та проведення азартних ігор казино у мережі Інтернет від 08.02.2021 (рішення КРАІЛ №34 від 02.02.2021); ТОВ «ГЕЙМДЕВ» – на провадження діяльності з організації та проведення азартних ігор казино у мережі Інтернет від 16.02.2021 (рішення № 47 від 10.02.2021).
Читайте также
Битва за разум. Как Facebook и Twitter остановили операцию США, направленную против российской пропаганды в соцсетях
Битва за разум. Как Facebook и Twitter остановили операцию США, направленную против российской пропаганды в соцсетях
Битва за разум. Как Facebook и Twitter остановили операцию США, направленную против российской пропаганды в соцсетях
Twitter, Facebook и Instagram удалили ряд аккаунтов, которые были направлены против российской пропаганды и боролись с ней в том числе и с помощью мемов. По словам исследователей, кампания длилась около 5 лет. Рассказываем главное из материала Vice.
Американские военные создали в Twitter мемо-армию NAFO. Теперь они тролят росчиновников и собирают деньги для Украины
Американские военные создали в Twitter мемо-армию NAFO. Теперь они тролят росчиновников и собирают деньги для Украины
Американские военные создали в Twitter мемо-армию NAFO. Теперь они тролят росчиновников и собирают деньги для Украины
Американские военные в Twitter создали мемо-войско собак породы шиба-ину, которые тролят россиян и собирают донаты для Украины, пишет Vice. Созданная американскими военными армия мультяшных собак шиба-ину  ведомства NAFO (North Atlantic Fellas Organization, Североатлантическая организация чуваков) шутят над роспропагандистами. А за мультяшными героями стоят настоящие военные — Джек Маккейн, пилот вертолета и сын Джона Маккейна, аналитик CNN и офицер армии США в отставке Марк Гертлинг и генерал-майор армии США Патрик Донахо. Рассказываем интереснейшие факты о мемо-армии США.
Один из провайдеров россии манипулирует интернет-трафиком, чтобы показывать людям откровенную пропаганду.
Один из провайдеров россии манипулирует интернет-трафиком, чтобы показывать людям откровенную пропаганду.
Один из провайдеров россии манипулирует интернет-трафиком, чтобы показывать людям откровенную пропаганду.
Кибератаки, дипфейки про Зеленского и ложный «фактчекинг». Представитель Google рассказал Совбезу ООН о цифровой войне РФ против Украины
Кибератаки, дипфейки про Зеленского и ложный «фактчекинг». Представитель Google рассказал Совбезу ООН о цифровой войне РФ против Украины
Кибератаки, дипфейки про Зеленского и ложный «фактчекинг». Представитель Google рассказал Совбезу ООН о цифровой войне РФ против Украины
Джаред Коэн, глава входящей в Google компании Jigsaw, на заседании Совета безопасности ООН 21 июня рассказал о том, как, по мнению компании, россия ведет войну против Украины в цифровой сфере.  Джаред Коэн отметил, что Украина в течение последних 8 лет больше всех в мире испытывала мощные кибератаки. Кроме того, россия использует многие другие методы пропаганды в войне с Украиной.

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментариев пока нет.