Марія Бровінська Гаряченьке 15 лютого 2022, 12:44

Український Big Data інженер успішно виявляє російську пропаганду. Його аналіз публікують Der Spiegel, Сorriere та Iltalehti

Український Big Data інженер Анатолій Шара успішно виявляє російську пропаганду, яку поширюють за допомогою ферм тролів та ботів. І робить він це поза основною роботою вже понад три роки.

Шара аналізує масиви даних із сотень тисяч коментарів в інформаційному полі різних європейських країн.

Одне з провідних німецьких видань Der Spiegel нещодавно опублікувало статтю, де використало дослідження, яке проводили Анатолій та його колега Дмитро Будашний. Там йдеться про те, як проросійська партія «Альтернатива для Німеччини» використовує російські фабрики тролів для власної популяризації в соціальній мережі Facebook. Після цього про українських дослідників написали провідні медіа Італії та Фінляндії. А нині готуються публікації в Польщі та Чехії.

DOU опублікував велику розмову з Анатолієм про його проєкт, методи та результати досліджень, їхню технічну складову, головних замовників і міжнародне визнання. Публікуємо найцікавіше.

Залишити коментар

Український Big Data інженер успішно виявляє російську пропаганду. Його аналіз публікують Der Spiegel, Сorriere та Iltalehti

Український Big Data інженер Анатолій Шара успішно виявляє російську пропаганду, яку поширюють за допомогою ферм тролів та ботів. І робить він це поза основною роботою вже понад три роки.

Шара аналізує масиви даних із сотень тисяч коментарів в інформаційному полі різних європейських країн.

Одне з провідних німецьких видань Der Spiegel нещодавно опублікувало статтю, де використало дослідження, яке проводили Анатолій та його колега Дмитро Будашний. Там йдеться про те, як проросійська партія «Альтернатива для Німеччини» використовує російські фабрики тролів для власної популяризації в соціальній мережі Facebook. Після цього про українських дослідників написали провідні медіа Італії та Фінляндії. А нині готуються публікації в Польщі та Чехії.

DOU опублікував велику розмову з Анатолієм про його проєкт, методи та результати досліджень, їхню технічну складову, головних замовників і міжнародне визнання. Публікуємо найцікавіше.

Філолог-аналітик-програміст

Хто я за освітою, чітко сказати непросто. За першою освітою я філолог — вивчав англійську та німецьку мови в Кривому Розі. Після цього вступив до Київської школи економіки, вивчав аналіз ринків. Паралельно з цим опановував основи програмування, алгоритміку, математичну базу для машинного навчання, обробку природної мови на курсах в Projector, а нині завершую бакалаврат у ІПСА КПІ на факультеті «Штучний інтелект».

Загалом же в ІТ працюю четвертий рік. Я — Machine Learning інженер у сфері NLP.

Чому фейки

Власне, для мене тема з російськими фейками та ботами розпочалася під час навчання на ІТ-спеціаліста. Точкою відліку став курсовий проєкт Projector у 2019 році. Я навчався на курсі Data Science. Natural Language Processing та замислювався, де ці знання можу застосувати. На думку спала Німеччина і досить спотворене представлення України в ній, що дуже схоже на російські наративи. Я це знаю, бо певний час проживав там, працюючи журналістом.

Тож із цікавості почав аналізувати коментарі під статтями про Революцію гідності у відомому німецькому виданні Die Zeit. І побачив, що величезна кількість матеріалів і справді слово у слово повторювала російську пропаганду. «Майдан — це фашистський путч, там нацисти, скінхеди тощо». Можна й не перелічувати.

Я обрав це темою курсової роботи. Натренував класифікатор, який мав розпізнавати коментарі та відрізняти фейкові від справжніх. Представив результати: 70% коментарів про Україну в цих статтях були гарним перекладом російських меседжів. Тоді ж цією темою зацікавилися двоє моїх майбутніх партнерів за проєктом — розробники Senior-рівня, з якими познайомились у Projector — Ігор та Дмитро. Наразі працювати з фейками продовжуємо тільки ми з Дмитром. Він займається збором даних, я — їхнім аналізом та переговорами з клієнтами. Алгоритм дій з курсової можна переглянути на GitHub.

Хочеш вивчати big data? Розповімо, з чого почати

Як досліджуються фейки

Метод наш був дуже простий — використовувати регулярні вислови, — але й водночас складний, адже в німецькій мові одне речення можна написати 3–4 способами. І ми створювали складну архітектуру синтаксичної системи. Самостійно готували спеціальну програму, яка могла знайти коментар у будь-якому варіанті написання.

З’ясувалося, що 60% коментарів із сотень тисяч містять повні відповідники цим меседжам. Наприклад, Путін бовкнув: «Росія — надійний постачальник газу». Російський посол у Німеччині сказав, що США проти «Північного потоку-2», бо хочуть продавати свій сланцевий газ. Хтось із російських високопосадовців ще сказав, що «Україна — це ненадійний партнер». І все це у коментарях без жодних змін. Єдине — з перекладом німецькою. Врешті з’ясувалося, що близько 60% коментарів в усіх шести медіа збігаються абсолютно — тобто написані «під копірку».

За допомогою наших лексикографічних аналізаторів ми також з’ясували, що кілька ключових фраз для «вбивання» німцям у голови писалися добротною німецькою мовою, тоді як додаткові — через Google Translate. Наприклад, «Росія — надійний постачальник газу» написано нормально, все інше — машинний переклад, подекуди й просто набір слів.

Ще доходило до смішного: хоча більшість тролів і ботів мали німецькі імена, деякі «палилися»: «Алексей Петрович, Владимир Олегович». Хто ж здогадається, звідки вони?

7 місяців без фіналу

Врешті, проіснувавши сім місяців, проєкт так і не знайшов логічного завершення. Коли ми отримали результати перших ітерацій дослідження, то почали показувати їх українським державним органам. Спілкувалися з депутатами. Носили до «Нафтогазу», який тоді активно протидіяв будівництву російського газопроводу. На що нам відповіли, що дослідження нецікаве, навряд чи на це хтось зверне увагу. Казали, що вони у «Нафтогазі» співпрацюють з американськими лобістами, експертами, і «Північний потік-2» ніколи не буде добудований. Як ми тепер знаємо, вони помилялися.

Показували результати і керівництву МЗС. А нам казали: «Хлопці, це все так класно, супер-пупер, але грошей немає. От якби ви безплатно все це робили, може б, і знайшли якесь застосування».

Ми пояснювали, що безплатно — це неможлива умова. Бо треба орендувати сервер, ці дані повинні оброблятися, Amazon коштує недешево, робота людей теж має оплачуватися тощо. Загалом зацікавленості у нашій роботі не було.

Знайшов клієнтів

Влітку 2019 року я змінив роботу і почав працювати в українському офісі сінгапурської фінтех-компанії. Та навички й зацікавленість у темі збереглися. Тож я почав шукати людей, які готові за такі дані платити. І знаходив.

Розсилав результати першого дослідження різноманітним дослідницьким інституціям, медіа, що займаються міжнародними відносинами, інформаційною безпекою тощо. Отримав схвальні відгуки від експертів та журналістів з Фінляндії, Норвегії, Данії, Німеччини, Чехії, Швеції, Естонії, Литви, Британії. Так ми здобували впізнаваність у Європі.

Здебільшого нашими клієнтами стали німецькі аналітичні центри та медіа. Німецькі — бо завдяки чималій кількості моїх знайомих там спрацювало сарафанне радіо: і виходити на нас майбутні клієнти звідти почали вже самостійно.

Які IT-навички потрібні

На той час мій стек складався з Python, SQL та алгоритмів Machine Learning. Хоча я все ж більше займався менеджерською роботою та аналітикою, ніж програмуванням.

Одне із частих завдань — класифікація текстів, зокрема публікацій, коментарів, дописів за певними ознаками. Коли у вас мільйон текстів, то інколи треба робити так зване тематичне моделювання (англ. topic modeling), їх кластеризацію.

Зазвичай конструкції багатомовні, тож треба застосовувати ще й новітні фреймворки. Спершу використовували гуглівський TensorFlow, але потім перейшли на реалізацію фейсбуківського фреймворку PyTorch і мультимовні моделі від Hugging Face чи spaCy, натреновані на англійську, німецьку та російську мови. Останній поділяє коментарі на позитивні, негативні, нейтральні, умовно позитивні, умовно нейтральні тощо.

Також тренуємо NER-моделі, щоб визначати іменовані сутності, тобто прізвища, імена, назви аеропортів тощо. Ця інформація з коментарів часто цікавить замовників. І визначаємо рівень токсичності кожного повідомлення — чи є hate speech (мова ворожнечі). У кожної країни своє розуміння хейтспічу, блеймінгу, шеймінгу тощо. Ми створюємо певні словники — і за кількістю збігів з ними у коментарі визначається його токсичність.

Крім того, звичайно, використовуємо SQL-бази та спеціальні захищені сервери. Спроби зламу — звична для нас річ. Були атаки і на наші скриньки, і особисті сторінки у соціальних мережах. Безпека у нас йде окремою статтею витрат: ми закуповували спеціальні продукти для її забезпечення, включно з месенджерами, у яких команда спілкується про задачі.

Медіазамовники

Більшість результатів нашої роботи — конфіденційні. Першим, хто їх опублікував, власне, й було провідне німецьке видання Spiegel, яке й замовило дослідження. Що цікаво, то навіть у самій Німеччині це видання вважають помірковано-проросійським.

Але коли вони побачили дані про те, що росіяни стоять за розкруткою проросійської партії AfD у такий спосіб, то відреагували: «Блін, ми ж з ними торгуємо: вони нам газ, ми їм технології „Сіменс“, „Бош“, а вони хочуть нас знищити зсередини». Їх такі ворожі дії шокували. Вони випустили матеріал із нашими поясненнями та даними, які дуже скрупульозно перевірили.

А після цього написали редакторську статтю (матеріал, який пояснює думку редакторів видання щодо певного факту чи події — ред.), де закликали німецький уряд надати Україні зброю для оборони. О 3:30 ночі мені написала їхня журналістка:

«Сьогодні опублікуємо editorial з таким закликом. Ми зрозуміли, наскільки все запущено, росіяни вкрай знахабніли».

Ця публікація викликала резонанс у Німеччині. Та українська влада чомусь не зробила з цього показовий момент.

Інформацію підхопили й медіа інших країн. Про нас написали центральні видання Фінляндії та Італії, нині готуються до публікації статті у Чехії та Польщі.

Також можу розповісти про партнерський проєкт із чеським дослідницьким центром European Values Center for Security Policy. Ми досліджували, наскільки глибоко російський державний бізнес зайшов у Європу. Наша команда взяла на себе Німеччину, Австрію, Польщу, Україну, чеська — свою країну. Аналізуючи Німеччину, ми з’ясували, що російська мережа піцерій тісно пов’язана з російськими радикальними націоналістами та вихідцями зі спецслужб. Це викликало резонанс у Німеччині, й цю мережу зрештою не допустили на їхній ринок. Звіт дослідження про цю справу — публічний.

Основні роснаративи у соцмережах

Італійська преса перебуває під серйозним впливом російських фабрик тролів та ботів: «Італія забагато платить у бюджет Євросоюзу, натомість не отримує нічого», «Україна має виконати Мінські домовленості», «В Україні процвітає фашизм, нацизм».

Власне, останнім меседжем Італію беруть найбільше, бо там страшенно бояться фашизму та усього із ним пов’язаного.

Проукраїнських журналістів і загалом проукраїнських людей там багато, але з ними ніхто не працює з нашого боку.

В англомовному сегменті Twitter дуже активні російські тролі. От є офіційний Twitter-акаунт американського посольства в Україні. Публікують твіт: «Сьогодні Сполучені Штати привезли в Україну 85 тонн боєприпасів». Що роблять російські тролі?

Вони тієї ж секунди приходять під цю новину і пишуть: «Украина — недострана, америкосы — гов**», «Украина не выдержит нападения» тощо.

І таких повідомлень — тисячі.

Ми також аналізували англомовний сегмент Twitter щодо опозиційних виступів у Венесуелі 2020 року. Там росіяни розгортали величезну кампанію, аби заглушити повідомлення про реальні події. Часто геть не заморочувались мовним питанням. Пишете текст російською, перекладаєте у гуглі іспанською — ось вам і коментар. Такі ж слово у слово повідомлення були англійською та німецькою мовами.

Що далі?

Нині я працюю як ФОП. Виконую багато проєктів для української медіамоніторингової агенції Semantrum як IT-фахівець, але я не в штаті. Проєкти з російськими фейками — все ще не моя основна діяльність, як і у моїх партнерів. Щодо планів, то, можливо, в темі ботів та фейків ми почнемо працювати із Францією — там скоро президентські вибори, роботи буде вдосталь. Також є запит на виконання певних завдань для Естонії.

Щодо співпраці власне з українськими структурами… Тут усе складно. Але якщо ми й погодимось, то тільки на проєктну основу — ось є задача, бюджет, тоді беремося до справи.

IT-рекрутери в LinkedIn скаржаться на фейкових кандидатів

У харківського суду пропала можливість підключитися до слухань по відеозвязку. Причина – кібератака від 14 cічня

«Кращі люди хочуть працювати в рамках великих місій». Інтервю з Марком Цукербергом про зміну курсу ребрендинг плани фейки та соцмережі

Читайте головні IT-новини країни в нашому телеграмі

Залишити коментар

Текст: Марія Бровінська Фото: DOU.ua Теги: дипфейки, роспропаганда

Знайшли помилку в тексті – виділіть її та натисніть Ctrl+Enter. Знайшли помилку в тексті – виділіть її та натисніть кнопку «Повідомити про помилку».

Розміщення реклами

Битва за розум. Як Facebook і Twitter спинили операцію США, спрямовану проти російської пропаганди в соцмережах

Twitter, Facebook і Instagram видалили низку облікових записів, які були спрямовані проти російської пропаганди і боролися з нею в тому числі і за допомогою мемів. За словами дослідників, кампанія тривала майже 5 років. Розповідаємо головне з матеріалу Vice.

Американські військові створили у Twitter мемо-військо NAFO. Тепер вони тролять російських чиновників та збирають гроші для України

Американські військові у Twitter створили мемо-військо собак породи шиба-іну, які тролять росіян й збирають донати для України, пише Vice. Створена американськими військовими армія мультяшних собак шиба-іну відома NAFO (North Atlantic Fellas Organization, Північноатлантична організація чуваків) жартують над роспропагандистами. А за мультяшними героями стоять справжні військові — Джек Маккейн, пілот гелікоптера й син Джона Маккейна, аналітик CNN і офіцер армії США у відставці Марк Гертлінг та генерал-майор армії США Патрік Донахо. Розповідаємо найцікавіші факти про мемо-армію США.

Один з великих провайдерів росії маніпулює інтернет-трафіком, щоб показувати людям відверту пропаганду

Кібератаки, дипфейки про Зеленського, хибний «фактчекінг» та інші методи інформвійни росіян. Представник Google розповів Раді безпеки ООН про цифрову війну рф проти України

Джаред Коен, глава компанії Jigsaw, що входить в Google, на засіданні Ради безпеки ООН 21 червня розповів про те, як, на думку компанії, росія веде війну проти України в цифровій сфері. Він зазначив, що Україна протягом останніх 8 років найбільше у світі зазнала потужних кібератак. Крім того, росія використовує багато інших методів пропаганди у війні з Україною.

Хочете повідомити важливу новину? Пишіть у Telegram-бот

Головні події та корисні посилання в нашому Telegram-каналі

Коментарів поки немає.

Увійдіть, щоб залишити коментар