Як розібратися з Computer Vision
Технології комп’ютерного зору допомагають робомобілю відрізнити ліхтарний стовп від оленя, а роботові-кур'єру — не переплутати газон із тротуаром.
Технології комп’ютерного зору допомагають робомобілю відрізнити ліхтарний стовп від оленя, а роботові-кур'єру — не переплутати газон із тротуаром.
Ще вони дозволяють розпізнати людину в натовпі, модерувати контент у соцмережах, діагностувати хворобу за рентгенівським знімком, відрізнити кота від собаки, а коргі — від лабрадора.
Фахівців з Computer Vision поки не так багато, а попит на них зростає з кожним роком. Розповідаємо, як вивчити нову технологію, не виходячи з дому.
Комп’ютерний зір (Computer Vision, CV) — це галузь штучного інтелекту, пов’язана з аналізом, класифікацією і розпізнаванням зображень і відео. В основі CV-систем зазвичай лежать алгоритми на базі машинного навчання — з їх допомогою вони вчаться відрізняти одні об'єкти від інших, бачити патерни і закономірності. Людина вчиться розпізнавати образи в процесі знайомства з навколишнім світом — ще в дитинстві вона запам’ятовує, чим відрізняється кішка від собаки, а інтерфейс Among Us — від інтерфейсу Minecraft. Комп’ютер «мислить» інакше: щоб навчити систему розпізнавати образи, їй потрібно «згодувати» датасет з розміченими даними, де наочно показано відмінності одного об'єкта від іншого.
Розмітка даних, до речі, ціла наука, причому досить трудомістка. Зазвичай для цього наймають фрілансерів, які дистанційно маркують відеоролики і зображення. Чим точніше розмітка і чим більше даних, тим точніше буде працювати система комп’ютерного зору. При цьому багато що залежить від специфіки — алгоритм, який орієнтується в різних видах птахів, не допоможе робомобілю розпізнати перешкоду на дорозі. Хоча бувають цікаві прецеденти. Наприклад, в Японії алгоритм для розпізнавання випічки стали використовувати для діагностики раку.
Реконструкція роботи системи розпізнавання об'єктів у автомобілів Tesla
З кожним роком технологія еволюціонує, але без ґлітчів поки не обходиться: алгоритми плутають людей з тваринами, приймають абстрактні патерни за реальні об'єкти, а іноді не можуть відрізнити черепаху від рушниці. Завдання фахівців з комп’ютерного зору — звести до мінімуму такі інциденти і навчити алгоритми впевнено орієнтуватися в навколишньому світі. Наприклад, на виробництві система зможе виявити бракований виріб, в клініці допоможе лікарю відрізнити злоякісну пухлину від доброякісної, а астрофізикам дозволить швидше класифікувати небесні тіла.
Технологія сама по собі нейтральна, але застосовувати її можна по-різному. Наприклад, деякі держави використовують її для деанонімізації протестуючих. Тому фахівцям з AI рекомендують вивчати етику в сфері машинного навчання. Один з таких курсів ми спеціально включили в цю добірку.
Безкоштовні уроки по темі «Комп’ютерне зір» від Udemy
Вісім коротких уроків відмінно підійдуть для швидкого занурення в тему. Наприклад, ви дізнаєтеся, як влаштована навігація робомобілю, що таке метод Віоли-Джонса, як працюють надточні і генеративно-змагальні нейромережі, а також познайомитеся з бібліотекою OpenCV і зрозумієте, як використовувати її для розпізнавання осіб.
Глибоке навчання і комп’ютерний зір від А до Я: OpenCV, SSD і GAN від Udemy
На курсі ви освоїте базові інструменти комп’ютерного зору і зможете не тільки створити додаток для розпізнавання осіб і об'єктів, але також генерувати зображення за допомогою GAN — генеративно-змагальних нейромереж.
Комп’ютерний зір з OpenCV і Python від Udemy
Ви дізнаєтеся, як глибоке навчання допомагає комп’ютерові розпізнавати образи, а також створите сервіси для розпізнавання і відстеження об'єктів. Для навчання стане в нагоді знання Python, але й самих базових навичок буде достатньо. До речі, купувати дороге ПЗ не доведеться — в процесі навчання ви будете використовувати безкоштовні інструменти з відкритим кодом.
Нейронні мережі та комп’ютерний зір від Stepik
Курс склали експерти Samsung AI Center, які на практиці застосовують технології комп’ютерного зору. На програмі ви побудуєте свою першу нейронну мережу, а також вивчите архітектуру та алгоритми її налаштування. Автори стверджують, що курс підійде навіть старшокласникам, але якщо у вас немає досвіду роботи з системами машинного навчання, то на освоєння матеріалів краще закласти більше часу.
Комп’ютерний зір від Coursera
Курс від Московського фізико-технічного інституту розбирає прикладні завдання з різних областей дата-аналітики, включаючи аналіз тексту, інформаційний пошук, колаборативну фільтрацію і рекомендаційні системи, бізнес-аналітику і прогнозування часових рядів. Більшість викладачів — це колишні або нинішні працівники Яндекса.
Основи комп’ютерного зору з Watson і OpenCV від edХ
На цьому вступному курсі ви навчитеся обробляти і класифікувати зображення, слідуючи гайдлайнам від співробітників IBM, а також освоїте базові принципи роботи з Python, Watson AI і OpenCV
Обробка зображень за допомогою Python. Безкоштовний курс від DataCamp
Відмінне доповнення до курсу від edX — чотири модуля по обробці та маркування зображень. Програма сфокусована не стільки на комп’ютерному зорі, скільки на обробці візуалу (image processing). Наприклад, ви навчитеся покращувати якість медичних знімків, збільшувати фотографії в кілька разів, видаляти окремі об'єкти і розпізнавати патерни за допомогою сучасних інструментів на базі машинного навчання.
Станьте експертом з комп’ютерного зору з Udacity
На заняттях ви навчитеся працювати з системами комп’ютерного зору, які вже застосовуються в багатьох галузях — від виробництва до автотранспорту. Партнерами курсу виступили Nvidia, Deep Learning Institute і компанія Affectiva, яка створює ПЗ для розпізнавання емоцій по фото і відео. Плюс навчання на Udacity — це додаткова допомога з працевлаштуванням після закінчення курсу. Вам допоможуть поліпшити резюме і сторінку на LinkedIn, а також організують рев’ю коду на Github.
Спеціалізація «Глибоке навчання» від Coursera
Фундаментальна програма, розроблена за участю відомого експерта з машинного навчання Ендрю Ина, включає п’ять курсів з глибокого навчання. Ви дізнаєтеся, які технології насправді ховаються за абстрактним поняттям «штучний інтелект», навчитеся працювати з різними типами нейромереж і зможете застосовувати їх для розпізнавання образів, синтезу мови і музики.
Спеціалізація Ethics in the Age of AI від Coursera
Розробники часто закладають в алгоритми власні упередження і когнітивні спотворення. В результаті АІ дискримінує окремі групи людей, робить помилки і вводить в оману користувачів. Курс пояснює, що приховує «чорний ящик» штучного інтелекту і як забобони стають частиною «прошивки», а головне, радить розробникам, як цього уникнути.
На додаток до курсів ми зібрали п’ять книг по темі, які вже перекладені на російську мову
«Глибоке навчання. Занурення в світ нейронних мереж » С. І. Ніколенко, А. Кадурін, Е. В. Архангельська (2018)
Книга розкриває історію глибокого навчання, його основні компоненти, а також сучасні досягнення в цій галузі. Багато пояснень, мінімум коду і максимум користі.
«Програмування комп’ютерного зору на мові Python» Я. Е. Солем (2018)
У посібнику докладно викладені основи теорії і алгоритмів комп’ютерного зору. Ви познайомитеся з різними методами розпізнавання об'єктів, тривимірної реконструкції, обробки стереозображень, доповненої реальності і з іншими сценаріями застосування комп’ютерного зору. Книга пропонує вправи, які допоможуть перевірити знання на практиці. Недолік — «хардкорний» стиль оповіді. Зазначає один з читачів: «Якщо у вас середній бал з вищої математики був менше 4,99, то зрозуміти що-небудь в книзі буде важко».
«Обробка зображень за допомогою OpenCV» Глорія Буено Гарсія (2016)
OpenCV — це поширена бібліотека комп’ютерного зору. Вона включає сотні готових функцій обробки зображень і використовується як в сфері освіти, так і в промисловості. Посібник дає базове уявлення про бібліотеку і сценарії її застосування. У книзі детально розібрані методи обробки зображень, наприклад, ретушування, очищення від шумів і створення HDR-зображень. Непоганий варіант для знайомства з OpenCV для новачка.
«Код креативності. Як штучний інтелект вчиться писати, малювати і думати » Маркус дю Сотой (2020)
Оксфордський професор і популяризатор науки Маркус дю Сотой намагається зрозуміти, чи підвладна алгоритмам творчість. Чи можна за допомогою AI генерувати твори мистецтва і який емоційний відгук вони викликають у читача? Корисне читання в епоху, коли створені нейромережами картини вже продаються на великих аукціонах.
«IT як зброя. Які небезпеки таїть в собі розвиток високих технологій» Бред Сміт, Керол Браун (2021)
Короткий лікнеп з проблем етики в сфері високих технологій від керівників компанії Microsoft. Автори розбираються в питаннях приватності, кібербезпеки і автоматизації. Зазначає одна з читачок: «Відгук на цю книгу можна почати з визнання, що у мене прямо зараз заклеєна вебка на ноутбуці. Поки слухала [аудіокнигу], бажання відклеїти [стікер] не з’явилося».