Методы машинного зрения интегрируются с искусственным интеллектом и находят всё большее применение в промышленности.
Методы машинного, или компьютерного, зрения (computer vision — CV) сегодня используются во многих отраслях — горной добыче, строительстве, фармацевтике, АПК и т. д. Преимущества его использования очевидны — автономия, снижение производственных рисков, фиксированный объём оборудования, не требующего постоянной замены.
Интерес российских производств к этой сфере подтверждают итоги мониторинга развития и распространения искусственного интеллекта (ИИ), проведённого Институтом статистических исследований и экономики знаний НИУ ВШЭ. Изучив информацию о 2,3 тыс. российских организаций, специалисты пришли к выводу, что продукты на основе компьютерного зрения интересуют большинство респондентов (78%). Международная маркетинговая компания Mordor Intelligence оценила объём мирового рынка компьютерного зрения в 2024 году в $17,2 млрд. Через 5 лет, по прогнозу аналитиков, он вырастет более чем вдвое — до $38 млрд.
На ошибках учатся
Сама система состоит из трёх основных элементов — оборудование (камеры, графические процессоры), серверная инфраструктура и специальное программное обеспечение (модели машинного обучения, алгоритмы обработки фотографий).
Для машинного зрения в основном используются IPv — камеры наружного видеонаблюдения. А также высокоскоростные камеры, способные снимать 10–40 тыс. кадров в секунду. Современные устройства способны детектировать фракции до 1 микрометра, позволяя контролировать состав материала. В последние годы российским компаниям удалось переориентироваться на закупку оборудования китайского производства и проблем с поиском и подбором камер нет.
Серверная инфраструктура — ключевой (и зачастую самый затратный) элемент в системе. Перед ним стоит задача обрабатывать большой массив поступающих данных — фотографий высокого разрешения. Использование нейронных сетей может снизить нагрузку на сервер. Существуют кейсы, когда на этапе обработки кадра программа отображает в высоком разрешении только те снимки, где найдены дефекты, не соответствующие установленной СV–модели. Это позволяет не копить большие массивы данных. В результате каждая новая модель нейросети, обучаясь в процессе, всё лучше и лучше ищет дефекты. В целом интеграция с областями искусственного интеллекта является на сегодняшний день одной из основных тенденций CV.
Тонкие настройки
Как внедряются технологии CV на российских предприятиях, подробно обсуждалось на прошедшей в Петербурге конференции по видеотехнологиям VideoTech от JUG Ru Group.
Руководитель департамента систем машинного зрения и нейросетей Nord Clan Пётр Хвесюк рассказал, что в его компании существует специальная студия, в которой имитируется конвейерная лента со всеми необходимыми вариациями оборудования — подсветок, датчиков, энкодеров и камер, требующихся для выполнения техзадания заказчика. Воссоздание производственной среды в условиях лаборатории — обязательное условие, поскольку зафиксировать все сценарии появления тех или иных объектов контроля в естественных условиях не всегда представляется возможным.
“
"Для того чтобы обучить нейросети, необходимо собрать dataset — это минимум 50 тыс. фотографий. В отсутствие данных в реальности мы можем синтезировать их в лаборатории. Тем самым для нейронной сети мы готовим всё многообразие всевозможных данных", — объяснил Пётр Хвесюк.
Общую цену внедрения разработки на реальном предприятии посчитать сложно. Самая дешёвая версия — "лицензионная коробка" — обеспечит параметризацию объектов по заготовленному шаблону. В этом случае, по оценке эксперта ГК "Юзтех" Ильи Смирнова, сумма варьируется от 8 млн до 15 млн рублей. По большей части она зависит от объёмов необходимого оборудования. Персонализированное ПО будет стоить значительно дороже. "Если выбрана кастомная разработка, заказ может выйти в 15–20 млн реальной цены. Сервер, который хорошо работает с одной высокоскоростной камерой, в нынешних реалиях стоит 3–4 млн рублей. При цене одной высокоскоростной камеры 250 тыс. объектив может доходить до 100 тыс. Если с IPv–камерами работать, то их цена доходит до 100 тыс.", — пояснил Илья Смирнов. Он также добавил, что окупаемость таких проектов составляет около 2 лет.
По опыту Nord Clan, заказчики ориентируются не столько на стоимость внедрения, сколько на полученный экономический эффект, который можно измерить во вполне конкретных цифрах. Например, внедрение системы машинного зрения на заводе–производителе минеральной ваты позволяет экономить около 15 млн рублей в год. Специалистам больше не нужно вручную отбраковывать дефектную продукцию. А значит, они могут выполнять другую работу, что в итоге повышает производительность труда.
Что касается времени, тут нужно учитывать два параметра — настройка ПО и установка оборудования. Для обучения нейросети может хватить и месяца, если проект простой и нет экзотичных дефектов. Однако в зависимости от сложности задачи разработка всех патчей, dataset и настройка CV–модели могут занимать до года.
Умное "железо"
Технический директор Viasat Tech Евгений Ильюшин говорит, что рубежным для развития технологий ИИ можно считать 2017 год. Именно тогда появилась архитектура Transformer, которая легла в основу современных искусственных нейронных сетей. Этому способствовал механизм внимания (self–attention), который принимает на вход последовательность данных и вычисляет, как элементы этой последовательности зависят друг от друга.
Сразу после этого, в 2018 году, появилась первая модель GPT. Применение механизма внимания позволило решать задачи сразу в двух доменах (типах данных) — "текст" и "изображения", что ознаменовало начало развития мультимодального ИИ.
“
"Мы видим, как много задач компьютер стал решать так же, как человек, или даже лучше. И это произошло буквально за последние 5 лет. Некоторые задачи — за последние год–два. Это серьёзно", — подчёркивает Евгений Ильюшин.
Использование технологий ИИ — это не мода, а уже обязательный атрибут современного бизнеса. Ожидается, что в ближайшие годы технологии данного класса будут интегрированы в большинство сервисов.
"Летом была конференция, на которой Microsoft представила целую линейку вычислителей от различных производителей, которые содержат ядра общего и специального назначения, предназначенные для нейросетевых вычислений. Компания Apple подобные изменения в своих чипах сделала ещё раньше. Эти компании и Google объявили о существенных изменения в своих экосистемах. Теперь доминирующими там стали технологии ИИ, поддержка которых, как мы видим, реализована в полной мере и со стороны “железа”. К чему это всё? К тому, что сейчас все основные игроки на рынке фактически принуждают интегрировать технологии ИИ в цифровые продукты", — резюмирует Евгений Ильюшин.