Как искусственный интеллект обучается интерпретации визуального контента в условиях пандемии
2020 год заставил каждую отрасль переосмыслить, как двигаться вперед в свете пандемии COVID-19: движения за гражданские права, год выборов и множество других важных новостей. На человеческом уровне нам пришлось приспособиться к новому образу жизни. Мы начали принимать эти изменения и приспосабливаеться к новым условиям пандемии. Искусственный интеллект также пытается не отставать от людей.
Проблема обучения ИИ в 2020 году заключается в том, что мы внезапно изменили наши социальные и культурные нормы. Истины, которым обучены алгоритмы, часто уже не соответствуют действительности. Что касается визуального ИИ, мы просим его немедленно интерпретировать новый способ, которым мы живем, с обновленным контекстом, которого у него еще нет.
Алгоритмы все еще приспосабливаются к новым визуальным очередям и пытаются понять, как их точно идентифицировать. По мере того как визуальный ИИ догоняет живых людей, нам также необходимо возобновлять рутинные обновления в процессе обучения ИИ, чтобы можно было исправить неточные наборы данных для обучения и существующие модели с открытым исходным кодом.
Модели компьютерного зрения изо всех сил пытаются соответствующим образом пометить изображения новых сцен или ситуаций, в которых мы находимся в эпоху COVID-19. Акценты сместились. К примеру, скажем, есть изображение отца, работающего дома, в то время как его сын играет. ИИ все еще классифицирует его как «отдых» или «расслабление». Это не означает, что это «работа» или «офис», несмотря на тот факт, что работа дома рядом с детьми является очень распространенной реальностью для многих семей сейчас.
На техническом уровне у нас физически разные пиксельные изображения нашего мира. В Getty Images ИИ обучен «видеть». Это означает, что алгоритмы могут идентифицировать изображения и классифицировать их на основе пиксельной структуры этого изображения и решать, что оно включает. Быстрое изменение образа нашей повседневной жизни означает, что мы также меняем то, что влечет за собой категория или тег (например, «очистка»).
Например, теперь чистка может включать в себя вытирание поверхностей, которые уже визуально выглядят чистыми. Алгоритмы ранее учили, что для изображения уборки необходим беспорядок. Теперь это выглядит совсем по-другому.
Еще одна проблема для ИИ сейчас заключается в том, что алгоритмы машинного обучения все еще пытаются понять, как идентифицировать и классифицировать лица с помощью масок. Лица обнаруживаются как только верхняя половина лица становится видна, или два лица — одно с маской, а второе только с глазами. Это создает несоответствия и препятствует точному использованию моделей обнаружения лиц.
Одним из путей развития в данном случае является переобучение алгоритмов, чтобы они работали лучше, когда им предоставляется только верхняя часть лица (над маской). Проблема с маской похожа на классические проблемы с распознаванием лиц, например, когда кто-то носит солнцезащитные очки. Теперь маски являются обычным явлением.
Это показывает, что моделям компьютерного зрения еще предстоит пройти долгий путь, прежде чем они действительно смогут «видеть» в нашем постоянно меняющемся социальном ландшафте. Способ противостоять этому явлению — создать надежные наборы данных. Затем мы можем обучить модели компьютерного зрения учитывать множество различных способов, которыми лицо может быть закрыто или затенено.
На данный момент параметры того, что алгоритм видит как лицо расширяются — будь то человек, носящий маску в продуктовом магазине, медсестра, носящая маску как часть повседневной работы, или человек, который скрывает лицо по религиозным соображениям.
Поскольку создаётся контент, необходимый для создания надежных наборов данных, мы должны осознавать потенциальное увеличение непреднамеренного смещения. Хотя некоторое смещение всегда будет существовать в ИИ, теперь мы видим несбалансированные наборы данных, отображающие наш новый нормальный уровень.
Это также может быть результатом блокировки на дому, когда фотографы имеют ограниченный доступ к сообществам, отличным от их собственного дома и не могут разнообразить свои сюжеты. Также это может быть связано с этнической принадлежностью фотографов, предпочитающих снимать этот объект. Или из-за уровня воздействия COVID-19 на разные регионы. Независимо от причины наличие такого дисбаланса приведет к тому, что алгоритмы смогут более точно обнаружить белого человека в маске, чем любой другой расы или этническая принадлежность.
Исследователи данных и те, кто создает продукты с моделями, несут повышенную ответственность за проверку точности моделей в свете изменений социальных норм. Регулярные проверки, обновления данных и моделей обучения являются ключом к обеспечению качества и надежности ИИ — теперь, как никогда ранее. Если выходные данные являются неточными, ученые могут быстро их идентифицировать и исправить.
Стоит также упомянуть, что наш текущий образ жизни здесь, чтобы остаться в обозримом будущем. Из-за этого мы должны быть осторожными с наборами данных с открытым исходным кодом, которые мы используем в учебных целях. Наборы данных, которые могут быть изменены, должны меняться. Модели с открытым исходным кодом, которые не могут быть изменены, должны предупреждать об отказе от ответственности, поэтому ясно, какие проекты могут быть негативно затронуты из устаревших данных обучения.
Идентификация нового контекста, который мы просим систему понять, — это первый шаг к продвижению визуального ИИ вперед. Тогда необходимо больше контента. Больше изображений окружающего нас мира и его разнообразных перспектив. По мере того, как собирается новый контент, оцениваются и новые потенциальные ошибки и способы переобучить существующие наборы данных с открытым исходным кодом. Таким образом, все должны следить за несоответствиями и неточностями. Настойчивость и преданность делу переподготовки моделей компьютерного зрения — это ключевые моменты для алгоритмов ИИ в 2020 году.
По материалам: Techcrunch