Иллюстрация: Арина Истомина

Как видят и воспринимают мир машины

Можете ли вы отличить кота от собаки? А человека от чашки кофе? Вероятно, для вас это не составит большой проблемы и не займет много времени. Зато искусственному интеллекту придется проделать серьезную работу: проанализировать и запомнить сотни тысяч фотографий. Какой бы сложной ни была подобная задача, сегодня роботы справляются с ней все точнее. Робот, ориентирующийся в пространстве вокруг себя и способный отличить один предмет от другого, уже не образ из научной фантастики, а реальность: у нас есть беспилотные автомобили и даже роботизированная хирургия. Какие технологии помогают машинам видеть и воспринимать наш мир? По просьбе сверхновой в этом вопросе разобралась Лена Николаева.

Машинное видение

Машинное видение — это технология для анализа изображений, освобождающая человека от монотонных задач. Например, до ее появления работникам сборочных линий приходилось осматривать каждую деталь на предмет брака. Несложно догадаться, что это занимало довольно много времени. Теперь же такого рода задачи выполняют машины — экономя силы и время своих живых коллег.

Как работает?
Систему можно рассматривать как своеобразные «глаза» машины. Когда срабатывает датчик движения, компьютер понимает, что в поле его зрения обнаружен объект. Тут же включается источник света — это очень важно для машинного видения: предмет должен хорошо просматриваться во всех деталях. Параллельно «просыпается» камера для захвата изображения. Дальше в дело вступает фреймграббер (плата захвата изображения, то есть устройство для оцифровки) и переводит полученную картинку в цифровой формат. Файл сохраняется на компьютере, а затем анализируется с помощью специальной программы. ПО сравнивает файл с изображениями из базы данных и выявляет дефекты. Если с продуктом что-то не так, деталь не идет дальше по производственной линии, а возвращается для дальнейшей проверки, за которую отвечает уже человек.

Компьютерное зрение

Компьютерное зрение работает на основе искусственного интеллекта. Это технология анализа фото, видео и других типов цифровых данных, полученных с датчиков или детекторов движения. При этом научить машину «видеть» не так просто. Если младенец обычно способен узнать собаку, увидев животное четыре-пять раз, то компьютеру нужны массивы данных, состоящие из сотен тысяч изображений.

Как работает?
Одна из популярных гипотез в нейронауке гласит: чтобы декодировать отдельные объекты, наш мозг полагается на паттерны. Именно эта идея лежит в основе компьютерного зрения. Машина получает изображение, обрабатывает его — разделяет на важные и второстепенные элементы — и анализирует ключевые параметры объекта.

Эту технологию часто используют в медицинской диагностике — например, для анализа рентгеновских снимков, МРТ и маммографии. Также компьютерное зрение встроено в поисковик Google и Apple Photos — оно позволяет анализировать и маркировать фотографии в соответствии с объектами, изображенными на снимках.

Иллюстрация: Арина Истомина

Радар (радиолокаторы)

Радиолокаторы излучают и регистрируют отраженный радиосигнал, чтобы определить удаленность, скорость движения и геометрические параметры объекта. По сравнению с другими системами локации у радаров есть важное преимущество: радиоволны могут распространяться в однородной среде практически в любое время года, вне зависимости от природных условий (например, плохой погоды).

Как работает?
Понять, как работает технология, проще всего на примере самолета. Авиарадар можно сравнить с фонариком, который вместо света использует радиоволны. Самолет посылает луч и «прислушивается», есть ли неожиданные отражения от объектов. Если они есть, самолет скорректирует маршрут.

Лидар

Технология Лидар (LiDAR — Light Detection and Ranging, англ. «обнаружение и определение дальности с помощью света») была разработана в начале 1960-х — практически сразу после изобретения лазера. В 1971 году Лидар использовали во время миссии «Аполлон-15» для создания карты лунной поверхности. Сегодня технология применяется в беспилотных автомобилях и робототехнике.

Как работает?
Можно интуитивно догадаться, что принцип лидара схож с радаром. Разница в том, что первый использует волны оптического диапазона, а второй — сверхвысокочастотные радиоволны. Лидар рассчитывает, сколько времени нужно свету, чтобы попасть на поверхность объекта, а затем отразиться в сканере. Технология позволяет генерировать примерно миллион импульсов в секунду, которые потом могут быть преобразованы в трехмерную визуализацию.

Благодаря Лидару можно примерно понять, что из себя представляет изучаемый объект. Технология часто применяется в беспилотных автомобилях — она быстро идентифицирует окружающие предметы и отслеживает скорость движения. При этом Лидар пока не умеет считывать светофоры и дорожные знаки, но тут выручат данные с GPS и камер.

Сонар (гидролокатор)

Сонар (Sound Navigation and Ranging) — это технология обнаружения объектов с помощью акустического излучения. По сути, технологию изобрела сама природа — например, летучие мыши спокойно передвигаются в темноте благодаря ультразвуковым волнам.

Как работает?
Сонар посылает импульсы звуковых волн: достигнув объекта (например, рыб), они отражаются. Сонар измеряет, сколько времени на это нужно. С помощью полученных данных можно сделать вывод о твердости подводных объектов — мягкие, с низкой плотностью, возвращают более слабый сигнал, жесткие, с высокой плотностью — более сильный. Технологию часто применяют для измерения глубин и поиска косяков рыб.

Иллюстрация: Арина Истомина

Умная кожа

Тактильный опыт доступен человеку благодаря специальным сенсорным клеткам кожи, механорецепторам. Они преобразуют механические воздействия на тело в сигналы, которые мозг считывает как прикосновения. Помимо этого есть терморецепторы, определяющие температуру, и ноцицепторы, отвечающие за восприятие боли. Командная работа этих клеток дарит нам набор самых разных ощущений, некоторые из которых учат нас осторожности и внимательности — так, например, человек не станет браться за горячую сковороду голыми руками, опасаясь болезненного ожога. Технология умной кожи пытается повторить эту систему.

Как работает?
«Кожа» роботизированного кончика пальца сделана из гибкой намагниченной пленки. Поддерживающая «кость» — это печатная плата, на которой установлены датчики, отслеживающие магнитное поле. Если вы приложите ластик к кончику пальца, «кожа» вдавится, и магнитное поле пальца слегка изменится — сенсоры проанализируют, в каком именно месте случился контакт с объектом.

Технология также улавливает скольжение объекта — снова через магнитное поле. Представьте, что вы набираете бутылку с водой. По мере того как емкость наполняется, хватку приходится слегка усиливать, чтобы сила тяжести не вырвала бутылку у вас из рук. Для робота такая логика не очевидна. Зато датчики умной кожи могут передать сигнал о том, что объект сдвинулся (когда бутылка наполняется) — и хватка механической руки становится крепче.

«Электронный нос»

Обоняние устроено даже сложнее, чем зрение или слух. В носу находится множество разных рецепторных клеток, и у каждой — свой набор чувствительных рецепторов. При контакте с определенным возбудителем рецептор активируется и передает сигнал нейронам. Мозг интерпретирует и запоминает полученный паттерн. Для электронного носа важно повторить тот же алгоритм, но сделать это непросто, учитывая, сколько вокруг нас разнообразных запахов.

Как работает?
Сейчас у создателей «электронных носов» есть два варианта. Одни пытаются добиться высокой специфичности датчиков — чтобы каждый из них срабатывал только на свой аромат. Другие стараются воспроизвести принципы работы мозга и используют менее точные датчики, которые реагируют на группы похожих молекул — так, совместное срабатывание нескольких датчиков позволяет составить «след» запаха, который машина запоминает и может идентифицировать в будущем. Стандартный «электронный нос» включает в себя приспособление для сбора проб воздуха. Проба воздуха с летучими химическими соединениями затем переносится в блок с датчиками, откуда сигналы передаются в компьютер.