Анализ информации

Процедура более или менее осмысленной интерпретации данных об изображении пока и вызывает основные трудности. Обычно после формирования зарисовки контуров и краев отображаемого объекта программа каким-либо образом помечает их (или очерчиваемые ими поверхности), после чего составляет описание сцены, которое можно затем проанализировать с помощью разнообразных математических методов. Такая последовательность действий позволяет компьютеру установить, из каких простейших геометрических тел (кубов, цилиндров и т. д.) состоит конкретная сцена, и определить взаимное положение их, а именно: соединены ли они между собой, поставлены один на другой, размещены так, что частично перекрывают друг друга, или расположены в каком-то другом порядке.
Однако большинство сцен, с которыми придется иметь дело роботу, состоят не из примитивных элементов, взятых из школьного курса геометрии. Обычно в сценах почти всегда присутствуют предметы сложной формы, представляющие собой совокупность простейших геометрических тел. К примеру, болт можно считать цилиндром, на одном торце которого имеется диск, гайку — коротким цилиндром с отверстием, проходящим вдоль его оси, и т. д. Чтобы компьютер мог разобраться в такого рода описаниях и идентифицировать предметы, требуется программа другого типа, составленная с использованием так называемых семантических сетей.
Чтобы понять принцип действия семантических сетей, рассмотрим, какими знаниями пользуемся мы сами, если нам необходимо различить объекты разных видов. Возьмем, например, домашнюю посуду. Блюдце, скажем, можно представить как диск с мелким круглым углублением посередине, в которое ставится чашка. В свою очередь суповую тарелку можно описать как диск со значительным углублением в центре и с плоской кольцевой кромкой. Одно из отличий сахарницы от чашки состоит в том, что последняя должна быть снабжена ручкой, а чашку не спутаешь с молочником, поскольку у того обязательно должен быть разливочный носик.
Любое из приведенных описаний можно представить в виде семантической сети. Для большинства объектов, которые придется идентифицировать роботу, указанные геометрические структуры требуется в значительной степени детализировать, поскольку компьютеру необходимо различать объекты, во многом сходные друг с другом, но имеющие хотя бы по одному ярко выраженному отличительному признаку. На практике для создания семантической сети в систему вводятся описания не только тех предметов, которые она должна распознавать, но и сходных, хотя и не абсолютно идентичных, объектов. Подобный процесс «обучения» позволяет обрабатывающей программе подготавливать свои собственные правила, или обобщения.
Проблема обобщения, т. е. описания объекта не на основе какого-то одного неизменного подхода, а исходя из всех возможных точек зрения, имеет исключительно важное значение. Робот, способный распознавать только те компоненты монтируемого им механизма, которые предварительно размещены и ориентированы строго определенным образом, ненамного эффективнее абсолютно «слепого» робота. Данное обстоятельство обусловлено тем, что для подачи компонентов к роботам обоих этих типов приходится использовать такие сложные автоматизированные системы, как установки с периодической подачей, и даже прибегать к помощи рабочих.
Сложности, связанные с анализом сцен, могут, кроме того, возникать в тех случаях, когда позиции или взаимное положение объектов в сценах меняются раз от разу. Чтобы компьютер мог интерпретировать сцены, состоящие из ряда, простых объектов (например, тарелку с несколькими частично накрывающими друг друга печеньями), потребуется обработать большой объем чисто числовой информации, а программистам придется проявить значительную изобретательность. Если нам нужно взять из тарелки печенье из непросеянной муки, частично накрытое имбирным печеньем, то вряд ли мы будем заниматься теми геометрическими расчетами, которые пришлось бы выполнить роботу при решении аналогичной задачи.
При анализе сцен, содержащих простые блоки различных типов, можно пользоваться правилами, которые позволяют выяснять, перекрываются ли объекты или, скажем, какая вершина блока находится ближе всего к видеокамере. Если, например, имеет место перекрытие объектов, то контуры обязательно должны иметь вид Т-образных соединений, а точки, где сходятся заостренные на концах линии, обозначают вершины на задней стороне объекта и т. д.
$IMAGE1

«Робот-мясник», разработанный фирмой ASEA по заказу Шведского института мясной промышленности, оснащен датчиками визуальной информации, которые определяют нужные размеры туши, прежде чем циркулярная пила начнет ее разделывать.
В ряде случаев можно упростить задачи, стоящие перед компьютером, пойдя на «хитрость». Например, проблема точного отображения искривленной поверхности (подобная проблема возникает, когда робот осуществляет сварку стыка двух таких поверхностей) оказывается гораздо менее сложной для системы машинного зрения, если воспроизводимая сцена освещается пространственно-модулированным светом. Пространственная модуляция реализуется путем пропускания светового излучения через решетку, в результате чего на отображаемой поверхности появляются светлые и темные полосы; если ширина темных полос достаточно точно измеряется, то компьютер может пользоваться ими как координатами для расчетов, позволяющих четко определить форму поверхности. Еще один широко распространенный метод предварительной подготовки исходных объектов заключается в простановке перекрестий (типа прицельных меток) в определенных местах на поверхности объекта; такие метки служат точками отсчета для робототехнической зрительной системы, подобно тому как стрелки на карте города позволяют нам ориентироваться в лабиринте улиц.
Однако следует отметить, что подобные методы вряд ли приведут к созданию тех гибких, «интеллектуальных» систем машинного зрения, которые нужны для универсальных роботов. Речь идет о роботах, способных реагировать на ситуации и выполнять функции, примерно эквивалентные тем, с которыми даже неквалифицированный рабочий справляется практически не задумываясь. Проблема здесь, по всей видимости, состоит в том, что мы в своей повседневной жизни не пользуемся теми правилами, в соответствии с которыми осуществляются выделение контуров изображения, анализ сцен и построение семантических сетей. Например, увидев в поле животное, мы не будем выяснять, есть ли у него рога, раздвоены ли его копыта, мохната ли шерсть и т. д., для того чтобы определить, корова перед нами или овца. Мы хорошо знаем, как выглядят эти животные и узнаем их сразу. Вполне вероятно, что в действительности наше зрительное восприятие формируется на основе образов, а не блоков информации, которые нужно расшифровывать по всем правилам.

Примеры изображений, получаемых с помощью системы IVS-100 фирмы «Аналог дивайсез» (шт. Массачусетс). Система способна контролировать точность соблюдения размеров и отсутствие дефектов в детали (верхний снимок) и передавать данные о ее положении и пространственной ориентации на манипулятор. Схемная плата (нижний снимок) проверяется на наличие конструктивных механических дефектов и т. д.