Лекция
Привет, Вы узнаете о том , что такое иерархические системы распознавания, Разберем основные их виды и особенности использования. Еще будет много подробных примеров и описаний. Для того чтобы лучше понимать что такое иерархические системы распознавания , настоятельно рекомендую прочитать все из категории Распознавание образов.
При распознавании сложных объектов (слов устной речи; названий городов, рек, озер и пр. на географических картах; составных изображений, являющихся комбинацией неких геометрических примитивов) целесообразно использовать иерархические распознающие процедуры. В какой-то мере мы касались этого подхода при рассмотрении лингвистических (структурных) методов распознавания. Как следует из самого названия, особенностью иерархических распознающих процедур является их многоуровневость. На нижнем уровне распознаются элементарные образы (примитивы), на более высоких уровнях – составные образы. Естественно, число уровней может быть различным. Мы для определенности будем рассматривать двухуровневую систему распознавания.
Можно выделить два вида двухуровневой системы распознавания. Первый характеризуется наличием естественной временной или пространственной последовательности образов первого уровня, поступающей для распознавания на второй уровень. Например, это может быть последовательность фонем при распознавании устных слов или последовательность букв при распознавании названий на географической карте. Здесь структурные связи между образами первого уровня предельно упрощены и описываются порядком следования. Во втором виде двухуровневых систем распознавания структурные связи между образами первого уровня более сложны. Например, если буквы распознаются двухуровневой системой, то образы первого уровня (отрезки прямых, дуг) связаны друг с другом на плоскости по некоторым правилам, более сложным, чем простое следование. Именно этот вариант мы рассмотрели ранее, когда речь шла о лингвистических методах распознавания.
В данном разделе мы остановимся на случае, когда на вторую ступень распознавания поступает естественная последовательность образов первого уровня.
Итак, на вторую ступень поступает не сам объект, а результаты распознавания его элементов на первой ступени Длина таких последовательностей в общем случае различна. Алфавит образов второго уровня распознавания представляет собой множество последовательностей образов первого уровня и может быть существенно больше алфавита образов первого уровня. Например, из 32 букв русского алфавита могут состоять десятки тысяч распознаваемых слов.
Если бы распознавание образов на первом уровне было безошибочным, то распознавание на втором уровне сводилось бы к выбору из алфавита второго уровня той последовательности, которая совпала с последовательностью, полученной на выходе первого уровня распознающей системы. Однако на практике при распознавании неизбежны ошибки, в том числе и в иерархических системах, а в последних на различных уровнях распознавания. Если на первом уровне допущены ошибки, то на вход второго уровня может поступить последовательность, не совпадающая ни с одним из образов, входящих в алфавит второго уровня, тем не менее какое-то решение принимать необходимо. Возможен, например, такой детерминистский вариант. Из алфавита выбираются те последовательности, которые содержат столько же элементов, сколько их содержится в предъявляемой к распознаванию последовательности. Затем распознаваемая последовательность накладывается на отобранные из последовательности и подсчитывается число несовпадающих элементов. Отнесение к тому или иному образу осуществляется по минимуму числа несовпадающих элементов. Такой подход является в определенной мере аналогом ранее рассмотренного метода минимума расстояния до эталона, только метрики при этом используются различные.
Здесь мы полагали, что ошибки распознавания, допущенные на первом уровне, искажают лишь тот или иной элемент последовательности, не влияя на общее их число. На практике же (в частности, при распознавании устных слов) может искажаться и число элементов в последовательности: появляются лишние ложные элементы либо пропускаются объективно имеющиеся. На этот случай имеются достаточно эффективные алгоритмы распознавания, реализуемые на второй ступени иерархических систем. Их изучение выходит за рамки настоящего курса.
Рассмотрим статистический подход к распознаванию в двухуровневой иерархической системе (рис. 26). Пусть на первом уровне распознаются образы где – номер позиции в последовательности выдаваемой первой ступенью для распознавания на вторую ступень; – номер конкурирующего образа первой ступени на -й позиции в последовательности.
Дело в том, что в иерархических распознающих системах целесообразно на промежуточных ступенях не принимать окончательное решение о принадлежности объекта к тому или иному образу, а выдавать набор вариантов с их апостериорными вероятностями. Этот набор должен быть таким, чтобы правильное решение входило в него с вероятностью, близкой к единице. Если все конкурирующие решения всех позиций считать вершинами графа, ввести формально начальную и конечную вершины, соединить вершины дугами, как это показано на рис. 26, то получается ориентированный граф без циклов. Образу второго уровня распознавания соответствует вполне определенный путь в графе. На рис.26 помечен утолщенными дугами путь, соответствующий последовательности В четвертом столбце конкурирующих образов первой ступени имеется – пустая вершина, соответствующая отсутствию элементов ее столбца в последовательности. Наличие таких вершин позволяет удалять из последовательности " ложные " элементы, появившиеся в результате ошибок распознавания на первой ступени. Разумеется, при этом вершине должна быть соотнесена соответствующая апостериорная вероятность.
Рис. 26. Ориентированный граф, иллюстрирующий процесс распознавания в двухступенчатой системе
На построенный граф "накладываются" образы (последовательности) из алфавита второй ступени, и тот из них, который имеет максимальную апостериорную вероятность , принимается в качестве решения на верхней ступени.
Здесь – априорная вероятность образа – вектор параметров, характеризующих объекты на входе первой ступени распознавания.
Если говорить о последовательности букв, то каждая из них распознается независимо от других, поэтому
Описанная процедура применима в тех случаях, когда фиксирован алфавит . При обработке текстов это требование зачастую не выполняется. Так, например, дело обстоит при вводе текста со сканера и преобразовании изображения страницы с текстом в текстовый файл. Поскольку вводимые тексты имеют произвольное содержание, то зафиксировать словарь вряд ли возможно, да и нет в том особой необходимости. Ведь пользователю нужна лишь последовательность распознанных букв, знаков препинания и пробелов. Иными словами, можно было бы ограничиться только первой ступенью распознавания. Однако результаты такого распознавания требуют значительной редакторской правки, так как имеют место ошибки отнесения входных объектов к тому или иному образу. Например, при вероятности неправильного распознавания на одну машинописную страницу текстового файла будет приходиться в среднем 10-12 грамматических ошибок. Весьма плачевный уровень грамотности. Его можно повысить хотя бы частичным моделированием второй ступени распознавания. Например, не имея фиксированного алфавита слов, можно зафиксировать алфавит двухбуквенных, трехбуквенных и т.д. последовательностей. Количество таких последовательностей для каждого языка фиксировано, а их априорные вероятности (по крайней мере для двух букв) слабо зависят от словарного состава. На рис. 26 представлен граф, который можно использовать для двухбуквенных последовательностей. Использование большего числа букв ведет к существенному усложнению графа без изменения принципа расчетов, поэтому мы ограничимся рассмотрением двухбуквенного варианта.
Если бы система распознавала слова, входящие в фиксированный алфавит , то записать априорную вероятность слова можно было бы следующим образом:
Если ограничиться использованием априорных вероятностей только двухбуквенных сочетаний, то
.
Вместо произведения можно оперировать суммой, если перейти от вероятностей к их логарифмам.
Итак, если каждой дуге приписать длину, равную то наиболее вероятной последовательности букв будет соответствовать путь максимальной длины на графе. Этот путь нетрудно найти методами, известными в теории графов.
Эффективность такого подхода для исправления ошибок первой ступени распознавания за счет языковой избыточности подтверждена практическими испытаниями. Да это в некоторых случаях ясно и умозрительно. Например, при распознавании последовательности букв рассмотренный алгоритм уж точно обнаружит, а в большинстве случаев и исправит такие ошибки, как "гласная – твердый (мягкий) знак", "пробел – твердый (мягкий) знак", "мягкий знак – э" и ряд других.
Рассмотрим такую нервную сеть, которая на входе имеет много рецепторов, а на выходе — всего один эффектор, так что нервная сеть делит множество всех ситуаций на два подмножества: ситуации, вызывающие возбуждение эффектора, и ситуации, оставляющие его в покое. Задачу, решаемую в этом случае нервной сетью, называют задачей распознавания (имеется в виду распознавание принадлежности ситуации к тому или иному множеству). Животному в борьбе за существование приходится сплошь и рядом решать задачу распознавания, например: отличить ситуацию, опасную для жизни, от неопасной, отличить съедобные предметы от несъедобных и т. п. Это только наиболее яркие примеры, детальный анализ поведения животного приводит к выводу, что для выполнения сколь-нибудь сложного действия оно должно непрерывно решать множество «мелких» задач распознавания.
Множество ситуаций в кибернетике называют понятием1. Чтобы лучше уяснить, как кибернетическое понимание слова «понятие» связано с его обычным пониманием, допустим, что рецепторы рассматриваемой нами нервной сети — это светочувствительные нервные окончания сетчатки глаза или же вообще какие-то светочувствительные точки на экране, подающем информацию в нервную сеть. Рецепторы возбуждаются тогда, когда соответствующий участок экрана освещен (точнее, когда его освещенность больше некоторой пороговой величины), и остаются в состоянии покоя — в противном случае. Если на месте каждого возбужденного рецептора представить себе светлую точку, а на месте каждого невозбужденного — темную, то получится картина, которая отличается от изображения, падающего на экран, лишь своей дискретностью (т. е. тем, что она распадается на отдельные точки) и отсутствием полутонов. Будем считать, что точек (рецепторов) на экране достаточно много, а изображения, которые могут оказаться на экране, — их мы будем называть «картинками» — предельно контрастны, т. е. состоят лишь из белого и черного цвета. Тогда каждая ситуация соответствует определенной картинке.
Рис 2.1. Картинки, представляющие различные понятия
Согласно традиционной (аристотелевской) логике, когда мы думаем или говорим о какой-то определенной картинке (например, о той, которая находится в левом верхнем углу на рис. 2.1), то мы имеем дело с единичным понятием. Кроме единичных понятий, есть еще общие, или абстрактные, понятия. Например, мы можем думать о пятне вообще — не о каком-либо конкретном пятне (допустим, из числа изображенных в верхнем ряду на рис. 2.1), а о пятне как таковом. Точно так же мы можем обладать абстрактным понятием прямой линии, контура, четырехугольника, квадрата и т. д.2
Однако что значит «обладать абстрактным понятием»? Как можно проверить, обладает ли кто-то данным абстрактным понятием, например понятием «пятно»? Очевидно, только одним способом: предложить испытуемому серию картинок и попросить, чтобы он о каждой из них сказал, пятно это или нет. Об этом говорит сайт https://intellect.icu . Если окажется, что он называет пятном только те и все те картинки, на которых «изображено пятно» (это уже с точки зрения испытующего), то, значит, понятием пятна он обладает. Иначе говоря, мы должны проверить его способность распознавать принадлежность любой предъявленной картинки к множеству картинок, которые мы описываем словом «пятно». Итак, абстрактное понятие в обычном смысле слова — во всяком случае когда речь идет о чувственно воспринимаемых образах — совпадает с введенным нами кибернетическим понятием понятия как множества ситуаций. Поэтому задачу распознавания называют также, желая сделать термин более конкретным, задачей распознавания образов (имеется в виду «обобщенных» образов) или задачей распознавания понятий (имеется в виду распознавание частных случаев понятий).
На рис. 2.2 приведена схема классификатора, организованного по иерархическому принципу. Иерархия вообще — это такое построение системы из подсистем, когда каждой подсистеме приписывается определенное целое число, называемое ее уровнем, причем взаимодействие подсистем существенно зависит от разности их уровней, подчиняясь некоторому общему принципу. Обычно этот принцип — передача информации в определенном направлении (сверху вниз или снизу вверх) от данного уровня к следующему. В нашем случае рецепторам приписывается нулевой уровень, и информация распространяется снизу вверх. Каждая подсистема первого уровня связана с некоторым числом рецепторов, и ее состояние определяется состояниями соответствующих рецепторов. Точно так же каждая подсистема второго уровня связана с рядом подсистем первого уровня и т. д. На высшем (на схеме — четвертом) уровне находится одна выходная подсистема, которая и выносит окончательный приговор о принадлежности ситуации к тому или иному классу.
Рис. 2.2. Иерархия классификаторов
Из этого определения, которое трудно назвать шедевром ясности мысли, можно все-таки заключить, что общие понятия, которые образуются не путем перечисления единичных объектов, входящих в него, а путем указания ряда признаков, объявляемых существенными, и отвлечения от остальных (несущественных) признаков, можно также считать абстрактными. Мы будем рассматривать только такие общие понятия и будем называть их также абстрактными. Например, абстрактный треугольник — это любой треугольник, независимо от величины его сторон и углов и его положения на экране, следовательно, это абстрактное понятие. Такое употребление термина «абстрактный» имеет место в обиходе, а также в математике. В то же время, согласно учебнику логики, «треугольник», «квадрат» и т. п. суть конкретные общие понятия, а вот «треугольность» и «квадратность», которые им свойственны, это понятия абстрактные. По существу, здесь в ранг логического возводится чисто грамматическое различие, ибо даже с точки зрения сторонника последнего варианта терминологии обладание абстрактным понятием равнозначно обладанию соответствующим общим понятием.
Все подсистемы промежуточных уровней также являются классификаторами. Непосредственным входом k-го уровня служат состояния классификаторов k-1-го уровня, совокупность которых является для него ситуацией, подлежащей классификации. В иерархической системе, содержащей более одного промежуточного уровня, можно выделить иерархические подсистемы, охватывающие несколько уровней. Например, в качестве входных ситуаций для классификатора третьего уровня можно рассматривать состояния всех связанных с ним классификаторов первого уровня. Иерархические системы можно достраивать «вширь» и «ввысь» подобно тому, как из восьми кубиков можно сложить кубик с вдвое большим ребром, а из этих кубиков — еще больший кубик и т. д.
Так как с каждым классификатором связана система понятий, иерархия классификаторов порождает иерархию понятий. Передаваясь от уровня к уровню, информация преобразуется, выражаясь в терминах все более «высокопоставленных» понятий. При этом количество передаваемой информации постепенно уменьшается за счет отбрасывания информации, несущественной с точки зрения задачи, поставленной перед «верховным» (выходным) классификатором.
Поясним этот процесс на примере картинок, изображенных на рис. 2.1. Пусть поставлена задача распознавания «домиков». Введем два промежуточных понятийных уровня. На первом разместим совокупность понятий «отрезки», на втором — понятия «многоугольники». Понятие «домик» окажется на третьем уровне.
Под понятием «отрезки» мы понимаем совокупность понятий «отрезок с координатами концов x1, y1 и x2, y2», где числа x1, y1, x2, y2 могут принимать любые совместимые с устройством экрана и системой координат значения. Чтобы быть конкретнее, допустим, что экран содержит 1000 × 1000 светочувствительных точек. Тогда координатами могут служить десятиразрядные двоичные числа (210 = 1024 > 1000), а отрезок с заданными концами требует для своей характеристики четыре таких числа, т. е. 40 двоичных разрядов. Всего, следовательно, существует 240 таких понятий. Их-то и должны различать классификаторы первого уровня.
Не надо думать, что отрезок с заданными концами — конкретное понятие, т. е. множество, состоящее из одной картинки. Классифицируя предъявленную картинку как отрезок с заданными концами, мы отвлекаемся от незначительных искривлений линии, вариаций ее толщины и т. п. (см. рис. 2.1). Критерий того, какие отклонения от нормы нам следует считать незначительными, может устанавливаться по-разному. Сейчас это нас не интересует.
Каждый классификатор первого уровня должен иметь на выходе подсистему из 40 двоичных разрядов, на которых «записаны» координаты концов отрезка. Сколько нужно классификаторов? Это зависит от того, какие картинки ожидаются на входе системы. Допустим, что для описания любой картинки достаточно 400 отрезков. Значит, достаточно 400 классификаторов. Разделим этот экран на 400 квадратов (50 × 50 точек) и свяжем с каждым квадратом классификатор, который будет фиксировать ближайший к нему, в каком-то смысле (детали разделения труда между классификаторами несущественны), отрезок. Если отрезка нет, пусть классификатор принимает какое-то стандартное «бессмысленное» состояние, например: все четыре координаты равны 1023.
Если предъявить нашей системе картинку, на которой изображено сколько-то отрезков, то соответствующее число классификаторов первого уровня укажет координаты концов отрезков, а остальные примут состояние «нет отрезка». Это и есть описание ситуации в терминах понятий «отрезки». Сравним количество информации на нулевом и на первом уровнях. На нулевом уровне нашей системы 1000 × 1000 = 106 рецепторов получают информацию в миллион бит. На первом уровне 400 классификаторов, каждый из которых содержит 40 двоичных разрядов, т. е. 40 бит информации, всего 16 000 бит. При переходе на первый уровень количество информации уменьшилось в 62,5 раза. Система сохранила ту информацию, которую она сочла «полезной» и отбросила информацию «бесполезную» с ее точки зрения. Относительность этих понятий видна из того, что если предъявленная картинка не соответствует иерархии понятий системы распознавания, то реакция системы будет неправильной или просто бессмысленной. Если, например, на картинке более 400 отрезков, то не все отрезки будут зафиксированы, а если предъявить картинку с пятном, то реакция на нее будет такая же, как на пустую картинку.
Совокупность понятий «многоугольники», занимающую второй уровень иерархии, мы делим на две меньших совокупности: равнобедренные треугольники и параллелограммы. Из числа параллелограммов мы выделяем в особую совокупность прямоугольники. Считая, что для задания угла и длины надо столько же бит (10), как и для координаты, находим, что для задания определенного равнобедренного треугольника надо 50 бит информации, параллелограмма — 60 бит, прямоугольника — 50 бит. Соответственно этому должны быть сконструированы классификаторы второго уровня. Легко видеть, что вся нужная им информация имеется в наличии на первом уровне. Наличие многоугольника констатируется при наличии нескольких отрезков, находящихся между собой в определенных отношениях. При переходе на второй уровень происходит дальнейшее сжатие информации. Отводя из полного числа 400 отрезков по одной трети на каждый вид многоугольников, получаем систему, способную зафиксировать 44 треугольника, 33 прямоугольника и 33 параллелограмма (одновременно). Ее информационная емкость 5830 бит, т. е. почти втрое меньше, чем емкость первого уровня. Зато перед неправильным треугольником или четырехугольником система встанет в тупик!
Понятие «домик» легко описать на языке понятий второго уровня. Домик состоит из четырех многоугольников: одного прямоугольника, одного равнобедренного треугольника и двух параллелограммов, находящихся в определенных отношениях друг к другу (основание равнобедренного треугольника совпадает с одной стороной прямоугольника и т. д.).
Во избежание недоразумений следует указать, что иерархия понятий, о которой мы говорим, имеет гораздо более общий смысл, чем иерархия понятий по абстрактности (общности), которую часто называют просто «иерархия понятий». Примером иерархии по общности может служить пирамида понятий, относящихся к систематике животных. На нулевом уровне располагаются отдельные особи животных («конкретные» понятия), на первом — виды, на втором — роды, затем — семейства, отряды, классы, типы. На вершине пирамиды находится понятие «животное». Такая пирамида является частным случаем иерархии понятий в общем смысле, отличающимся тем, что каждое понятие k-го уровня образуется из некоторого числа понятий k-1-го уровня путем их объединения. Это соответствует очень просто устроенным классификаторам. В общем случае классификаторы могут быть устроены как угодно. Распознаватели, нужные животному, — это скорее иерархии по сложности и тонкости понятий, а не по общности.
Вернемся снова к эволюции нервной системы. Может ли иерархия классификаторов возникнуть эволюционным путем? Очевидно, может, но при одном условии: если создание каждого нового уровня иерархии и его последующего расширения полезны животному в борьбе за жизнь. Из факта существования животных с высокоорганизованной нервной системой мы делаем вывод, что так оно и есть в действительности. Кроме того, изучая примитивных животных, мы видим, что система понятий, которые способна распознавать их нервная система, также весьма примитивна. Следовательно, в пользе нижайшего уровня иерархии классификаторов мы убеждаемся воочию.
Набросаем в общих чертах путь развития нервной системы. На начальных стадиях мы находим у животного всего несколько рецепторов. Число возможных способов связи между ними (соединений) относительно невелико и допускает прямой перебор. По методу проб и ошибок находится выгодное соединение. То, что выгодное соединение может существовать даже при очень малом числе нейронов, легко видеть на таком примере. Пусть есть всего два светочувствительных рецептора. Если они расположены на разных сторонах тела, то информация, которую они дают (разность освещенностей), достаточна, чтобы животное могло двигаться на свет или против света. Когда выгодное соединение найдено и осуществлено, допустим, с помощью одного промежуточного нейрона (такие нейроны называются ассоциативными), вся группа в целом может быть размножена. Так возникает система ассоциативных нейронов, регистрирующих, например, разности между освещенностями рецепторов и суммирующих эти разности (рис. 2.3).
Рис. 2.3. Простейшие типы связей между рецепторами
Может быть размножена также любая часть системы связанных нейронов, например, один или несколько рецепторов. Тогда возникает система связей типа изображенной на рис. 2.3,б. Схемы обоих типов образуют в совокупности первый уровень иерархии, основанный на понятиях суммы и разности освещенностей. Поскольку для корректировки движения животного очень важно регистрировать изменение освещенности в данной точке со временем, можно предположить, что на самых ранних стадиях должны появиться нейроны, срабатывающие при изменении освещенности в точке. Это может быть как рецептор, так и ассоциативный нейрон, связанный с одним или несколькими рецепторами. В общем виде можно охарактеризовать классификаторы первого уровня как регистрирующие суммы и разности возбуждений рецепторов в пространстве и времени.
Доказав свою полезность для животного, классификаторы первого уровня прочно входят в число его средств борьбы за существование. Тогда начинается следующая серия проб и ошибок: небольшое число классификаторов первого уровня (точнее, их выходных подсистем) связывается между собой в один пробный классификатор второго уровня, пока не получится полезное соединение. Затем оказывается полезным размножение этого соединения. Можно предположить, что на втором уровне иерархии — поскольку это касается органов зрения — появляются такие понятия, как граница между светом и тенью, средняя освещенность пятна, движение границы между светом и тенью и т. п. Таким же путем возникают и следующие уровни иерархии.
Набросанная нами схема наводит на мысль, что любая сложная система, возникшая в процессе эволюции по методу проб и ошибок, должна иметь иерархическую организацию. Действительно, не имея возможности перебрать все мыслимые соединения большого числа элементов, природа перебирает соединения из нескольких элементов, а найдя полезную комбинацию, размножает ее и использует как целое в качестве элемента, который может быть связан с небольшим числом других таких же элементов. Так и возникает иерархия. Это понятие играет огромную роль в кибернетике. Фактически всякая сложная система, как возникшая естественно, так и созданная человеком, может считаться организованной, только если она основана на некой иерархии или переплетении нескольких иерархий. Во всяком случае, до сих пор мы не знаем организованных систем, устроенных иначе.
До сих пор наши выводы были чисто умозрительны. Как они подтверждаются реальным строением нервной системы животных и что можно сказать о понятиях промежуточных уровней иерархии, реально складывающейся в процессе эволюции?
При сравнении нашей схемы с действительностью необходимо учитывать следующее.
Деление системы понятий на уровни не является столь безусловным, как мы молчаливо предполагали. Могут быть случаи, когда понятия k-го уровня непосредственно используются на k+2-м уровне, минуя k+1-й. На рис. 2.2 мы втиснули такую возможность в общую схему, введя классификаторы, связанные лишь с одним классификатором предыдущего уровня и повторяющие его состояния; они изображены перечеркнутыми квадратиками. В действительности, конечно, их нет, что затрудняет расчленение системы на уровни. Далее, иерархия классификаторов, изображенная на рис. 2.2, имеет четко выраженный пирамидальный характер: чем выше уровень, тем меньше классификаторов, а на верхнем уровне он всего один. Такая ситуация имеет место, когда система чрезвычайно «целенаправленна», т. е. служит для какой-то весьма узкой цели, для какого-то четко определенного способа классификации ситуаций. В примере, который мы приводили, это было распознавание «домиков». И мы видели, что уже неправильные трех- или четырехугольники для такой системы оказываются «бессмысленными»; они не вписываются в иерархию понятий. Чтобы быть более универсальной, система должна быть подобной не одной пирамиде, а многим пирамидам, вершины которых расположены приблизительно на одном уровне и образуют множество понятий (а точнее, множество систем понятий), в терминах которых происходит управление действиями животного и которые обычно обнаруживаются при исследовании его поведения. Об этих понятиях говорят, что они составляют основу определенного «образа» внешнего мира, который складывается в представлении животного (или человека). Состояние классификаторов этого уровня является непосредственной информацией для исполнительной части нервной сети (т. е. в конечном счете для эффекторов). Каждый из этих классификаторов опирается на определенную иерархию классификаторов — пирамиду, по которой движется информация так, как это было описано выше. Однако пирамиды могут перекрываться в своих средних частях (и заведомо перекрываются в своей нижней части — рецепторах). Общее число вершин пирамиды может быть теоретически как угодно велико, в частности, оно может быть много больше общего числа рецепторов. Это тот случай, когда одна и та же информация, доставляемая рецепторами, представляется множеством пирамид в множестве различных форм, рассчитанных на все случаи жизни.
Отметим еще одно обстоятельство, которое следует учитывать при поисках иерархии в реальной нервной сети. Если мы видим нейрон, соединенный синапсами с сотней рецепторов, то это еще не значит, что он фиксирует какое-то простое понятие первого уровня типа суммарного числа возбуждений рецепторов. Логическая функция, связывающая состояние нейрона с состоянием рецепторов, может быть весьма сложной и имеющей собственную иерархическую структуру.
Для исследования иерархии классификаторов и понятий, относящихся к зрительному восприятию у животных, чрезвычайно интересна работа четырех ученых из Массачусетского технологического института (Дж.Летвин и др.) «Что сообщает глаз лягушки мозгу лягушки»3. Лягушка была избрана авторами в качестве подопытного животного потому, что ее зрительный аппарат обладает некоторыми качествами простоты, которые делают его удобным для изучения. Прежде всего, сетчатка глаза лягушки однородна; она не имеет в отличие от глаза человека области с повышенной чувствительностью, на которую нужно проектировать наиболее важную часть изображения. Поэтому и взгляд лягушки неподвижен, она не следит взглядом за двигающимся предметом, как это делаем мы. С другой стороны, если лягушка качается, сидя на листе кувшинки, ее глаза совершают такие движения, которые компенсируют качание, так что изображение внешнего мира на сетчатке остается неподвижным. Информация от сетчатки передается по зрительному нерву к так называемому зрительному бугру мозга. Этим лягушка также отличается от человека в сторону простоты, так как у человека есть два канала передачи информации от сетчатки к мозгу.
Зрение играет большую роль в жизни лягушки: с его помощью она охотится и спасается от врагов. Исследование поведения лягушки показывает, что она отличает добычу от врага по размерам и состоянию движения. Очень интересно, что движение играет здесь решающую роль. Завидев маленький (размеров насекомого или червя) движущийся предмет, лягушка прыгает и схватывает его. Лягушку можно обмануть, раскачивая на ниточке маленький несъедобный предмет. Но на неподвижного червяка или насекомое лягушка не обращает ни малейшего внимания, и она может умереть с голоду среди обилия пищи, если эта пища неподвижна. Большие движущиеся предметы лягушка считает врагами и спасается от них бегством.
Сетчатка глаза лягушки, как и других позвоночных, имеет три слоя нервных клеток. Верхний (самый внешний) слой образуют светочувствительные рецепторы — палочки и колбочки. Затем идет слой ассоциативных нейронов нескольких типов. Одни из них (так называемые биполярные клетки) дают преимущественно вертикальные аксоны, по которым возбуждение передается в более глубокие слои. Другие (горизонтальные, или амакринные клетки) связывают нейроны, расположенные на одном уровне. Последний по глубине залегания — третий слой — образуют так называемые ганглиозные клетки. Их дендриты получают информацию от клеток второго слоя, а аксоны представляют собой длинные волокна, которые сплетаются в жгут — зрительный нерв, соединяющий сетчатку с мозгом. Эти аксоны ветвятся, входя в зрительный бугор мозга, и передают информацию дендритам мозговых нейронов.
Глаз лягушки имеет около миллиона рецепторов, около трех миллионов ассоциативных нейронов второго слоя и полмиллиона ганглиозных клеток. Такая структура сетчатки дает основание предположить, что анализ изображения начинается уже в глазу животного и изображение передается по зрительному нерву в терминах каких-то промежуточных понятий. Сетчатка как бы является вынесенной на периферию частью мозга. Это предположение подтверждается тем, что расположение на поверхности зрительного бугра точек входа нервных волокон (аксонов) совпадает с расположением соответствующих ганглиозных клеток на выходе сетчатки. И это несмотря на то, что на протяжении зрительного нерва волокна многократно переплетаются друг с другом и меняют свое положение на срезе нерва. Наконец, к тому же заключению приводят и данные эмбриологии о развитии сетчатки.
В описываемых опытах в зрительный нерв лягушки вводился тонкий платиновый электрод, что позволяло регистрировать возбуждение отдельных ганглиозных клеток. Лягушка помещалась в центр алюминиевой полусферы, имеющей (изнутри) матово-серый цвет. По внутренней поверхности полусферы могли перемещаться различные темные предметы — прямоугольники, диски и т. п., поддерживаемые с помощью магнита, расположенного с внешней стороны полусферы.
Результаты экспериментов мы можем суммировать следующим образом. Каждая ганглиозная клетка имеет определенное рецептивное поле, т. е. участок сетчатки (множество рецепторов), с которого она собирает информацию. Состояние рецепторов вне рецептивного поля никак не влияет на состояние ганглиозной клетки. Размеры рецептивных полей у клеток разного типа, если измерять их угловыми размерами соответствующей видимой области, варьируются от 2 до 15° в диаметре.
Ганглиозные клетки делятся на четыре типа в зависимости от того, какой процесс в своем рецептивном поле они регистрируют. Эти типы следующие:
Чрезвычайно интересно, как расположены окончания зрительных волокон в зрительном бугре мозга. Мы уже говорили, что в плане это расположение совпадает с расположением соответствующих ганглиозных клеток в сетчатке. Но, кроме того, оказывается, что окончания волокон каждого типа находятся в зрительном бугре на определенной глубине, так что в мозгу лягушки имеется четыре слоя нейронов, воспринимающих зрительную информацию, и каждый слой как бы получает оттиск сетчатки, но в определенном аспекте соответственно одному из четырех типов ганглиозных клеток. Эти слои и являются датчиками информации для высших отделов мозга.
Опыты, подобные описанным, довольно сложны, и по поводу их интерпретации иногда возникают споры. Детали описанной системы могут измениться или получить другое толкование. Тем не менее общий характер системы понятий первого уровня установлен, по-видимому, достаточно твердо. Мы видим переход от точечного описания к локальному, учитывающему непрерывную структуру изображения. Ганглиозные клетки служат распознавателями таких первичных понятий, как край, выпуклость, движение, отнесенных к определенной области видимого мира.
У человека понятия нижайшего уровня, относящиеся к зрительному восприятию, вероятно, мало отличаются от понятий лягушки. Во всяком случае, структура сетчатки у млекопитающих и человека такая же, как и у земноводных.
Некоторое представление о понятиях следующих уровней иерархии дает явление нарушения восприятия стабилизированного на сетчатке изображения. Это очень интересное явление. Оно состоит в следующем.
Когда человек смотрит на неподвижный объект, «фиксирует» его глазами, глазные яблоки не остаются абсолютно неподвижными, а созерцают небольшие непроизвольные движения. В результате изображение объекта на сетчатке находится в постоянном движении, складывающемся из медленного дрейфа и скачкообразных смещений, возвращающих изображение к точке максимальной чувствительности. Оно «топчется на месте» в окрестности этой точки.
Можно создать на сетчатке стабилизированное, не топчущееся на месте изображение. Для этого надо, очевидно, чтобы объект был жестко связан с глазным яблоком и двигался вместе с ним. Достигается это так (рис. 2.4). На глаз надевают контактную линзу, к которой прикреплен маленький стерженек. Стерженек несет миниатюрный оптический проектор4, в который можно вставлять диапозитивы размером в несколько миллиметров. Испытуемый видит изображение как удаленное в бесконечность. Так как проектор поворачивается вместе с глазом, изображение на сетчатке неподвижно.
При предъявлении испытуемому стабилизированного изображения он в течение первых нескольких секунд воспринимает его как при нормальном зрении, но затем начинаются нарушения. Изображение то исчезает, заменяясь серым или черным фоном, то появляется частями или целиком.
Рис. 2.4. Устройство для стабилизации изображения на сетчатке
Уже сам факт неправильного восприятия стабилизированного изображения весьма примечателен. С логической точки зрения нет никакой необходимости, чтобы изображение неподвижного объекта гуляло по сетчатке. Количество информации от этого не увеличивается, а обрабатывать ее становится труднее. И действительно, когда аналогичные задачи встают в области техники, например, при передаче изображения по телевизору или при вводе информации с экрана в вычислительную машину, то предпринимаются специальные усилия, чтобы стабилизировать изображение. А человеческий глаз не только приспособлен к прыгающему изображению, но и решительно отказывается принимать изображение, если оно неподвижно. Это свидетельствует о том, что понятия, связанные с движением, подобные, вероятно, тем, которые мы наблюдали у лягушки, глубоко укоренились где-то в нижних этажах иерархии, и если соответствующие классификаторы вывести из игры, то правильная обработка информации нарушится. С точки зрения конструктора сложного аппарата, подобного глазу (плюс обработка информации), такое устройство является странным. Конструктор, наверное, все нижние этажи занял бы статическими понятиями, а описание движения объектов уже проводил бы в терминах более высокого уровня. Но иерархия зрительных понятий возникла в процессе эволюции. Для наших далеких лягушкоподобных предков были чрезвычайно важны понятия, связанные с движением, и им некогда было ждать, пока у них разовьются сложные статические понятия. Поэтому примитивные динамические понятия возникли на самых ранних этапах развития нервной системы, а так как природа использует найденные ею блоки на следующих этапах строительства, эти понятия прочно закрепились в самом низу иерархии понятий. Чтобы они могли работать, глазному яблоку приходится совершать «броуновские» движения.
Рис. 2.5. Фрагментация стабилизированного изображения
Еще интереснее характер распада изображения на части (фрагментация). Простые фигуры, например, одиночный отрезок, исчезают и восстанавливаются целиком. Более сложные фигуры иногда также исчезают целиком, а иногда распадаются на части, которые исчезают и появляются независимо друг от друга (рис. 2.5). Фрагментация происходит не хаотично и не независимо от вида изображения, как бывает, например, когда рисунок на доске стирают тряпкой, а в соответствии с «истинной» структурой изображения. Слово «истинная» мы берем в кавычки потому, что на самом деле, конечно, фрагментация происходит в соответствии со структурой восприятия изображения системой глаз — мозг. Мы не знаем в точности, какова механика нарушения восприятия при стабилизации, мы знаем только сам факт, что стабилизация выводит из строя какой-то компонент системы восприятия. Но и отсюда можно сделать некоторые выводы. Представьте себе, что в архитектурном сооружении внезапно исчезли, растворившись в воздухе, несколько важных элементов конструкции. Здание развалится, но, вероятно, на части очень различных размеров. Здесь вы видите отдельные кирпичи и куски стекла, там — часть стены и крыши, а там сохранился целый угол дома. Примерно такое зрелище и являет собой восприятие стабилизированного изображения. Оно дает возможность представить характер понятий высшего уровня (или высших уровней), но не оценить их взаимные связи и зависимости. Надо отметить, что в формировании понятий высшего уровня у человека большую роль играет его личный жизненный опыт — обучение, если говорить языком кибернетики. (Это будет следующим этапом эволюции нервной системы, так что здесь мы несколько забегаем вперед. Но для исследования иерархии понятий не имеет большого значения, получена она по наследству или благоприобретена своим трудом.)
Приведем несколько выдержек из упомянутой выше работы.
Контурный человеческий профиль всегда исчезает и восстанавливается отдельными дискретно организованными элементами. Передняя часть лица, задняя сторона головы, комплекс линий вокруг глаз или вокруг уха исчезают и появляются вновь как целые элементы, в отдельности друг от друга или в различных комбинациях. В противоположность этому рисунок, состоящий из многих волнистых линий, расположенных неупорядоченно, при первом же предъявлении воспринимается как чрезвычайно активный объект. Отдельные завитки быстро исчезают и восстанавливаются... Эти изменения происходят так быстро, что испытуемые не могут дать точного отчета о них. После длительного рассматривания небольшие группы завитков начинают исчезать и восстанавливаться как единые элементы. Эти заново оформленные комбинации сохраняются в течение более долгих промежутков времени...
Важность линейной организации как фактора группировки подчеркивается фрагментацией стабилизированного изображения, состоящего из ряда квадратиков. Видимыми обычно остаются полный горизонтальный, вертикальный или диагональный ряды, которые затем также исчезают, и остается лишь отдельный квадратик во всем поле зрения. Иногда исчезают все одноименные стороны квадратиков... Если предъявляются беспорядочно разбросанные точки, то могут исчезнуть отдельные группы точек, а оставшиеся располагаются приблизительно вдоль одной линии... При рассматривании рисунка, состоящего из прямых линий, эти последние воспринимаются как независимые друг от друга, причем рисунок разбивается на части в местах пересечения. Линии исчезают и появляются вновь как единое целое либо поодиночке, либо вместе с другими; вместе часто появляются параллельные линии. При замене рисунка, состоящего из линий, затушеванной фигурой вместо линий независимыми элементами становятся углы. Исчезновение стабилизированного изображения начинается с центра, а резко очерченные углы исчезают по очереди. При восстановлении изображения оно появляется полностью или частично с резко очерченными углами.
методы распознавания образов , объект , свойство , признак ,
Представленные результаты и исследования подтверждают, что применение искусственного интеллекта в области иерархические системы распознавания имеет потенциал для революции в различных связанных с данной темой сферах. Надеюсь, что теперь ты понял что такое иерархические системы распознавания и для чего все это нужно, а если не понял, или есть замечания, то не стесняйся, пиши или спрашивай в комментариях, с удовольствием отвечу. Для того чтобы глубже понять настоятельно рекомендую изучить всю информацию из категории Распознавание образов
Комментарии
Оставить комментарий
Распознавание образов
Термины: Распознавание образов