Лекция
Привет, Вы узнаете о том , что такое системы машинного зрения, Разберем основные их виды и особенности использования. Еще будет много подробных примеров и описаний. Для того чтобы лучше понимать что такое системы машинного зрения, компьютерное зрение, техническое зрение, машинное зрение , настоятельно рекомендую прочитать все из категории Распознавание образов.
машинное зрение — это применение компьютерного зрения для промышленности и производства. В то время как компьютерное зрение — это общий набор методов, позволяющих компьютерам видеть, областью интереса машинного зрения, как инженерного направления, являются цифровые устройства ввода-вывода и компьютерные сети, предназначенные для контроля производственного оборудования, таких как роботы-манипуляторы или аппараты для извлечения бракованной продукции. Машинное зрение является подразделом инженерии, связанное с вычислительной техникой, оптикой, машиностроением и промышленной автоматизацией. Одно из наиболее распространенных приложений машинного зрения — инспекции промышленных товаров, таких как полупроводниковые чипы, автомобили, продукты питания и лекарственные препараты. Люди, работавшие на сборочных линиях, осматривали части продукции, делая выводы о качестве исполнения. системы машинного зрения для этих целей используют цифровые и интеллектуальные камеры, а также программное обеспечение, обрабатывающее изображение для выполнения аналогичных проверок.
Компьютерное зрение (иначе техническое зрение ) — теория и технология создания машин, которые могут производить обнаружение, отслеживание и классификацию объектов.
Как научная дисциплина, компьютерное зрение относится к теории и технологии создания искусственных систем, которые получают информацию из изображений. Видеоданные могут быть представлены множеством форм, таких как видеопоследовательность, изображения с различных камер или трехмерными данными, например с устройства Kinect или медицинского сканера.
Как технологическая дисциплина, компьютерное зрение стремится применить теории и модели компьютерного зрения к созданию систем компьютерного зрения. Примерами применения таких систем могут быть:
О существовании специальных систем, которые "автоматически вводят в компьютер текст", знают даже начинающие пользователи. Со стороны все выглядит довольно просто и логично. На отсканированном изображении система находит фрагменты, в которых "узнает" буквы, а затем заменяет эти изображения настоящими буквами, или, по-другому, их машинными кодами. Так осуществляется переход от изображения текста к "настоящему" тексту, с которым можно работать в текстовом редакторе. Как этого добиться?
Компанией "Бит" была разработана специальная технология распознавания символов, которая получила название "Фонтанного преобразования" , а на ее основе - коммерческий продукт, получивший высокую оценку. Это система оптического распознавания Fine Reader. Сегодня на рынке представлена уже третья версия продукта, которая работает не только с текстом, но и с формами, таблицами, а разработчики уже колдуют над новой четвертой версией Fine Reader, которая будет распознавать не только печатный но и рукописный текст.
Компьютерное зрение также может быть описано как дополнение (но не обязательно противоположность) биологическому зрению. В биологии изучается зрительное восприятие человека и различных животных, в результате чего создаются модели работы таких систем в терминах физиологических процессов. Компьютерное зрение, с другой стороны, изучает и описывает системы компьютерного зрения, которые выполнены аппаратно или программно. Междисциплинарный обмен между биологическим и компьютерным зрением оказался весьма продуктивным для обеих научных областей.
Подразделы компьютерного зрения включают воспроизведение действий, обнаружение событий, слежение, распознавание образов, восстановление изображений и некоторые другие.
Машинное зрение относится к инженерным автоматизированным системам визуализации в промышленности и на производстве, и в этом качестве машинное зрение, связано с самыми разными областями компьютерных наук: компьютерное зрение, оборудования для управления, базы данных, сетевые системы и машинное обучение.
Не стоит путать машинное и компьютерное зрения. Компьютерное зрение является более общей областью исследований, тогда как машинное зрение является инженерной дисциплиной связанной с производственными задачами.
Компьютерное зрение оформилось как самостоятельная дисциплина к концу 60х годов. Это направление возникло в рамках искусственного интеллекта в тот его период, когда еще были горячи споры о возможности создания мыслящей машины. Оно выделилось из работ по распознаванию образов. [Зуева, 2008]
Кратко история развития машинного зрения представлена на рисунке 1.
Рис. 1. История машинного зрения
В истории развития машинного зрения можно выделить следующие этапы:
Однако рассмотрение задач машинного зрения носило скорее умозрительный характер, так как ни техники, ни математического обеспечения для решения таких сложных задач еще не было.
· С начала 90-х годов в алгоритмическом аспекте последовательность действий по обработке изображения принято рассматривать в согласии с так называемой модульной парадигмой. Эта парадигма, предложенная Д. Марром на основе длительного изучения механизмов зрительного восприятия человека, утверждает, что обработка изображений должна опираться на несколько последовательных уровней восходящей информационной линии: от «иконического» представления объектов (растровое изображение, неструктурированная информация) – к их символическому представлению (векторные и атрибутивные данные в структурированной форме, реляционные структуры и т. п.). [Визильтер и др., 2007]
Машинное зрение имеет все шансы превзойти человеческое в ближайшие десять лет. Уже сейчас роботы видят сквозь стены и на километры вперед. Последний бастион - расшифровка видеоинформации - скоро падет. В строй встанут роботы-автомобили, роботы-поезда и роботы-самолеты. А еще - доктора, скальпель которых никогда не сорвется, а зоркий глаз вовремя заметит артерию.
Остается надеяться, что люди сумеют направить мощь машинного зрения в верное русло, а не станут в спешном порядке конструировать терминаторов [Талан, 2007] .
У систем машинного зрения достаточно хорошие перспективы. Идеальная система машинного зрения будет полностью построена на цифровых технологиях, станет использовать интеллектуальные камеры и недорогое оборудование, реализующее набор стандартизованных функций обработки и распознавания изображений. Ключевым в ее успехе будет, конечно, удобная интеллектуальная программная среда, способная гибко и быстро настраиваться на произвольную предметную область, допускающая динамическое расширение функциональных возможностей и легко стыкующаяся с технологической аппаратурой.
По мнению Хирохисы Хирукавы, исследователя из Национального института перспективных научных исследований и технологий, производство роботов в XXI веке может стать крупнейшей отраслью промышленности - подобно производству автомобилей в XX столетии. При этом уже к 2025-му, в крайнем случае к 2050 году стоит ожидать массового распространения роботов, служащих для выполнения домашних работ[Морзеев, 2002].
Боб Таплетт, руководитель проектного отдела компании Microscan, говорит следующее: "Полагаю, можно утверждать, что в будущем системы машинного зрения превратятся в системы сбора данных. Считыватели штрих-кодов уйдут в прошлое, и в значительной мере это будет обусловлено тем, что системы машинного зрения способны решать гораздо больший круг задач".
Общая схема взаимосвязей различных областей знаний
В основе фонтанного преобразования лежит принцип целостности. В соответствии с ним любой воспринимаемый объект рассматривается как целое, состоящее из частей, связанных между собой определенными отношениями. Так, например, печатная страница состоит из статей, статья - из заголовка и колонок, колонка - из абзацев, абзацы - из строк, строки - из слов, слова - из букв. При этом все перечисленные элементы текста связаны между собой определенными пространствами и языковыми отношениями.Для выделения целого требуется определить его части. Части же, в свою очередь, можно рассматривать только в составе целого. Поэтому целостный процесс восприятия может происходить только в рамках гипотезы о воспринимаемом объекте - целом. После того как выдвинуто предположение о воспринимаемом объекте, выделяются и интерпретируются его части. Затем предпринимается попытка "собрать" из них целое, чтобы проверить правильность исходной гипотезы. Разумеется, воспринимаемый объект может интерпретироваться в рамках более крупного целого.Так, читая предложение, человек узнает буквы, воспринимает слова, связывает их в синтаксические конструкции и понимает смысл.В технических системах любое решение при распознавании текста принимается неоднозначно, а путем последовательного выдвижения и проверки гипотез и привлечения как знаний о самом исследуемом объекте, так и общего контекста. Целостное описание класса объектов восприятия отвечает двум условиям: во - первых, все объекты данного класса удовлетворяют этому описанию, а во- вторых, ни один объект другого класса не удовлетворяют ему. Например, класс изображений буквы "К" должен быть описан так, чтобы любое изображение буквы "К" в него попадало, а изображение всех других букв - нет. Об этом говорит сайт https://intellect.icu . Такое описание обладает свойством отображаемости, то есть обеспечивает воспроизведение описываемых объектов: эталон буквы для системы OCR позволяет визуально воспроизвести букву, эталон слова для распознавания речи позволяет произнести слово, а описание структуры предложения в синтаксическом анализаторе позволяет синтезировать правильное предложение. С практической точки зрения отображаемость играет огромную роль, поскольку позволяет эффективно контролировать качество описаний.Существует два вида целостного описания: шаблонное и структурное.В первом случае описание представляет собой изображение в растровом или векторном представлении, и задан класс преобразований (например, повтор, масштабирование и пр.).Во втором случае описание представляется в виде графа, узлами которого являются составляющие элементы входного объекта, а дугами - пространственные отношения между ними . В свою очередь элементы могут оказаться сложными (то есть иметь свое описание).
Конечно, шаблонное описание проще в реализации, чем структурное. Однако оно не может использоваться для описания объектов с высокой степенью изменчивости. Шаблонное описание, к примеру, может приниматься для распознавания только печатных символов, а структурное - еще и для рукописных.
Целостность восприятия предлагает два важных архитектурных решения. Во первых, все источники знания должны работать по возможности одновременно. Нельзя, например, сначала распознать страницу, а затем подвергнуть ее словарной и контекстной обработке, поскольку в этом случае невозможно будет осуществить обратную связь от контекстной обработки к распознаванию. Во вторых, исследуемый объект должен представляться и обрабатываться по возможности целиком.
Первый шаг восприятие - это формирование гипотезы о воспринимаемом объекте. Гипотеза может формироваться как на основе априорной модели объекта, контекста и результатов проверки предыдущих гипотез (процесс "сверху - вниз"), так и на основе предварительного анализа объекта ("снизу - вверх"). Второй шаг - уточнение восприятия (проверка гипотезы), при котором производится дополнительный анализ объекта в рамках выдвинутой гипотезы и в полную силу привлекается контекст.
Для удобства восприятия необходимо провести предварительную обработку объекта, не потеряв при этом существенной информации о нем. Обычно предварительная обработка сводится к преобразованию входного объекта в представление, удобное для дальнейшей работы (например, векторизация изображения), или получение всевозможных вариантов сегментации входного объекта, из которого путем выдвижения и проверки гипотез выбирается правильный. Процесс выдвижения и проверки гипотез должен быть явно отражен в архитектуре программы. Каждая гипотеза должна быть объектом, который можно было бы оценить или сравнить с другими. Поэтому обычно гипотезы выдвигаются последовательно, а затем объединяются в список и сортируются на основе предварительной оценке. Для окончательного же выбора гипотезы активно используется контекст и другие дополнительные источники знаний.
Ныне одним из лидеров в области генетического программирования является группа исследователей из Стэндфордского университета (Stanford University), работающая под руководством профессора Джона Коза. Генетическое программирование вдохнуло новую жизнь в хорошенько уже подзабытый язык LISP (List Processing), который создавался группой Джона Маккарти (того самого, кто в 60-е годы ввел в наш обиход термин "искусственный интеллект") как раз для обработки списков и функционального программирования. Кстати, именно этот язык в США был и остается одним из наиболее распространенных языков программирования для задач искусственного интеллекта.
Последовательность действий, выполняемых системой машинного зрения, можно представить в следующем виде:
Рис.5. Последовательность действий системы машинного зрения
Изображение, полученное с камеры, попадает в захватчик кадров или в память компьютера. Захватчик кадров - это устройство, которое преобразует выходные данные с камеры в цифровой формат (как правило, это двумерный массива чисел) и размещает изображения в памяти компьютера, так чтобы оно могло быть обработано с помощью программного обеспечения для машинного зрения.
Программное обеспечение, как правило, совершает несколько шагов для обработки изображений. Часто изображение для начала обрабатывается с целью уменьшения шума или конвертации множества оттенков серого в простое сочетание черного и белого (бинаризации). После первоначальной обработки программа будет считать, производить измерения и/или определять объекты, размеры, дефекты и другие характеристики изображения. В качестве последнего шага, программа пропускает или забраковывает деталь в соответствии с заданными критериям. Если деталь идет с браком, программное обеспечение подает сигнал механическому устройству для отклонения детали; другой вариант развития событий, система может остановить производственную линию и предупредить человека работника для решения этой проблемы, и что привело к неудаче. Хотя большинство систем машинного зрения полагаться на «черно-белые» камеры, использование цветных камер становится все более распространенным явлением. Кроме того, все чаще системы машинного зрения используют цифровые камеры прямого подключения, а не камеры с отдельным захватчиком кадров, что сокращает расходы и упрощает систему.
Сегодня известно три подхода к распознаванию символов - шаблонный, структурный и признаковый. Но принципу целостности отвечает лишь первые два.Шаблонное описание проще в реализации, однако, в отличие от структурного, оно не позволяет описывать сложные объекты с большим разнообразием форм. Именно поэтому шаблонное описание применяется для распознавания лишь печатных символов, в то время как структурное - для рукописных, имеющих, естественно, гораздо больше вариантов начертания.
Такие системы преобразуют изображение отдельного символа в растровое, сравнивают его со всеми шаблонами, имеющимися в базе и выбирают шаблон с наименьшим количеством точек, отличных от входного изображения. Шаблонные системы довольно устойчивы к дефектам изображения и имеют высокую скорость обработки входных донных, но надежно распознают только те шрифты, шаблоны которых им "известны". И если распознаваемый шрифт хоть немного отличается от эталонного, шаблонные системы могут делать ошибки даже при обработке очень качественных изображений!
В таких системах объект описывается как граф, узлами которого являются элементы входного объекта, а дугами - пространственные отношения между ними . Система реализующие подобный подход, обычно работают с векторными изображениями. Структурными элементами являются составляющие символ линии. Так, для буквы "р" - это вертикальный отрезок и дуга.
К недостаткам структурных систем следует отнести их высокую чувствительность к дефектам изображения, нарушающим составляющие элементы. Также векторизация может добавить дополнительные дефекты. Кроме того, для этих систем, в отличие от шаблонных и признаковых, до сих пор не созданы эффективные автоматизированные процедуры обучения. Поэтому для Fine Reader структурные описания пришлось создать в ручную.
В них усредненное изображение каждого символа представляется как объект в n-мерном пространстве признаков. Здесь выбирается алфавит признаков, значения которых вычисляются при распознавании входного изображения. Полученный n-мерный вектор сравнивается с эталонными, и изображение относится к наиболее подходящему из них. Признаковые системы не отвечают принципу целостности. Необходимое, но недостаточное условие целостности описания класса объектов (в нашем случае это класс изображений, представляющих один символ)состоит в том, что описанию должны удовлетворять все объекты данного класса и ни один из объектов других классов. Но поскольку при вычислении признаков теряется существенная часть информации, трудно гарантировать, что к данному классу удастся отнести только <родные> объекты.
Фонтанное преобразование совмещает в себе достоинства шаблонной и структурной систем и, по нашему мнению, позволяет избежать недостатков, присущих каждой из них по отдельности. В основе этой технологии лежит использование структурно-пятенного эталона. Он позволяет представить изображения в виде набора пятен, связанных между собой n-арными отношениями, задающими структуру символа. Эти отношения (то есть расположение пятен друг относительно друга) образуют структурные элементы, составляющие символ. Так, например, отрезок - это один тип n-арных отношений между пятнами, эллипс -другой, дуга - третий. Другие отношения задают пространственное расположение образующих символ элементов.В эталоне задаются
:
Структурные элементы, выделяемые для класса изображений, могут быть исходными и составными. Исходные структурные элементы - это пятна, составные - отрезок, дуга, кольцо, точка. В качестве составных структурных элементов, в принципе, могут быть взяты любые объекты, описанные в эталоне. Кроме того, они могут быть описаны как через исходные, так и через другие составные структурные элементы.Например, для распознавания корейских иероглифов (слоговое письмо) составными элементами для описания слога являются описания отдельных букв (но не отдельные элементы букв). В итоге, использование составных структурных элементов позволяет строить иерархические описания классов распознаваемых объектов.В качестве отношений используются связи между структурными элементами, которые определяются либо метрическими характеристиками этих элементов (например, <длина больше>), либо их взаимным расположением на изображении (например, <правее>,<соприкасается>).При задании структурных элементов и отношений используются конкретизирующие параметры, позволяющие доопределить структурный элемент или отношение при использовании этого элемента в эталоне конкретного класса. Для структурных элементов конкретизирующими могут являться, например, параметры, задающие диапазон допустимой ориентации отрезка, а для отношений -параметры, задающие предельное допустимое расстояние между характерными точками структурных элементов в отношении <соприкасается>.<Конкретизирующие параметры используются также для вычисления <качества> конкретного структурного элемента изображения и <качества> выполнения данного отношения./DT>Построение и тестирование структурно-пятенных эталонов для классов распознаваемых объектов - процесс сложный и трудоемкий. База изображений, которая используется для отладки описаний, должна содержать примеры хороших и плохих (предельно допустимых) изображений для каждой графемы, а изображения базы разделяются на обучающее и контрольное множества.Разработчик описания предварительно задает набор структурных элементов (разбиение на пятна) и отношения между ними. Система обучения по базе изображений автоматически вычисляет параметры элементов и отношений. Полученный эталон проверяется и корректируется по контрольной выборке изображений данной графемы. По контрольной же выборке проверяется результат распознавания, то есть оценивается качество подтверждения гипотез.<Распознавание с использованием структурно-пятенного эталона происходит следующим образом. Эталон накладывается на изображение, и отношения между выделенными на изображении пятнами сравниваются с отношениями пятен в эталоне. Если выделенные на изображении пятна и отношения между ними удовлетворяют эталону некоторого символа, то данный символ добавляется в список гипотез о результате распознавания входного изображения.
СТЗ является перепрограммируемым обучаемым автоматом, который решает задачи распознавания и идентификации объектов.
Аппаратные средства СТЗ включают в себя помимо устройств, входящих в рабочий комплекс, графический дисплей, видеоконтрольное устройство, накопитель на гибких магнитных дисках, печатающее устройство и отладочный комплекс с программатором. Такой комплекс позволяет быстро перепрограммировать рабочие комплексы, находящиеся от отладочного комплекса на значительном расстоянии.
Скорость перепрограммирования СТЗ для обработки изображений другого класса объектов определяется уровнем ее программного обеспечения, которое имеет модульную структуру и организовано в виде проблемно-ориентированной операционной системы. Ядро системы обеспечивает взаимодействие между программными модулями с использованием библиотеки подпрограмм (рис. 5.3).
Интерпретатор команд предназначен для преобразования команд оператора в формат команд системного ядра.
Справочник оператора по требованию программиста позволяет разъяснить возможности операционной системы, а также выдавать сообщения при неверном введении команды.
Программные модули связи обеспечивают сеть программы для обмена информацией между технологическим оборудованием и рабочим комплексом СТЗ.
Модуль управления работой видеодатчика связывает телекамеру с системой, выдает команды для выбора режима работы манипулятора и выполняет предварительное преобразование изображения: фильтрацию, определение контура и анализ связности.
Модуль тестовой проверки осуществляет оперативный контроль аппаратных и программных средств СТЗ.
Модуль вычисления признаков служит для описания отдельных деталей, выделенных при сегментации изображения и проводит их к стандартному списку параметров.
Модуль распознавания обеспечивает сравнение полученного списка параметров со списком, хранящимся в памяти микро ЭВМ.
Модуль обучения обеспечивает подготовку СТЗ к работе с другими объектами.
Программное обеспечение имеет также ряд вспомогательных модулей, обеспечивающих работу оператора. К числу их относится модуль управления файлами для обеспечения записи программ на магнитных дисках, модуль отображения для формирования массива данных, выводимых на графический дисплей или печать и модуль управления работой программатора для формирования и записи программ обработки изображений в ППЗУ.
Типовая система машинного зрения состоит из одной или нескольких цифровых или аналоговых камер (черно-белые или цветные) с подходящей оптикой для получения изображений, подсветки и объекта (рис. 4), оборудования ввода/вывода или каналы связи для доклада о полученных результатах. Кроме того, важна и программная составляющая систем машинного зрения, а именно программное обеспечение для подготовки изображений к обработке (для аналоговых камер это оцифровщик изображений), специфичные приложения программного обеспечения для обработки изображений и обнаружения соответствующих свойств.
Рис.4. Состав типовой системы машинного зрения
Матрица чувствительных элементов , входящих в состав видеокамеры, предназначена для получения цифрового изображения. В состав матрицы чувствительного элемента входит множество аналого-цифровых преобразователей, предназначенных для преобразования информации о световой интенсивности в цифровое значение.
Объектив позволяет камере фокусироваться на определенном расстоянии и получать четкое изображение объекта. В случае, когда объект находится вне фокусного расстояния, изображение получается нерезким (размытым, с нечеткими краями), что ухудшает возможность обработки видеоряда. В отличие от обычных цифровых фотоаппаратов с объективами, поддерживающими функции автофокусировки, в машинном зрении применяется оптика с фиксированным фокусным расстоянием или ручной настройкой фокуса. Существуют различные типы объективов для самых разных задач (стандартные, телескопические, с широким углом обзора, с увеличением и другие), и выбор правильного типа оптики - важный этап при проектировании системы машинного зрения.
Подсветка - еще один важный элемент в машинном зрении. Благодаря использованию различных типов освещения можно расширить круг задач, решаемых машинным зрением. Существует различные типы подсветок, но наиболее популярным является светодиодная - в связи с ее высокой яркостью. При этом современный уровень развития светодиодной техники обеспечивает большой срок службы устройства и малое энергопотребление.
Работает система по принципу <одной кнопки>. Это означает, что при нажатии кнопки <Сканируй и Распознавай> запускается весь процесс обработки документа: сканирование, фрагментация страницы на текстовые и графические блоки, распознавание текста, проверка орфографии и формирование выходного файла. Но что за всем этим стоит? Интеллектуальный алгоритм позволяет автоматически подобрать оптимальный уровень яркости сканера (адаптивное сканирование) в зависимости от фона документа, сохранить иллюстрации (или, в зависимости от решаемой задачи, удалить ненужные графические элементы для максимального сокращения последующего редактирования).В CuneiForm используется несколько методов подобного сопоставления. Во-первых, образ каждого символа раскладывается на отдельные элементы - события. К примеру, событием является фрагмент от одной линии пересечения до другой. Совокупность событий представляет собой компактное описание символа.Другие методы основаны на соотношении <масс> отдельных элементов символов и описании их характерных признаков(закругления, прямые, углы и т. д.). По каждому из этих описаний существуют базы данных, в которых находятся соответствующие эталоны. Поступающий на обработку элемент изображения сравнивается с эталоном. А затем на основании этого сравнения решающая функция выносит вердикт о соответствии изображения конкретному символу. Кроме того, существуют алгоритмы, которые позволяют работать с текстами низкого качества. Так, для разрезания <склеенных> символов существует метод оценки оптимальных разбиений. И наоборот, для соединения "рассыпаных" элементов разработан механизм их соединения.В CuneiForm'96 мы впервые применили алгоритмы самообучения (или адаптивного распознавания). Принцип их работы состоит в следующем. В каждом тексте присутствуют четко и нечетко пропечатанные символы. Если после того как система распознала текст (как это делает обычная система, например предыдущая версия OCR CuneiForm 2.95), выясняется, что точность оказалась ниже пороговой, производится дораспознавание текста на основе шрифта, который генерируется системой по хорошо пропечатанным символам. Здесь разработчики соединили достоинства двух типов систем распознавания: омнии мультишрифтовые. Напомним, что первые позволяют распознавать любые шрифты без дополнительного обучения, вторые же более устойчивы при распознавании низкокачественных текстов. Результаты применения Cunei-Form'96 показали, что использование самообучающихся алгоритмов позволяет поднять точность распознавания низкокачественных текстов в четыре-пять раз! Но главное, пожалуй, в том, что самообучающиеся системы обладают гораздо большим потенциалом повышения точности распознавания.Важную роль играют методы словарного и синтаксического распознавания и, по сути, служат мощным средством поддержки геометрического распознавания. Но для их эффективного использования необходимо было решить две важные задачи. Во-первых, реализовать быстрый доступ к большому (порядка 100000 слов) словарю. В результате удалось построить систему хранения слов, где на хранение каждого слова уходило не более одного байта, а доступ осуществлялся за минимальное время. С другой стороны, потребовалось построить систему коррекции результатов распознавания, ориентированную на альтернативность событий (подобно системе проверки орфографии). Сама по себе альтернативность результатов распознавания очевидна и обусловлена хранением коллекций букв вместе с <оценками соответствия>. А словарный контроль позволял изменять эти оценки, используя словарную базу. В итоге применение словаря позволило реализовать схему дораспознавания символов.Сегодня наряду с задачами повышения точности распознавания на передний план выходят вопросы расширения сфер применения OCR-технологий, соединения технологий распознавания с архивными системами. Иными словами, мы переходим от монопрограммы, выполняющей функции ввода текста, к автоматизированным комплексам, решающим задачи клиента в области документооборота. Вот уже около полугода CuneiForm поставляется в комплекте с сервером распознавания CuneiForm OCR Server, предназначенным для коллективного ввода данных в организациях, а электронный архив <Евфрат>, включающий модуль распознавания, за короткое время приобрел большую популярность.С таким прицелом создавался и комплект CuneiForm'96i Professional, существенно изменивший представления о системах распознавания в целом.
Очевидно, проблема распознавания рукописного текста значительно сложнее, чем в случае с текстом печатным. Если в последнем случае мы имеем дело с ограниченным числом вариаций изображений шрифтов (шаблонов), то в случае рукописного текста число шаблонов неизмеримо больше. Дополнительные сложности вносят также иные соотношения линейных размеров элементов изображений и т. п.
И все же сегодня мы можем признать, что основные этапы разработки технологии распознавания рукописных (отдельные символы, написанные от руки) символов уже пройдены. В арсенале Cognitive Technologies имеются технологии распознавания всех основных типов текстов: стилизованных цифр, печатных символов и <рукопечатных> символов. Но технологии ввода <рукопечатных> символов потребуется еще пройти стадию адаптации, после чего можно будет заявить, что инструментарий для потокового ввода документов в архивы действительно реализован полностью.
Видеонаблюдение
Автоматические и автоматизированные системы видеонаблюдения являются одной из ключевых составляющих современных комплексных систем безопасности. Задача видеонаблюдения подразумевает визуальный контроль заданной области пространства при помощи одной или нескольких видеокамер, позволяющий сохранять и просматривать цифровые видеоданные, а также постоянно оценивать состояние контролируемой территории, выделяя так называемые охранные события.
Охранное видеонаблюдение сегодня имеет два самых важных направления развития - полный переход на цифровые системы видеонаблюдения и развитие функций видеоаналитики. Цифровое (IP) видеонаблюдение предполагает отказ от аналоговых камер и средств передачи данных. Видеоаналитика представляет развитие функций систем видеонаблюдения, позволяя сократить объем регистрируемых данных.
Система обнаружения и сопровождения движущихся объектов по признаку их движения
Технология детектирования движения в поле зрения камеры, или motion detection, стала одной из первых коммерческих технологий на потребительском рынке Web-камер [Морзеев, 2002] . Принцип работы технологии очень простой, поскольку предполагается, что камера неподвижна, а следовательно, неподвижен и фон. Движутся только объекты. Хотя существуют и такие технологии, которые позволяют детектировать движущиеся объекты на движущемся фоне.
У систем обнаружения и сопровождения движущихся объектов могут быть различные функции, такие как:
Система считывания регистрационных номеров автомобилей
Как уже говорилось, одной из функций систем видеонаблюдения является считывание идентификационных меток объектов, прежде всего – номеров транспортных средств, пересекающих зону наблюдения.
Функции системы:
Биометрия
В последние годы во всем мире наблюдается все возрастающий интерес к методам распознавания и идентификации личности. Основные пути и способы решения этих задач лежат в области разработки биометрических систем. В биометрических системах для распознавания человека используется совокупность биометрических характеристик, основанных на биологических особенностях человеческого тела. В качестве таких биометрических характеристик могут выступать голос, почерк, отпечатки пальцев, геометрия кисти руки, рисунок сетчатки или радужной оболочки глаза, лицо и ДНК.
Биометрическая защита более эффективна в сравнении с такими методами, как использование паролей, PIN-кодов, смарт-карт поскольку биометрия позволяет идентифицировать именно конкретного человека, а не устройство. Традиционные методы защиты не исключают возможности потери или кражи информации, вследствие чего она становится доступной незаконным пользователям. Уникальный биометрический идентификатор, каковым является, например, отпечаток пальца или изображение лица, служит ключом, который невозможно потерять.
Биометрическая система безопасности позволяет отказаться от парольной защиты либо служит для ее усиления. Одной из основных причин, которые существенно повысили значимость автоматической обработки и анализа биометрической информации, явилось повышение требований к функциональным возможностям автоматических систем безопасности, расположенных в общественных местах (вокзалы, супермаркеты и т. п.)
1. Система обнаружения и распознавания лиц
технология обнаружения и распознавания лиц по двумерным изображениям, включает три основных модуля:
2. Система распознавания жестов руки человека
Распознавание жестов представляет собой обширную область приложений компьютерного зрения. Под «жестами» в широком смысле понимаются любые движения человеческого тела. В узком смысле обычно подразумеваются некоторые характерные движения рук человека, имеющие в определенной предметной области какие-либо определенные семантические значения. Распознавание жестов может использоваться для построения различного рода человеко-машинных интерфейсов, управления различными техническими средствами и системами виртуальной реальности.
В качестве простого примера можно рассмотреть систему распознавания жестов руки человека по изображениям от черно-белой видеокамеры низкого разрешения (рис.8). Система не требует предварительного обучения и устойчиво различает до 10 различных жестов
Рис.8. Простой пример системы распознавания жестов
Медицинские приложения
Особое место в области разработки систем компьютерного зрения занимают задачи медицинской диагностики. Основные задачи, которые должны решать здесь данные технологии, следующие: задача измерения объектов на рентгенограммах, компьютерных томограммах и современных цифровых ультразвуковых приборах, задача улучшения визуализации, задача восстановления трехмерных форм объектов. Наиболее современной и бурно развивающейся в области разработки медицинских диагностических приложений можно считать технологию, связанную с определением степени алкогольного и наркотического опьянения на основе анализа реакции зрачка пациента.
1. Системы для компьютерного анализа томографических изображений
При создании систем анализа томографических изображений общего назначения основной акцент делался на разработку процедур автоматической и полуавтоматической сегментации изображений. Реализованная схема алгоритма сегментации включает:
• первичную гистограммную сегментацию методом статистического выделения мод;
• формирование связных областей с заданными характеристиками методом слияния/разбиения.
Специально разработанный для данного класса задач метод статистического выделения мод позволяет оценивать количество и степень выраженности мод гистограммы (рис.9), опираясь на соответствующий график статистической производной.
Рис.9. Пример автоматического разделения мод на гистограмме
Метод слияния/разбиения связных областей использует полученную на первом этапе разметку пикселей изображения в качестве стартового приближения, после чего происходит процесс итеративной релаксации с целью минимизации заданной энергетической функции. Алгоритм сегментации может быть использован как в автоматическом, так и в полуавтоматическом режиме. В этом случае врач-оператор может инициализировать процесс сегментации интересующих его объектов путем указания интересующих его точек.
Динамичное развитие новых компьютерных технологий (сетевые технологии, технологии <клиент-сервер>, и т. д.) нашли свое отражение и в состоянии сектора электронного документооборота. Если раньше в продвижении технологий бесклавиатурного ввода делался упор на преимущества их персонального использования, то сегодня на первый план выходят преимущества коллективного и рационального использования технологий ввода и обработки документов. Иметь одну, обособленную систему распознавания сегодня уже явно недостаточно. С распознанными текстовыми файлами (как бы хорошо они распознаны ни были) нужно что-то делать: хранить в базе данных, осуществлять их поиск, передавать по локальной сети, и т. д. Словом, требуется взаимодействие с архивной или иной системой работы с документами. Таким образом, система распознавания превращается в утилиту для архивных и иных систем работы с документами.
С появлением сетевых версий систем сканирования (режим потокового сканирования OCR CuneiForm) и распознавания (сервер распознавания CuneiForm OCR Server) документов нашей компании уже удалось реализовать некоторые преимущества коллективного использования таких технологий в организациях разного масштаба. По этой причине, с нашей точки зрения, актуальным был бы разговор о комплексном решении компаниями проблемы автоматизации работы с документами в организациях самого различного ранга. Что касается Cognitive Technologies, то представляемый ею электронный архив <Евфрат> (система включает в себя возможность ввода документов с помощью OCR CuneiForm), новые утилиты, встроенные в OCR CuneiForm'96, и технологии, используемые при реализации крупных проектов, продолжают линию компании, направленную на расширение применения систем ввода информации и разработку технологий автоматизации работы с документами.
Прочтение данной статьи про системы машинного зрения позволяет сделать вывод о значимости данной информации для обеспечения качества и оптимальности процессов. Надеюсь, что теперь ты понял что такое системы машинного зрения, компьютерное зрение, техническое зрение, машинное зрение и для чего все это нужно, а если не понял, или есть замечания, то не стесняйся, пиши или спрашивай в комментариях, с удовольствием отвечу. Для того чтобы глубже понять настоятельно рекомендую изучить всю информацию из категории Распознавание образов
Ответы на вопросы для самопроверки пишите в комментариях, мы проверим, или же задавайте свой вопрос по данной теме.
Комментарии
Оставить комментарий
Распознавание образов
Термины: Распознавание образов