Вам бонус- начислено 1 монета за дневную активность. Сейчас у вас 1 монета

Онтология анализа данных кратко

Лекция



Привет, Вы узнаете о том , что такое анализа данных, Разберем основные их виды и особенности использования. Еще будет много подробных примеров и описаний. Для того чтобы лучше понимать что такое анализа данных , настоятельно рекомендую прочитать все из категории Интеллектуальный анализ данных.

"Отчего же не вырвать? Вырвать можно. Только тут понимать надо, без понятия нельзя… Зубы разные бывают. Один рвешь щипцами, другой козьей ножкой, третий ключом… Кому как."
А.П.Чехов

Введение

Потоки текстовой и числовой информации ежедневно порождаются и оседают в хранилищах данных. Насколько полно на практике используются все те закономерности, которые кроются в этих данных и, возможно, представляют большую ценность? Можно предположить, что процент переработки "сырых" данных в практически значимые знания пока что весьма скромен. Даже богатый арсенал классической статистики используется далеко не полностью, не говоря уже о более современных методах нелинейного анализа. "Там, где обязаны поклоняться солнцу, законы теплоты будут слабо поняты" Речь о том, что в нашей стране, хотя статистика и не обзывалась "продажной девкой буржуазии", длительное время осуществлялось неприятие формальной статистики. Какая тут статистика, если сами данные должны были соответствовать идеологическим установкам государства. Ситуация усугубляется тем, что в последнее время активно развиваются новые методы анализа данных и извлечения знаний, базирующиеся на иных, нежели традиционная интегро–дифференциальная парадигма, подходах. Имеются в виду методы эволюционного моделирования и методы машинного обучения. Термин "эволюционное моделирование" в настоящее время является достаточно устоявшимся, и общепринято под этим термином подразумевать генетические алгоритмы и искусственные нейронные сети. Термин "машинное обучение" оставляет больше возможностей для дискуссий о том, какие методы имеются в виду, в частности, сюда относятся деревья решений.

Что такое онтология?

Как ориентироваться в этом многообразии инструментов? Какой из них выбрать для решения конкретной задачи? В сложившейся ситуации очень кстати приходится сравнительно новый термин – "онтология". Онтология – это точная спецификация некоторой предметной области. Она обеспечивает словарь для представления и обмена знаниями об этой предметной области и множество связей, установленных между терминами в этом словаре. В простейшем случае построение онтологии сводится к:

  • Выделению концептов – базовых понятий данной предметной области;
  • Построению связей между концептами – определению соотношений и взаимодействий базовых понятий.

Одним из преимуществ использования онтологий в качестве инструмента познания является системный подход к изучению предметной области. При этом достигаются:

  • Систематичность – онтология представляет целостный взгляд на предметную область;
  • Единообразность – материал, представленный в единой форме гораздо лучше воспринимается и воспроизводится;
  • Научность – построение онтологии позволяет восстановить недостающие логические связи во всей их полноте.

Что такое анализ данных?

Анализ данных — это область математики и информатики, занимающаяся построением и исследованием наиболее общих математических методов и вычислительных алгоритмов извлечения знаний из экспериментальных (в широком смысле) данных; процесс исследования, фильтрации, преобразования и моделирования данных с целью извлечения полезной информации и принятия решений.

Говоря чуть более простым языком, я бы предложил понимать под анализом данных совокупность методов и приложений, связанных с алгоритмами обработки данных и не имеющих четко зафиксированного ответа на каждый входящий объект. Это будет отличать их от классических алгоритмов, например реализующих сортировку или словарь. От конкретной реализации классического алгоритма зависит время его выполнения и объем занимаемой памяти, но ожидаемый результат его применения строго зафиксирован. В противоположность этому мы ожидаем от нейросети, распознающей цифры, ответа 8 при входящей картинке, изображающей рукописную восьмерку, но не можем требовать этого результата. Об этом говорит сайт https://intellect.icu . Более того, любая (в разумном смысле этого слова) нейросеть будет иногда ошибаться на тех или иных вариантах корректных входных данных. Будем называть такую постановку задачи и применяющиеся при ее решении методы и алгоритмы недетерминистическими (или нечеткими) в отличии от классических (детерминистических, четких).

Онтология анализа данных

Так как знания носят личностный характер, одну и ту же предметную область можно описать разными онтологиями. Особенно это касается плохо формализуемых предметных областей или при наличии большого числа спорных вопросов.

Онтология анализа данных

Математическая статистика

Для решения задач, связанных с анализом данных при наличии случайных и непредсказуемых воздействий, математиками и другими исследователями за последние двести лет был выработан мощный и гибкий арсенал методов, называемых в совокупности математической статистикой. За это время накоплен большой опыт успешного применения этих методов в разных сферах человеческой деятельности, от экономики до космических исследований. И при определенных условиях эти методы позволяют получать оптимальные решения. Например, одна из задач, решаемых в радиолокации – обнаружение известного сигнала на фоне аддитивной помехи в виде белого шума. Методы математической статистики решают эту задачу оптимальным образом и трудно себе представить необходимость применения других подходов к решению этой задачи. В тоже время, задача разрешения близко расположенных целей в условиях более сложной помеховой обстановки линейными статистическими методами решается менее успешно.

Эволюционное моделирование

На сегодняшний день, говоря об эволюционном моделировании, обычно имеют в виду генетические алгоритмы и искусственные нейронные сети. Термин "эволюционное моделирование" обязан своим происхождением источнику заимствования идей, лежащих в основе этой парадигмы. Если в основе классических подходов лежат формализованные каким-либо образом знания человека о предметной области, то для нейронной сети аналитическая форма представления знаний недоступна, все что она может – это запомнить и обобщить предъявленные ей на этапе обучения эмпирические зависимости между входными факторами и результирующими значениями. То есть нейронная сеть строит модель некоего процесса и в дальнейшем воспроизводит его поведение. Это дает повод некоторым исследователям утверждать, что искусственные нейросети моделируют свойственные человеку приемы мышления. По нашему мнению, для практического использования нейросетевых технологий достаточно того обстоятельства, что нейросети в состоянии строить сложные нелинейные модели процессов, а как на самом деле устроены человеческие мозги – дело десятое. Важно другое – качество модели зависит от качества обучающих данных (тут все как у людей).

Генетические алгоритмы используют механизмы генетической эволюции, которые в общем виде могут быть сформулированы так: чем выше приспособленность особи, тем выше вероятность того, что в его потомстве эта приспособленность будет выражена еще сильнее. Трактовка процесса приспособления как оптимизационного процесса приводит к идее использования генетических алгоритмов при обучении нейронных сетей. Причем, если градиентные методы обучения гарантирую нахождение локального минимума, то генетический алгоритм обеспечивает глобальную оптимизацию.

Область применения

Методами эволюционного моделирования решается широкий класс задач: классификация образов, кластеризация, аппроксимация, прогноз данных, оптимизация, ассоциативная память, управление динамическими объектами. Причем в силу всего вышесказанного, нейронные сети в сравнении с методами математической статистики справляются с перечисленными задачами тем успешнее, чем хуже формализуема задача.

Достоинства нейросетей

  • Одним из основных достоинств нейронных сетей является то, что они имеют широкую область применения. Деревья решений напротив, ограничены в рамках задач классификации, следует заметить, что существуют алгоритмы решающие задачи прогнозирования, но они значительно уступают нейронным сетям;
  • Нейронные сети по своей природе являются универсальными аппроксиматорами и позволяют моделировать очень сложные закономерности, что, скажем, не доступно классическим регрессионным моделям;
  • Нет необходимости заранее знать вид аппроксимируемой функции;
  • Нейронная сеть может быть легко дообучена с учетом вновь поступивших данных, для деревьев решений на сегодняшний день это большая проблема, поскольку не разработана методика "достроения" дерева, приходится строить дерево с нуля, не учитывая ранее построенное;
  • Существуют нейросетевые парадигмы, например, карты Кохонена, в которых процесс обучения происходит без учителя, т.е. сеть сама разбирает структуру данных;
  • Другая нейросетевая парадигма РБФ – сети очень быстро обучаются, хотя надо заметить, что так называемое "проклятие размерности" касается их в большей степени.

Машинное обучение

Цель методов машинного обучения – получение простых классифицирующих выражений, которые были бы легко понятны для человека. Достоинством таких методов является то, что во время работы того или иного метода не требуется участие человека.

Область применения

В исследовании, проведенном в рамках европейского проекта StatLog, был проведен анализ статистических методов (дискриминантый анализ, кластер-анализ и т.д.), деревьев решений (C4.5, AC2, CART, NewID, CN2, Itrule и т.д.) и нейронных сетей (многослойные сети, РБФ-сети, карты Кохонена) для решения задач классификации. Данные были взяты из различных предметных областей: распознавание образов (рукописного текста, автомобилей), медицинская диагностика (диабет, травмы головы, сердечные заболевания), молекулярной биологии (распознавание структуры ДНК) выдача кредитов и т.д.

В ходе исследования выяснилось, что деревья решений показали наилучшие результаты в решении следующих задач:

  1. Оценка кредитоспособности кандидата на получение кредита;
  2. Диагностика неисправностей в технических системах;
  3. Размещение радиаторов в Space Shuttle.

Достоинства деревьев решений

  • На обучение деревьев решений требуется гораздо меньше времени, чем, например, на обучение нейронных сетей;
  • Результат работы представляется в легко интерпретируемом для человека виде. Классификационная модель, представленная в виде дерева является интуитивно понятной для человека, в отличие от нейронных сетей, являющихся по своей природе черным ящиком;
  • На вход алгоритма деревьев решений можно подавать любое количество параметров, алгоритм сам выберет наиболее значимые параметры и только они будут фигурировать в построенном дереве. Это избавляет пользователя от необходимости определять входные параметры. Опять же, при использовании нейронных сетей мы должны очень осторожно подходить к вопросу о входных полях, так, с ростом количества входных полей, увеличивается время затрачиваемое на процесс обучения, который и так является очень долгим и вызывает много нареканий;
  • Точность прогноза деревьев решений сопоставима с другими методами построения классификационных моделей (статистические методы, нейронные сети);
  • Существуют масштабируемые алгоритмы деревьев решений SLIQ, SPRINT, т.е. с ростом числа примеров время затрачиваемое на обучение растет линейно для построения деревьев решений на сверхбольших базах данных;
  • Алгоритмы построения деревьев решений имеют методы специальной обработки пропущенных данных;
  • Классические и современные методы статистики используемые в задачах классификации работают только с числовыми данными, деревья решений успешно работают как с числовыми так и строковыми значениями. Кроме того, некоторые из статистических методов являются параметрическими, т.е. мы заранее должны знать вид модели или зависимость между зависимыми и независимыми переменными. Например, классификаторы, построенные по принципу максимального правдоподобия, предполагают, что данные имеют нормальное распределение;
  • Позволяют извлекать правила на естественном языке, например: Если возраст > 35 И доход > Cреднего То Выдать кредит.

Заключение

На нашем форуме иногда можно встретить довольно раздраженные реплики по поводу всех этих умностей. Особой нелюбовью почему то пользуются нейронные сети. Нам бы хотелось призвать этих авторов к большей сдержанности и сказать следующее.

Во-первых, если трезво посмотреть вокруг, выясняется, что при помощи нескольких магических слов, таких как нейросеть, персептрон, факторный анализ, регрессионный анализ… , нельзя решить всех нерешенных проблем. "Очень редко удается открыть одновременно несколько тайн природы одним и тем же ключом". (К. Шеннон).

Во-вторых, эффективность методик нелинейного оценивания (имеется в виду нейрокомпьютниг) может быть повышена при сочетании их с уже известными линейными статистическими методами. Пример – сети РБФ, в которых настройка весов скрытого слоя ведется с помощью генетического алгоритма, а веса выходного слоя рассчитываются старым добрым методом псевдообратных матриц.

Это всего лишь инструмент. Как им пользоваться, решает в конце концов человек. Кстати история, описанная Чеховым в рассказе "Хирургия" (откуда взят эпиграф), произошла только потому, что вместо доктора, уехавшего жениться, больных принимал фельдшер Курятин.

Исследование, описанное в статье про анализа данных, подчеркивает ее значимость в современном мире. Надеюсь, что теперь ты понял что такое анализа данных и для чего все это нужно, а если не понял, или есть замечания, то не стесняйся, пиши или спрашивай в комментариях, с удовольствием отвечу. Для того чтобы глубже понять настоятельно рекомендую изучить всю информацию из категории Интеллектуальный анализ данных

создано: 2020-10-04
обновлено: 2021-03-13
132265



Рейтиг 9 of 10. count vote: 2
Вы довольны ?:


Поделиться:

Найди готовое или заработай

С нашими удобными сервисами без комиссии*

Как это работает? | Узнать цену?

Найти исполнителя
$0 / весь год.
  • У вас есть задание, но нет времени его делать
  • Вы хотите найти профессионала для выплнения задания
  • Возможно примерение функции гаранта на сделку
  • Приорететная поддержка
  • идеально подходит для студентов, у которых нет времени для решения заданий
Готовое решение
$0 / весь год.
  • Вы можите продать(исполнителем) или купить(заказчиком) готовое решение
  • Вам предоставят готовое решение
  • Будет предоставлено в минимальные сроки т.к. задание уже готовое
  • Вы получите базовую гарантию 8 дней
  • Вы можете заработать на материалах
  • подходит как для студентов так и для преподавателей
Я исполнитель
$0 / весь год.
  • Вы профессионал своего дела
  • У вас есть опыт и желание зарабатывать
  • Вы хотите помочь в решении задач или написании работ
  • Возможно примерение функции гаранта на сделку
  • подходит для опытных студентов так и для преподавателей



Комментарии


Оставить комментарий
Если у вас есть какое-либо предложение, идея, благодарность или комментарий, не стесняйтесь писать. Мы очень ценим отзывы и рады услышать ваше мнение.
To reply

Интеллектуальный анализ данных

Термины: Интеллектуальный анализ данных