Вам бонус- начислено 1 монета за дневную активность. Сейчас у вас 1 монета

Различия между хранилищами данных и операционными базами данных - Понятие

Лекция



Это окончание невероятной информации про хранилище данных.

...

поддержке принятия решений:

·недостоверность данных;

·низкая производительность при нестандартных запросах;

·невозможность преобразования разнородных данных, так как они часто не имеют меток времени;

·Проблемы при подготовке отчетов возникают из-за того, что:

- трудно понять, где находятся данные, необходимые для анализа и принятия решения;

- большинство БД ориентировано только на стандартные запросы;

- требуется привлекать программистов для выполнения нестандартных запросов.

Особенности хранилищ данных:

- Хранилища данных содержат информацию, собранную из нескольких оперативных баз данных.

- Хранилища, как правило, на порядок больше оперативных баз, зачастую имея объем от сотен гигабайт до нескольких терабайт.

- Как правило, хранилище данных поддерживается независимо от оперативных баз данных организации, поскольку требования к функциональности и производительности аналитических приложений отличаются от требований к транзакционным системам.

- Хранилища данных создаются специально для приложений поддержки принятия решений и предоставляют накопленные за определенное время, сводные и консолидированные данные, которые более приемлемы для анализа, чем детальные индивидуальные записи.

- Рабочая нагрузка состоит из нестандартных, сложных запросов, которые обращаются к миллионам записей и выполняют огромное количество операций сканирования, соединения и агрегирования. Время ответа на запрос в данном случае важнее, чем пропускная способность.

Различия между хранилищами данных и операционными базами данных


Операционные базы данных и хранилища данных в основном базируются на
одной и той же технологической поддержке: это сбор данных, обе функции основаны
на ключах, индексах и представлениях, причем оба основаны на модели данных. Тем
не менее, две системы отличаются друг от друга, как показывают критерии,
описанные ниже.


1) С функциональной точки зрения: операционные базы данных обрабатывают
транзакции, обеспечивая ответы на операционные требования, в то время как
хранилища данных используются на основе ad hoc-запросов, в основном для целей
управления.


2) Функциональные требования различны: операционные базы данных в основном
сосредоточены на защите и согласованности данных, что делает запросы
медленными, специальными. Эти запросы, специфичные для экономического анализа,
могут значительно снизить производительность операционной системы из-за
отсутствия прогнозируемых индексов, как это имеет место в хранилищах данных.


3) Хотя большинство операционных систем и хранилищ данных построены на
реляционных технологиях, их дизайн существенно отличается, поскольку их
назначение также различно. Операционные базы данных предназначены для онлайн
обработки транзакций, и их главная цель связана с эффективным хранением большого
количества транзакционных данных. Они включают текущую информацию о
повседневных действиях и информацию о процессах, подлежащую обновлению. В
результате данные являются динамическими и, следовательно, очень изменчивыми.
Задачи таких систем являются структурированными и повторяющимися и состоят из
текущих, коротких и изолированных транзакций, которые включают подробные
данные. Эти транзакции считывают или обновляют несколько записей - в основном
десятки, главным образом, на основе их первичных ключей. Операционные базы
данных достигают размеров от сотен мегабайт до гигабайт. Их согласованность важна
и относится к быстрой обработке транзакций.


4) Стратегии резервного копирования и восстановления отличаются для двух
типов систем. Большинство данных в хранилищах данных - это исторические данные,
которые не являются вариантами и не требуют многократного сохранения. Новые
данные могут быть сохранены во время загрузки. В некоторых случаях рекомендуется
сохранять данные из промежуточных баз данных, чтобы минимизировать влияние на
производительность хранилищ данных. Политики восстановления также могут
отличаться в случае хранилищ данных, в отличие от оперативных баз данных, в
зависимости от того, насколько для организации необходим постоянный
непрерывный доступ к хранилищам данных. В реальной задаче резервного
копирования и восстановления баз данных для СУБД. В фактическом хранилище
данных эта задача предназначена для администратора базы данных.

5) Другое различие между этими двумя типами систем связано с механизмами,
требуемыми для одновременного доступа пользователей. Так как хранилища данных
не обновляются, управление транзакциями, управление параллельным доступом и
другие подобные механизмы, интегрированные в систему управления базами данных,
используются только на начальной стадии загрузки и для последующего добавления,
из-за того, что они дороги с точки зрения время отклика. Эти механизмы могут быть
отключены во время текущего использования хранилищ данных. Созданная таким
образом свобода может быть использована для оптимизации доступа к данным путем:
денормализации, суммирования, статистики доступа к данным, динамической
реорганизации индекса и т. д.

Рассмотрим свойства, основные характеристики БД и ХД, а также их назначение и различия.

Сравнительный анализ БД и ХД

Современные БД, как упоминалось выше, должны оперативно обрабатывать небольшие объемы данных и ключевым фактором является скорость обработки. Такие оперативные промышленные БД обрабатывают большой поток записей относительно небольшого размера. Подобного рода системы называются транзакционными или OLTP-системы (Online Transaction Processing) — системы обработки транзакций в реальном времени, когда небольшие по размерам транзакции идут большим потоком. Источником таких записей или инициатором запроса к системе могут быть, к примеру, операторы фронт-офисной системы или клиенты, проводящие операции через терминальные устройства.

Для ХД источниками, как правило, являются другие системы, в том числе OLTP-системы (см. Рис.1). «Сырые» данные собираются из не интегрированных, оперативных и унаследованных систем, очищаются от ошибок, агрегируются и загружаются в хранилища, например, для построения моделей (рисковых, скоринговых), для подготовки отчетности или передачи данных в другие системы. В ХД данные представляются в понятном бизнес-пользователям виде. Такие системы относятся к типу OLAP (Online analytical processing). OLAP — это технология комплексного многомерного анализа данных, назначение которой предоставить пользователям понятный и простой доступ к данным.

Понятие хранилища данных (ХД). Отличия хранилищ данных от баз данных

Рис. 1. Источники и потребители ХД

Может возникнуть вопрос: Почему нельзя использовать традиционные БД для тех же целей, что и ХД, т. е. для анализа данных и принятия решений? На самом деле можно использовать. Но ХД специально предназначено для поддержки принятия решений, а значит гораздо больше подходит для этих целей, чем БД. Т. е. требования к хранящейся информации в ХД и в БД имеют принципиальные отличия.

Рассмотрим подробнее требования к ХД и БД.

БД содержат огромное количество информации, не нужной для анализа. ХД должно быть предметно-ориентированным, т. е. загружать в него следует не все подряд, а максимально сокращенный спектр выбираемой информации, и использовать только те данные, которые необходимы для решения поставленной задачи.

ХД должно быть интегрированным. Из-за большого количества различных источников, одни и те же данные, показатели могут храниться по-разному и иметь различные форматы и значения. Подобные несоответствия должны устраняться программными средствами автоматически. Данные должны быть обработаны и унифицированы таким образом, чтобы удовлетворять требованиям всего предприятия. Это может быть одной из самых трудоемких задач при проектировании ХД.

Для ХД должна быть обеспечена высокая скорость извлечения большого объема данных. Оно должно представлять собой среду, оптимизированную таким образом, чтобы максимально быстро получать готовые срезы или массивы данных из очень больших объемов, при этом выполняя сложные, произвольные, не стандартизованные запросы, индивидуальные для каждой организации, отдела или даже аналитика. Для этого необходимо отказаться от главного принципа — нормализации, т. е. от дробления таблиц на мельчайшие элементы с тем, чтобы каждое значение встречалось в ХД только один раз. Таким образом, ХД — денормализовано, и одно и то же значение можно встретить как в детализированном виде, так и в агрегированном виде. В отличие от нормализованной БД, для которой принципиально важно оперативно выбирать лишь небольшие по объему порции данных, используя стандартизованные запросы.

В ХД необходима поддержка внутренней непротиворечивости данных. Это требование следует из предыдущих пунктов, т. к. обилие источников данных и денормализованная структура могут угрожать непротиворечивости внутри ХД, а этого допускать нельзя. Для обеспечения непротиворечивости данных существуют специальные механизмы. В БД их использование не требуются, т. к. непротиворечивость данных обеспечивается нормализацией.

В оперативных БД данные обрабатываются за относительно небольшой период времени, например, 1 месяц, и поддержка историчности не предусмотрена. Остальные данные, как правило, архивируются, переносятся на другой сервер и в дальнейшем не используются для расчетов. В ХД поддерживается привязка ко времени. Данные никогда не удаляются, а сохраняются в течение 5–7 и более лет. Это необходимо для построения закономерностей и прогнозов.

Как отмечалось ранее, в БД данные изменяются, а в ХД — нет. В случае изменения объекта/показателя, появляется дополнительная запись. Для каждого момента времени существует актуальная версия записи объекта/показателя. Данные не модифицируются, т. к. это может привезти к нарушению их целостности. Это требование также называется — неразрушаемая целостность данных, полнота и достоверность.

Подводя итоги сравнительного анализа, рассмотрим различия между БД и ХД. Кратко различия приведены ниже в Таблица 1.

  1. Детализация. БД предназначены, прежде всего, для быстрого извлечения одной записи, обработки и отправки для дальнейшего расчета. Поэтому данные детализированы. ХД предназначены для принятия стратегических решений, прогнозирования. Для этого необходимы агрегированные, обобщенные данные. Поэтому результаты агрегации из разных источников БД хранятся уже в готовом виде.
  2. Обновление. БД отражают состояние на текущий момент времени и могут изменяться в любой момент времени. В ХД интервалы загрузки и обновления данных регламентированы. Например, ежесуточно или несколько раз в сутки.
  3. Зависимость от времени. В БД нет зависимости от времени. Данные актуальны на текущий момент времени. В ХД обеспечивается поддержка историчности. Например, для возможности построения модели в зависимости от времени. Не только на конкретную дату, но и за период.
  4. Корректировка. Это свойство является следствием предыдущего. В БД запись изменяется, а предыдущее значение не сохраняется. В ХД запись не может быть изменена, а создается новая версия записи с актуальными значениями.
  5. Обработка. В БД, как уже упоминалось, обрабатывается одна запись за один запрос. В ХД выполняется работа с множеством записей. Составляются сложные запросы для построения моделей, нахождения закономерностей.
  6. Ориентированность. БД ориентированы на приложение, какую-то конкретную область. Архитектура ХД ориентирована на анализ и принятие решений, и все подчинено этим аспектам без привязки к какой-либо конкретной области.
  7. Избыточность. Основной принцип построения БД — нормализация и не избыточность. Любой показатель информации должен храниться в единственном экземпляре. Не должно быть дублирования, противоречий. В ХД данные избыточны. Т. е. одни и те же показатели/объекты могут храниться несколько раз, причем в разном виде. В разных представлениях, степенях детализации, агрегации и т. д. В данном случае свойством не избыточности пожертвовали ради скорости сбора и анализа.

Таблица 1

Различия между базами и хранилищами данных

Данные в БД

Данные в ХД

1

Детализированы

Обобщены, агрегированы

2

Обновляются произвольно

Обновление регламентировано

3

Точны в момент обращения

Зависимы от времени

4

Корректируются

Не корректируются.

5

Обрабатывается одна запись

Обрабатывается массив

6

Ориентированы на приложения

Ориентированы на анализ

7

Не избыточны

Избыточны

Крупнейшие мировые производители программного обеспечения для СУБД и ХД

На сегодняшний день можно выделить несколько широко известных компаний, чьи решения в области СУБД и ХД занимают лидирующие позиции и используются по всему миру. Крупнейшими среди них являются:

  1. Oracle
  2. Microsoft
  3. IBM
  4. Teradata

Остановимся на каждом из них и кратко рассмотрим плюсы и минусы предлагаемых на сегодняшний день решений.

У компании Oracle лидирующие позиции в области СУБД, которой принадлежит около 30 % мирового рынка.

Понятие хранилища данных (ХД). Отличия хранилищ данных от баз данных

А на российском рынке компании принадлежит более 60 % рынка. Поддержка Oracle всех возможных вариантов архитектур, в том числе кластеров, симметричных многопроцессорных систем и свыше 80 вариантов операционной среды, включая мэйнфреймы IBM, мини-компьютеры DEC VAX, UNIX, Windows и множество других платформ — являются одними из важнейших характеристик. Их значимость очевидна для крупномасштабных организаций, где множество компьютеров различных моделей. Oracle предлагает решения от начального уровня, до высокопроизводительных систем, масштабируемых и безопасных, что также является критичным для бизнес-приложений. Среди плюсов Oracle также поддержка совместимости со старыми решениями (три четверти клиентов Oracle работают с Oracle Database более 10 лет) и высокие показатели удовлетворенности продуктами. К минусам Oracle можно отнести высокую стоимость и сложность лицензирования, а также проблемы, связанные с выпуском обновлений. При разработке ХД Oracle предлагает широкий спектр продуктов, от использования сертифицированной конфигурации до устройства, готового к настройке ХД и нагрузке. Также предлагаются фирменные решения Exadata: Oracle Exadata X2–2 для ХД и смешанных рабочих нагрузок, Oracle Exadata X2–8 для облачных решений и Oracle Exadata Storage Expansion Rack X2–2 для увеличения емкости ХД. Oracle сообщает о наличии более 300 тыс. клиентов по всему миру.

Компания Microsoft занимает прочные позиции на рынке CУБД, предлагая такие решения, как SQL Server DBMS и облачный сервис Azure SQL DATABASE.

Понятие хранилища данных (ХД). Отличия хранилищ данных от баз данных

Компания получила самую высокую оценку от клиентов за удовлетворение потребностей заказчиков, соотношение цены и качества, обслуживание, поддержку и общий опыт. Также конкурентоспособность Microsoft повысила, запустив бесплатные инструменты Developer Edition of SQL Server и Database Migration Service для миграции баз данных SQL Server и Oracle в среду Azure SQL Database. Продукт SQL Server используется для работы с небольшими и средними по размеру БД, а также для крупных БД масштаба предприятия. Но, несмотря на сильные стороны, многие корпоративные заказчики по-прежнему не считают эту СУБД подходящей для критически важных приложений. По опыту использования стоит отметить, что если количество пользователей превышает 2000, то требуется переходить на СУБД более высокого уровня, например, от компании Oracle. На рынке ХД Microsoft предлагает свои решения SQL Server 2008 DBMS (Release 2) Business Data Warehouse и Fast Track Data Warehouse для обеспечения ХД клиентов, которым не требуется СУБД массово-параллельной архитектуры. Microsoft выпустила собственное ​​устройство ХД массово-параллельной архитектуры — SQL Server 2008 R2 Parallel Data Warehouse (Microsoft) в ноябре 2010 года.

Корпорация IBM предлагает, как автономные решения СУБД, так и устройства для ХД.

Понятие хранилища данных (ХД). Отличия хранилищ данных от баз данных

В настоящее время на рынке представлено семейство IBM Smart Analytics System (ISAS), ПО для ХД IBM — InfoSphere Warehouse доступно для Unix, Linux, Windows и z/OS. IBM имеет тысячи клиентов баз данных по всему миру. Стоит отметить богатую функциональность решений, в том числе облачные и гибридные возможности, которыми обладают продукты компании, а также активное использование популярных решений с открытым исходным кодом (Hadoop, Kafka, Parquet,Spark и др.) и функций резервного копирования и восстановления данных в/из Swift и AWS S3. Однако, выручка и доля IBM на рынке операционных СУБД сокращается уже несколько лет. СУБД DB2 проигрывает большинству конкурентов по скорости обработки транзакций и загрузки данных. Также существуют трудности с ценообразованием и лицензированием.

Компания Teradata существует более 30 лет на рынке ХД в сочетании с подготовленным оборудованием и специализированным ПО БД аналитики. Teradata имеет более 1 тыс. организаций-заказчиков по всему миру. Продукты Teradata включают решения для интеллектуального анализа данных, ведомственные решения, ориентированные на поиск данных и корпоративные решения, а также облачные решения и продукты для работы с большими данными. Aster Data добавила новые возможности в линейку продуктов Teradata (такие как MapReduce, неструктурированные данные и графический анализ).

Резюме

Различия, показанные выше, являются одной из причин, по которым хранилища данных создаются отдельно от оперативных баз данных. Разделение двух систем обеспечивает масштабируемость решений бизнес-аналитики, а также их способность быстро и эффективно отвечать на запросы в компании. Хранилища данных позволяют проводить всесторонний анализ, поскольку структуры коллекций данных более просты - только необходимая информация сохраняется, стандартизируется - структуры хорошо документированы и денормализованы, существует меньше объединений между наборами данных.

На сегодняшний день БД и ХД — это не только системы для надежного хранения и обработки служебной информации. ИС такого класса помогают обеспечивать целые спектры задач и услуг от проведения клиентских транзакций до планирования, прогнозирования и принятия тактических и стратегических решений на уровне крупнейших предприятий. На развитие ИТ-инфраструктуры компании готовы тратить огромные средства, понимая всю важность этой составляющей не только для повышения эффективности и получения прибыли, но и для повышения конкурентоспособности на рынке. Поэтому при выборе ИС крайне важно не только понимать цели компании, прогнозировать возможные изменения в будущем, но и хорошо ориентироваться в постоянно изменяющемся мире ИТ-технологий, предлагаемых решениях, их назначении, и политике работы и взаимодействия с клиентами компаний-разработчиков ИС, которые в свою очередь постоянно стремятся совершенствоваться и предлагают клиентам свои лучшие продукты.

Концепция ХД была предложена в начале 90-х годов прошлого столетия как основа методологии организации данных в системах поддержки и принятия решений. Согласно классическому определению В. Инмона, хранилище данных есть предметно-ориентированная, интегрированная, неизменяемая и поддерживающая хронологию электронная коллекция данных для обеспечения процесса принятия решений.

Данные поступают в ХД из внешних источников. Методика построения ХД предполагает выполнение ряда процедур преобразования и очистки данных внешних источников.

Использование концепции ХД предполагает использование иных, чем в операционных системах обработки данных, методов построения модели данных.

Таким образом, в ХД хранятся:

  • данные масштаба организации;
  • интегрированные наборы исторических данных из различных источников данных;
  • предметно-ориентированные, согласованные и консолидированные данные;
  • данные, структурированные с целью упростить выполнение запросов.

Использование информационных технологий на основе ХД предполагает применение систематизированного позадачного подхода. ХД создается для решения конкретных, строго определенных задач анализа и воспроизводства данных. Таким образом, определяющим моментом в его построении являются задачи обработки данных. Именно это обстоятельство определяет и подходы к проектированию ХД.

На практике для реализации ХД используются СУБД, поддерживающие определенную модель данных. Поэтому с точки зрения реализации ХД следует считать БД специальной структуры.

Вау!! 😲 Ты еще не читал? Это зря!

Представленные результаты и исследования подтверждают, что применение искусственного интеллекта в области хранилище данных имеет потенциал для революции в различных связанных с данной темой сферах. Надеюсь, что теперь ты понял что такое хранилище данных, хд, отличия хранилищ данных от баз данных и для чего все это нужно, а если не понял, или есть замечания, то не стесняйся, пиши или спрашивай в комментариях, с удовольствием отвечу. Для того чтобы глубже понять настоятельно рекомендую изучить всю информацию из категории Базы данных, знаний и хранилища данных. Big data, СУБД и SQL и noSQL

Продолжение:


Часть 1 Понятие хранилища данных (ХД). Отличия хранилищ данных от баз данных
Часть 2 Концепция хранилищ данных - Понятие хранилища данных (ХД). Отличия хранилищ
Часть 3 Отличия баз данных от хранилиц данных: - Понятие хранилища данных
Часть 4 Различия между хранилищами данных и операционными базами данных - Понятие

создано: 2017-05-28
обновлено: 2022-01-04
132769



Рейтиг 9 of 10. count vote: 2
Вы довольны ?:


Поделиться:

Найди готовое или заработай

С нашими удобными сервисами без комиссии*

Как это работает? | Узнать цену?

Найти исполнителя
$0 / весь год.
  • У вас есть задание, но нет времени его делать
  • Вы хотите найти профессионала для выплнения задания
  • Возможно примерение функции гаранта на сделку
  • Приорететная поддержка
  • идеально подходит для студентов, у которых нет времени для решения заданий
Готовое решение
$0 / весь год.
  • Вы можите продать(исполнителем) или купить(заказчиком) готовое решение
  • Вам предоставят готовое решение
  • Будет предоставлено в минимальные сроки т.к. задание уже готовое
  • Вы получите базовую гарантию 8 дней
  • Вы можете заработать на материалах
  • подходит как для студентов так и для преподавателей
Я исполнитель
$0 / весь год.
  • Вы профессионал своего дела
  • У вас есть опыт и желание зарабатывать
  • Вы хотите помочь в решении задач или написании работ
  • Возможно примерение функции гаранта на сделку
  • подходит для опытных студентов так и для преподавателей



Комментарии


Оставить комментарий
Если у вас есть какое-либо предложение, идея, благодарность или комментарий, не стесняйтесь писать. Мы очень ценим отзывы и рады услышать ваше мнение.
To reply

Базы данных, знаний и хранилища данных. Big data, СУБД и SQL и noSQL

Термины: Базы данных, знаний и хранилища данных. Big data, СУБД и SQL и noSQL