Лекция
Это продолжение увлекательной статьи про системы деловой осведомленности.
...
Microstrategy, Oracle, PeopleSoft, ProClarity, Sagent, SAP, SAS, Whitelight и др. Среди них выделяются следующие семь лидеров и претендентов на лидерство в данной области: Microsoft, SAS, Oracle, SAP, PeopleSoft, Info Builders, Hyperion
Двое из перечисленных производителей, Microsoft и Oracle, в состоянии реализовать все уровни системы бизнес-аналитики своими силами, не прибегая к инструментам третьих фирм. Решающий критерий, выделяющий этих производителей, — наличие собственной СУБД.
Рассмотрим пример реализации системы бизнес-аналитики организации инструментами Microsoft.
Компания Microsoft предлагает комплексный набор средств бизнес-анализа (Business Intelligence, BI) на основе масштабируемой платформы для организации ХД, анализа данных и генерации отчетов. Эти простые и мощные средства позволяют конечным пользователям обращаться к бизнес-информации и анализировать ее. Основой комплексного предложения для BI от Microsoft является СУБД SQL Server 2008 — полнофункциональная платформа сервисов для работы с данными, позволяющая:
В табл. 4.3 приводится описание технологий SQL Server 2008, формирующих основу мощного BI-инструментария
Компонент | Описание |
---|---|
СУБД SQL Server | Масштабируемый высокопроизводительный механизм для хранения больших объемов данных. SQL Server подходит для консолидации всех бизнес-данных предприятия в центральном ХД для анализа и генерации отчетов |
SQL Server Integration Services | Комплексная платформа для извлечения, преобразования и загрузки (ETL), обеспечивающая заполнение ХД и его синхронизацию с данными из разнородных источников, с которыми работают бизнес-приложения, используемые в организации |
SQL Server Analysis Services | Аналитический механизм для реализации OLAP-решений (Online Analytical Processing, онлайновая аналитическая обработка): агрегирования бизнес-показателей из множества таблиц-измерений и создания решений для анализа данных (data mining), использующих специализированные алгоритмы, чтобы выявить шаблоны, тенденции и связи в бизнес-информации |
SQL Server Reporting Services | Решение для генерации отчетов, облегчающее создание, публикацию и распространение подробных бизнес-отчетов по предприятию и за его пределами |
SQL Server 2008 не только является комплексной BI-платформой, но и тесно интегрирован с офисными решениями, такими как 2007 Microsoft Office System, что делает эту платформу доступной для всех сотрудников предприятия и позволяет им получить сведения, служащие основой для эффективных действий.
SQL Server 2008 поддерживает два типовых подхода к унификации бизнес-данных для анализа и генерации отчетов.
Чтобы обеспечить максимально высокую производительность и корректную работу, в SQL Server 2008 включены функции среды разработки, которые помогают создавать эффективные решения для анализа. К ним относятся:
Генерация отчетов — важный элемент любого BI-решения; бизнес-пользователям требуются все более сложные отчеты. В SQL Server Reporting Services входит ряд средств, облегчающих создание решений для генерации отчетов:
Кроме того, в SQL Server 2008 Reporting Services внесены существенные усовершенствования в плане повышения производительности и гибкости форматирования и публикации отчетов.
Преимущество OLAP состоит в том, что при моментальном доступе к точной информации конечные пользователи могут немедленно получать ответы даже на самые сложные вопросы. Поэтому при разработке всех версий SQL Server Analysis Services ставилась задача непрерывного сокращения времени обработки запросов и повышения скорости актуализации данных. Естественно, те же цели стояли и перед создателями SQL Server 2008 Analysis Services.
Средство Analysis Services в составе SQL Server 2008 предоставляет более широкие возможности в плане анализа, включая сложные вычисления и агрегирование. Производительность корпоративного уровня обеспечивается за счет:
Преимущество SQL Server 2008 на рынке BI-решений основано на масштабируемой инфраструктуре, благодаря которой информационные технологии делают возможным внедрение бизнеc-анализа по всему предприятию и доступ к результатам анализа там, где это необходимо пользователям. SQL Server 2008 обеспечивает значительный прогресс в организации хранилищ данных, предоставляя комплексную масштабируемую платформу, с помощью которой организации смогут быстрее интегрировать данные в ХД и управлять ими, доставляя результаты анализа всем пользователям. За счет более высокой масштабируемости BI-инфраструктура SQL Server 2008 способна генерировать отчеты любых размеров и сложности, управлять ими и делать отчеты доступными пользователям посредством тесной интеграции с Microsoft Office. Кроме того, SQL Server 2008 демонстрирует более высокую производительность в таких областях, как обслуживание ХД, генерация отчетов и анализ.
Общая архитектура решения для систем бизнес аналитики-компании Microsoft показана на рис. 4.4.
увеличить изображение
Рис. 4.4. Решение для систем бизнес аналитики-компании Microsoft
Информационные технологии обеспечивают поддержку технологической цепочки обработки данных:
Получение данных обеспечивается автоматизированными системами оперативной обработки данных или транзакционными системами обработки данных. Основное назначение таких систем – это обеспечение развитой формы учета данных на низком уровне бизнес-процессов организации. Пользователями этих систем являются специалисты.
Чтобы использовать собранные данные для анализа, их нужно привести к единому формату, преобразовать, согласовать и предварительно обработать. Эту задачу предназначены решать системы извлечения, преобразования и загрузки данных. Это важное звено перехода к анализу данных.
Предоставление данных обеспечивается информационно-аналитическими системами обработки данных. Такие системы разрабатываются с использованием технологии ХД и методов бизнес-аналитики. Основное назначение таких систем – это обеспечение развитой формы публикации данных. Их пользователями являются менеджеры.
Каждый менеджер обучался аналитической работе, применял компьютер при обучении в школе и университете, в повседневной работе окружен компьютерами и требует данных для принятия решений.
Публикация данных для менеджеров является первостепенной задачей. Хорошо известно, что публикация является успешной, если она удовлетворяет потребности читателей. Своевременная и по возможности полная публикация данных является средой для поддержки и принятия решений.
Для менеджера важно, чтобы публикация была:
Рассмотрим комплекс проблем и пути их возможного решения, с которыми приходится сталкиваться при построении систем бизнес-аналитики1.
Первая проблема при создании систем бизнес-аналитики заключается в том, что в ХД оказываются недоступными данные, необходимые для принятия решений. Если в хранилище данных оказываются недоступными необходимые данные, нужно восполнить эту недостачу путем сбора бизнес-требований от конечных пользователей; изучения того, какая информация необходима бизнес-пользователям в процессе принятия решений; регулярных дискуссий с лицами, принимающими решения, для понимания новых требований; систематического исследования новых источников данных и метрик.
В связи с этой проблемой Ральф Кимбалл отмечает, что нельзя относиться к построению корпоративного ХД как к проекту, у которого имеется начало и конец. В действительности, построение ХД для системы бизнес-аналитики — это непрерывный процесс, который может закончиться только после отказа от построения ХД.
Отметим также, что на этот факт неоднократно указывали ряд исследователей в области построения ХД. Причиной такой точки зрения, скорее всего, является простое обстоятельство: бизнес-среда в современных экономических условиях может меняться очень быстро и динамично, что существенно влияет на потребности в данных.
Вторая проблема при создании систем бизнес-аналитики заключается в недостатке партнерских отношений между конечными пользователями и специалистами в области ИT. Симптомами этой проблемы являются разочарование конечных пользователей имеющимся уровнем обслуживания; осуждение специалистами ИT конечных пользователей за их жалобы, компьютерную безграмотность и пренебрежение чтением документации; недооценка использования современных ИT руководством организации.
Как следствие, ХД не удовлетворяет потребности пользователей или работает слишком медленно, фактически, не используется пользователями. При этом отсутствуют административные решения, направленные на достижение согласия и исправление ситуации.
Общая идея решения этой проблемы: ИТ-персоналу необходимо жить в окружении бизнес-пользователей, чтобы лучше узнать специфику бизнеса компании и потребности ее заказчиков и завоевать доверие конечных пользователей.
Как показывает опыт, возникновение этой проблемы тесно связано с тем, что ИТ-специалисты при разработке автоматизированных систем не соблюдают требования соответствующих ГОСТов и не уделяют должного внимания разработке лингвистического и организационного обеспечения.
Третья проблема при создании систем бизнес-аналитики состоит в отсутствии явной познавательной и концептуальной модели конечных пользователей. Симптомом этой проблемы является выбор IT-специалистами инструментальных средств на основе бесед с потенциальными продавцами и знакомства с демонстрационными версиями без учета реальных потребностей пользователей.
IT-специалисты иной раз стремятся к сложным решениям и подразумевают, что конечным пользователям нравится работать на компьютерах. Но пользователи зарабатывают свои деньги за счет решения стоящих перед ними задач, и, возможно, рассматривают компьютер как средство, помогающее им решать эти задачи. Изучение и освоение новых программных продуктов не является их основной производственной задачей. До появления в организации новых программных продуктов бизнес-пользователи справлялись с решением своих задач и без них.
В качестве решения предлагается уточнение уровня познавательной и компьютерной грамотности конечных пользователей; построение концептуальной модели поведения пользователей при решении задач и принятии решений; выбор или настройка средств доставки информации, наилучшим образом соответствующих особенностям конечных пользователей.
Самый простой подход состоит в том, чтобы разделить пользователей на две категории – те, которые используют Excel, и те, которые считают электронные таблицы слишком сложными. Для первой категории нужно обеспечить возможность формулировки произвольных запросов, а вторым предоставить заранее подготовленные, может быть, параметризуемые отчеты.
Ральф Кимбалл предлагает простую модель оценки сложности программных инструментов:
Правило применения этой модели очень просто. Оно исходит из двух логических предпосылок: "Каждое нажатие — это подцель при достижении цели" и "Каждое нажатие – это отвлечение, как неожиданный звонок телефона". Отсюда вытекает эмпирическое правило: "1-3 нажатия – хорошо; 4-8 нажатий – приемлемо; больше 8 нажатий – провал".
На рис. 4.5 показана простая модель использования ХД в системах бизнес-аналитики для принятия решений.
Как видно из рисунка, модель включает в себя отражение следующих бизнес-процессов принятия решений:
Четвертая проблема при создании систем бизнес-аналитики заключается в запаздывании данных, требуемых для принятия решений. Симптомом является потребность в данных в реальном времени. Здесь под требованиями "реального времени" понимаются любые требования к временным характеристикам данных, которые не могут быть удовлетворены действующей процедурой ETL.
Одно из возможных решений заключается в изменении процедуры ETL (Extraction, Transformation, Loading) за счет использования готовых инструментов извлечения данных, например, сообщений EAI (Enterprise Application Integration). Для быстрого удовлетворения потребностей пользователей можно связывать "горячие" разделы таблицы фактов со статическим ХД, не дожидаясь обновления таблиц измерений.
Пятая проблема при создании систем бизнес-аналитики состоит в том, что интеграции корпоративных данных препятствуют не сведенные к единой форме факты и измерения. Топ-менеджерам требуется всестороннее представление данных, а его невозможно получить, потому что в разных подразделениях данные представляются по-разному. В качестве решения предлагается при проектировании витрин данных использовать шинную матрицу для согласования данных. Как подчеркивает Ральф Кимбалл, это решение является не столько техническим, сколько организационным.
Шестой проблемой при создании систем бизнес-аналитики является недостаточная подробность (гранулированность) данных, результатом чего становится невыразительная система бизнес-аналитики. Симптомом является недостаточное число атрибутов у данных измерений. Предлагается постоянно стремиться к повышению выразительности данных, а для создания содержательного контекста данных использовать вспомогательные источники данных.
Седьмую проблему при создании систем бизнес-аналитики представляют неудобные форматы данных. По Ральфу Кимбаллу, неудобной является нормализованная форма реляционных данных. Симптомами проблемы, кроме этого, могут быть запутанность и запуганность пользователей, сложность формулировки запросов, сложные процедуры ETL, потребность в специализированном оборудовании для достижения требуемой производительности.
Одним из возможных решений является представление данных в многомерной модели. Это представление соответствует пользовательской интуиции, облегчает формулировку запросов, упрощает процедуру ETL и позволяет добиться нужного уровня производительности на обычной аппаратуре.
Восьмая проблема при создании систем бизнес-аналитики состоит в слишком медленной доставке данных конечным пользователям. Данные не поступают в оперативном режиме, пользователи остерегаются задавать медленно выполняемые запросы, имеются количественные ограничения на использование данных.
Решением этой проблемы является тщательное проектирование БД, создание многомерных моделей данных, подбор качественных программных средств СУБД с развитыми механизмами индексации, оснащение компьютеров основной памятью большого объема, использование распараллеливания, применение компьютеров с быстрыми центральными процессорами.
Девятая проблема при создании систем бизнес-аналитики проявляется в том, что некоторые данные оказываются "запертыми" в каком-то приложении и их невозможно переместить оттуда в другое приложение простым образом. Выходом из положения является использование только таких приложений, для которых возможно копирование данных в электронную таблицу через буфер обмена с помощью одного нажатия на клавишу мыши.
Десятая проблема при создании систем бизнес-аналитики связана с низким качеством данных. Симптомами проблемы являются отсутствие содержательных данных, наличие ненадежных или бессмысленных данных, присутствие дублирующих или несогласованных записей (чаще всего такие записи относятся к заказчикам компании). В качестве решения проблемы предлагается расширить используемые средства ETL системой экранов качества данных. В многомерной модели данных для фиксации ошибок в данных создается схемы событий с ошибками (Error Event Schema) — таблица фактов со своими измерениями. На основе этой таблицы порождаются измерения аудита данных для других таблиц фактов, и эти измерения могут использоваться при формировании отчетов, в которых учитываются ненадежные данные.
Одиннадцатая проблема при создании систем бизнес-аналитики состоит в преждевременной агрегации данных. Наличие в многомерной модели агрегированных данных без соответствующих атомарных данных не позволяет проводить детализацию данных. Рекомендуемым решением проблемы является поддержка для витрин данных физических структур хранения, содержащих атомарные данные. Детализация данных поддерживается за счет агрегатной навигации .
Двенадцатой проблемой при создании систем бизнес-аналитики Ральф Кимбалл считает отвлечение внимания на оценку показателей возврата инвестиций (ROI) ХД. Симптомами этой проблемы является расчет показателей ROI до создания ХД с применением стандартных методов, основанных на периоде окупаемости, чистой приведенной стоимости, внутренней норме прибыли, системе сбалансированных показателей, экономической добавленной стоимости. По его мнению, во всех этих методах упускается основной смысл стоимости и в конечном счете – ценности ХД.
ХД поддерживает принятие решений. Рекомендуется после принятия решения отнести часть полученной прибыли на счет ХД, а затем сравнить ее с расходами на ХД. Ральф Кимбалл рекомендует считать, что 20% прибыли, полученной в результате принятия решения, получено благодаря использованию ХД. Такой подход соответствует той идее, что единственным осмысленным способом оценки эффективности ХД является оценка его возможности поддерживать принятие решений конечными пользователями.
Тринадцатая проблема при создании систем бизнес-аналитики состоит в затрате сил и времени на создание корпоративной модели данных. Симптомом является появление большого количества сущностей, которые никогда не наполняются реальными данными. Ральф Кимбалл считает, что усилия, затрачиваемые на разработку корпоративной модели данных, только задерживают работу над ХД, и расчет делается на то, что при выполнении процедуры ETL будут выявляться ошибки и несоответствие данных.
Отметим, что решение о разработке корпоративной модели данных действительно требует больших интеллектуальных затрат и времени на ее создание. Может оказаться, что модель устареет к
продолжение следует...
Часть 1 Системы деловой осведомленности (Business Intelligence Systems) и хранилища данных
Часть 2 Архитектура систем бизнес-уровня - Системы деловой осведомленности (Business Intelligence Systems)
Часть 3 Решение от компании Microsoft - Системы деловой осведомленности (Business Intelligence
Часть 4 Хранилища данных и системы бизнес-аналитики - Системы деловой осведомленности (Business
Ответы на вопросы для самопроверки пишите в комментариях, мы проверим, или же задавайте свой вопрос по данной теме.
Комментарии
Оставить комментарий
Базы данных, знаний и хранилища данных. Big data, СУБД и SQL и noSQL
Термины: Базы данных, знаний и хранилища данных. Big data, СУБД и SQL и noSQL