Технологии бд теоретические основы организации бд. Реляционная модель данны



страница19/20
Дата23.04.2016
Размер2.56 Mb.
1   ...   12   13   14   15   16   17   18   19   20

5.Хранилища данных (DataWarehousing) и системы оперативной аналитической обработки данных

5.1.Технология хранилищ данных


Системы управления базами данных применяются во всех отраслях промышленности, причем доминирующим типом систем являются реляционные СУБД. Эти системы проектировались для управления большим потоком транзакций, каждая из которых сопровождалась внесением небольших изменений в оперативные данные предприятия, т.е. в данные, которые предприятие обрабатывало в процессе своей повседневной деятельности.

Системы подобного типа называются системами оперативной обработки транзакций, или системами OLTP (On-Line Transaction Processing). Размер баз данных для систем OLTP может изменяться от совсем небольшого, всего в несколько мегабайтов, до среднего, порядка нескольких гигабайтов, и дальше, вплоть до очень большого, на уровне нескольких терабайтов или даже петабайтов.

Лицам, ответственным за принятие корпоративных решений, необходимо иметь доступ ко всем данным организации независимо от их расположения. Для выполнения полного анализа деятельности организации, определения ее деловых показателей, выяснения характеристик существующего спроса и тенденций его изменения необходимо иметь доступ не только к текущим данным, но и к ранее накопленным (историческим) данным. Для упрощения подобного анализа была разработана концепция хранилища данных (data warehouse, ХД). Предполагается, что такое хранилище содержит сведения, поступающие из самых разных источников данных, функционирующих под управлением разных операционных модулей, а также различные накопительные и сводные данные. Концепция хранилища данных базируется на усовершенствованной технологии баз данных и предусматривает специальные средства управления процессом хранения информации. Однако лицам, ответственным за принятие корпоративных решений, необходимо иметь мощные инструменты анализа накопленных данных. Основными средствами анализа в последние годы стали инструменты оперативной аналитической обработки (On-Line Analytical Processing — OLAP) и инструменты разработки данных (data mining).

5.1.1.Эволюция хранилищ данных


Начиная с 1970-х годов, организации были более заинтересованы во вложении своих средств в новые компьютерные системы, чем в автоматизацию используемых ими деловых процессов. Это позволяло им повысить свою конкурентоспособность за счет развертывания систем, которые могли предоставить клиентам более эффективный и менее дорогостоящий набор услуг. С тех пор организации накопили огромное количество информации, которая хранится в их оперативных базах данных. Но теперь, в связи с широким распространением систем поддержки принятия решений, организации стремятся сконцентрировать свое основное внимание на способах использования накопленных оперативных данных, имея целью получить за счет этого дополнительный рост своей конкурентоспособности.

Прежние системы оперативной обработки проектировались без учета какой-либо поддержки подобных деловых требований, поэтому преобразование обычных систем OLTP в системы поддержки принятия решений оказалось чрезвычайно сложной задачей. Как правило, типичная организация имеет множество различных систем операционной обработки с перекрывающимися, а иногда и противоречивыми определениями, например с разными типами, выбранными для представления одних и тех же данных. Основной задачей организации является преобразование накопленных архивов данных в источник новых знаний, причем таким образом, чтобы пользователю было предоставлено единое интегрированное и консолидированное представление о данных организации. Концепция хранилища данных была задумана как технология, способная удовлетворить требования систем поддержки принятия решений и базирующаяся на информации, поступающей из нескольких различных источников оперативных данных.


5.1.2.Концепция хранилищ данных


Получивший наибольшее распространение подход к созданию ХД был предложен Биллом Инмоном. Он определяет ХД так:

Хранилище данных. Предметно-ориентированный, интегрированный, привязанный ко времени и неизменяемый набор данных, предназначенный для поддержки принятия решений.

В приведенном выше определении, указанные характеристики данных рассматриваются следующим образом.

• Предметная ориентированность. Хранилище данных организовано вокруг основных предметов (или субъектов) организации (например, клиенты, товары и сбыт), а не вокруг прикладных областей деятельности (выставление счета клиенту, контроль запасов и продажа товаров). Это свойство отражает необходимость хранения данных, предназначенных для поддержки принятия решений, а не обычных оперативно-прикладных данных.

• Интегрированность. Смысл этой характеристики состоит в том, что оперативно-прикладные данные обычно поступают из разных источников, которые часто имеют несогласованное представление одних и тех же данных, например, используют разный формат. Для предоставления пользователю единого обобщенного представления данных необходимо создать интегрированный источник, обеспечивающий согласованность хранимой информации.

• Привязка ко времени. Данные в хранилище точны и действительны только в том случае, если они привязаны к некоторому моменту или промежутку времени. Необходимость привязки хранилища данных ко времени следует из большой длительности того периода, за который была накоплена сохраняемая в нем информация, из явной или неявной связи временных отметок со всеми сохраняемыми данными, а также из того факта, что хранимая информация фактически представляет собой набор снимков состояния данных.

• Неизменяемость. Это означает, что данные не обновляются в оперативном режиме, а лишь регулярно пополняются за счет информации из оперативных систем обработки. При этом новые данные никогда не заменяют, а лишь дополняют прежние. Таким образом, база данных хранилища постоянно пополняется новыми данными, последовательно интегрируемыми с уже накопленной информацией.



Конечной целью создания хранилища данных является интеграция корпоративных данных в едином репозитарии, обращаясь к которому пользователи могут выполнять запросы, подготавливать отчеты и проводить анализ данных. Подводя итог, можно сказать, что технология хранилищ данных — это технология управления данными и их анализа.

5.1.3.Отличия хранилищ данных от систем OLTP


Система OLTP

Хранилище данных

Содержит текущие данные

Содержит исторические данные

Хранит подробные сведения

Хранит подробные сведения, а также частично и полностью обобщенные данные

Данные являются динамическими

Данные в основном являются статическими

Повторяющийся способ обработки данных

Нерегламентированный, неструктурированный и эвристический способ обработки данных

Высокая интенсивность обработки транзакций

Средняя и низкая интенсивность обработки транзакций

Предсказуемый способ использования данных

Непредсказуемый способ использования данных

Предназначена для обработки транзакций

Предназначено для проведения анализа

Ориентирована на прикладные области

Ориентировано на предметные области

Поддержка принятия повседневных решений

Поддержка принятия стратегических решений

Обслуживает большое количество работников исполнительного звена

Обслуживает относительно малое количество работников руководящего звена

Организация обычно имеет несколько различных систем OLTP, предназначенных для поддержки таких деловых процессов, как управление запасами, выставление счетов клиентам и продажа товаров. Эти системы вырабатывают оперативные данные, которые являются очень подробными, текущими и подверженными изменениям. Системы OLTP оптимально подходят для интенсивной обработки транзакций, которые проектируются заранее, многократно повторяются и связаны преимущественно с обновлением данных. В соответствии с этими особенностями, данные в системах OLTP организованы согласно требованиям конкретных деловых приложений и позволяют принимать повседневные решения большому количеству параллельно работающих пользователей-исполнителей. В противоположность сказанному выше, в организации обычно имеется только одно хранилище данных, которое содержит исторические, подробные, до определенной степени обобщенные и практически неизменные данные (т.е. новые данные могут только добавляться). Хранилища данных предназначены для обработки относительно небольшого количества транзакций, которые имеют непредсказуемый характер и требуют ответа на произвольные, неструктурированные и эвристические запросы. Информация в хранилище данных организована в соответствии с требованиями возможных запросов и предназначена для поддержки принятия долговременных стратегических решений относительно небольшим количеством руководящих работников.

Хотя системы OLTP и хранилища данных имеют совершенно разные характеристики и создаются для различных целей, все же они тесно связаны в том смысле, что системы OLTP являются источником информации для хранилища данных. Основная проблема при организации этой связи заключается в том, что поступающие из систем OLTP данные могут быть, несогласованными, фрагментированными, подверженными изменениям, содержащими дубликаты или пропуски. Поэтому до размещения в хранилище эти оперативные данные должны быть "очищены".

Системы OLTP не предназначены для получения быстрого ответа на произвольные запросы. Они также не используются для хранения устаревших исторических данных, которые требуются для анализа тенденций. Системы OLTP в основном поставляют огромное количество необработанных данных, которые не так-то легко поддаются анализу. С помощью хранилищ данных можно получить ответы на запросы, более сложные, чем запросы с простейшими обобщениями типа следующего: "Какова средняя цена объектов недвижимости в крупнейших городах Великобритании?" Хранилище данных предназначено для поиска ответов на вопросы различных типов, начиная от относительно простых и заканчивая весьма сложными, а их работа зависит от того, какие инструментальные средства доступа применяют конечные пользователи.

1   ...   12   13   14   15   16   17   18   19   20


База данных защищена авторским правом ©bezogr.ru 2016
обратиться к администрации

    Главная страница