Оглавление Предисловие авторов 1
Data Mining и перегрузка информацией 3
Глава 1. Системы поддержки принятия решений 5
1.1. Задачи систем поддержки принятия решений 5
1.2. Базы данных — основа СППР 8
1.3. Неэффективность использования OLTP-систем для анализа данных 13
Выводы 18
Глава 2. Хранилище данных 19
2.1. Концепция хранилища данных 19
2.2. Организация ХД 26
2.3. Очистка данных 31
2.4. Концепция хранилища данных и анализ 37
Выводы 37
Глава 3. OLAP-системы 40
3.1. Многомерная модель данных 40
3.2. Определение OLAP-систем 44
3.3. Концептуальное многомерное представление 45
3.3.1. Двенадцать правил Кодда 45
3.3.2. Дополнительные правила Кодда 46
3.3.3. Тест FASMI 48
3.4. Архитектура OLAP-систем 49
3.4.1. MOLAP 50
3.4.2. ROLAP 53
3.4.3. HOLAP 56
Выводы 57
Глава 4. Интеллектуальный анализ данных 58
4.1. Добыча данных — Data Mining 58
4.2. Задачи Data Mining 59
4.2.1. Классификация задач Data Mining 59
4.2.2. Задача классификации и регрессии 61
4.2.3. Задача поиска ассоциативных правил 63
4.2.4. Задача кластеризации 65
4.3. Практическое применение Data Mining 67
4.3.1. Интернет-технологии 67
4.3.2. Торговля 67
4.3.3. Телекоммуникации 68
4.3.4. Промышленное производство 68
4.3.5. Медицина 69
4.3.6. Банковское дело 70
4.3.7. Страховой бизнес 71
4.3.8. Другие области применения 71
4.4. Модели Data Mining 71
4.4.1. Предсказательные модели 71
4.4.2. Описательные модели 72
4.5. Методы Data Mining 74
4.5.1. Базовые методы 74
4.5.2. Нечеткая логика 74
4.5.3. Генетические алгоритмы 77
4.5.4. Нейронные сети 79
4.6. Процесс обнаружения знаний 80
4.6.1. Основные этапы анализа 80
4.6.2. Подготовка исходных данных 82
4.7. Средства Data Mining 84
Выводы 89
Глава 5. Классификация и регрессия 91
5.1. Постановка задачи 91
5.2. Представление результатов 92
5.2.1. Правила классификации 92
5.2.2. Деревья решений 93
5.2.3. Математические функции 94
5.3. Методы построения правил классификации 95
5.3.1. Алгоритм построения 1-правил 95
5.3.2. Метод Naive Bayes 97
5.4. Методы построения деревьев решений 100
5.4.1. Методика "разделяй и властвуй" 100
Алгоритм ID3 103
Алгоритм C4.5 106
5.4.2. Алгоритм покрытия 108
5.5. Методы построения математических функций 113
5.5.1. Общий вид 113
5.5.2. Линейные методы. Метод наименьших квадратов 115
5.5.3. Нелинейные методы 116
5.5.4. Support Vector Machines (SVM) 116
5.6. Прогнозирование временных рядов 120
5.6.1. Постановка задачи 120
5.6.2. Методы прогнозирования временных рядов 120
Выводы 122
Глава 6. Поиск ассоциативных правил 124
6.1. Постановка задачи 124
6.1.1. Формальная постановка задачи 124
6.1.2. Секвенциальный анализ 127
6.1.3. Разновидности задачи поиска ассоциативных правил 130
6.2. Представление результатов 132
6.3. Алгоритмы 136
6.3.1. Алгоритм Apriori 136
6.3.2. Разновидности алгоритма Apriori 141
Выводы 142
Глава 7. Кластеризация 143
7.1. Постановка задачи кластеризации 143
7.1.1. Формальная постановка задачи 145
7.1.2. Меры близости, основанные на расстояниях, используемые в алгоритмах кластеризации 147
7.2. Представление результатов 149
7.3. Базовые алгоритмы кластеризации 151
7.3.1. Классификация алгоритмов 151
7.3.2. Иерархические алгоритмы 152
Агломеративные алгоритмы 152
Дивизимные алгоритмы 154
7.3.3. Неиерархические алгоритмы 155
Алгоритм k-means (Hard-c-means) 156
Алгоритм Fuzzy С-Means 160
Кластеризация по Гюстафсону-Кесселю 163
7.4. Адаптивные методы кластеризации 168
7.4.1. Выбор наилучшего решения и качество кластеризации 168
7.4.2. Использование формальных критериев качества в адаптивной кластеризации 168
Показатели четкости 169
Энтропийные критерии 170
Другие критерии 170
7.4.3. Пример адаптивной кластеризации 171
Выводы 173
Глава 8. Визуальный анализ данных — Visual Mining 175
8.1. Выполнение визуального анализа данных 175
8.2. Характеристики средств визуализации данных 177
8.3. Методы визуализации 182
8.3.1. Методы геометрических преобразований 182
8.3.2. Отображение иконок 186
8.3.3. Методы, ориентированные на пикселы 188
8.3.4. Иерархические образы 190
Выводы 192
Глава 9. Анализ текстовой информации — Text Mining 194
9.1. Задача анализа текстов 194
9.1.1. Этапы анализа текстов 194
9.1.2. Предварительная обработка текста 196
9.1.3. Задачи Text Mining 197
9.2. Извлечение ключевых понятий из текста 198
9.2.1. Общее описание процесса извлечения понятий из текста 198
9.2.2. Стадия локального анализа 201
9.2.3. Стадия интеграции и вывода понятий 204
9.3. Классификация текстовых документов 206
9.3.1. Описание задачи классификации текстов 206
9.3.2. Методы классификации текстовых документов 208
9.4. Методы кластеризации текстовых документов 209
9.4.1. Представление текстовых документов 209
9.4.2. Иерархические методы кластеризации текстов 211
9.4.3. Бинарные методы кластеризации текстов 212
9.5. Задача аннотирования текстов 213
9.5.1. Выполнение аннотирования текстов 213
9.5.2. Методы извлечения фрагментов для аннотации 216
9.6. Средства анализа текстовой информации 219
9.6.1. Средства Oracle — Oracle Text 219
9.6.2. Средства от IBM — Intelligent Miner for Text 220
9.6.3. Средства SAS Institute — Text Miner 221
9.6.4. Средства Мегапьютер Интеллидженс — TextAnalyst 222
Выводы 223
Глава 10. Стандарты Data Mining 224
10.1. Кратко о стандартах 224
10.2. Стандарт CWM 224
10.2.1. Назначение стандарта CWM 224
10.2.2. Структура и состав CWM 226
10.2.3. Пакет Data Mining 229
10.3. Стандарт CRISP 233
10.3.1. Появление стандарта CRISP 233
10.3.2. Структура стандарта CRISP 233
10.3.3. Фазы и задачи стандарта CRISP 235
10.4. Стандарт PMML 240
10.5. Другие стандарты Data Mining 248
10.5.1. Стандарт SQL/MM 248
10.5.2. Стандарт OLE DB для Data Mining 250
10.5.3. Стандарт JDMAPI 252
Выводы 252
Глава 11. Библиотека Xelopes 255
11.1. Архитектура библиотеки 255
11.2. Диаграмма Model 258
11.2.1. Классы модели для Xelopes 258
11.2.2. Методы пакета Model 260
11.2.3. Преобразование моделей 261
11.3. Диаграмма Settings 262
11.3.1. Классы пакета Settings 262
11.3.2. Методы пакета Settings 264
11.4. Диаграмма Attribute 264
11.4.1. Классы пакета Attribute 264
11.4.2. Иерархические атрибуты 265
11.5. Диаграмма Algorithms 266
11.5.1. Общая концепция 266
11.5.2. Класс MiningAlgorithm 267
11.5.3. Расширение класса MiningAlgorithm 268
11.5.4. Дополнительные классы 270
11.5.5. Слушатели 270
11.6. Диаграмма DataAccess 270
11.6.1. Общая концепция 271
11.6.2. Класс MiningInputStream 272
11.6.3. Классы Mining-векторов 272
11.6.4. Классы, расширяющие класс MiningInputStream 272
11.7. Диаграмма Transformation 273
11.8. Примеры использования библиотеки Xelopes 275
11.8.1. Общая концепция 275
11.8.2. Решение задачи поиска ассоциативных правил 278
11.8.3. Решение задачи кластеризации 280
11.8.4. Решение задачи классификации 282
Выводы 285
Глава 12. Распределенный анализ данных 287
12.1. Системы мобильных агентов 287
12.1.1. Основные понятия 287
12.1.2. Стандарты многоагентных систем 288
12.1.3. Системы мобильных агентов 291
12.1.4. Система мобильных агентов JADE 291
12.2. Использование мобильных агентов для анализа данных 293
12.2.1. Проблемы распределенного анализа данных 293
12.2.2. Агенты-аналитики 293
12.2.3. Варианты анализа распределенных данных 295
12.3. Система анализа распределенных данных 297
12.3.1. Общий подход к реализации системы 297
12.3.2. Агент для сбора информации о базе данных 298
12.3.3. Агент для сбора статистической информации о данных 301
12.3.4. Агент для решения одной задачи интеллектуального анализа данных 304
12.3.5. Агент для решения интегрированной задачи интеллектуального анализа данных 307
Выводы 308
Приложение 1. Нейронечеткие системы 311
П1.1. Способы интеграции нечетких и нейронных систем 311
П1.2. Нечеткие нейроны 315
П1.3. Обучение методами спуска 317
П1.4. Нечеткие схемы рассуждений 318
П1.5. Настройка нечетких параметров управления с помощью нейронных сетей 324
П1.6. Нейронечеткие классификаторы 331
Приложение 2
. Особенности и эффективность генетических алгоритмов 337
П2.1. Методы оптимизации комбинаторных задач различной степени сложности 337
П2.2. Сущность и классификация эволюционных алгоритмов 342
П2.2.1. Базовый генетический алгоритм 342
П2.2.2. Последовательные модификации базового генетического алгоритма 343
П2.2.3. Параллельные модификации базового генетического алгоритма 345
П2.3. Классификация генетических алгоритмов 348
П2.4. Особенности генетических алгоритмов, предпосылки для адаптации 349
П2.5. Классификация адаптивных ГА 352
П2.5.1. Основа адаптации 352
П2.5.2. Область адаптации 354
Адаптация на уровне популяции 354
Адаптация на уровне индивидов 355
Адаптация на уровне компонентов 356
П2.5.3. Основа управления адаптацией 356
П2.6. Двунаправленная интеграция ГА и нечетких алгоритмов продукционного типа 357
Приложение 3. Описание прилагаемого компакт-диска 364
Литература 368
Предметный указатель 372
VIII Оглавление VII Оглавление