Введение 9
Глава 1. Информационные процессы и системы. Обработка информации, анализ данных, машинное обучение
13
1.1. Основные понятия и определения. Математическое описание систем в рамках теоретико-множественного подхода 13
1.2. Классификация систем. Информационные системы, информационные процессы, информационные технологии 19
1.3. Задачи анализа данных в системах обработки информации и базовые подходы для их решения 30
ЧАСТЬ I. ОЦЕНИВАНИЕ, РЕГРЕССИЯ, ФИЛЬТРАЦИЯ
39
Глава 2. Математические описания и моделирование случайных величин и случайных векторов
41
2.1. Математические описания и выборочные характеристики случайных величин и случайных векторов 41
2.1.1. Квадратичные формы и линейные преобразования случайных векторов 50
2.1.2. Выборочные характеристики случайных величин и случайных векторов 51
2.2. Моделирование случайных величин и случайных векторов 53
2.2.1. Моделирование простейших случайных величин на основе стандартных датчиков случайных чисел 54
2.2.2. Моделирование случайных величин с произвольными законами распределения 57
Метод нелинейного функционального преобразования 57
Метод исключений (метод фон Неймана) 58
2.2.3. Моделирование случайных векторов с заданной матрицей ковариаций 62
Глава 3. Основы теории оценивания и регрессионного анализа данных.
69
3.1. Общая характеристика задач оценивания. 69
Оценка параметров в рамках статистического и детерминистского подходов 69
3.1.1. Статистический подход к решению задачи параметрического оценивания. 69
Методы максимума правдоподобия и максимума апостериорной вероятности 69
Метод максимума правдоподобия 70
Байесовское оценивание 73
Моделирование алгоритмов 76
Теорема о нормальной корреляции 79
3.1.2. Детерминистский подход к решению задачи параметрического оценивания. 80
Метод наименьших квадратов 80
Линейный случай 82
Нелинейный случай 83
Моделирование алгоритма 85
3.2. Непараметрическая оценка плотностей распределения вероятностей 89
3.2.1. Оценка плотности распределения вероятностей на основе метода Парзена 89
Моделирование алгоритма 92
3.2.2. Оценка плотности распределения вероятностей на основе метода k-ближайших соседей 102
Моделирование алгоритма 103
3.2.3. Нелокальные методы оценивания плотности распределения вероятностей 111
Гистограммный метод оценивания 111
Метод аппроксимации с использованием ортогональных функций 112
3.3. Основы регрессионного анализа данных. 113
3.3.1. Постановка и решение задачи регрессии в рамках статистического подхода 114
3.3.2. Постановка и решение задачи регрессии в рамках детерминистского подхода по методу наименьших квадратов 116
Линейная параметрическая регрессия 117
Проверка значимости модели регрессии 119
Моделирование алгоритма 121
3.3.3. Метод псевдообратной матрицы и метод регуляризации в задачах регрессии 124
Моделирование алгоритма 125
3.3.4. Расширения линейной регрессии и нелинейная регрессия 128
Моделирование алгоритма 129
Глава 4. Фильтрация — оценивание изменяющихся параметров состояния объектов
133
4.1. Основные положения теории оптимальной марковской фильтрации в дискретном времени 133
4.1.1. Общая методика решения задач оптимальной фильтрации в дискретном времени 133
4.1.2. Постановка и решение задачи оптимальной линейной фильтрации 135
Моделирование алгоритмов 138
4.2. Расширения задачи оптимальной линейной фильтрации 145
4.2.1. Негауссовские модели параметров и оптимальный в классе линейных фильтр 145
4.2.2. Расширенный фильтр Калмана 150
Моделирование алгоритмов 150
4.2.3. Адаптивная постановка задачи фильтрации и метод разделения 157
Моделирование алгоритма 160
4.3. Синтез и анализ алгоритмов фильтрации для оценки состояния объектов в условиях аномальных наблюдений 164
4.3.1. Модели получения аномальных наблюдений 164
4.3.2. Синтез и анализ различных типов алгоритмов фильтрации в условиях аномальных наблюдений 167
Оптимальный в классе линейных фильтр 167
Моделирование алгоритма 170
Условно линейный фильтр 173
Моделирование алгоритма 176
Оптимальный нелинейный фильтр 181
ЧАСТЬ II. РАСПОЗНАВАНИЕ И КЛАСТЕРИЗАЦИЯ
193
Глава 5. Основы статистической теории распознавания образов
195
5.1. Байесовская теория принятия решения применительно к задаче распознавания образов 195
5.1.1. Синтез решающих правил на основе различных критериев оптимальности 196
Критерий минимума условного риска 196
Критерии максимума апостериорной вероятности и максимального правдоподобия 198
Обобщенная структура решающего правила. Понятие разделяющей функции 199
5.1.2. Анализ решающих правил. Способы определения вероятностей ошибок распознавания 201
5.2. Распознавание образов, описываемых гауссовскими случайными векторами 208
5.2.1. Распознавание образов, описываемых гауссовскими случайными векторами с одинаковыми матрицами ковариаций 209
Моделирование алгоритма 212
5.2.2. Распознавание образов, описываемых гауссовскими случайными векторами с различными матрицами ковариаций 218
Моделирование алгоритма 219
5.3. Распознавание образов, описываемых произвольными законами распределения 224
5.3.1. Распознавание образов в предположении статистической независимости признаков 224
5.3.2. Распознавание образов в случае статистически независимых дискретных признаков 226
5.3.3. Распознавание на основе бинарных признаков (на примере анализа бинарных изображений) 228
Моделирование алгоритма 230
5.4. Распознавание образов в условиях параметрической и непараметрической неопределенности на основе обучения с учителем 233
5.4.1. Распознавание образов в условиях параметрической неопределенности 234
Подстановочные алгоритмы 234
Использование оценок максимального правдоподобия 234
Использование байесовских оценок 235
Моделирование алгоритмов 237
5.4.2. Распознавание образов в условиях непараметрической неопределенности. 240
Использование оценок плотностей распределения 240
Использование оценок на основе метода Парзена 241
Использование оценок на основе метода k-ближайших соседей 242
Моделирование алгоритмов 243
5.5. Предварительная обработка статистических признаков распознавания 249
5.5.1. Метод главных компонент и отбор информативных признаков 249
Моделирование алгоритма 253
5.5.2. Декоррелирующие свойства дискретных спектральных преобразований 258
Моделирование алгоритма 261
5.5.3. Линейный дискриминантный анализ 264
Глава 6. Распознавание образов в рамках детерминистского подхода
269
6.1. Распознавание образов с использованием функций расстояния 269
6.1.1. Метрические алгоритмы при использовании одного или нескольких эталонных описаний 270
6.1.2. Обучение метрических алгоритмов 275
Метод потенциальных функций 278
6.2.1. Нелинейные преобразования и спрямляющие пространства. 278
Ядра скалярных произведений 278
6.2.2. Метод потенциальных функций 283
Случай двух классов 283
Случай многих классов 285
Моделирование алгоритма 285
6.3. Метод опорных векторов 291
6.3.1. Случай линейно разделимых классов 291
Случай безошибочно линейно разделимых классов 292
Случай линейной разделимости классов с ошибками 294
Моделирование алгоритма 297
6.3.2. Случай линейно не разделимых классов 299
Моделирование алгоритма 300
6.4. Композиционные методы и алгоритмы распознавания образов 303
6.4.1. Деревья решений и композиции «случайный лес» 306
Деревья решений 306
Показатель загрязненности 307
Расщепление деревьев 308
Усечение деревьев 310
Моделирование алгоритма 310
Случайный лес (Random Forest) на основе баггинга 314
Моделирование алгоритма 316
6.4.2. Композиции базовых алгоритмов с обучением на основе бустинга 319
Моделирование алгоритма 321
6.5. Нейронные сети и их использование для построения алгоритмов анализа данных 323
6.5.1. Типовая архитектура нейронных сетей прямого распространения и их обучение 325
6.5.2. Сходимость нейронных сетей к статистически оптимальным алгоритмам 328
Моделирование алгоритмов 331
6.5.3. Проблема переобучения и практические рекомендации 334
Глава 7. Обучение без учителя и кластерный анализ в рамках статистического и детерминистского подходов
339
7.1. Статистический подход к задаче классификации без обучения. EM-алгоритм 340
Моделирование алгоритма 343
7.2. Методы и алгоритмы кластеризации образов в рамках детерминистского подхода 350
7.2.1. Кластеризация при известном числе классов. Алгоритм K-внутригрупповых средних и алгоритм иерархической кластеризации 352
Алгоритм K-внутригрупповых средних (K-means) и его модификации 352
Моделирование алгоритма 354
Алгоритмы иерархической кластеризации 356
Моделирование алгоритма 358
кластеризации в условиях неизвестного числа классов 361
Моделирование алгоритмов 362

Список литературы 371
Приложение. Описание электронного архива 375
Предметный указатель 377