Исследование данных о больных бронхиальной астмой при помощи нейронных сетей без учителя
Сиземов Д.Н., Ильязова Т.В., Демко И.В., Жуков Л.А.
Сибирский Государственный Технологический Университет
В работе были
использованы данные Красноярского
регионального общественного объединения
больных бронхиальной астмой о пациентах,
проживающих в Красноярске и имеющих
диагноз “Бронхиальная астма”. Для
исследований была отобрана совокупность из
23 параметров: пол, возраст, возраст
установления диагноза, форма бронхиальной
астмы, степень тяжести, а также наличие
следующих параметров: стероидозависимость,
дыхательная недостаточность, эмфизема,
хроническое легочное сердце (3 степени),
группа инвалидности, аллергический
круглогодичный ринит, неаллергический (вазомоторный)
ринит, полипозная риносинусопатия, другие
ЛОР заболевания, поллиноз, рецидивирующая
крапивница (или отек Квинке), атопический
дерматит, лекарственная аллергия, пищевая
аллергия, ГБ, ИБС, сахарный диабет, другие
сопутствующие заболевания.
На первом этапе
работы выполнялась кластеризация данных о
больных БА для выявления основных групп
больных, с использованием нейронных сетей
без учителя, нейроимитатор MDN (разработан на
кафедре ИТ СибГТУ). Для работы с
нейроимитатором были использованы данные о
1941 пациенте. Для исследуемых данных была
предпринята попытка определения наиболее
устойчивой классификации и взаимосвязей,
определяющих её.
Исследование
производилось посредством
последовательного обучения серий
нейронных сетей методом динамических ядер.
Обучение серии заключается в
последовательном обучении сетей с
поэтапной сменой начальных ядер классов, т.е.
начальных весов нейронов сети: в качестве
наборов весов используются первые
доступные примеры исследуемой выборки,
всевозможные их комбинации без повторений.
После обучения каждая сеть представляет на
выходе исходное множество данных разбитым
на классы, т.е. представляет способ
разбиения или классификации исходной
совокупности данных. При обучении серии
результаты обучения каждой сети (способы
разбиения) учитываются посредством
сравнения с уже полученными результатами. В
случае, если при обучении серии способ
разбиения встречался несколько раз, для
него фиксируется количество аналогичных
результатов. Разбиения, имеющие наибольшее
количество аналогов наиболее устойчивы, т.к.
встречаются более часто.
При настройке
сетей были выбраны следующие параметры:
нормирование входных данных на диапазон [0,1]
и выбор в качестве начальных ядер первых
доступных примеров. Первично было
исследовано разбиение на 2 класса, при этом
абсолютная задержка таксономии
варьировалась в диапазоне от 0,1 до 0,5; при
опытах также использовалась и строгая
таксономия. В результате проведения
данного этапа было установлено, что
наиболее частыми вариантами классификации
оказались 2 практически идентичных
разбиения с одинаковой оценкой. Одно из них
при изменении задержки изменяется в
интервале от 40,3% до 33,3% аналогов, второе - в
интервале от 10% до 60%. Причём по мере
увеличения задержки разница между числом
аналогов сначала убывает (до значения
задержки 0,2), снова возрастает (до значения
задержки 0,5). Суммарное количество аналогов
возрастает непрерывно от 85% до 93,3%, а
количество полученных разных вариантов
разбиений непрерывно сокращается. При
задержке таксономии 0,5 оценки данных
разбиений не отличаются, отличия в
значимости признаков пренебрежительно
малы, а распределения примеров по классам
совпадают в 99,79%. На этом основании данные
разбиения в дальнейшем можно рассматривать
как одно устойчивое, включающее 93,3%
аналогов.
ТАБЛИЦА 1. Значимости параметров и типичные представители классов
| Параметр
| Значимость
| Класс I
| Класс II
|
|---|
| Пол
| 0.05
| 1.69
| 1.74
| | Возраст
| 0.2
| 45.5
| 61.62
| | Возраст установления диагноза
| 0.14
| 37.06
| 49.3
| | Форма БА
| 0.02
| 2.46
| 2.58
| | Степень тяжести
| 0.25
| 2.38
| 3.12
| | Стероидозависимость
| 0.08
| 0.22
| 0.53
| | Дыхательная недостаточность
| 0.39
| 0.73
| 1.89
| | Эмфизема
| 0.95
| 0
| 0.96
| | ХЛС
| 0.09
| 0.07
| 0.33
| | Группа инвалидности
| 0.26
| 0.43
| 1.2
| | Аллергический ринит
| 0.06
| 0.12
| 0.06
| | Неаллергический ринит
| 0.01
| 0.09
| 0.1
| | Полипозная риносинусопатия
| 0
| 0.08
| 0.08
| | Др. ЛОР заболевания
| 0.01
| 0.08
| 2
| | Поллиноз
| 0
| 0.08
| 0.09
| | Рецидивирующая крапивница
| 0
| 0.06
| 0.05
| | Атопический дерматит
| 0.01
| 0.01
| 0.02
| | Лекарственная аллергия
| 0.07
| 0.03
| 0.02
| | Пищевая аллергия
| 0.02
| 0.05
| 0.12
| | ГБ
| 0.25
| 0.04
| 0.06
| | ИБС
| 0.24
| 0.09
| 0.34
| | Сахарный диабет
| 0.02
| 0.05
| 0.29
| | Другие
| 0.12
| 0.01
| 0.03
|
Типичные
представители классов по наиболее значимым
признакам при разбиении с задержкой
таксономии 0,5 в денормированном
пространстве признаков имеют следующий вид.
Для первого класса: возраст (61,77), эмфизема
(0,95), степень тяжести (3,12), степень
дыхательной недостаточности (1,89), группа
инвалидности (1,21), ГБ (0,34), ИБС (0,3). Для
второго класса: возраст (45,67), эмфизема (0),
степень тяжести (2,39), степень дыхательной
недостаточности (0,73), группа инвалидности
(0,42), ГБ (0,09), ИБС (0).
На втором этапе
исследований число признаков исследуемых
данных было сокращено до 15 – были удалены
все признаки, имеющие относительно
наилучшего разбиения оценку значимости
меньше или равную 0,02. Таким образом, были
удалены признаки: неаллергический ринит,
полипозная риносинусопатия, другие ЛОР
заболевания, поллиноз, рецидивирующая
крапивница, атопический дерматит, пищевая
аллергия, сахарный диабет. После повторного
проведения исследований, замеченные
особенности сохранились: всё также имеют
место два наиболее частых разбиения, и их
соотношение ведёт себя подобным образом.
При изменении задержки таксономии от 0 до 0.5
количество разбиений аналогичных первому
из них изменяется от 69,8% до 55,7% и достигает
минимума в 45,8% при значении задержки 0,2.
Число аналогов второго разбиения при этом
изменяется от 12,2% до 37,9% и имеет минимумы 41,2%
и 39,5% при значениях задержки 0,2 и 0,4
соответственно. Суммарный процент аналогов
для обоих разбиений непрерывно при
увеличении задержки таксономии растёт.
Наибольшее суммарное число аналогов при
данных разбиениях снова получено при
задержке 0,5 и составляет уже 93,6% от общего
количества. При этом разбиения имеют равную
оценку, значимости признаков имеют ещё
меньше отличий, а совпадение распределений
примеров по классам составляет 99,997%.
ТАБЛИЦА 3. Значимости параметров и типичные представители классов (2 этап)
| Параметр
| Значимость
| Ранг по значимости
| Класс I
| Класс II
|
|---|
| Пол
| 0.05
|
| 1.69
| 1.74
| | Возраст
| 0.20
|
| 45.45
| 61.64
| | Возраст установления диагноза
| 0.14
|
| 37.07
| 49.34
| | Форма БА
| 0.02
|
| 2.46
| 2.58
| | Степень тяжести
| 0.25
| 4
| 2.38
| 3.12
| | Стероидозависимость
| 0.08
|
| 0.22
| 0.53
| | Дыхательная недостаточность
| 0.39
| 2
| 0.73
| 1.89
| | Эмфизема
| 0.95
| 1
| 0
| 0.96
| | ХЛС
| 0.09
|
| 0.07
| 0.34
| | Группа инвалидности
| 0.26
| 3
| 0.42
| 1.2
| | Аллергический ринит
| 0.06
|
| 0.12
| 0.06
| | Неаллергический ринит
| 0.07
|
| 0.05
| 0.12
| | ГБ
| 0.25
| 4
| 0.09
| 0.34
| | ИБС
| 0.25
| 4
| 0.05
| 0.29
| | Другие
| 0.12
|
| 0.12
| 0.24
|
Типичные
представители классов при разбиении с
задержкой таксономии 0,5 в денормированном
пространстве выглядят следующим образом.
Для первого класса: возраст (61,64), эмфизема
(0,96), степень тяжести (3,12), степень
дыхательной недостаточности (1,89), группа
инвалидности (1,20), ИБС (0,29), ГБ (0,34). Для
второго класса: возраст (45,45), эмфизема (0),
степень тяжести (2,38), степень дыхательной
недостаточности (0,73), группа инвалидности
(0,42), ИБС (0,05), ГБ(0,09). Как видно из признаков
типичных представителей, к первому классу
относятся больные старшего возраста,
относящиеся к группе среднетяжелого и
тяжелого течения заболевания, для которых в
среднем характерно наличие различных
осложнений. Соответственно, ко второму
классу отнесены больные среднего возраста,
с легкой эпизодической и легкой
персистирующей степенью тяжести, для
которых в среднем не характерно наличие
осложнений. Судя по увеличению разрыва по
числу аналогов между наиболее частым
разбиением и остальными, полученное
разбиение можно считать более устойчивым.
Как уже было
отмечено, при увеличении задержки
таксономии количество различных вариантов
разбиений уменьшалось. Таким образом, на
первом этапе количество вариантов
изменялось в диапазоне от 50, что
соответствует задержке 0, до 8, что
соответствует задержке 0,5. На втором этапе
количество вариантов соответственно
изменялось диапазоне от 23 до 5. При
проведении отдельных экспериментов, в виду
возникавших временных ограничений,
обучение искусственно прерывалось на
различных этапах. Таким образом, независимо
от величины задержки таксономии, суммарное
количество сетей, на первом этапе обучено
более 50000 сетей. На втором этапе количество
обученных сетей варьировалось от 25142 до 52029.
Таким образом, процентные соотношения,
указанные выше, явно свидетельствую об
устойчивости разбиения.
В результате
проведения начальных этапов данных
исследований установлена закономерность
устойчивого разделения примеров на 2 класса,
причём, в силу того, что число признаков
исходных данных уже было довольно
эффективно сокращено на 2 этапе, можно в
дальнейшем, используя остаточную наиболее
информативную совокупность признаков,
попытаться установить взаимосвязи между её
признаками.
Вернуться к основному списку
|