воскресенье, 25 января 2015 г.

Дискриминантный анализ в Statistica

Дискриминация (от лат. discriminatio -различение) в математической статистике – выявление различий между объектами исследования. Если общества развитых стран борются с дискриминацией, то для статистиков – это хлеб насущный.

Итак, дискриминантный анализ служит для выявления линейных зависимостей между двумя и более группами. Он является как разведочным, так и подтверждающим. То есть, мы можем как найти статистические зависимости обуславливающие различие между группами, так и использовать их для дальнейшей дискриминации других объектов.

Сам по себе дискриминантный метод является линейным методом, а потому имеет много общего с дисперсионным (ANOVA) и регрессионным методами.

Данный метод предъявляет ряд требований к данным:

  1. Нормальность признаков
  2. Одинаковая дисперсия признаков в группах
  3. Различие в средних

В принципе, данными условиями можно пренебречь. Главное, что бы работало. При этом чем меньше соблюдаются условия – тем меньше будет процент верной классификации. Вот и всё.

Важно отметить, что в геохимии мы имеем дело, как правило, с нелинейными закономерностями. Но это не означает, что линейные функции подходят неудовлетворительно. По своему опыту дискриминации интрузий, аномалий и пр. объектов, – использование нейросетей для дискриминации позволяло улучшить результат всего на 2-5%.

Приступим…

1 Рис. 1. Выборка данных.

Допустим мы имеем выборку силикатных анализов трёх типов интрузий: Норильский тип - продуктивный и несёт оруденение; Зубовский – похож на Норильский, но непродуктивный; Нижнеталнахский – совсем “пустой”. Дополнительно, в выборку добавлен ряд проб с нового объекта и нам потребуется выяснить к какому типу относится он. Важно отметить, что в нашем случае, каждый тип охарактеризован разным количеством проб в силу неравномерности изучения, но никак не природной встречаемости (это важно).

Лог-нормальные данные были предварительно прологарифмированы. О том, как проверить данные на нормальность – см. ранние посты.

2 Рис. 2. Строим графики типа ящик-с-усами.

Данные графики показывал как строить ранее, потому у вас затруднений не должно быть.

Графики типа ящик-с-усами показывают различие в средних и дисперсии, то что нам нужно для предварительной разведки данных.

3 Рис. 3. График распределения оксида хрома по типам интрузий.

Типичный график с высоким различием объектом. Посмотрите, ящики Норильского и Нижнеталнахского типов не пересекаются, средние однозначно различаются. Дисперсия (ширина ящика) у Норильского типа выше, но этим можно пренебречь. Теоретически, можно проводить дискриминацию уже по оксиду хрома – посчитать необходимое количество проб, и вперед, но мы хотим большего – большей надежности и качества за счёт использования других переменных.

4 Рис. 4. График распределения оксида марганца по типам интрузий.

Типичный график со слабым различием между группами.

5 Рис. 5. Традиционный дискриминантный анализ.

Ниже есть выбор анализа General Discriminant (Общий дискриминантный). Для него доступны категориальные независимые переменные (у геохимиков, это например, название вмещающих горных пород, их возраст; у кредиторов – внешний вид заёмщика). Так же, там имеется кросс-проверка результатов. Тем не менее, выбрал “традиционный” анализ, потому что в таком случае можно еще провести канонический анализ и полнее расммотреть зависимости.

6 Рис. 6. Определение переменных и групп для анализа.

7 Рис. 7. Выбор параметров проведения анализа.

В данном случае можно выбрать один из трёх методов выбора переменных:

  1. стандартного, когда включаются сразу все переменные;
  2. последовательного включения, когда включаются данные у которых F больше определённого значения (уточняется в Advanced);
  3. последовательного исключения, когда из всех переменных исключаются те, у которых значение F меньше определённого значения (выставляется в Advanced).

F значение – отношение межгрупповой дисперсии к внутригрупповой.

8 Рис. 8. Итоговая характеристика анализа.

Итак, из тринадцати переменных анализ выбрал одиннадцать. Последней включённой переменной оказался оксид магния с F = 2,306. Лямбда Уилкса составила 0,19, что близко к нулю и является хорошим результатом. То есть, можно ожидать выского процента верной классификации.

9 Рис. 9. Таблица переменных участвовавших в дискриминантном анализе.

Как видно из таблицы, максимальные различия вносят переменные оксида хрома, калия, и железа II.

10 Рис. 10. Результаты классификации.

Перед выводом отчётных таблиц необходимо определиться с априорными вероятностями (Apriori classification probabilities). Как говорил в самом начале, у нас количество проб не влияет на природную встречаемость интрузий, а обусловлено лишь неравномерным изучением объектов. Поэтому следует выбрать равнозначные априорные вероятности. Тем не менее, если вы имеете априорную информацию (например, встречаемость интрузий в конкретном районе, или вероятность нахождения интрузий по геофизическим данным), или хотите подстраховаться, то можно самостоятельно расставить априорные вероятности через пункт User Defined.

Затем выведем таблицы: фукнций классификации, матрицы классификаций и таблицу классификации проб. Каждая таблица зависит от априорных вероятностей.

11 Рис. 11. Функции классификации.

Так то тут представлены коэффициенты к дискриминантным функциям типа y=ax+b. Выигрывает тот тип, значение дискриминантной функции которого принимает максимальное значение.

12Рис. 12. Матрица результатов классификации.

В строках матрицы - наблюдаемые значения, в колонках – предсказанные. Таким образом, Норильский тип чаще всего путаем с Зубовским, и реже с Нижнеталнахским.

Верная классикация происходит в 88% случаев, зная это с помощью биномиального распределения можно расчитать необходимое количество проб для дискриминации объектов.

13 Рис. 13. Таблица результатов классификации.

В выборку были добавлены пробы без определённого типа интрузии, но они так же были проанализированы и в большинстве своём относятся к Норильскому типу.

14 Рис. 14. Проведение канонического анализа.

Канонический анализ – аналогичен методу главных компонент и служит для выявления связей между двумя и более множествами переменных.

15 Рис. 15. Параметры канонического анализа.

Выбираем таблицы.

16 Рис. 16. Тест Хи-квадрат канонических корней.

В данной таблице показываются все канонические корни и их статистическая значимость. Обращаем внимание на значимые корни. В данном случае, два корня и оба статистически значимы.

17 Рис. 17. Факторный анализ канонических корней.

Объяснить структуру канонических корней можно по таблице факторных нагрузок, которая аналогична одноименной в факторном анализе. Если кто сомневается, то можно подглядеть в графики типа ящик-с-усами.

Если рассмотреть данную таблицу вместе с графиков канонических значений (рис. 19), то увиидим, что чем меньше значение Lg(Cr2O3) и блольше Lg(K2O) тем больше значение Корня 1, а значит, тем более вероятнее классификация Нижнеталнахского типа. Корень 2 разделяет Норильский и Зубовский типы: чем больше SiO2, Na2O и FeO и чем меньше Fe2O3 и MgO, тем более вероятен Зубовский тип.

Получается, что для Нижнеталхнаского типа характерна калиевая специализация с обедненностью хромом, а для Норильского типа характерна хромово-магниевая специализация с повышенной окисленностью железа.

19 Рис. 18. Построение графика распределения канонических значений.

20 Рис. 19. График распределения канонических значений.

21 Рис. 20. Добавление средних значений на график.

Поскольку, в дискриминации всё упирается в средние значения, то логично вынести их на график. Скопируем средние значения канонических корней из соответствующей таблицы.

На графике щёлкам правой клавишей мышки и выбраем пункт “Graph Data Editor” – редактор данных графика

22 Рис. 21. Добавление нового графика.

В любом месте щелкаем правой клавишей мышки и выбираем пункт “Add new plot” – добавить новый график. Вставляем скопированные средние значения.

23 Рис. 22. Итоговый график распределения канонических значений.

Канонические корни аналогичны факторам – являются латентными призаками. То есть все отдельные особенности переменных объединяются в новые математические переменные. Они не являются доказательством определённых геохимических процессов проиходивших в недрах, но могут их отражать, потому называются латентными. Удобство сокращения тринадцати переменных в две на глазах.

Кроме всего, на графике можно посмотреть форму групп, их положение, а так же наличие ошибок в данных – если пробы отходят сильно далеко от своих групп, то скорее всего они являются ошибочно классифицированными, вплоть до определения нового типа интрузии.

На графике, например, можно увидеть отдалённые три пробы Норильского типа, которые находятся в поле Нижнеталнахского. Надо их проверить.

Вот собтственно и всё.

воскресенье, 26 октября 2014 г.

Регрессия. Часть 1. MS Office Excel

Представим, что имеется некоторая база данных в которых одна часть наблюдения (пробы) имееют все результаты анализов, а другая часть - не все. Для того, что бы заполнить пробелы существует регрессионный анализ.

Регрессия бывает парной – между двумя переменными, а бывает множественная, где есть одна зависимая и множество независимых переменных.

Так же, множество видов регрессионного анализа можно разделить на три группы: линейные методы, нелинейные, непараметрические.

Линейная регрессия означает, что ищется зависимость определяемая линейной функций вида y = ax + b, где:

  • y – зависимая переменная (например, содержание серебра в руде),
  • a – коэффициент, который задает наклон прямой на графике (например, если коэффициент отрицательный, то чем меньше будет компонента x, то тем больше будет компонента y.)
  • x – независимая переменная (например, содержание золота в руде)
  • b – константа, некоторое число. Оно определяет высоту прямой. Например, константа определит сколько будет серебра в руде, если содержание золота равно нулю.

Нелинейные методы определяются функциями всевозможного вида: логарифмическими (y = ln(x)), и полиномиальными, и другими.

Непараметрические методы тоже определяют зависимость между переменными, но не могут выдать её в качестве функции.

Важно отметить, что регрессионный анализ является лишь инструментом в руках исследователя. Его нельзя применять формально, а только имея полное представление о предмете исследования. Вы уже должны знать что из чего вытекает и использовать регрессионный анализ в качестве подтверждающего метода. Так например, один лишь выброс в данных (резко выделяющееся значение) может полностью исказить представление о взаимосвязях между переменными. Тоже относится к объединению данных из разных популяций.

В первой части хочется остановится на самом простом способе – использовании регрессионного анализа в MS Excel. Рассмотрим на примере определение закономерностей между плотностью горной породы и содержанием полезных компонентов в ней. Используем парную и множественную регрессию. Линейные и нелинейные методы.

image

Шаг 1. Составим базу данных. В данном случае имеем: группирующую переменную “Порода”, зависимую “Плотность”, независимые “М1-М8”.

image

Шаг 2. Включим надстройку “Анализ данных” для Excel. Для этого правой клавишей мышки щелкаем в любом месте на ленте и открываем вкладку “Настройка ленты”

image

В открывшемся окне переходим во вкладку “Надстройки”. Внизу в строке “Управление” выбираем “Надстройки Excel” - “Перейти”.

image

В новом окне выбираем “Пакет анализа” и активируем кнопкой ОК. Надстройку “Анализ данных” можно будет найти на ленте во вкладке “Данные”.

image

Шаг 3. Определим вид распределения данных. Для линейных методов необходимо, чтобы данные были распределены нормально. То есть имелось среднее значение от котого равновероятно отходят остальные значения.

Как правило, вид распределения определяют по графикам, дополняя их статистическими критериями. В Excel данная часть реализована очень слабо. Проверим распределение с помощью гистрограммы. Откроем эту функцию в пакете Анализа данных.

Стоит отметить, что для каждой популяции необходимо строить свою гистрограмму. Например, роговики отдельно от массивных сульфидных руд.

Так же, как правило, в геологогии редкие и благородные металлы имеют логнормальное распределение. Вы так же, вряд ли ошибетесь выбрав логнормальное распределение, если значения переменнной изменяются на два порядка.

image

Выбираем данные, ставим галочки (кроме Парето) и жмём ОК.

image

Шаг 4. Анализуем гистограммы.

Массивные руды показывают моду на классе 4.38, но из-за хвоста слева, идёт снижение среднего до 4.30. Такой вид гистограммы называется правоскошенным. В роговиках было отобрано значительно меньше проб, но тем не менее среднее находится на уроне 3.2-3.5. Разница серьезная. Более того, исследователь, опробовавший километры керна, знает, что плотность 2.72 (как и 3.16) не характерна для массивных руд. Даже теоретически. Следовательно, на лицо наличие прослоев немассивных руд в выборке.

Фактически у нас ненормальное распределение, но учитывая особенности выборки мы можем пренебречь этим фактом. Ведь ничего другого нам не остаётся. Исправить правоскошенное распределение с помощью логарифмирования не получится. Минимальное значение плотности для массивных руд также не известно, поскольку накладывается ряд факторов: влажность, пористость, состав, допустимый процент силикатного вещества.

Шаг 5. Проводим корреляционный анализ, чтобы определить самые значимые переменные. Предварительно, логарифмируем наши редкие и благородные металлы. Переменную Плотность оставляем как есть.

image

Используем формулу =log10(), что бы получить десятичные логарифмы независимых переменных. Они у нас являются логнормальными величинами априори. Все отсутствующие значения вместо логарифма будут иметь значение #ЧИСЛО!, а значит их необходимо предварительно очистить. Данную операцию легко сделать через инструмент Фильтр.

В надстройке Анализ данных выбираем строку Корреляция.

image

Инструмент запросил непрерывную область данных, поэтому пришлось переместить столбец Плотность.

image

Рассмотрим полученную таблицу и отметим, что Плотность тесно коррелирует с тремя переменными: М1, М3 и М4.

Важное замечание. В Excel с помощью Анализа данных мы получим таблицу линейных коэффициентов корреляции (r-Пирсона), а они будут отличатся от нелинейных. Но этого будет достаточно, что бы выделить наиболее значимые элементы.

Шаг 6. Построим точечные графики распределения.

image

Выделим зависимую Плотность и первый элемент М1 – на вкладке “Вставка” выберем “Точечная”.

image

К сожалению, в построенном графике место зависимой переменной занимает М1, а не Плотность. Необходимо поменять их местами. Щёлкаем мышкой на саму диаграму, и в ленте открываем панель “Выбрать данные”image

Находим кнопку “Изменить данные” и в открывшемся окне, просто меняем X и Y местами с помощью вырезать-вставить.

image 

Теперь получен правильный график. В глаза явно бросаются пять значений-выбросов. К сожеланию опять, в Excel нельзя выбрать пробы прямо на графике и исключить их из анализа. Поэтому с помощью фильтра ищем эти значения и удаляем.

image

Шаг 8. Один раз щёлкаем левой клавишей мышки на любую точку на графике, нажимаем правую клавишу и в новом меню выбираем “Добавить линию тренда”. Повторяя операцию можно добавлять другие линии тренда.

image

На данном графике построено две линии тренда. Черная – линейная, красная – полиномиальная. Еще можно построить Экспоненциальную. И всё. Как видите, возможности Excel сильно ограничены.

Главное, что на графике показаны уравнения зависимости и коэффициенты детерминации R2. Если взять квадратный корень из R2, то получите коэффициент корреляции R.

Можно заметить, что R для линейной модели составляет 0.77, в то же время корреляционный анализ выше выдавал значение 0.72. Разница в 5% произошла по причине исключения выбросов после построения графика. Поэтому данные всегда стоит проверять на графиках.

Получив уравнения на графиках, мы применили составили парную регрессию между Плотностью и М1. В дополнение хочется отметить, что возможно стоит проверить кусочно-линейные функции – разбить данные на еще две субвыборки по значению log10(M1) = 0.2 и составить уравнения для разных элементов.

Остальные точечные графики построить проще простого. При выделении графика, в таблице подсветятся столбцы переменных по которым он построен. Выделение столбца с независимой переменной можно передвинуть мышкой, тогда получится другой график.

imageШаг 9. Произведем рассчет множественной линейной регресии с помощью инструмента Регрессия в пакете Анализ данных. Множественная нелинейная регрессия не реализована в надстройке Анализ данных. Предварительно необходимо удалить все пробы с отсутствующими значениями. Функция множетственной корреляции в Excel не умеет автоматически исключать такие пробы.

image   На что обратить внимание в сухой таблице?

Начнём по порядку.

  • Множественный R – коэффициент корреляции, равен 0.77. Простая парная рассмотренная выше регрессия выдала такой же результат;
  • Нормированный R-квадрат – доля объяснённой дисперсии. 0.60 – означает 60%, что в общем, маловато;
  • Стандартная ошибка. Это мера дисперсии остатков, или как предсказанные значения отклоняются от среднего. Много это или мало? Для этого надо определить Относительную Стандартную ошибку. Среднее значение плотности в выборке составляет 4.23. Поделив 0.206 на 4.23 мы получим 0.05 или 5%. Таким образом, в среднем плотность определена нами с погрешностью 5% (50% данных с погрешностью +/-5%, еще 17% с погрешностью +/-10%, а 99,5% всех данных определены с погрешностью +/- 15%). Для сравнения, стандартная ошибка полиномиальной модели в парной регресии выше (расчёт не показан) составила 0.198. Близкое значение;
  • Дисперсионный анализ показывает Значимость F сильно меньше 0.001, что является высокозначимым результатом – Регрессия состоялась и она значима. Не так что бы можно было медаль вешать, а просто статистически это говорит, что результат наврядли является случайностью;
  • Коэффициенты – это и есть параметры уравнения вида y = ax + b. Выглядит оно так: Плотность = 3.6132 + 1.4403* log10(M1)… на этом моэно остановится, потому что коэффициенты M3 и M4 по сути равны нулю и не значимы. Их P-значение сильно выше 0.05;
  • Вывод остатка. Для интересующихся, можно рассмотреть каждое отдельное значение.

image

Дополнительно в опциях инструмента Регрессии было выбрано построение графиков остатков. Выберем один график с М1.

В данном случае, наглядно показано, что остатки концентрируются плотным пучком с центром в середине. То есть при высоком значении М1 могут быть ошибки одинаковые по модулю ошибки, но разные по знаку. Это плюс. Значит, систематической ошибки нет. Фиолетовым обведен тот самый “Хвост”, то есть уравнение регрессии говорит, что при таких низких содержаниях М1, не может быть высокой плотности, а поскольку функция линейная, то и расположение точек этих остатков выглядит линейно.

Подводя итог, хочется вспомнить слова Эйнштейна: “Всё относительно”. Велика или мала относительная стандартная ошибка в 5%, должно быть определено экономическими факторами. В данном случае мы констатируем факт наблюдения.

В остальном, я надеюсь эта статья покажет путь начинающим исследователям.

пятница, 10 октября 2014 г.

Построение карт ранговой дисперсии геохимического поля

 

Данный пост основан на статье Григория Юрьевича Боярко из сборника прикладной геохимии:

Боярко Г.Ю. Построение карт ранговой дисперсии геохимического поля // Прикладная геохимия. Вып. 3. Прогноз и поиск. М.: ИМГРЭ, 2002. С. 107–115.

Так же рассматриваемый метод вкратце рассмотрен в статье Ворошилова Валерия Гавриловича.

Основа данного метода – уравнивание дисперсии всех элементов с помощью непараметрической статистики, и выявление наиболее согласованных аномалий. То есть, имея редкие элементы с чрезвычайно высокой дисперсией (как например, Au), мы упускаем из виду элементы с меньшей дисперсией. Хотя вклад по металлу в геохимическое поле у первых значительно меньше.

Моя цель – показать вам как использовать данный метод с помощью Excel.

рис1

Шаг 1. Берем базу данных геохимического опробования.

В данном примере использована реальная база опробования по 549 точкам. Переменные НЕ требуют никакого преобразования. Главное иметь столбец с уникальным номером для каждой пробы. Его мы будем часто использовать. В моём случае это третий столбец. Так же, в моей базе все переменные нормализованы и имеют измененные имена с целью обезличивания. Столбцы А1-А20 – металлы.

рис2

Шаг 2. Копируем на отдельный лист одну переменную металла (A1) и столбец Nomer.

2.1. Сортируем значения А1 от минимального к максимальному. Для этого на ленте на вкладке “Главная” находим справа значок “Сортировка и фильтр”.

2.2. Создаем дополнительные столбцы как на рисунке выше.

2.3. В столбце i присваем условный ранг от 1 до 549 (столько у нас проб). Так мы переходим к равномерному распределению. На практике, редкие металлы распределены логнормально или иначе. Замечу, что в данном столбце должны быть именно числовые значения, а не формулы или текст.

2.4. Теперь необходимо перейти к нормальному распределению. Для этого в столбец bi в ячейку E2 вставляем формулу:

=((C2-1)/(СЧЁТЗ($C$2:$C$550)-1))-0.5

и копируем её до конца. Так в ячейке E2 будет значение –0.5, а в последней ячейке E550 будет +0.5.

2.5. В столбце Φ (xi) рассчитываем значение по формуле: bi + 0.5

Так, мы получим значения интергральной функции от 0 до 1. В принципе, можно сразу 0.5 в столблец bi, но я повторяю методику автора по шагам.

2.6. В столбце G рассчитываем квантили для интегральной функции. Для этого в ячейку G3, именно G3 вставляем формулу:

=НОРМ.ОБР(D3;0;1)

Копируем её до предпоследней пробы.

Ячейке G2 присваиваем значение –5, а последней ячейке G550 присваиваем +5. Всё это потому что, в столбце Φ (xi) мы присвоили значения вероятностей от [0;1]. А функция НОРМ.ОБР работает только в пределах (0;1). То есть при вероятности 0 и 1 она выдаст ошибку.

2.7. В приципе, этого достаточно, потому что самое важное в столбце xi. Но автор еще рассчитывает функцию плотности распределения в каждой пробе. Для этого копируем в ячейку F2 формулу:

=НОРМ.СТ.РАСП(G2;ЛОЖЬ)

Копируем её до конца.

2.8. Проделываем шаги 1-2 для всех остальных металлов оставляя промежутки в 5 столбцов.

2.9. В промежутки копируем столбцы C-G. Так все рассчёты выше автоматически произведутся для каждого элемента.

2.10. Сортируем столбцы рассчётов для каждого элемента.

рис3

Шаг 3. Составляем сводную таблицу элементов по значениям xi.

3.1. Создаём дополнительную переменную Cj. Она представляет собой комплексный показатель согласованности элементов.

Для этого необходимо взять модуль каждой переменной (для каждой пробы), сложить и поделить на количество элементов. Таким образом, даже если происходил вынос одних элементов и привнос других мы получим высокое значение. А если проба характеризует фоновые процессы, то её значение будет на уровне 0.

Как вы уже догадались, комплексный показатель можно рассчитывать не только для всех элементов, но и выборочно.

image

Шаг 4. Строим карту ранговой дисперсии геохимического поля

Тут важно отметить, что поскольку мы перешли от эмпирического распределения к равномерному, а затем к нормальному. То количество аномальных точек всегда будет порядка 3%. То есть не стоит искать тут структуру. Эти карты показывают лишь самые-самые перспективные точки.

На карте выше, я бы отметил, что аномалии (цветные полигоны) концентрируются преимущественно в двух областях: южной и северной. Собственно геолого-геохимическая интерпретация покажет, что вероятно, часть точек относятся к ландшафтным аномалиям, и тем не менеее заслуживают внимания. А другая часть точек может служить основой для выбора участка детализации или даже бурения.

 

Дополнительно, в своей статье Григой Юрьевич рассматривает построение аналогичных карт по данным спектрального полуколичественного анализа и сопоставление результатов съемок разных лет. Но об этом в следующих раз.

воскресенье, 3 ноября 2013 г.

Кластерный анализ в Statistica. Часть 4. Нейронные сети

 

Обширную тему решил затронуть. Искусственные нейронные сети. Попытаюсь дать представление на пальцах. Что это такое? Это попытка смоделировать человеческий мозг. Только более примитивно. Базовым элементом каждой нейронной сети является нейрон (Рис. 1).

Рисунок1

Рис. 1. Принципиальная схема нейрона.

Нейрон имеет входы, сумматор и функцию активации. На входы подается информация, например содержание трех хим. элементов в конкретной пробе. Каждое из них умножается на определенный коэффицициент. Далее входящие сигналы суммируются и преобразуются с помощью активационной функции. Это может быть тангенс данного числа, или e^(-1*данную сумму), где е – число Эйлера. Весь цимес заключается в:

  1. Весах нейронов;
  2. Функции активации;
  3. Наборе нейронов. Если взять несколько нейронов и организовать их в слои, в каждом из которых будет от 1 до N нейронов, то это будет искуссвенная нейронная сеть.

Искусственные нейронные сети необходимо обучать, или дать им возможность самообучится. Обучить нейронную сеть – означает дать ей выборку и подстроить веса так, что бы нейроны максимально точно описывали данные. Функции активации как раз моделируют нелинейные взаимосвязи хим. элементов. А структура нейронной сети (количество нейронов, количество слоев) контролирует гибкость сети. То насколько точно она может подстроится под данные. При этом в геохимии совсем точная подстройка не нужна. Важно выявить закономерности.

Когда нам мало чего известно о данных используется кластеризация. В случае нейронных сетей используются самообучающиеся нейронные сети Кохонена. Смысл их заключается в том, что нейроны как на рисунке 1, организуются в один двумерный слой(Рис. 2). Нейронам сначала случайным образом задаются первичные веса, и подаются наблюдения. Нейроны соревнуются между собой, кто лучше опишет наблюдение. Победители пытаются подстроить своих соседей. В конечном счете, когда в данных находятся реальные кластеры, они будут описаны разными группами нейронов. Прелесть, да?

Рисунок2

Рис. 2. Принципиальная схема Самоорганизующейся сети Кохонена. 4х3 нейрона = 12 нейронов.

image Рис. 3. Открываем данные и запускаем модуль нейросетевого анализа. Данные можно использовать сырые, без предварительного логарифмирования. Но явные выбросы все равно лучше убрать.

image Рис. 4 Выбираем кластерный анализ

image Рис. 5. Выбираем переменные во вкладке Quick (Быстро). В данном модуле можно выбрать категориальные входные переменные. Например, возраст пород из которых отобрана проба.

image Рис. 6 Переходим во вторую вкладку Sampling (Подвыборки). Нейронные сети разбивают первоначальную выборку на три подвыборки:

  1. Обучающую. По ней производится обучение нейронной сети и подстройка весов;
  2. Тестовую. Она так же используется в процессе обучения и проверяет не переробучилась ли сеть;
  3. Проверочная выборка. Она не используется в процессе обучения, а служит лишь для оценки точности сети на “новых” данных. То есть ее возможность предсказания.

Оставим по умолчанию. Жмем ОК.

image Рис. 7 Во вкладке Quick (Kohonen), задаем количество нейронов и их структуру. Поскольку нейроны обучают соседей, то расположение нейронов тоже важно. Либо 4 нейрона расположить квадратом, либо цепочкой. Для начала выбираем 5х5. Не стремитесь сделать огромные сети. Помните, что важно выявить общие закономерности, а не сразу все-все решить.

image Рис. Во вкладке Kohonen Training (Обучение сети) самый важный параметр Neighborhoods (Соседи) – то сколько соседей обучает нейрон. Оставим по умолчанию. Жмем ОК.

image Рис. 9. Сеть обучается и выводится окно результатов. Сразу переходим во вкладку Kohonen (graph). Тут показывается все 25 нейронов и то какое количество обучающих проб попало в каждый. Считается необходимым, что бы каждый нейрон описал какую-то часть данных. Не должно быть пустых нейронов. Пики представленные бурым красным цветом показывают сколько проб описал данный нейрон. В целом, тут выделяются три пика. Скорее всего у нас три кластера. Жмем Cancel, Cancel и переходим в первую вкладку выбора структуры сети.

image Рис. 10. Выбираем цепочку нейронов из трех штук. Каждый нейрон опишет свой кластер.

image Рис. 11. Перейдем во вкладку Обучение сети и выберем, что бы каждый нейрон влиял только на одного соседа. Связанные кластеры получатся. Тут стоит поэксперементировать. Если влияние на соседей, то врядли получится уловить переходные области.

image Рис. 12. Получаем результат. Каждый нейрон описал изрядное количество данных.

image Рис. 13. Перейдем в первую вкладку окна результатов Predictions (Предсказание). Выведем результаты по каждой пробе с координатами.

image Рис. 14. Получаем выходную табличку. Что бы построить график из данных в ней, необходимо сделать табличку активной. Выделяем, щелкаем правой клавишей мышки и выбираем пункт Active Input (Активный Ввод). Тут как и в методе k-средних имеется столбец с “расстоянием” пробы до кластера (нейрона). Чем меньше число, тем лучше. Если число очень высокое, то это либо выброс, либо совсем отдельный кластер.

image Рис. 15. Строим карту кластеров. Об этом можете прочитать тут. Конечно эти графики лучше строить в ArcGIS или в Surfer. Делать описание с учетом геол.карты. К сожалению тут я не могу много об этом писать. Но скажу лишь то, что кластеризация нейронной сетью выдала аналогичный результат, что и Иерархическая кластеризация и k-средних. Далее можно построить графики типа Ящик-с –усами и дать заключение о специализации кластеров. Поскольку эту выборку я кластеризую уже в третий раз, то не привожу их. Смотрите предыдущие посты.

Дополнительно построим карту значений активации. Значение активации – это как раз там сумма элементов преобразованная нелинейной функцией.

image Рис. 16. Карта распределения значений активации наблюдений. На юге площади выделяется группа проб с высокими значениями активации. Стоит отдельно рассмотреть их по моноэлементным картам и другим параметрам.

image Рис. 17. Сохраняем структуру нейронной сети. Что бы всегда можно было к ней вернутся.

image Рис. 18. Когда запускам модуль нейросетевого анализа, слева находится окно в котором можно открыть уже созданную нейронную сеть. Например, вы изучили эталонный объект, создали по нему нейронную сеть и хотите прогнать через нее пробы с другой площади. Вуаля.

Удачи.

По нейронным сетям рекомендую прочитать:

  1. Хайкин Саймон Нейронные сети: полный курс, 2-е издание. : Пер. с англ. – М. : Издательский дом “Вильямс”, 2006. – 1104 с. : ил. – Парал. тит. англ. ISBN 5-8459-0890-6 (рус)
  2. Нейронные сети. STATISTICA Neural Networks: Методология и технология современного анализа данных/ Под редакцией В.П. Боровикова. – 2-е изд., перераб. и доп. – М.: Горячая линия – Телеком, 2008. – 292 с., ил. ISBN 978-5-9912-0015-8

Вторая книга отличается от модуля в Statistica 10, но тоже подойдет.