воскресенье, 20 октября 2013 г.

Проверка и подгонка распределения в Statistica

Проверять распределение необходимо перед линейными анализами: факторным, регрессионным, дискриминантным. В геохимии как правило используется два основных распределения: нормальное и логнормальное. Зная распределение мы точнее оцениваем среднее содержание: если данные логнормально распределены, то простое среднее арифметическое будет завышено, поскольку имеется несколько наблюдений с очень высокими значениями, каждое из которых влияет на среднее. Это не хорошо.

Итак. Проверить распределние в Statistica можно несколькими способами. Их можно разделить как на табличные, так и на графические. Речь пойдет о вторых. Поскольку только на графике можно заменить особенности распределения: скошенность, бимодальность, итп.

image Рис.1. Запускаем Statistica 10 и жмем кнопку Open.

image Рис.2. Открываем xls файл с данными геохимической съемки.

image

Рис.3. Щелкаем «Импортировать выбранный лист в Лист». Кому как, а я предпочитаю держать данные во внутреннем формате Statistica.

image

Рис.4. Открывается окошко и ставим галочку «Получить названия переменных из первой строки». Статистике также необходимо задать названия проб, что бы она могла ставить подписи на графиках. Но решение по-умолчанию автоматически ставит числовые названия с кучей нулей после запятой. Так что это лучше делать после импорта листа.

imageРис.5. Сразу добавляем Лист в Тетрадь. И сохраняем. Тетрадь содержит в себе все добавленные листы и в нее автоматически включаются все графики, таблицы и результаты анализов с данными в листах.

imageРис. 6. Открываем вкладку Graphs. Выбираем Гистограммы (Histograms...)

Основные графические инструменты для проверки гипотезы о распределении являются: Гистограммы, Графики нормальной вероятности. А Квантиль-Квантиль и Вероятность-Вероятность графики аналоги второго.

image Рис.7. Выбираем интересующие нас хим.элементы (еще они называются признаками). И переходим во вкладку Расширенное (Advanced).

Тут для примера я выбрал два элемента. Медь типичный логнормальный признак, а оксид титана — нормальный. Как правило, в геохимии макрокомпоненты (SiO2, TiO2. Fe, Mg, Ca...)распределены нормально, а микрокомпоненты логнормально. Но нужно проверять все. К тому же не стоит строго подходить «это нормальный, потому что программа сказала!». У природы свое распределение, мы лишь пытаемся его описать. Так что даже если вы и видите, что критерий нормальности не соблюдается, то все равно можно принять данные за нормальные. В статистике, главное, что бы работало :D

image Рис.8. Выбираем подгонку по нормальному распределению (Fit type), внизу щелкаем галочки на тест Шапиро-Уилка, и для желающих тест Колмогорова-Смирнова. Первый лучший. И щелкаем ОК. Программа строит два графика.

imageРис. 9. Гистограмма распределения меди с подгонкой к нормальному распределению (красная линия).

Статистик сразу смотри на график. Какой он? Он смещен влево, скошен (правоскошенный), одна мода: основной класс 50-100 у.е, есть редкие классы 200-300 у.е. В заголовке написано среднее 85,9 у.е. Из-за смещения и скоса оно явно завышено. Красная линия так же плохо описывает данные: у нас нет класса —50-0 у.е., а вероятность для него просчитана, класс 0-50 не сильно не доходит до линии. Так же красная линия совсем не описывает классы выше 200 у.е. Все это характерно для логнормального распределения.

Посмотрим на тесты. Тесты оперируют различиями эмпирического распределения с подогнанным. Различие различием, а насколько оно важно? Важность его показывается в подчеркнутых значениях «p». Смотрим, везде p<0.05, а для теста Шапиро-Уилка (SW-W) p=0.0000, это значит, что различие сильно статистически значимо. А раз различие значимо, то гипотезу о нормальном распределении необходимо отвергнуть.

image Рис.10. Гистограмма распределения TiO2 с подгонкой нормального распределения (красная линия)

Тут видим, что график симметричный. Среднее содержание 0,966 у.е., а стандартное отклонение 0.1525 у.е., а красная линия (функция нормального распределения) построена как раз по этим параметрам. Функция отлично описывает данные.

Посмотрим на тесты. В первом случае вероятность вычислитьн е получилось p<n.s., во втором p<0.05, в третьем p=0.027. В геохимии, как правило используется уровень значимости 0,05 (5 чисто статистически случайных ошибок на 100 опытов) и параметры по этим тестам должны иметь p>0.05. То есть быть незначимыми. Тут они менее значимы, чем в у меди. Но ссылаясь на тест, я должен отклонить гипотезу о нормальном распределении. Поэтому рассмотрим далее и нажмем кнопку анализа в нижней панели программы. Каждое окно анализа автоматически свертывается туда.

Геохимику на заметку.

Тут используется МАСФ (Метод Анализа Сверхтонкой Фракции) с количественным спектральным анализом с индуктивно связанной плазмой (ICP-AES, ICP-MS). Это дорогие, но стоящие себя методы. Как видите даже самые низкие содержания оксида титана определены, что нереально для полуколичественной спектралки. Геохимику необходимо учитывать исходные данные. Полуколичественная спектралка (просыпка, как еще имеют в кулуарах) имеет две особенности: завышать низкие содержания и давать дискретные значения.

Представьте, если бы содержания TIO2 были бы определены только с 0,6 у.е., а класс 0,6-0,7 у.е. был бы завышен до 0.7-0,8. Тогда у нас было бы логнормальное распределение. Искусственно.

Дискретные значения: например 10, 20, 30,...100 ppm. Но не 10,1, и не 22,56. Многие исследователи предлагают использовать дискетные распределения для анализа ее. То есть типа черный шаг, белый шаг. Лично мое мнение, это ерунда. Скажем, так, оценивайте «дискретность» полуколичественного анализа как сильное округление данных.

image Рис.11. Посмотрим подгонку для логнормального распределения.

image Рис.12. График распределения меди с логнормальной подгонкой (красная линия).

Что-ж, линия отлично описывает график. Прямо типичный логнормальный элемент. В верху представлены среднее и параметр формы. Точнее их натуральные логарифмы. Експонента 4,3896 = 80,6 у.е., то есть среднее арифметическое завышает оценку мат.ожидания (истинного среднего) на 5,3 у.е. Не критично, в общем то.

image Рис. 13. График распределения оксида титана с логнормальной подгонкой (красная линия).

Заметьте, красная линия тоже неплохо описывает данные. Тут еще неопредленность возникает из-за детальности гистограммы. Если сделать столбцов в два раза меньше (шаг 0,2), то столбцы и линия вообще идеально будут соответствовать друг-другу.

В общем, процесс определения типа распределения достаточно эмпирический. Я бы сказал, что тут большую значимость имеет учесть самые логнормальные элементы, а такие ни рыба ни мясо, можно подогнать заодно.

Рассмотрим для примера TIO2 более детально.

image Рис. 14. Откроем вкладку Статистики (Statistics) и щелкнем кнопку Подгонка распределения (Distribution Fitting).

image Рис. 15. Выбираем Непрерывный тип распределения. Пусть для начала будет Логнормальное.

Про дискретные значения см. рис. 10.

image Рис.16. Выбираем элемент и жмем кнопку «Построить график эспериментального и теоретического распределения». Можно построить табличку через конопку Summary.

imageРис.17. Гистрограмма распределения оксида титана с логнормальной подгонкой (красная линия)

В данном случае построила несколько другие столбцы. Они не скгруленные. Параметры гистограммы можно изменить во вкладке Parameters (см. картинку выше). Главное отличие, тут программа вычисляет статистику как у теста Шапиро-Уилка. То есть рассчитывает значимость отличия эмпирического распределения от подогнанного по распределению Хи-квадрат. Как видите p=0.00439, что является значимым отклонением.

Построим график для нормального распределения.

image Рис.18. Гистрограмма распределения оксида титана с нормальной подгонкой (красная линия)

Как виидите, отклонение намного меньше, чем для логнормального распределения, а его значимость низка. p=-0,44176, что существенно больше 0,05, а значит гипотеза о нормальном распределении принимается.

Вот так вот исследуя данные можно узнать какое у нас распределение. Как правило у геохимика это занимает несколько минут на элемент. Сразу прикидываете, точность и прецизинность анализа, смотрите какие объекты попали в выборку (по ландшафтам, по геологии), смотрите на гистограммы. Если почти все типичные логнормальные, а один два — ни рыба, ни мясо, так логарифмируйте все и не заморачивайтесь.

Да, собственно, на определении типа распределения все не заканчивается. Надо изменить данные, что бы они стали нормальными. Логнормальные признаки нужно прологарифмировать. Я лично использую десятичный логарифм.

image Рис. 19. Создаем копию выборки. Вкладка Данные (Data), кнопка Выборка (Subset).

image

Рис. 20. Тут можно выбрать какие именно переменные и наблюдения нам нужны. Очень полезно, когда надо создавать маленькие подвыборки по типам геол.образований.

image Рис. 21. Добавляем Лист в Тетрадь (см. рис. 5).

image Рис. 22. Щелкаем дважды на заголовке переменной. Выбираем количество знаков после запятой 4 (для логафмов), и вписываем внизу формулу =log10(v2)

v2 — соответствует переменной хром. Номер можно увидеть в заголовке окошка.

image Рис. 23. Соглашаемся. В окошке написано, что не все значения могут логарифмированы.

image Рис. 24. Получили логарифмы. Расширим столбец, что бы видеть все значения.

Впишем формулы для остальных элементов. Несколько сложнее, чем в Excel, но привык.

image Рис. 25. Выделим все элементы и нажмем кнопку Автоширина (AutoFit). Вообще тут как и в экселе можно пользоваться копированием формата. Да вообще много похожего.

Вот и все. Теперь можно использовать логарифмы в линейных анализах. Они распределены нормально.

На закуску рассмотрю другой графический метод определения типа распределения:

image

Рис. 26. Опять выбираем вкладку Графики, и кнопку 2D графики — Квантиль-Квантиль графики.

image Рис. 26. Построим график распределения оксида титана с нормальной подгонкой.

image Рис. 27. График распределения оксида титана с нормальной подгонкой.

Как видите, почти все точки ложатся прямо на линию. Так и должно быть для нормального распределения. А низкие и высокие значения не так уж сильно отклоняются. Ну что-ж, простим лаборатории и природе.

image Рис. 28. График распределения оксида меди с нормальной подгонкой.

Тут точки сильно отклоняются от линии. Это типичный график для логнормального элемента.

Вот так в Statistica проверяется и подгоняется распределение данных.

Удачи.

Комментариев нет:

Отправить комментарий