Поисковая геохимия: Проверка и подгонка распределения в Statistica

Проверять распределение необходимо перед линейными анализами: факторным, регрессионным, дискриминантным. В геохимии как правило используется два основных распределения: нормальное и логнормальное. Зная распределение мы точнее оцениваем среднее содержание: если данные логнормально распределены, то простое среднее арифметическое будет завышено, поскольку имеется несколько наблюдений с очень высокими значениями, каждое из которых влияет на среднее. Это не хорошо.

Итак. Проверить распределние в Statistica можно несколькими способами. Их можно разделить как на табличные, так и на графические. Речь пойдет о вторых. Поскольку только на графике можно заменить особенности распределения: скошенность, бимодальность, итп.

Рис.1. Запускаем Statistica 10 и жмем кнопку Open.

Рис.2. Открываем xls файл с данными геохимической съемки.

Рис.3. Щелкаем «Импортировать выбранный лист в Лист». Кому как, а я предпочитаю держать данные во внутреннем формате Statistica.

Рис.4. Открывается окошко и ставим галочку «Получить названия переменных из первой строки». Статистике также необходимо задать названия проб, что бы она могла ставить подписи на графиках. Но решение по-умолчанию автоматически ставит числовые названия с кучей нулей после запятой. Так что это лучше делать после импорта листа.

Рис.5. Сразу добавляем Лист в Тетрадь. И сохраняем. Тетрадь содержит в себе все добавленные листы и в нее автоматически включаются все графики, таблицы и результаты анализов с данными в листах.

Рис. 6. Открываем вкладку Graphs. Выбираем Гистограммы (Histograms...)

Основные графические инструменты для проверки гипотезы о распределении являются: Гистограммы, Графики нормальной вероятности. А Квантиль-Квантиль и Вероятность-Вероятность графики аналоги второго.

Рис.7. Выбираем интересующие нас хим.элементы (еще они называются признаками). И переходим во вкладку Расширенное (Advanced).

Тут для примера я выбрал два элемента. Медь типичный логнормальный признак, а оксид титана — нормальный. Как правило, в геохимии макрокомпоненты (SiO2, TiO2. Fe, Mg, Ca...)распределены нормально, а микрокомпоненты логнормально. Но нужно проверять все. К тому же не стоит строго подходить «это нормальный, потому что программа сказала!». У природы свое распределение, мы лишь пытаемся его описать. Так что даже если вы и видите, что критерий нормальности не соблюдается, то все равно можно принять данные за нормальные. В статистике, главное, что бы работало :D

Рис.8. Выбираем подгонку по нормальному распределению (Fit type), внизу щелкаем галочки на тест Шапиро-Уилка, и для желающих тест Колмогорова-Смирнова. Первый лучший. И щелкаем ОК. Программа строит два графика.

Рис. 9. Гистограмма распределения меди с подгонкой к нормальному распределению (красная линия).

Статистик сразу смотри на график. Какой он? Он смещен влево, скошен (правоскошенный), одна мода: основной класс 50-100 у.е, есть редкие классы 200-300 у.е. В заголовке написано среднее 85,9 у.е. Из-за смещения и скоса оно явно завышено. Красная линия так же плохо описывает данные: у нас нет класса —50-0 у.е., а вероятность для него просчитана, класс 0-50 не сильно не доходит до линии. Так же красная линия совсем не описывает классы выше 200 у.е. Все это характерно для логнормального распределения.

Посмотрим на тесты. Тесты оперируют различиями эмпирического распределения с подогнанным. Различие различием, а насколько оно важно? Важность его показывается в подчеркнутых значениях «p». Смотрим, везде p<0.05, а для теста Шапиро-Уилка (SW-W) p=0.0000, это значит, что различие сильно статистически значимо. А раз различие значимо, то гипотезу о нормальном распределении необходимо отвергнуть.

Рис.10. Гистограмма распределения TiO2 с подгонкой нормального распределения (красная линия)

Тут видим, что график симметричный. Среднее содержание 0,966 у.е., а стандартное отклонение 0.1525 у.е., а красная линия (функция нормального распределения) построена как раз по этим параметрам. Функция отлично описывает данные.

Посмотрим на тесты. В первом случае вероятность вычислитьн е получилось p<n.s., во втором p<0.05, в третьем p=0.027. В геохимии, как правило используется уровень значимости 0,05 (5 чисто статистически случайных ошибок на 100 опытов) и параметры по этим тестам должны иметь p>0.05. То есть быть незначимыми. Тут они менее значимы, чем в у меди. Но ссылаясь на тест, я должен отклонить гипотезу о нормальном распределении. Поэтому рассмотрим далее и нажмем кнопку анализа в нижней панели программы. Каждое окно анализа автоматически свертывается туда.

Геохимику на заметку.

Тут используется МАСФ (Метод Анализа Сверхтонкой Фракции) с количественным спектральным анализом с индуктивно связанной плазмой (ICP-AES, ICP-MS). Это дорогие, но стоящие себя методы. Как видите даже самые низкие содержания оксида титана определены, что нереально для полуколичественной спектралки. Геохимику необходимо учитывать исходные данные. Полуколичественная спектралка (просыпка, как еще имеют в кулуарах) имеет две особенности: завышать низкие содержания и давать дискретные значения.

Представьте, если бы содержания TIO2 были бы определены только с 0,6 у.е., а класс 0,6-0,7 у.е. был бы завышен до 0.7-0,8. Тогда у нас было бы логнормальное распределение. Искусственно.

Дискретные значения: например 10, 20, 30,...100 ppm. Но не 10,1, и не 22,56. Многие исследователи предлагают использовать дискетные распределения для анализа ее. То есть типа черный шаг, белый шаг. Лично мое мнение, это ерунда. Скажем, так, оценивайте «дискретность» полуколичественного анализа как сильное округление данных.

Рис.11. Посмотрим подгонку для логнормального распределения.

Рис.12. График распределения меди с логнормальной подгонкой (красная линия).

Что-ж, линия отлично описывает график. Прямо типичный логнормальный элемент. В верху представлены среднее и параметр формы. Точнее их натуральные логарифмы. Експонента 4,3896 = 80,6 у.е., то есть среднее арифметическое завышает оценку мат.ожидания (истинного среднего) на 5,3 у.е. Не критично, в общем то.

Рис. 13. График распределения оксида титана с логнормальной подгонкой (красная линия).

Заметьте, красная линия тоже неплохо описывает данные. Тут еще неопредленность возникает из-за детальности гистограммы. Если сделать столбцов в два раза меньше (шаг 0,2), то столбцы и линия вообще идеально будут соответствовать друг-другу.

В общем, процесс определения типа распределения достаточно эмпирический. Я бы сказал, что тут большую значимость имеет учесть самые логнормальные элементы, а такие ни рыба ни мясо, можно подогнать заодно.

Рассмотрим для примера TIO2 более детально.

Рис. 14. Откроем вкладку Статистики (Statistics) и щелкнем кнопку Подгонка распределения (Distribution Fitting).

Рис. 15. Выбираем Непрерывный тип распределения. Пусть для начала будет Логнормальное.

Про дискретные значения см. рис. 10.

Рис.16. Выбираем элемент и жмем кнопку «Построить график эспериментального и теоретического распределения». Можно построить табличку через конопку Summary.

Рис.17. Гистрограмма распределения оксида титана с логнормальной подгонкой (красная линия)

В данном случае построила несколько другие столбцы. Они не скгруленные. Параметры гистограммы можно изменить во вкладке Parameters (см. картинку выше). Главное отличие, тут программа вычисляет статистику как у теста Шапиро-Уилка. То есть рассчитывает значимость отличия эмпирического распределения от подогнанного по распределению Хи-квадрат. Как видите p=0.00439, что является значимым отклонением.

Построим график для нормального распределения.

Рис.18. Гистрограмма распределения оксида титана с нормальной подгонкой (красная линия)

Как виидите, отклонение намного меньше, чем для логнормального распределения, а его значимость низка. p=-0,44176, что существенно больше 0,05, а значит гипотеза о нормальном распределении принимается.

Вот так вот исследуя данные можно узнать какое у нас распределение. Как правило у геохимика это занимает несколько минут на элемент. Сразу прикидываете, точность и прецизинность анализа, смотрите какие объекты попали в выборку (по ландшафтам, по геологии), смотрите на гистограммы. Если почти все типичные логнормальные, а один два — ни рыба, ни мясо, так логарифмируйте все и не заморачивайтесь.

Да, собственно, на определении типа распределения все не заканчивается. Надо изменить данные, что бы они стали нормальными. Логнормальные признаки нужно прологарифмировать. Я лично использую десятичный логарифм.

Рис. 19. Создаем копию выборки. Вкладка Данные (Data), кнопка Выборка (Subset).

Рис. 20. Тут можно выбрать какие именно переменные и наблюдения нам нужны. Очень полезно, когда надо создавать маленькие подвыборки по типам геол.образований.

Рис. 21. Добавляем Лист в Тетрадь (см. рис. 5).

Рис. 22. Щелкаем дважды на заголовке переменной. Выбираем количество знаков после запятой 4 (для логафмов), и вписываем внизу формулу =log10(v2)

v2 — соответствует переменной хром. Номер можно увидеть в заголовке окошка.

Рис. 23. Соглашаемся. В окошке написано, что не все значения могут логарифмированы.

Рис. 24. Получили логарифмы. Расширим столбец, что бы видеть все значения.

Впишем формулы для остальных элементов. Несколько сложнее, чем в Excel, но привык.

Рис. 25. Выделим все элементы и нажмем кнопку Автоширина (AutoFit). Вообще тут как и в экселе можно пользоваться копированием формата. Да вообще много похожего.

Вот и все. Теперь можно использовать логарифмы в линейных анализах. Они распределены нормально.

На закуску рассмотрю другой графический метод определения типа распределения:

Рис. 26. Опять выбираем вкладку Графики, и кнопку 2D графики — Квантиль-Квантиль графики.

Рис. 26. Построим график распределения оксида титана с нормальной подгонкой.

Рис. 27. График распределения оксида титана с нормальной подгонкой.

Как видите, почти все точки ложатся прямо на линию. Так и должно быть для нормального распределения. А низкие и высокие значения не так уж сильно отклоняются. Ну что-ж, простим лаборатории и природе.

Рис. 28. График распределения оксида меди с нормальной подгонкой.

Тут точки сильно отклоняются от линии. Это типичный график для логнормального элемента.

Вот так в Statistica проверяется и подгоняется распределение данных.

Удачи.

Поисковая геохимия

воскресенье, 20 октября 2013 г.

Проверка и подгонка распределения в Statistica

Комментариев нет:

Отправить комментарий

воскресенье, 20 октября 2013 г.

Проверка и подгонка распределения в Statistica

Комментариев нет:

Отправить комментарий

воскресенье, 20 октября 2013 г.