-Поиск по дневнику

Поиск сообщений в lj_ru_spss

 -Подписка по e-mail

 

 -Статистика

Статистика LiveInternet.ru: показано количество хитов и посетителей
Создан: 11.01.2006
Записей:
Комментариев:
Написано: 6




SPSS в психологии и социальных науках - LiveJournal.com


Добавить любой RSS - источник (включая журнал LiveJournal) в свою ленту друзей вы можете на странице синдикации.

Исходная информация - http://ru-spss.livejournal.com/.
Данный дневник сформирован из открытого RSS-источника по адресу http://ru-spss.livejournal.com/data/rss/, и дополняется в соответствии с дополнением данного источника. Он может не соответствовать содержимому оригинальной страницы. Трансляция создана автоматически по запросу читателей этой RSS ленты.
По всем вопросам о работе данного сервиса обращаться со страницы контактной информации.

[Обновить трансляцию]

Пускайте избранные SPSS-макросы из диалоговых окон: обновление

Четверг, 16 Сентября 2021 г. 18:31 + в цитатник
Сообщу, что доступно к скачиванию обновление KO_macros.spe на сайте https://www.spsstools.net/en/KO-spssmacros.
Установка этого Расширения в SPSS Statistics (в верс. 24 и выше) позволяет вам пускать самые важные SPSS-макросы Кирилла из диаголовых окон меню SPSS Statistics.
В версии 4 добавлены диалоговые окна для создания фиктивных и контрастных переменных, для инструментов работы с наборами множественного ответа.

https://ru-spss.livejournal.com/201699.html


Метки:  

Пускайте избранные SPSS-макросы из диалоговых окон

Среда, 25 Ноября 2020 г. 21:20 + в цитатник
Вы можете пускать некоторые из макросов, содержащихся на Странице макросов Кирилла, также и из диалоговых окон меню SPSS Statistics (версии 24 или выше с установленным Integration Plug-In for Python 2). Диалоговые окна - на англ. яз. Просто скачайте и установите пакет-расширение (Extension Bundle): KO_macros.spe. (см. на Странице).

https://ru-spss.livejournal.com/201427.html


Метки:  

Близости для двоичных данных

Среда, 25 Ноября 2020 г. 21:11 + в цитатник
Новый макрос !PROXBIN добавлен на Странице макросов Кирилла а коллекцию "Various proximities". Макрос вычисляет большое число мер расстояния или сходства для двоичных (дихотомических) данных. Включены туда все самые важные коэффициенты, придуманные с конца XIX в. Интересная опция - возможность перешкалировать вычисленную меры; к примеру, выдать версию коэффициента, "приведенную к уровню случайной связи" или "приведенную к связи, достижимой под данными краевыми распределениями".

https://ru-spss.livejournal.com/200986.html


Метки:  

SPSS-макросы для сравнения кластеризаций/классификаций

Среда, 01 Мая 2019 г. 02:03 + в цитатник
Please meet a new collection of macros on Kirill's SPSS macro page http://www.spsstools.net/en/KO-spssmacros .
It is called "Compare partitions" and performs comparison of clusterings, classifications, as well as probing for most matching groups.

https://ru-spss.livejournal.com/200928.html


Метки:  

Сравнение категорий в SPSS

Среда, 22 Ноября 2017 г. 19:33 + в цитатник

Дорогие участники сообщества!

Помогите, пожалуйста решить задачу в SPSS.

Если набор брендов (единый набор ответов по каждому из показателей), по каждому из них измеряется ряд показателей.

Некоторые ответы закодированы как дихотомия (множественный выбор), некоторые как сингл.

Нужно проверить гипотезу о том, что доля A> либо <долиB.

Итоговая таблица выглядит след.образом:

Brand 1 Brand 2 Brand 3

Показатель 1 A B С

Показатель 2 A B С

Показатель 3 A B С

Выборка случайная, n=700.

В данном случае доля считается от всех респондентов, участвующих в опросе, а не по группам (% по строке). 1 строка=1 вопрос.

Вопрос: какой лучше критерий использовать для проверки гипотезы, и как можно реализовать в SPSS подобное сравнение.

Сразу из размышлений: z-тест для пропорций,на первый взгляд, не подходит, т.к. выборка одна, без подвыборок.

https://ru-spss.livejournal.com/200569.html


Заполнение пропусков в массиве

Среда, 15 Ноября 2017 г. 19:08 + в цитатник

Коллеги, добрый день!

Предположим есть массив типа:

ID V1 V2 V3 V4 V5
1 1 5 2
2 1 3 2
3 3 5 4
4 2 3 2


Как можно с помощью синтаксиса можно оперативно заполнить пропуски, таким образом, чтобы значения автоматически рассчитывались примерно следующим образом (для V3):
1. Если в массиве НЕТ значений в переменных V1, V2, то V3=0
2. Если в массиве есть значения в переменных V1 или V2, то V3 рассчитывается по формуле:
(a)Значение из ближайшей заполненной ячейки слева +
(b)разность между ближайшей заполненной ячейкой и ближайшей заполненной ячейкой справа
(c)деленная на общее число пустых ячеек между V3 и ближайшей заполненной ячейкой слева +1
(d)и умноженная на число пустых ячеек между V3 и ближайшее заполненной переменной слева)
V3=a+b/c*d
То есть для ID=1,
V2=1+(5-1)/3*1=1+1.33*1=2,66
V3=1+(5-1)/3*2=1+1,33*2=3,66.
Таким образом в итоге массив должен выглядеть следующим образом (новые значения выделены жирным):

ID V1 V2 V3 V4 V5
1 1 2,33 3,66 5 2
2 0 1 1,5 3 2
3 3 4 5 4 0
4 0 2 3 2,5 2


Как сделать это долго и мучительно, я знаю, но я уверен, что есть быстрое и изящное решение.
Буду очень благодарен за помощь.

https://ru-spss.livejournal.com/200317.html


Метки:  

Обновления Kirill's SPSS macros page (на SPSStools.net)

Воскресенье, 12 Ноября 2017 г. 20:12 + в цитатник
Коллекция "Кластерные критерии" существенно обновлена на Странице SPSS макросов Кирилла. Кластерные критерии используются для сравнения результатов кластерного анализа и для решения о наилучшем числе кластеров в нем.

Продвинутые пользователи, программирующие в сеансе MATRIX - END MATRIX: не забывайте о пополняемой время от времени коллекции "MATRIX - END MATRIX functions". Работа в матричном сеансе удобна тем свойством, что, подобно как в R или Matlab, можно использовать матричные операции вместе с обыкновенными. Благодаря функциям, содержащимся в упомянутой коллекции, можно делать многие вычисления и анализ, не выходя из матричного сеанса; это удобно!

https://ru-spss.livejournal.com/199985.html


Метки:  

Как поделить данные по выраженности признака и анализ гипотезы о различии

Среда, 17 Мая 2017 г. 10:09 + в цитатник

Всем доброго времени суток.

Я честно пыталась понять все сама, но тревожность берет свое :) посему прошу о помощи.

Дано: магистерская диссертация. Исследование с гипотезой о различии (идентичность людей, имеющих определенные установки, характеризуется особенностями по сравнению с не имеющими таковых). 3 выборки (по трем разным странам). 3 количественные методики, одна из них - фильтр, которая и определяет установки (две другие на особенности идентичности). Везде по ним Лайкерт, результаты по каждой шкале в 2 и 3 методиках - средние, в методике-фильтре высчитывается средний балл между ее 3 шкалами, получается общая цифра, выражающая установку.

Здесь у меня встала первая проблема: научница дала понять, что нужно высчитать, у кого в методике-фильтре признак (установка) выражен, а у кого нет. Я попробовала просто через средние (поделила на 3 уровня выраженности признака, исходя из средней + дисперсии) - она сказала, что так нельзя, и это можно сделать правильно с помощью таблиц сопряженности или Манна-Уитни. Пыталась разобраться, но так и не поняла, как это можно сделать.

Еще проблема осложнилась тем, что я проверила распределение (Колмогоров-Смирнов) по этой методике-фильтру, и в 2 странах из 3 гипотеза о нормальном была отвержена. Возможно, это потому что в этих выборках вышло по 40 чел., а в третьей 80.
Ладно, я попробовала выделить категории через процентили. Но там тоже вышло на 3 части разделение - а насколько я поняла слова научницы, нужно только 2 категории. Тогда возникла мысль: насколько правильно в данном случае будет перевести все в стены (и решит ли это проблему с распределением)?

И поэтому вопросы в следующем:
- как можно поделить данные по выраженности признака (выражен/не выражен)? (учитывая, что везде количественная шкала)
- и если дальше мне нужно выявлять различия с помощью U, то могу ли я сразу вбить все шкалы всех методик для проверки? (может ли Манна-Уитни сделать одну большую таблицу, как в случае с корреляциями, а не только попарно?)
- если Манна-Уитни не дает сведений о характере различий, то правильно ли я понимаю, что анализировать такие данные можно только по типу " между __ и ___ шкалами различий (не) обнаружено - возможно, потому что... *здесь данные из теории + возможные подтверждения своих мыслей корреляциями* " ?
- так ли это, что если данные не по нормальному распределению, то их нельзя соотносить на всю генеральную совокупность?

https://ru-spss.livejournal.com/199757.html


Эксперимент с балансировкой порядка и сочетания стимулов

Понедельник, 20 Июня 2016 г. 16:20 + в цитатник
Решил опубликовать результаты своей студенческой курсовой в сколько-нибудь приличном месте,а для этого, видимо, нужно подправить стат.методы.

Курсовая посвящена восприятию эмоций по лицу при естественном и искусственном совмещении лиц с фоновыми контекстными сценами (предположительно эмоциогенными).

Сформировано 4 группы испытуемых в зависимости от предъявляемого типа стимульного материала:

I) Присутствуют и эмоциональное лицо, и контекстная сцена, естественно совмещены

II) Присутствуют и эмоциональное лицо, и контекстная сцена, лицо искусственно наложено

III) Присутствует только эмоциональное лицо (наложено на белый шум вместо сцены)

IV) Присутствует только контекстная сцена (человек-транслятор эмоции не добавлен).

В каждой группе по 16 испытуемых, каждый испытуемый последовательно просматривал и оценивал 4 стимула, итого по 64 пробы на каждую группу. Различия между стимулами сводятся к 4 факторам:

А) 2 модальности эмоций на лице (страх/радость; все группы, кроме IV)
Б) 2 интенсивности эмоций на лице (25%/75%; все группы, кроме IV)
В) 2 пола транслятора эмоции (все группы, кроме IV)
Г) 4 контекстные сцены («корпоративный праздник», «тёмная подворотня», «американские горки», «аплодисменты на выступлении»; в группе III вместо контекстов соответствующее по размеру и расположению лица поле белого шума)

Применена балансировка порядка предъявлений и сочетаний:

* Каждый вариант по каждому фактору одинаковое количество раз встречается на 1-м, на 2-м, на 3-м и на 4-м предъявлении.
* Все возможные комбинации стимулов («лицо мужчины, выражающее страх силой 25% на фоне горок», «лицо женщины, выражающее радость силой 75% на фоне подворотни» и т.п.) в рамках одной группы встречаются по 2 раза.

Половой состав испытуемых не выровнен внутри группы, но сохранён постоянным от группы к группе (12 респондентов женского пола, 4 респондента мужского пола).

Испытуемому предлагается выбрать один или несколько из 7 вариантов эмоции (печаль, радость, страх, гнев, удивление, отвращение, нейтральность) и для первых 6 вариантов оценить силу переживания от 1 до 4 баллов (нейтральности автоматически ставится 0 баллов). Результаты фиксируются 2 способами:
1) Все эмоции считаются качественно различными, отмечается угадывание или неугадывание верной эмоции
2) Рассчитывается вектор различий между названной и реальной эмоцией (исходя из сферической модели Измайлова-Соколова-Коршуновой). Если названо несколько эмоций, то подставляются их усредённые координаты в векторном пространстве.

Когда писал курсовую, то:

* 1) обсчитывал хи-квадратом, кодируя «1» - указана верная эмоция, «0» - верной эмоции не указано, при этом указание верной эмоции в числе n вариантов засчитывал с весом 1/n
* 2) обсчитывал дисперсионным анализом для независимых выборок (главным образом, внутри групп) различия в длине вектора и относительной длине вектора по факторам «модальность эмоции», «насыщенность эмоции», «тип контекста» (относительная длина - по сравнению со средней длиной вектора для данного контекста).

Основным результатом было то, что при естественном (и только естественном) монтаже лица и контекстной сцены модальность эмоции значимо взаимодействует с содержанием контекста (p=0,009) по относительной длине вектора: есть контексты, релевантные страху и релевантные радости (по исходной длине вектора это взаимодействие тоже есть, но вдобавок в одних контекстах обе эмоции распознаются лучше или хуже, чем в других).

Насколько я понимаю, применение дисперсионного анализа для независимых выборок здесь натянуто, т.к. 4 результата, поступавшие от одного человека, конечно, ненезависимы друг от друга.

Каким методом ДА/СМ тогда можно получить действительно корректные результаты? Менять сумму квадратов?

https://ru-spss.livejournal.com/199496.html


Метки:  

Сложный вопрос на собеседовании

Среда, 20 Апреля 2016 г. 15:32 + в цитатник
Originally posted by norka_0 at Сложный вопрос на собеседовании

Вчера в ботанической фирме задали мне сложный вопрос.

Есть 100 тарелочек. В каждой 100-150 росточков. У каждого росточка измерян корень. В каждую тарелочку добавлено какое то вещество. Всего 100 разных веществ. Есть еще контрольная тарелка с ростками что проросли в воде без удобрений. Как сравнить длину корня в 100 тарелках относительно контрольной?!

ANOVA тут не подходит, потому что хоть групп и больше 2, но очень много. И это влияет на df (degree of freedom).

Я предложила сделать 100 раз T-test :) Сравнивая каждый раз 1 тарелку с удобрением и тарелку с водой. Но это долго и мне сказали что есть еще способ.

Еще известно что некоторые из проростков вообще умерли.

Задача: отобрать удобрения которые significantly увеличивают корни лучше других.

Что посоветуете? Какой стат анализ?

https://ru-spss.livejournal.com/199420.html


Метки:  

Пишу про распространённые студенческие ошибки в работе со статистикой

Среда, 09 Марта 2016 г. 08:57 + в цитатник
По опыту хождения на защиты курсовых и дипломных работ по психологии подметил ряд распространённых и коварных ошибок в работах. Задумал черкнуть текст, предостерегающий от таких ошибок. Буду благодарен, если специалисты по статистике проверят.

Чтобы не вываливать сразу много, пока первые пять пунктов.


1. Если по критерию Колмогорова-Смирнова получилось p-значение больше 0,05 (или 0,1) – распределение нормально, можно делать параметрические методы.

Критерий Колмогорова-Смирнова оценивает значимость различий между формой двух распределений. При проверке нормальности (на самом деле, это лишь частный случай применения K-S теста) речь идёт об обнаружении значимых отличий между формой Вашего распределения и моделью нормального. То есть p-значение больше 0,05 (и т.п.) следует понимать как «Я не нашёл различий между Вашим распределением и нормальным (значимых различий на этом уровне)».

А не найти различия можно просто потому, что на руках слишком мало данных для обнаружения. Точно так же, как следователь не может найти преступника при малом количестве улик. Это ещё не значит, что дело чисто.

Так вот, Колмогоров-Смирнов – весьма требовательный к объёму данных критерий, который начинает адекватно работать на выборке в районе 80. Чем меньше выборка – тем труднее ему углядеть что-нибудь. На выборках в 20-40 человек, которые часто бывают в студенческих работах, критерий Колмогорова-Смирнова практически всегда будет заявлять «Я не смог увидеть никаких различий», каким бы перекошенным не являлось Ваше распределение.

Прикиньте теперь весь ужас ситуации, когда студент перво-наперво сделал Колмогорова-Смирнова на малом количестве респондентов, радостно заключил о нормальности и пошёл напропалую пользоваться параметрическими методами? Это ведь ставит под сомнение АБСОЛЮТНО ВСЁ, что он потом получил в работе.

При выборке в несколько десятков (но ощутимо меньше 80) следует говорить лишь об условной нормальности данных, которая оценивается через величины ассиметрии и эксцесса по сравнению с их стандартными ошибками. Если же выборка составляет эдак 20 – здесь просто нет и не может быть нормальности. Никогда. Сразу обращайтесь к непараметрической статистике.

2. Если общая выборка исследования дала нормальное распределение, то дальше можно сравнивать что угодно с чем угодно при помощи параметрических методов.

Необходимость нормального распределения для параметрических методов связана с их опорой на средние значения (и другие параметры распределения). Когда в какой-то группе нет нормального распределения – среднее может быть бессмысленным (среднее чисел 9, 10, 11 и 130 равно 40 – результат не похож ни на одно из усредняемых чисел). А когда нормальность есть – среднее заведомо получится осмысленным.

Соответственно, ПРИ СРАВНЕНИИ ДВУХ групп через средние значения, нужно иметь ДВА осмысленных средних значения. При сравнении трёх – три, и так далее. Нормальное распределение на общей выборке Вам нужно только в том случае, если Вы делаете какие-то выводы об этой общей выборке. А сколько потом групп Вы изучаете параметрическими методами – столько у Вас и должно быть (условно) нормальных распределений.

3. Если получилось нормальное распределение, можно делать дисперсионный анализ.

Дисперсионный анализ как раз-таки мало уязвим к ненормальным распределениям (кроме некоторых частных случаев). Проверка подвыборок на нормальность желательна, но от нарушений нормальности ничего страшного, скорее всего, не случится.

Однако дисперсионный анализ предъявляет ещё два особых требования к данным. Во-первых, не должно быть значимых различий во внутригрупповых дисперсиях (проверяются тестом Ливеня) – это таит серьёзную угрозу, если Ваши группы заметно отличаются по размеру. Во-вторых и в-главных, факторы для многофакторного дисперсионного анализа должны быть независимы друг от друга. Не нарушайте этого условия, не используйте в качестве факторов связанные показатели! Тогда адекватное решение задачи достигается только структурным моделированием, а не дисперсионным анализом.

Чтобы облегчить себе жизнь, для многофакторного дисперсионного анализа лучше всего сразу набирать равномерный комплекс. Равномерный комплекс – это когда на все возможные сочетания факторов приходится одинаковое количество наблюдений (типа: 16 молодых женщин-узбечек, 16 молодых женщин-татарок, 16 молодых женщин-русских, 16 молодых мужчин-узбеков, 16 молодых мужчин-татар, 16 молодых мужчин-русских, 16 пожилых женщин-узбечек, 16 пожилых женщин-татарок, 16 пожилых женщин-русских, 16 пожилых мужчин-узбеков, 16 пожилых мужчин-татар, 16 пожилых мужчин-русских).

5.Корреляционный анализ позволяет выявить взаимосвязь.

Слово «взаимосвязь» регулярно появляется в работах, организация которых не позволяет найти причин и следствий. Студенты обычно в курсе, что корреляция не означает «влияния», это слово они предусмотрительно и заменяют «взаимосвязью».

Задумайтесь уже просто над звучанием слова. Взаимная связь. То есть связь в обе стороны. Если А взаимосвязано с Б – значит, через А происходит какое-то воздействие на Б и одновременно через Б – какое-то воздействие на А. Как Вы думаете, если корреляция не способна подтвердить влияние даже в одну сторону, может ли она подтвердить влияние в обе стороны?

Корреляция показывает НЕ ВЗАИМО-, А ПРОСТО СВЯЗЬ. Вовсе не обязательно двустороннюю. Связь может быть строго односторонней: только X влияет на Y безо всякого обратного воздействия. Или наоборот: только Y влияет на X. Связь может быть действительно взаимной. Она вообще может быть только опосредованной каким-то третьим Z, когда X и Y непосредственно друг на друга не действуют. В учебнике Майерса рассказывается, что высота надгробий высоко коррелирует с количеством прожитых лет, поскольку чем дольше прожил человек, тем больше он разбогател и тем более роскошный памятник закажут его родственники (это касается западных стран, конечно). Корреляция показывает какую-то связь, сама по себе не различая случаев одностороннего влияния, двустороннего влияния, опосредованного влияния. И говорить о «взаимосвязи», имея на руках только корреляцию, не более обоснованно, чем о «влиянии».

На этапе описания статистики ошибка – чисто языковая и легко исправимая. Проблемы возникают, когда на стадии интерпретации человек полагает, что доказал именно взаимосвязь и начинает рассуждать о взаимных отношениях X и Y.

https://ru-spss.livejournal.com/199133.html


Метки:  

Анализ влияния многих факторов, взаимодействующих друг с другом

Вторник, 08 Марта 2016 г. 20:35 + в цитатник
Имеется большая (около 400 валидных кейсов) выборка студентов, в которой учтён ряд социально-демографических факторов. Однако факторы неустранимо и значимо взаимодействуют друг с другом (например, пол с факультетом обучения - ну реально так устроены некоторые специальности, что там практически только девушки или только мужики).

Из-за такой связи сравнивать факторы по одному нецелесообразно (например, сравнение результатов по специальностям через Крускала-Уоллиса подозрительно похоже на опосредованное влияние пола). Знаю, что многофакторный дисперсионный анализ при значимой корреляции факторов производить не стоит.

Какая может быть альтернатива? Структурное моделирование позволяет задавать детерминирующие переменные в номинативной шкале?

https://ru-spss.livejournal.com/198817.html


Метки:  

Средние ранги или средние

Вторник, 19 Января 2016 г. 18:04 + в цитатник
Добрый день, уважаемое сообщество.

Помогите пожалуйста.

При использовании критерия Манна-Уитни, сравнительный анализ делается посредством сравнения средних рангов или средних?

Меня тут совсем запутали, не знаю что правильно.

https://ru-spss.livejournal.com/198587.html


Метки:  

мода отдельно для каждой категории

Понедельник, 04 Января 2016 г. 16:10 + в цитатник
Добрый день,
спасибо Вам огромное за уже предоставленные инструкции!!! Они мне очень помогли.
И мне снова нужна ваша помощь.
В моем исследование две возрастные категории, объединенные в одну переменную со значениями 1 и 2. Мне нужно рассчитать результаты теста SACS по возрастным категориям. Тест интерпретируется по количеству набранных баллов за ответ. Мне нужно получить сырые баллы по каждой субшкале теста по каждой возрастной категории. Для этого мне нужно знать моду. Известный мне способ - это: частоты - статистики и мода. Но этим способом вычисляется мода по всей переменной возраст. А мне нужно отдельно получить моду для 1 возрастной группы и второй.
Как это сделать? есть ли такой способ в SPSS?

https://ru-spss.livejournal.com/198215.html


Метки:  

Обработка субшкал

Четверг, 24 Декабря 2015 г. 23:54 + в цитатник
Добрый день, уважаемое сообщество!

На данный момент в процессе написания дипломной работы. Сейчас нахожусь на этапе обработки данных. Столкнулась со следующей проблемой. Конкретно: применяла методику, по которой впоследствии нужно было выводить субшкалы. Субшкалы подсчитала в SPSS (Преобразовать - вычислить переменную). В результате получила 9 субшкал. Тип- количественный. Каждому респонденту присваивается таким образом конкретные баллы, то есть когда он отвечал на вопросы анкеты, каждый ответ из 5 предложенных оценивался по 5-балльной шкале. Следовательно, каждая субшкала представляла собой сумму набранных баллов. Теперь мне нужно выяснить у кого, точнее у людям какого возраста, свойственны наибольшие баллы по определенной субшкале. В связи с чем, пытаюсь перекодировать значения субшкалы в интервалы, чтобы программа мне автоматически посчитала сколько людей набрали от 1) 6-17, 2) 18-22, 3) 23-30. Не считает.. описательные и частотные таблицы не выводят мне данные по представленным интервалам. В выводе я получаю длиииинный столбик из разрозненных набранных баллов, где мне крайне сложно выяснить какое количество людей определенного возраста отдает наибольшее предпочтение определенной субшкале.
Очень надеюсь, что достаточно понятно все изложила. Пожалуйста, я уже рву на себе волосы, никак не могу понять, как мне быть. Помогите!!!

https://ru-spss.livejournal.com/197916.html


Метки:  

Поиск сообщений в lj_ru_spss
Страницы: [4] 3 2 1 Календарь