WYKŁAD IV
Strategie konstrukcji testów, właściwości pozycji
Strategie konstrukcji testów
è teoretyczna – dedukcyjna
è zewnętrzna – kryterialna
è wewnętrzna – indukcyjna
Kilka ważnych dat
– ok. 2200 p.n.e. „standaryzowane techniki diagnozy” używane w Chinach do selekcji urzędników państwowych
– 1906 - Alfred Binet i Theophil Simon; pierwszy test inteligencji pierwotnie służący do selekcji dzieci upośledzonych
– 1908 - Gerard Heymans i Erno Wiersma; trzywymiarowa typologia temperamentu; pierwsze badania kwestionariuszowe
– 1939 - David Wechsler publikuje pierwszą wersję Wechsler Adult Inteligence Scale (WAIS)
– 1943 - Minnesota Multiphasis Personality Inventory S.R. Hathawaya i J.C. McKinleya
– 1949 - 16 Personality Factor Questionnaire R.B. Cattella
Znaczące wydarzenia dla rozwoju diagnostyki psychometrycznej w Polsce
– 1958 powstanie Pracowni Psychometrycznej przy PAN
– 1975 powołanie Laboratorium Technik Diagnostycznych przy Instytucie Psychologii U.W. wspólnie z Polskim Towarzystwem Psychologicznym
– 1990 powstanie Pracowni Testów Psychologicznych Polskiego Towarzystwa Psychologicznego
Mieczysław Choynowski (1909-2001)
– Konwersatorium naukoznawcze asystentów U.J. (1946-1950)
– Pracownia Psychologicznaw Kobierzynie (1950-1956)
– Pracownia Psychometryczna PAN (1958-1970)
– Testy w poradnictwie wychowawczo-zawodowym (1977)
POZYCJA TESTOWA
– to sformalizowany wskaźnik danej cechy psychologicznej, a więc zdanie (twierdzenie lub pytanie) opisujące określone zachowanie (lub zdanie wyzwalające określone zachowanie) oraz skala rejestrująca to zachowanie (zawierająca określone opcje odpowiedzi o danym formacie oraz reguła przekształcania odpowiedzi w wynik liczbowy).
STRATEGIA TEORETYCZNA
– opiera się na teorii psychologicznej, celem konstrukcji jest pomiar cech postulowanych przez teorię
– kluczowym etapem konstrukcji jest analiza definicji cech
– odwołuje się do danych z prób reprezentatywnych
– kryterium włączania pozycji do skali mogą być:trudność pozycji, moc dyskryminacyjna
– powstałe narzędzia cechuje wysoka trafność teoretyczna i często wysoka trafność kryterialna
– wadą zbudowanego testu jest wzajemne skorelowanie skal
STRATEGIA ZEWNĘTRZNA
– opiera się raczej na wiedzy niż na teorii psychologicznej, celem konstrukcji jest pomiar „syndromów zachowania”
– kluczowym etapem konstrukcji jest empiryczny dobór wskaźników
– odwołuje się do danych z prób dobieranych celowo
– kryterium włączania pozycji do skali:korelacja pozycji z zewnętrznym kryterium
– powstałe narzędzia cechuje wysoka trafność kryterialna
– często takie testy są nisko rzetelne i nadmiernie długie
STRATEGIA WEWNĘTRZNA
– opiera się na metodologii, a nie na wiedzy i teorii, celem konstrukcji jest identyfikacja podstawowych wymiarów zachowania a przedmiotem pomiaru są cechy
– kluczowym etapem konstrukcji jest empiryczny dobór wskaźników (analiza czynnikowa)
– kryterium włączania pozycji do skali może być:ładunek czynnikowy
– powstałe skale są oszczędne i trafne teoretycznie
– wadą zbudowanych skal jest ich nadmierna jednorodność i ogólność
Przykład interkorelacji skal kwestionariuszy
è Kwestionariusz PTS Strelaua i Zawadzkiego
SPP/SPH SPP/RPN SPH/RPN0,31 0,61 0,26
przeciętna korelacja - 0,40
è Polska Lista Przymiotnikowa Szaroty UGD SUM DYN INTSUM 0,25DYN 0,22 0,30INT 0,21 0,22 0,52POB 0,01 -0,26 0,27 0,19 przeciętna korelacja - 0,25
è Kwestionariusz FCZ-KT Zawadzkiego i Strelaua ŻWA PER WRS REM WYTPER 0,31WRS 0,20 0,11REM -0,51 0,63 0,03WYT 0,54 -0,47 0,04 -0,64 AKT 0,32 0,07 0,09 -0,32 0,19
przeciętna korelacja - 0,30
è Kwestionariusz NEO-FFI Costy i McCrae EKS OTW UGD SUM NEU -0,30 0,01 -0,15 -0,25EKS 0,19 0,01 0,15OTW 0,01 -0,10UGD 0,27
przeciętna korelacja - 0,14
ANALIZA CZYNNIKOWA
– metoda analizy danych, której istota polega na identyfikacji mniejszej liczby wymiarów, skupień, czy też czynników w większym zbiorze skorelowanych zmiennych niezależnych lub też pozycji w narzędziu testowym.
– eksploracyjna a konfirmacyjna analiza czynnikowa
– dwa kroki analizy czynnikowej
– problemy wynikające z arbitralnych decyzji badacza
Analiza czynnikowa – serce plot
ŁADUNEK CZYNNIKOWY
– w sensie operacyjnym korelacja między pytaniem a czynnikiem
– dla oceny siły związku kluczowa jest jego wartość – znak ładunku wskazuje na pytania „nie wprost” wymagające rekodowania
– przyjmuję się, że warunkiem włączania pytania do skali jest wartość ładunku > 0,30 (oznacza to około 10% wspólnej wariancji)
– zazwyczaj włączane do skali są pytania mające wysokie ładunki jednego z czynników i niskie pozostałych – mierzące określoną a nie inne treści
TRUDNOŚĆ POZYCJI
– stosunek liczby osób, które udzieliły prawidłowej (zgodnej z kluczem i diagnostycznej) odpowiedzi na pytanie, do ogółem przebadanej liczby osób
– zazwyczaj wyrażany jako odsetek osób, które znały prawidłową odpowiedź na pytanie
– przyjmuje „paradoksalne” wartości – wysoka wartość wskazuje na łatwe pytania
– stosowany zazwyczaj w przypadku testów wiedzy
– najlepiej różnicującymi pytaniami są pytania o przeciętnym stopniu trudności– pozwalają na dokonanie największej liczby porównań między osobami w próbie
MOC DYSKRYMINACYJNA
– informuje w jakim stopniu pytanie/zadanie różnicuje daną populację, ze względu na mierzoną cechę
– w rozumieniu operacyjnym – korelacja między pozycją a skalą; obliczanie takich korelacji wymaga spełnienia specyficznych założeń – jedna z korelowanych zmiennych jest mierzona na skali nominalnej, druga na przedziałowej
– wartość ujemna wskazuje na to, że badacz pomylił się ustalając klucz – można to traktować jako dyskwalifikację pozycji mimo znaczącej wartości bezwzględnej m.d.
– przyjmuje się, że moc dyskryminacyjna musi mieć wartość > 0,20, aby pozycja była włączana do skali (około 5% wspólnej wariancji ze skalą)
– wartości mocy dyskryminacyjnych maksymalizują się dla pytań o przeciętnej trudności
Metody obliczania mocy dyskryminacyjnych
è współczynnik korelacji biseryjnej (dwuseryjnej)
– rozkład wyników cechy mierzonej przez daną pozycję winien być zmienną ciągłą o normalnym rozkładzie
– rozkład wyników ogólnych w teście winien także być rozkładem normalnym
–
è współczynnik korelacji punktowo-dwuseryjnej
– rozkład wyników cechy mierzonej przez daną pozycję jest dwukategorialny – zmienna jest dyskretna
– wyniki ogólne w teście mają rozkład normalny (jak wyżej)
è współczynnik korelacji punktowo-czteropolowej
– nie można przyjąć założeń wymienionych wyżej
– zarówno wynik pozycji, jak i wynik ogólny traktowanesą jako zmienne dychotomiczne
è pakiety statystyczne obliczają skorygowane korelacje pozycja-skala (corrected item-total correlation)
– korekta polega na wyłączeniu z sumy wyniku ogólnego pytania, dla którego obliczana jest moc dyskryminacyjna
– obliczane w taki sposób wartości mocy dyskryminacyjnej są bardziej surowe (niższe) niż w przypadku współczynników prezentowanych na poprzedniej folii
Inne miary dobroci pozycji
è w przypadku narzędzi tworzonych zgodnie ze strategią kryterialną – miarą dobroci pozycji jest jej korelacja z zewnętrznym kryterium
...
tanysia