Network


Latest external collaboration on country level. Dive into details by clicking on the dots.

Hotspot


Dive into the research topics where Klaus D. Kubinger is active.

Publication


Featured researches published by Klaus D. Kubinger.


International Journal of Testing | 2005

Psychological Test Calibration Using the Rasch Model—Some Critical Suggestions on Traditional Approaches

Klaus D. Kubinger

In this article, we emphasize that the Rasch model is not only very useful for psychological test calibration but is also necessary if the number of solved items is to be used as an examinees score. Simplified proof that the Rasch model implies specific objective parameter comparisons is given. Consequently, a model check per se is possible. For data and item pools that fail to fit the Rasch model, various reasons are listed. For instance, the two-parameter logistic or three-parameter logistic models would probably be more suitable. Several suggestions are given for controlling the overall Type I risk, for including a power analysis (i.e., taking the Type II risk into account), for disclosing artificial model check results, and for the deletion of Rasch model misfitting examinees. These suggestions are empirically founded and may serve in the establishment of certain rough state-of-the-art standards. However, a degree of statistical elaboration is needed; and forthcoming test authors will still suffer from the fact that no standard software exists that offers all of the given approaches as a package.


Educational and Psychological Measurement | 2009

Applications of the Linear Logistic Test Model in Psychometric Research.

Klaus D. Kubinger

The linear logistic test model (LLTM) breaks down the item parameter of the Rasch model as a linear combination of some hypothesized elementary parameters. Although the original purpose of applying the LLTM was primarily to generate test items with specified item difficulty, there are still many other potential applications, which may be of use for psychometric research on various testing conditions. This article provides some examples of such applications. The examples include (a) position effect of item presentation (in particular, learning and fatigue effects); (b) content-specific learning effect; (c) effect of speeded item presentation; and (d) effect of item response format.


Educational and Psychological Measurement | 2011

Applying Item Response Theory Methods to Examine the Impact of Different Response Formats

Christine Hohensinn; Klaus D. Kubinger

In aptitude and achievement tests, different response formats are usually used. A fundamental distinction must be made between the class of multiple-choice formats and the constructed response formats. Previous studies have examined the impact of different response formats applying traditional statistical approaches, but these influences can also be studied using methods of item response theory to deal with incomplete data. Response formats can influence item attributes in two ways: different response formats could cause items to measure different latent traits or they could contribute differently to item difficulty. In contrast to previous research, the present study examines the impact of response formats on item attributes of a language awareness test applying different item response theory models. Results indicate that although the language awareness test contains items with different response formats, only one latent trait is measured; no format-specific dimensions were found. Response formats do, however, have a distinct impact on the difficulty of the items. In addition to the effects of the three administered item types, a fourth component that makes items more difficult was identified.


Educational Research and Evaluation | 2011

Analysing item position effects due to test booklet design within large-scale assessment

Christine Hohensinn; Klaus D. Kubinger; Manuel Reif; Eva Schleicher; Lale Khorramdel

For large-scale assessments, usually booklet designs administering the same item at different positions within a booklet are used. Therefore, the occurrence of position effects influencing the difficulty of the item is a crucial issue. Not taking learning or fatigue effects into account would result in a bias of estimated item difficulty. The occurrence of position effects is examined for a 4th-grade mathematical competence test of the Austrian Educational Standards by means of the linear logistic test model (LLTM). A small simulation study assesses the test power for this model. Overall, the LLTM without a modelled position effect yielded a good model fit. Therefore, no relevant global item position effect could be found for the analysed mathematical competence test.


Archive | 2007

A Comparison of the Rasch Model and Constrained Item Response Theory Models for Pertinent Psychological Test Data

Klaus D. Kubinger; Clemens Draxler

This paper provides an application of a generalization of the dichotomous Rasch model (RM) to the study of guessing behavior of respondents to typical achievement tests. One of the models applied is a constrained version of the 3PL model where a lower asymptote parameter is assumed in order to account for guessing behavior, but no variation of item discrimination is modeled. In addition, an application of mixture-distribution RMs aimed at modeling guessing effects and a comparison of the two approaches is presented. If such a constrained 3PL model is applied, in particular, to tests consisting of multiplechoice formatted items, the lower asymptote parameter can be interpreted as a guessing parameter. Therefore, the model is called the difficulty plus guessing PL (DGPL) model. An empirical example shows that a multiplechoice item pool only fits the Rasch model after a large number of items have been deleted, while the DGPL model can save most of those deleted items as it takes the severe but item-specific guessing effects into consideration. Furthermore, multiclass mixed RM analyses show — in comparison to the Rasch model — a good fit of the data and confirm item-specific guessing effects.


Diagnostica | 2007

Probleme bei der Testkonstruktion nach dem Rasch-Modell

Klaus D. Kubinger; Clemens Draxler

Zusammenfassung. Die Bedeutung des Rasch-Modells fur die Testkonstruktion steht zwar auser Frage, trotzdem ist auf gewisse Probleme bei der Analyse eines Itempools nach dem Rasch-Modell hinzuweisen. Zum ersten kann es Itempools geben, die dem Rasch-Modell widersprechen und trotzdem testtheoretisch brauchbar sind: Es konnen die Items annahernd einer sog. Guttman-Skala folgen oder sie entsprechen dem 2- bzw. 3-PL Modell von Birnbaum. Zum zweiten geht es im Zusammenhang mit Modelltests um die “α-Uberhohung“ bzw. das Konzept der Effektgrosen: Entweder werden zu viele Modelltests durchgefuhrt oder es werden Modelltests bestimmt, die hinsichtlich des Effekts zwar signifikant, aber inhaltlich irrelevant sind. In Ermangelung eines methodisch fundierten Regelwerks, welche Modelltests standardmasig im Sinne eines state of the art durchzufuhren sind, um gegebenenfalls den Grad der Bewahrung des Rasch-Modells fur einen bestimmten Itempool als ausreichend qualifizieren zu konnen, wird hier ein Vorschlag gemacht.


International Journal of Selection and Assessment | 2010

On Minimizing Guessing Effects on Multiple-Choice Items: Superiority of a Two Solutions and Three Distractors Item Format to a One Solution and Five Distractors Item Format

Klaus D. Kubinger; Stefana Holocher-Ertl; Manuel Reif; Christine Hohensinn; Martina Frebort

Multiple-choice response formats are troublesome, as an item is often scored as solved simply because the examinee may be lucky at guessing the correct option. Instead of pertinent Item Response Theory models, which take guessing effects into account, this paper considers a psycho-technological approach to re-conceptualizing multiple-choice response formats. The free-response format is compared with two different multiple-choice formats: a traditional format with a single correct response option and five distractors (‘1 of 6’), and another with five response options, three of them being distractors and two of them being correct (‘2 of 5’). For the latter format, an item is scored as mastered only if both correct response options and none of the distractors are marked. After the exclusion of a few items, the Rasch model analyses revealed appropriate fit for 188 items altogether. The resulting item-difficulty parameters were used for comparison. The multiple-choice format ‘1 of 6’ differs significantly from the multiple-choice format ‘2 of 5’, while the latter does not differ significantly from the free-response format. The lower difficulty of items ‘1 of 6’ suggests guessing effects.


Psychologische Rundschau | 2009

Zur Legende der Voraussetzungen des t-Tests für unabhängige Stichproben

Klaus D. Kubinger; Dieter Rasch; Karl Moder

Gemas traditioneller Lehr-(Buch-)Meinung der Angewandten Statistik, insbesondere auch der Statistik fur Psychologen, wird bei angestrebten Auswertungen von empirischen Daten mit Hilfe des (Zwei-Stichproben-Student-) t-Tests angeraten, die bei der Herleitung der statistischen Verteilung dieses statistischen Prufverfahrens (der Einfachheit halber) getroffenen Voraussetzungen vorweg zu prufen. Gemeint ist die Voraussetzung normalverteilter Zufallsvariablen (je Stichprobe) und Homogenitat der Varianzen. Ersteres, obwohl schon lange vor der technischen Moglichkeit von Simulationsstudien aus der Theoretischen Statistik unter Berufung auf den sog. „Zentralen Grenzwertsatz“ ableitbar war – was auch entsprechend verbreitet wurde (vgl. z.B. Kreyszig, 1968) –, dass bei ausreichend grosem Stichprobenumfang (n1 30 und n2 30) selbst bei vollig beliebiger Verteilung der untersuchten Variablen y1 und y2 immerhin deren Stichprobenmittelwerte y1 und y2 (naherungsweise) normalverteilt sind, was die eigentliche Voraussetzung bei der Herleitung des t-Tests ist. Ungeachtet des Umstands, dass eine entsprechend erfahrungsgeleitete zweite Faustregel, die Homogenitat der Varianzen betreffend, wesentlich grosere Stichprobenumfange fordert, ist daraus seit langem zu schliesen: Ab Stichprobenumfangen groser oder gleich 30 kann auf die Prufung der Voraussetzung normalverteilter Zufallsvariablen jedenfalls verzichtet werden; dabei ist vorsichtshalber besser (wegen der fraglichen Homogenitat der Varianzen) der Welch-Test (Welch, 1947; in der Psychologie haufig genannt: „sog. t-Test fur heterogene Varianzen“) anzuwenden. D.h., die Prufung auf Normalverteilung der untersuchten Variablen ist in dem in der Psychologie zumeist gegebenen Fall entsprechend groser Stichprobenumfange immer schon obsolet; dies ist ubrigens „praktisch“, weil das dafur ublicherweise eingesetzte Verfahren, der Kolmogorov-Smirnov-Test, ohnehin extrem wenig trennscharf ist (vgl. z.B. Lilliefors, 1967). Mit dem Aufkommen des Computers und der Moglichkeit von Simualtionsstudien konnten die Auswirkungen der Verletzung von Voraussetzungen des t-Tests viel konkreter studiert werden. Rasch und Guiard (2004) geben zum Beispiel eine Zusammenstellung von umfassenden Studien zu seiner „Robustheit“ – gemeint ist damit, wie genau er das nominelle Risiko 1. Art ( ) einhalt. Das wesentliche Ergebnis ist, dass er eine 20%-Robustheit (das aktuelle akt liegt fur ein nominelles von 0,05 zwischen 0,04 und 0,06) praktisch immer einhalt, unabhangig von der Verteilung der Zufallsvariablen. Und was den fruher zur Prufung der Voraussetzung der Homogenitat der Varianzen ublichen F-Test betrifft, berichten sie, dass dieser ganz im Gegensatz zum zwischenzeitlich eben deshalb gebrauchlichen Levene-Test eine 20%-Robustheit nicht annahernd gewahrleistet.


Educational Research and Evaluation | 2011

A new approach for testing the Rasch model

Klaus D. Kubinger; Dieter Rasch; Takuya Yanagida

Though calibration of an achievement test within psychological and educational context is very often carried out by the Rasch model, data sampling is hardly designed according to statistical foundations. However, Kubinger, Rasch, and Yanagida (2009) recently suggested an approach for the determination of sample size according to a given Type I and Type II risk, and a certain effect of model misfit when testing the Rasch model is supported by some new results. The approach uses a three-way analysis of variance design with mixed classification. There is a (fixed) group factor A, a (random) factor B of testees within A, and a (fixed) factor C of items cross-classified with . The simulation study in this article deals with further item parameter ranges and ability parameter distributions, and with larger sample sizes and item numbers than the original paper. The results are: The approach works given several restrictions, and its main aim, the determination of the sample size, is attained.


Kindheit Und Entwicklung | 2008

Hochbegabungsdiagnostik: HAWIK-IV oder AID 2

Stefana Holocher-Ertl; Klaus D. Kubinger; Christine Hohensinn

Es werden die beiden Intelligenz-Testbatterien HAWIK-IV und AID 2 in Bezug auf Hochbegabungsdiagnostik gegenubergestellt. Ausgegangen wird von zwei Modellen der Hochbegabungsdiagnostik. Dem traditionellen Ansatz einerseits – (kognitive) Hochbegabung liegt vor bei einem IQ > 130 – und dem „Wiener Diagnosemodell zum Hochleistungspotenzial“ andererseits. Letzteres postuliert in Anlehnung an das „Munchner Hochbegabungsmodell“ zusatzlich zu Begabungsfaktoren, wie vor allem der Intelligenz, bestimmte Personlichkeits- sowie Umweltmerkmale als Moderatoren der Leistungsmanifestation. Die Abhandlung von HAWIK-IV und AID 2 ergibt, dass keine von beiden Testbatterien beiden Modellen gleichermasen gerecht wird, sondern der HAWIK-IV eher im Sinne der traditionellen Hochbegabungsdiagnostik einsetzbar ist, der AID 2 besonders gut fur eine forderungsorientierte Diagnostik im Sinne des „Wiener Diagnosemodells zum Hochleistungspotenzial“. Somit muss in der Praxis zuerst entschieden werden, welchem Modell man sich verpflicht...

Collaboration


Dive into the Klaus D. Kubinger's collaboration.

Top Co-Authors

Avatar
Top Co-Authors

Avatar
Top Co-Authors

Avatar
Top Co-Authors

Avatar
Top Co-Authors

Avatar
Top Co-Authors

Avatar
Top Co-Authors

Avatar
Top Co-Authors

Avatar
Top Co-Authors

Avatar
Top Co-Authors

Avatar
Researchain Logo
Decentralizing Knowledge