DSpace at EWHA: 혼합분포 문항반응모형의 피험자 모수 분포 비정규성이 차별기능문항 추출에 미치는 영향

Browse

My Repository

DSpace at EWHA일반대학원 교육학과 Theses_Ph.D

View : 1244 Download: 0

혼합분포 문항반응모형의 피험자 모수 분포 비정규성이 차별기능문항 추출에 미치는 영향

Title: 혼합분포 문항반응모형의 피험자 모수 분포 비정규성이 차별기능문항 추출에 미치는 영향

Other Titles: Effects of Non-normality of Ability Parameter in Mixture Item Response Theory on Detecting Differential Item Functioning

Authors: 이보람

Issue Date: 2020

Department/Major: 대학원 교육학과

Publisher: 이화여자대학교 대학원

Degree: Doctor

Advisors: 성태제

Abstract: 검사가 측정하는 능력과 관련없이 피험자가 속한 집단에 따라 달리 기능하는 문항을 뜻하는 차별기능문항은 검사의 공정성 측면에서 치명적이며 특히 윤리적·법적 문제가 발생할 우려가 있어 검사 분석에 있어 중요하게 다루어져야 할 과제이다. 본 연구는 검사에서의 적절한 차별기능문항 추출에 있어서 기존에 사용되던 명시적 집단에 의한 차별기능문항 분석의 한계점을 의식하고 이를 극복할 수 있는 대안인 잠재집단 차별기능문항 분석에 대해 연구하고자 하였다. 잠재집단 차별기능문항 분석에서는 집단의 구분이 실제 피험자의 응답에 따라 질적으로 이루어지므로, 구분된 잠재집단의 특성을 문항 특성의 측면 또는 피험자 특성의 측면과 연결한다면 차별기능문항의 원인을 파악하거나 적절한 교수적 처방을 제공하는 데 용이하게 활용된다는 장점이 있다. 한편 교육학·심리학적 검사 자료에서는 피험자의 능력 모수 분포가 편포되거나 첨도를 가지는 등 여러 모양의 비정규 분포를 이루는 경우가 많다. 그러나 기존의 잠재집단 분석 및 차별기능문항 추출 연구에서는 피험자의 능력 모수가 정규 분포임을 가정한 경우가 많으므로 능력 모수가 비정규 분포를 이룰 때 정확히 어떤 결과가 초래되는지 알 수 없으며 모형 추정의 결과를 신뢰롭게 해석하기 어렵다. 따라서 본 연구에서는 피험자의 능력 모수가 비정규 분포인 조건을 가정하여 모의 자료를 생성하고 차별기능문항과 관련된 여러 요인을 조절함으로써 어떤 분포 조건 하에서, 또는 실험 조건들에 따라서 잠재집단 분석과 차별기능문항 분석 결과 수행 정도가 어떠한 경향을 가지는지 확인하고자 하는 목적을 가진다. 이와 같은 연구 목적을 달성하기 위하여 본 연구에서는 모의 자료를 분석하여 결과를 확인하고 실제 교육현장에서 실시되는 국제 학업성취도 평가인 TIMSS 2015의 8학년 수학 검사를 활용해 잠재집단 분석 및 차별기능문항 분석을 실시하였다. 모의 자료를 통한 실험에서는 기존의 잠재집단 분석 연구를 참고하여 두 개의 잠재집단이 내재된 총 여섯 가지 모양의 비정규적 피험자 분포를 생성하였다. 또한 일부 문항의 경우 두 잠재집단 간 문항 모수에 차이가 있는 차별기능문항으로 생성하였다. 일반적으로 교육학과 심리학 분야의 검사 자료에서 피험자 모수 분포가 첨도와 왜도를 가지는 비정규 분포임에 착안하여 비정규 분포를 생성하는 데 첨도와 왜도 두 가지를 고려하였다. 생성된 여섯 가지 분포 조건은 다음과 같다. 첫째, 비정규 분포의 분석 결과와 비교할 기준점으로 참조집단과 연구집단 모두 정규분포를 따르는 분포 조건이다. 둘째, 참조집단은 정규분포를 따르고 연구집단은 정적 편포를 띠는 분포 조건이다. 셋째, 참조집단은 정규분포를 따르고 연구집단은 부적 편포를 띠는 분포 조건이다. 넷째, 두 잠재집단 모두 정적 편포를 띠는 분포 조건이다. 다섯째, 두 잠재집단 모두 부적 편포를 띠는 분포 조건이다. 여섯째, 참조집단은 부적 편포, 연구집단은 정적 편포를 띠는 분포 조건이다. 피험자 모수 분포 조건 이외에 다른 실험 조건으로는 차별기능문항의 종류, 전체 문항 중 차별기능문항의 비율, 각 잠재집단 크기의 균등 여부, 총 사례수를 조정하여 총 96개의 실험 조건을 설정하였다. 문항 수, 잠재집단 간 능력 모수의 평균 및 표준편차 차이, 차별기능문항의 효과 크기는 전체 조건에서 동일하게 설정하였다. 생성된 모의 자료에 대하여 2-모수 혼합분포 문항반응모형에 의한 잠재집단 분석을 실시하고, 피험자 잠재집단 분류 결과를 이용해 Lord 방법, Raju 방법, 우도비 검정 방법으로 차별기능문항 분석을 실시하였다. 잠재집단 차별기능문항 분석 시, 잠재집단 분석이 부정확한 경우 차별기능문항의 결과에도 부정적 영향을 미칠 수 있다. 따라서 본 연구에서는 잠재집단 분석이 더 정확히 이루어질 수 있는 상황을 추가로 설정하여 잠재집단 차별기능문항 분석 결과가 얼마나 향상되는지 확인하고자 하였다. 각 분포 조건별로 기존에 실시된 분석 결과가 가장 좋은 조건과 좋지 않은 조건을 선택하였고 해당 조건에 대하여 두 잠재집단 간 문항 모수 차이, 즉 차별기능문항의 규모를 크게 하여 잠재집단 차별기능문항 분석을 실시하였다. 분포 조건별, 실험 조건별로 기존의 결과가 얼마나 향상되었는지 비교하였다. 마지막으로 실제 자료에 잠재집단 차별기능문항 분석을 적용하기 위하여 TIMSS 2015의 8학년 수학 검사 자료 중, 성취도 상위 5개국인 싱가포르, 대한민국, 홍콩, 대만, 일본의 검사 자료를 병합하여 분석에 활용하였다. 분석 시 먼저 모형 적합도에 의해 자료에 적절한 잠재집단의 수를 탐색하고, 적절한 수의 잠재집단 모형을 적용하여 각 피험자를 잠재집단으로 분류하였다. 분류된 잠재집단 코드를 이용하여 Lord 방법, Raju 방법과 우도비 검정 방법으로 차별기능문항 추출을 실시하였으며, 차별기능문항으로 추출된 문항이 측정하는 내용 및 인지 영역 등 문항 특성의 측면과 각 잠재집단에 속한 피험자들의 배경 변인인 개인 특성의 측면을 확인하였다. 이러한 작업은 잠재집단에 대한 차별기능문항이 왜 발생하였는지 원인을 추론 가능하게 하며, 실제 교수·학습 현장에서 잠재집단 차별기능문항 분석을 돕는 예시적 분석 차원으로 이루어졌다. 모의 자료를 이용한 연구 결과는 다음과 같다. 첫째, 2-모수 혼합분포 문항반응모형에 의한 잠재집단 분석 결과로 참 잠재집단 수의 회복률과 각 피험자들을 원래의 잠재집단으로 정확히 분류한 비율을 확인하였다. 참 잠재집단 개수, 즉 2집단 모형의 선택률을 확인한 결과 AIC의 경우 모든 조건에서 2집단 모형을 선택한 비율이 약 70%에서 97% 범위로 비교적 우수한 참 잠재집단 수 회복률을 나타내었다. 그러나 BIC의 경우 거의 대부분의 조건에서 1집단 모형을 선택하였으며, 이는 AIC보다 BIC의 집단 수 회복률이 더 우수하다는 기존의 연구 결과와 상충하는 결과로 본 연구에서는 AIC에 의한 모형 선택이 더 적절하였다. 실험 조건에 따라서는 비균일적 차별기능문항 조건, 차별기능문항 비율이 50%인 조건, 총 피험자 수가 2,000명인 조건일 때 대체로 AIC의 2집단 선택 비율이 더 높게 나타났으며 이러한 경향은 모든 분포 조건에서 동일하게 나타났다. 둘째, 모의 자료의 피험자들을 원래의 잠재집단으로 적절히 분류했는지 여부를 확인하였고 그 결과 전체적으로 잠재집단의 분류 정확도는 약 62%에서 63%사이로서 그다지 우수하지는 않은 결과를 보였다. 여섯 개의 분포 조건 간에는 잠재집단 분류 정확도에 큰 차이가 없었고, 실험 조건별 잠재집단 분류 정확도를 비교했을 때는 참 잠재집단 회복과 마찬가지로 특정 조건에 따라 분류 정확도가 더 높은 경우가 있었다. 잠재집단 분류 정확도가 높게 나타나는 실험 조건들은 균일적 차별기능문항 조건, 차별기능 문항 비율이 50%인 조건, 두 집단의 크기가 비균등한 조건, 피험자 수가 2,000명인 조건에서 잠재집단 분류 정확도가 높았다. 셋째, 추정된 각 피험자의 잠재집단 소속을 활용하여 차별기능문항 분석을 실시한 결과, Lord 방법에서의 검정력은 전체적으로 약 .5의 검정력을 나타내었다. 경험적 제1종 오류의 경우 보통 약 .3의 값을 가졌다. Raju 방법에서의 검정력은 약 .3에서 .4로 비교적 낮은 검정력을 나타내었고, 경험적 제1종 오류는 약 .1로 나타났다. 우도비 검정 방법에서는 Lord 방법과 Raju 방법에 비해 높은 검정력과 낮은 제1종 오류를 보여 비교적 우수한 결과를 나타내었다. 세 방법에서 모두 정규분포인 조건과 비정규 분포 조건 간의 검정력과 제1종 오류에 큰 차이는 없었으나 우도비 검정 방법의 검정력에서는 일부 비정규 분포 조건에서 모두 정규분포인 조건보다 더 높은 검정력이 나타나기도 하였다. Lord 방법, Raju 방법과 유사하게 비균일적 차별기능문항인 경우와 총 사례수가 2,000명인 경우 검정력과 경험적 제1종 오류가 더 높게 나타나는 경향이 있었다. 차별기능문항 규모를 증가시킨 후 잠재집단 차별기능문항 분석 결과의 향상 정도를 살펴보면 AIC와 BIC의 2집단 선택률, 잠재집단 분류 정확도가 큰 폭으로 향상되었음을 알 수 있다. 차별기능문항 분석에서는 Lord 방법과 Raju 방법에서는 오히려 검정력이 약간 낮아져 좋지 않은 결과가 나타났지만 우도비 검정 방법에서는 검정력이 크게 향상되는 반면 제1종 오류는 기존과 비슷한 수준을 유지하여 차별기능문항 규모가 증가할수록 우도비 검정 결과가 우수해짐을 알 수 있다. 이러한 경향성은 모두 정규분포인 조건과 비교하여 비정규 분포 조건들에서도 비슷하게 나타나, 분석 결과 향상도에 분포 조건의 영향은 거의 없었다. 넷째, 실제 자료인 TIMSS 2015 8학년 수학의 잠재집단 차별기능문항 분석 결과, 자료에 내재되어 있는 잠재집단의 수는 2집단이 적절한 것으로 나타났다. 또한 실제 자료의 경우 차별기능문항에 대한 정보가 전혀 없으므로, Lord 방법과 Raju 방법, 우도비 검정 방법을 가교문항 및 차별기능문항을 추출하였다. 분석 결과, 가교문항인 5, 7, 10, 23, 26번 문항을 제외하고 총 6개의 문항이 잠재집단 간 차별기능문항으로 추출되었다. 아울러 잠재집단 간 차별기능문항의 원인을 탐색해보고자 문항 특성과 피험자 특성에 대하여 분석을 실시하였고, 분석 결과 피험자 모수가 높을수록, 내용 영역 중 ‘수’ 영역의 성취도가 높을수록 잠재집단 1에 속할 확률이 높았고, 내용 영역 중 ‘자료’ 영역의 성취도가 높을수록 잠재집단 2에 속할 확률이 높았다. 즉 두 잠재집단의 차별기능문항 원인은 피험자 모수와 내용 영역 중 ‘수’, ‘자료’의 성취도였다. 본 연구의 결과를 바탕으로 도출한 시사점은 다음과 같다. 첫째, 실제 자료에서 잠재집단 수를 결정할 때, 가능한 다양한 정보 지수를 활용하거나 경쟁 모형 간 정보 지수 값을 직접 확인하는 등 여러 가지 정보에 의해 집단 수를 결정해야 한다. 참 잠재집단 수를 결정할 때 널리 사용되는 지수로서 AIC와 BIC가 있으며 특히 두 지수에 의한 모형 선택 결과가 상충될 경우 BIC를 기준으로 해야 한다는 선행 연구 결과가 다수 존재한다. 그러나 본 연구에서는 BIC에 비하여 AIC의 참 잠재집단 수 회복률이 더 우수하게 나타났다. 따라서 집단 선택에 있어 AIC, BIC뿐만 아니라 다양한 정보 지수와 질적 정보들을 활용해야 할 것이다. 또한 차별기능문항의 규모가 얼마만큼 클 때 AIC와 BIC에 의한 결과가 역전되는지, 또는 어떤 조건 하에서 BIC에 의한 결과가 왜곡될 가능성이 있는지 등을 추후 연구에서 파악하여 추후 잠재집단 분석 시 검사 자료의 특성에 맞는 적절한 집단 수를 구할 수 있도록 해야 한다. 둘째, 본 연구의 결과가 제공하는 차별기능문항의 분석에 있어서의 검정력과 제1종 오류 비율에 영향을 미치는 요인이 무엇인지에 대한 정보를 활용해 실제 자료 분석 결과를 해석할 때 사용해야 한다. 연구 결과 전반적으로 차별기능문항의 검정력 및 제1종 오류는 비균일적 차별기능문항일 때, 총 피험자 수가 많을 때 높아진다. 이 요인들은 대체로 피험자 모수의 분포 조건에 관계없이 전체적으로 검정력 및 제1종 오류에 일관된 영향을 주었다. 이러한 결과를 참고로 하여 실제로 이와 유사한 상황에서 검사 자료에 대한 차별기능문항 분석 시 결과가 잘못 도출되었을 가능성 등을 함께 고려하여 결과를 해석하는 데 주의하도록 하여야 한다. 또한 잠재집단 차별기능문항 분석에서 Lord 방법과 Raju 방법 적용에 유의하여야 하며, 잠재집단 차별기능문항 분석에서의 두 방법의 적용이 적절한지에 대한 추가 논의가 필요하다. 그리고 차별기능문항의 규모에 따라 잠재집단 차별기능문항 분석 결과를 해석함에 있어 주의를 기울여야 한다. 잠재집단 차별기능문항 분석에서는 잠재집단 분석의 결과가 신뢰로워야 차별기능문항에서의 결과 또한 신뢰로울 수 있다. 따라서 잠재집단 간 차이가 명확하게 드러난 자료를 분석하는 상황과 그렇지 않은 상황에 있어서 차별기능문항 분석의 결과가 달리 나타날 수 있음을 인지해야 한다. 실제 자료를 분석하고 결과를 해석함에 있어 이러한 결과를 참고할 수 있다. 셋째, 본 연구에서는 실제 검사 자료에 대한 잠재집단 차별기능문항 분석 과정을 예시적으로 보여줌으로써 실제 교수·학습 상황에서의 잠재집단 차별기능문항 분석을 어떠한 과정으로 실시하는지, 분석 결과를 어떻게 활용할 것인지에 대한 시사점을 제공한다. 실제 자료에 대해 잠재집단 분석 후 차별기능문항을 추출함으로써, 추출된 차별기능문항이 측정하는 내용 및 인지 영역이 무엇인지, 즉 문항 특성의 측면을 확인하였고 아울러 각 잠재집단 피험자들의 배경 변인과 성취 특성 등 피험자 특성의 측면을 확인함으로써 차별기능문항의 궁극적 원인을 탐색하고 그에 따른 적절한 교수적 처방을 제공하는 것이 가능하도록 하였다.;Differential Item Functioning(DIF) is serious problem of test, because DIF item functions differently regardless latent ability in groups each examinees belong to. Especially, ethical and legal issues may arise, so they should be treated importantly in the analysis of test and items. This study recognizes the limitations of manifest DIF analysis and attempts to study latent DIF analysis as an alternative method. In latent DIF analysis, groups are classified according to the subject's response. Therefore, it is useful to identify the cause of DIF and provide suitable educational instructions by linking the subject’s latent class with characters of items. In educational and psychological test data, the distribution of the ability parameters is often not normal. However, the existing Latent Class Analysis and DIF studies assume that ability parameter distribution is a normal distribution. The purpose of this study is to identify effects of non-normality of ability parameter distribution in analysis of latent DIF. To examine the purpose of this study, generated simulation data and TIMSS 2015 8th grade math test data is used for an analysis of latent DIF. This study is consisted of one simulation study and empirical study. In the simulation study, six distributions were considered for the ability parameter with two latent classes. A response data was generated that contained some DIF items and non-DIF items. In DIF items, difference of item parameters between two latent classes were established. Six distributions that this study considered as non-normal ability distribution are following: 1) normal(base condition), 2) normal(reference group), positively skewed distribution(focal group), 3) normal(reference group), negetively skewed distribution(focal group), 4) positively skewed distribution, 5) negetively skewed distribution, 6) negetively skewed distribution(reference group), positively skewed distribution(focal group). Type of DIF, proportion of DIF items, equality of class size, a number of examinees are manipulated factors except distributional conditions. Then, this study considered some conditions that increasing of difference of item parameters between two groups because accuracy of latent class analysis can affects detection of DIF items. This study found the condition which show excellent performance and the condition which show poor performance, and increased difference of item paramters between two groups in the two conditions. Lastly, TIMSS 2015 8th grade math test data was used to perform empirical analysis in this study. Math data of Singapore, Rep. of Korea, Hong Kong, Taiwan, Japan was selected, because they got outstanding math achievement. Information indices(AIC, BIC) was used to select appropriate model, and 2PL mixture IRT model was used to implement latent calss analysis. Classified examinees’ response data was analyzed in Lord, Raju method and Likelihood Ratio Test(LRT) for detecting DIF items. Results of this study are following. First, results of latent class analysis are confirmed. Correct rates of AIC/BIC and accuracy of classification of examinees for each groups were confirmed. The correct rates of AIC was about 70%-97%. However, BIC selected the false model, 1-class model. This result is opposite of the existing studies that show the correct rates of BIC is more than AIC. The correct rates of AIC is affected by ‘type of DIF’, ‘proportion of DIF’, ‘a number of examinees’, when the type of DIF is non-uniform DIF, proportion of DIF is 50%, a number of examinees are 2,000, the correct rates of AIC was high. This tendency was same for six distributional conditions. Second, results of classificaiton of examinees for each groups are confirmed. Accuracy of classification of examinees for each groups was about 62%-63%. There was no differences of accuracy between six distributional conditions. The accuracy of classification of examinees for each groups was affected by ‘type of DIF’, ‘proportion of DIF’, ‘a number of examinees’, when the type of DIF is non-uniform DIF, proportion of DIF is 50%, a number of examinees are 2,000, the accuracy of classification of examinees for each groups was high. This tendency was same for six distributional conditions. Third, detection rate of DIF items were confirmed. Power and type Ⅰ error rates in Lord, Raju method, and LRT were confirmed. In Lord method, Power of detection DIF items was about .5, and type Ⅰ error rate was about .3. In Raju method, Power of detection DIF items was about .3, and type Ⅰ error rate was about .1. In LRT, Power of detection DIF items was about .6, and type Ⅰ error rate was about .1. The results of LRT were outstanding compare to Lord, Raju method. This tendency was same for six distributional conditions. Fourth, after increasing differences of item parameters between two groups, the correct rates of AIC/BIC, the accuracy of classification of examinees for each groups were increased too. However, the power and type Ⅰ error rate of Lord/Raju method got worse compared to original results. The powers were got lower and type Ⅰ error rate were got higher slightly. Unlike Lord and Raju method, performance of LRT was greatly got higher after increasing differences of item parameters between two groups. The power increased but type Ⅰ error rate did not increase in LRT. This tendency was same for six distributional conditions. In conclusion, LRT is the best method to detecting DIF items regardless distributional conditions. Lastly, the result of TIMSS 2015 8th grade math data was following. The data was consisted of two latent classes based on BIC. So, 2-class mixture IRT model was used for analyze latent classes. Then, the result of Lord, Raju, and LRT indicated that there were 5 anchor items and 6 DIF items. To find the cause of DIF items, analysis of characteristics of DIF items and characteristics of students’ achievement. In conclusion, class 1 was consisted of students whose abilities are high, class 2 was consisted of students whose abilities are low. A characteristics of class 1 ability distribution was negatively skewed distribution, and class 2 ability distribution was normal distribution. There was a significant effects of ‘number’, ‘data’ achievement on classification of two groups. Students in class 1 had higher achievement of ‘number’, Students in class 2 had higher achievement of ‘data’. The causes of latent DIF in TIMSS 2015 8th grade math data were ‘number’ and ‘data’.