DSpace at EWHA: 고정문항모수 추정방법에 의한 검사 동등화가 피험자 순위변화에 미치는 영향

Browse

My Repository

DSpace at EWHA일반대학원 교육학과 Theses_Master

View : 1027 Download: 0

고정문항모수 추정방법에 의한 검사 동등화가 피험자 순위변화에 미치는 영향

Title: 고정문항모수 추정방법에 의한 검사 동등화가 피험자 순위변화에 미치는 영향

Other Titles: The effects on subject’s ranking changes through test equating using Fixed Item Parameter Calibration

Authors: 박산하

Issue Date: 2014

Department/Major: 대학원 교육학과

Publisher: 이화여자대학교 대학원

Degree: Master

Advisors: 성태제

Abstract: 우리나라에서는 학생들을 분류, 배치하는 등의 검사의 행정적 기능이 사회적으로 강조되기 때문에 오늘날 많은 분야에서 상대적 순위를 측정하여 평가의 기준으로 삼고 있다. 그러나 순위를 부여하는데 있어 한 학생에게 여러 개의 순위가 주어지거나 검사의 측정상의 문제로 학생의 순위가 달라진다면 학생을 정확히 분류하지 못하거나 잘못된 수준으로 배치하여 검사의 행정상의 기능을 제대로 수행할 수 없을 것이다. 이러한 현상이 검사 동등화 과정 중 척도변환 시에 나타날 수 있다. 척도변환을 위해 고정문항모수 추정방법을 사용하려면 척도변환 전의 모수추정 단계를 필요로 한다. 때문에 변환검사에 응시한 피험자는 두 개의 순위를 가지게 되고 이로 인해 피험자의 순위가 달라진다. 이러한 문제는 자격증을 부여하거나, 합격여부를 결정하는 의사결정시에 큰 사회적 문제를 가져올 수 있다. 순위의 불일치 문제는 검사결과의 행정적 활용 뿐 아니라, 검사결과를 교수・학습과 상담에 이용하는 데에도 제한을 준다. 하지만 위와 같은 문제에도 불구하고 검사의 동등화는 반드시 필요한 과정이다. 검사가 선발의 목적으로 실시 될 때 특히, 고부담 검사인 경우 문항 보안 등의 문제가 있기 때문에 같은 검사를 여러 번 사용하기 힘들다. 그래서 동형의 검사를 제작해서 사용하고 있는데, 동형 검사형의 점수를 직접적으로 비교하는 것은 공정하지 못하다. 하지만 대부분의 동형 검사는 점수를 비교하거나 교환하여 사용하기 위해 제작되었기 때문에 특정 유형을 치른 피험자가 유리하지 않도록 검사 점수를 통계적으로 조정하는 과정이 필요하다. 이러한 과정을 검사 동등화(test equating)라고하며, 동등화는 검사 결과를 공통척도에 놓는 척도변환작업으로부터 시작한다. 척도변환방법 중 하나인 고정문항모수 추정방법은 문항모수 관리가 현실적으로 편리하고 그 정확성 또한 입증되었기 때문에 현재 국가단위의 척도변환 과정에서도 사용되고 있다. 따라서 본 연구는 고정문항모수 추정방법을 사용한 척도변환 상황에서 나타나는 변환검사만을 이용하여 추정한 경우에 산출되는 피험자 능력모수의 서열과 척도변환 후에 산출되는 피험자 능력모수 서열이 일치하지 않는 현상을 소개한다. 또한 검사의 통계적 속성인 변별도(Loga=0.5, 0, -0.5)와 난이도(b=0, 0.5, 1)를 변화시킴에 따라 순위변화에 어떠한 영향이 미치는지에 관해 모의실험을 통하여 탐색하는데 목적이 있다. 이를 위해 하나의 기준검사에 대응하는 다양한 통계적 특성을 갖는 변환검사 상황을 상정하고 척도변환 전, 후의 피험자 순위변화의 정도와 양상을 파악하였다. 또한 기준검사 조건을 변화한 상황을 기준으로 이루어진 척도변환 상황에서의 척도변환 전과 후 순위를 비교하여 살펴봄으로서 서열변화를 탐색하였다. 이러한 서열변화 양상은 피험자가 갖는 두 개의 순위에 의한 것으로서 변화 유무와 정도를 살펴보기 위해 순위의 일치율 분석과 상관분석을 실시하였다. 일치율 분석은 두 순위의 일치 정도를 보여주며 일치율과 불일치율을 통해 검사의 통계적 조건에 따른 순위 변화 정도를 알 수 있다. 또한 켄달의 타우를 통해 피험자가 갖는 두 순위의 상관관계를 파악할 수 있으며 변별도, 난이도가 순위변화에 미치는 영향을 알아 볼 수 있다. 이와 같은 피험자 능력모수의 순위변화에 관련이 있을 것으로 예상되는 문항반응 패턴에 따른 순위변화와 문항모수의 순위변화에 대해서도 살펴보았다. 연구결과, 같은 난이도를 갖는 변환검사 조건에서는 변별도가 좋은 검사 조건일수록 높은 일치율을 보였고, 같은 변별도 상황에서는 기준검사와 난이도 차이가 적을수록 높은 일치율을 보였다. 같은 난이도를 갖는 변환검사 조건에서는 변별도가 좋을수록 5%포인트 이상 백분위의 차이를 갖는 피험자가 빈도수가 적었고, 같은 변별도 상황에서는 기준검사와 난이도 차이가 적을수록 5%포인트 이상 백분위의 차이를 갖는 피험자가 빈도수가 적었다. 조건을 변화한 기준검사에 맞춘 척도변환 상황의 피험자 능력모수 순위 일치정도를 파악하기 위해 피험자 순위의 일치율을 분석한 결과, 변환검사 조건을 변화한 상황과 유사한 결과를 얻을 수 있었다. 변별도가 높고 난이도 차이가 적은 검사는 순위의 일치율이 높고 변별도가 낮고 난이도 차이가 큰 검사는 순위의 일치율이 낮았다. 변환검사의 조건을 변화시킨 상황에 비해 큰 차이는 아니었지만 검사의 변별도가 낮고 두 검사의 난이도 차가 큰 이상적이지 못한 상황에서는 이러한 경향이 비교적 뚜렷하게 관찰되었다. 피험자 순위상관분석 결과는 일치율 분석 결과와 유사한 경향이 나타났다. 피험자 능력모수에 영향을 줄 수 있는 문항반응패턴과 피험자 순위변화와의 관련성을 살펴본 결과, 피험자의 척도변환 후 순위 변화의 여부와 방향은 문항반응 패턴에 따라 달라짐을 알 수 있다. 같은 정답 개수를 가진 피험자 일지라도 어떤 피험자는 백분위를 유치하는 반면 어떤 피험자는 백분위가 감소하였고 또 다른 피험자는 백분위가 증가하였다. 문항모수는 피험자 능력모수에 영향을 줄 수 있는 또 다른 변인 중에 하나이다. 때문에 변환검사 조건에 따른 문항모수의 순위상관을 분석한 결과, 세 문항모수 모두 변별도가 높은 조건 상황에서 높은 상관을 변별도가 낮은 조건 상황에서 낮은 상관을 보였다. 하지만 난이도에 의한 뚜렷한 경향은 드러나지 않았다. 또 난이도의 모수는 어느 조건에서나 0.9이상의 높은 상관을 가진 반면 변별도의 상관은 조건에 따라 다양한 순위상관을 보였다. 본 연구결과를 통해 고정문항모수 추정방법을 통한 척도변환 시에 피험자의 순위가 변화하며 검사의 속성에 따라 경향성이 확인됨을 알 수 있었다. 피험자 순위변화에 관하여 높은 변별도를 조건으로 갖는 검사에서 피험자 순위의 일치율이 높았고 상관도 높았다. 또한 피험자 순위변화에 관하여 기준검사와 변환검사의 통계적 차이가 클 때 피험자 순위의 일치율과 상관이 낮음을 알 수 있었다, 때문에 동등화가 필요한 검사는 보통 이상의 변별도를 가진 양질의 문항을 포함할 때 안정적인 동등화가 가능하며, 여러 유형간의 문항모수를 일정하게 유지하여 검사 유형 간 통계적 차이가 최소가 되도록 노력해야 안정적인 결과를 얻을 수 있을 것이다. 게다가 다양한 검사의 조건 상황에서 다른 모수에 비해 난이도 순위의 상관은 유사하게 높음을 알 수 있었는데 이는 검사의 통계적 조건이 달라져도 척도 변환 전과 후의 난이도 순위의 변동이 크지 않음을 의미한다. 반면 문항의 변별도 모수 순위와 추측도 모수 순위는 검사의 조건이 달라짐에 따라 변화 범위가 비교적 넓다. 이는 변별도와 추측도의 순위는 검사의 조건에 따라 순위변동 정도의 차이가 크며 피험자 순위 변화에도 많은 영향을 주고받음을 예측할 수 있다. 본 연구는 척도변환 방법 중 고정문항모수 추정 시 일어날 수 있는 피험자의 순위변화에 관심을 가지고 검사 조건에 따른 변화 양상을 분석했다는 점에서 의의가 있다. 하지만 연구를 진행하는 과정에서 제한점 역시 존재한다. 첫째, 통제된 조건의 모의 자료에 의해 산출되었기 때문에 실제자료와 많은 차이가 있을 수 있다. 둘째, 본 연구의 결과는 선다형 문항을 사용하는 검사에서는 활용 가능하지만 혼합형 검사에서는 활용할 수 없다. 혼합형 검사에서의 순위 변화를 파악한다면, 여러 검사형태에 맞춘 활용이 가능할 것이다. 셋째, 피험자 능력을 산출하는 MLE 방법 이외의 다양한 방법을 통한 능력모수 추정으로 얻어진 피험자 순위변화에 대한 추가적인 연구도 진행될 수 있을 것이다.;Test equating starts with scale transformation, which is putting the test results in common scale. Fixed Item Parameter Calibration(FIPC), one of the scale formation methods, is used in many studies because its use allows item parameters to be easily managed and it has proven accuracy. However, calibrating a subject’s ability parameter ranking using only new form gives a different ranking than calibrating using FIPC. This is because FIPC recalibrates unique items of scale transformation, by focusing on anchor items. Therefore, the purpose of this experiment is to research how varing the discriminant and difficulty, which are the statistic elements, will affect the ability parameter ranking changes. These ability parameter ranking changes are caused by the two different rankings that the subject has and in order to see whether there is a difference and how big the difference is, concordance and correlation analysis of the rankings are conducted. Also, item parameter ranking changes and the ranking changes that are affected by item response patterns, which is expected to be related to a subject’s item parameter ranking changes, are examined. The study indicates that the higher the discriminant level is, while keeping the difficulty level the same or the lower the difficulty level is, while keeping the discriminant level the same, the higher the concordance rates will be. After looking at the result of concordance rates based on differing test conditions, it revealed that the lowest concordance rates occurred when the discriminant level was low and low concordance rates also occurred when there was a large difference between item parameters. The highest concordance rates occurred when the discriminant level was high. The results of a ranking correlation analysis and the results of a concordance rate analysis tend to be similar. After analyzing the ranking correlation of three item parameters, which are from a variety of test conditions, it was found that a high discriminant lead to high correlation and a low discriminant lead to low correlation. Therefore, a test that needs equating should include high quality items that have a higher discriminant level than average, and maintain similar item parameters between forms. By keeping statistical differences to a minimum, stable result can be expected.