View : 20 Download: 0

문항반응이론에 근거한 Bookmark, Mapmark, Item-Descriptor Matching 준거설정 방법 비교분석

Title
문항반응이론에 근거한 Bookmark, Mapmark, Item-Descriptor Matching 준거설정 방법 비교분석
Other Titles
The Comparison of Three Standard Setting Methods : Bookmark, Mapmark and Item-Descriptor Matching(IDM) Method
Authors
장윤선
Issue Date
2008
Department/Major
대학원 교육학과
Publisher
이화여자대학교 대학원
Degree
Master
Abstract
1980년대 이후, 교육의 책무성 강조와 21세기 지식기반 사회에서의 국가경쟁력 향상을 위하여 교육개혁의 목소리가 높아졌다. 이에 따라 국가수준의 학업성취도 평가의 시행이 증가하였고, 미국을 중심으로 학업성취도 평가의 결과해석에 필요한 준거설정에 대한 많은 연구가 진행되었다. 1990년대에 들어서면서 학업성취도평가에서 혼합 문항유형 검사의 사용 증가와 다수준 성취수준 설정의 증가와 같은 새로운 경향이 나타남에 따라 새로운 준거설정 방법이 논의 되었으며, 최근에는 문항반응이론에 기초한 준거설정 방법들에 대한 연구가 주요하게 다루어지고 있다. 따라서 문항반응이론에 기초한 준거설정 방법들을 비교하고 분석하는 다양한 연구가 요구되고 있다. 본 연구는 문항반응이론에 기초한 세 가지 준거설정 방법(Bookmark 방법, IDM 방법, Mapmark 방법)을 소개하고, 각 방법에 의해 설정된 최종 분할점수 비교 및 내적, 외적, 절차적 준거 측면에서의 평가 결과를 통해 세 가지 준거설정 방법의 우리나라 교육상황에서의 활용가능성에 대하여 논하고자 한다. 이를 위해 사용한 자료는 TIMSS 2003 과학검사 중에서 물리영역에 해당되는 문항의 응답 자료이고, Bookmark 방법, IDM 방법, Mapmark 방법의 순서로 실시하여 분할점수를 설정하였다. 또한 준거설정자내 분류일치도, 준거설정자간 분류일치도, 준거설정 방법간 분류일치도 산출과 준거설정자를 대상으로 실시한 설문조사를 통해 내적, 외적, 절차적 준거에서 각 방법을 평가하였다. 그리고 이를 바탕으로 우리나라 교육상황에의 활용가능성 및 제한점을 분석하였다. 이에 따른 연구결과는 다음과 같다. 첫째, 성취수준에 따른 분할점수 설정에 있어서 준거설정 방법간에 차이가 있었다. 세 가지 준거설정 방법에 의한 분할점수 설정결과 우수수준의 분할점수는 큰 차이가 없었지만, 수월수준의 분할점수에서는 큰 차이가 발생하였다. 따라서 각 방법에 따라 보통수준으로 분류된 학생의 비율은 비교적 비슷하였지만, 우수수준과 수월수준으로 분류된 학생의 비율은 세 방법에서 큰 차이가 있음을 알 수 있었다. 둘째, 준거설정자내 분류일치도와 준거설정자간 분류일치도를 통한 준거설정 방법의 내적 평가결과 IDM 방법이 다른 두 가지 방법에 비해 높은 일치도가 산출되었다. 따라서 IDM 방법이 내적 준거에 따른 평가에서는 가장 타당한 방법임을 알 수 있었다. 셋째, 준거설정 방법간 분류일치도를 통해 외적 준거에 따른 평가결과 1차 평정에서는 Bookmark 방법과 Mapmark 방법의 일치도가 가장 높았고, 2차 평정과 최종 평정에서는 Bookmark 방법과 IDM 방법의 일치도가 가장 높게 산출되었다. 또한 Bookmark 방법과 Mapmark 방법의 일치도는 1차 평정에 비해 최종 평정에서 매우 낮게 산출되었다. 따라서 Mapmark 방법은 평정이 진행됨에 따라 다른 두 가지 준거설정 방법의 평정결과와 차이가 커진다는 사실을 알 수 있었고, 이는 Mapmark 방법에서만 제공된 다양한 피드백 자료에 의해 준거설정자가 많은 영향을 받았기 때문이라는 결론을 내릴 수 있다. 넷째, 준거설정 방법의 절차적 준거 평가를 위하여 준거설정자를 대상으로 실시한 설문조사 결과 개념적, 절차적 이해정도는 모든 방법에서 높게 나타났고, 절차실행의 용이성도 모든 준거설정 방법에서 긍정적으로 인식하였다. 또한 절차의 타당성의 경우 IDM 방법이 다른 두 방법에 비해 다소 높게 인식되었다. 반면 학교현장에서의 학생지도에 도움여부와 실용가능성에 대한 응답은 세 가지 방법 모두 ‘보통이다’의 비율이 높아 다른 측면에 비해 비교적 부정적으로 인식되었다. 그리고 준거설정 방법의 절차의 이행정도에 대한 평가는 세 가지 준거설정 방법에서 전반적으로 적절하다고 인식되었고, 특히 피드백을 통한 정보획득 정도에 대해서는 Mapmark 방법이 다른 두 방법에 비해 더 높게 인식되었다. 이를 통해서도 Mapmark 방법의 피드백 자료가 준거설정자들에게 큰 영향을 주었다는 결론을 내릴 수 있다. 마지막으로 우리나라 교육상황에서의 활용가능성을 분석한 결과 세 가지 방법은 문항반응이론에 기초한 방법이므로 검사의 난이도와 피험자 집단의 특성에 영향 받지 않는 점과 정확한 피험자 분류 가능하고, 혼합 문항유형 검사의 분할점수 설정과 다수준 분할점수 설정이 효율적이라는 점에서 높은 활용가능성이 있다. 그러나 학교단위 교육현장에서의 문항반응이론에 대한 전문적 지식과 기술에 대한 이해가 높지 않고, 문항반응이론에 의해 추정된 능력척도를 원점수로 척도화하는 것에도 어려움이 있다. 따라서 세 가지 준거설정 방법은 학교단위의 교육현장 보다는 시ㆍ도단위 혹은 국가단위의 성취도 평가와 같이 다양한 분야의 전문 인력이 참여할 수 있는 대규모 성취도 평가에서의 활용가능성이 더 높다는 결론을 내릴 수 있다. 이와 같은 연구결과를 통해 다른 방법에 비해 IDM 방법이 내적준거 측면에서는 타당한 준거설정 방법이라는 결론을 내릴 수 있지만, 외적, 절차적 측면의 평가결과를 종합하여 볼 때 세 가지 준거설정 방법 모두 비슷한 수준의 타당성을 지닌다고 볼 수 있고, 세 가지 방법 모두 학교단위의 교육현장 보다는 대규모 학업성취 평가에 더 높은 활용가능성을 가진다. 다만, 본 연구의 한계로 결론을 일반화하기는 조심스럽다. 따라서 많은 수의 준거설정자와 다양한 유형의 문항이 많이 포함된 검사를 사용하여 준거설정 방법들을 비교하는 연구와 다양한 방법을 사용한 분류일치도 산출의 연구가 필요하다. 또한 준거설정자의 의견차를 발생시키는 요인으로 어떠한 것들이 있는지에 관한 연구가 이루어져야 한다. 마지막으로 우리나라 교육상황에 현실적으로 적합한 준거설정 방법이 무엇인지를 밝히는 연구가 지속되어야 한다.;Since the 1980's, calls have been growing to revamp reforming the educational system for the emphasis of educational accountability and the national competitive power improvement on the knowledge-based society. As a result, it has increased to standard setting of the national achievement and large-scales assessments for students' achievement. Also many studies about standard setting have been reported in the United States as the central part of it. As the new trends such as polytomous item formats and multiple cur-scores have emerged in the decade of 1990s, so new generational methods are being discussed and also the studies of IRT-based standard setting have been dealing with recently. The purpose of the present study is a introduction of three IRT-based standard setting methods(Bookmark, Mapmark and the IDM methods) and compare with cut-scores and validity of methods. Also, it will analyze the applicability methods and restrictive point in our educational situation. The science test and respond data of the TIMSS 2003 were used for it. It is like this as a follows. First, regarding the cut scores of the three methods, there are some gap among them. The cut scores of 'High' were similar but the cut scores of 'Advanced' were very different. As a result, the proportion of student in 'Basic' level is similar while the proportions of student in 'High' level and "Advanced' level by three standard setting methods were largely different. Second, regarding the evaluation of standard setting methods by internal criteria-intrapanelist and interpanelist consistency, the result of the IDM method has higher consistency than other two methods. Therefore, the IDM method is the most valid in terms of internal criteria. Third, regarding evaluation of standard setting methods by external criteria-intermethod consistency, the consistency of Bookmark and Mapmark is the highest in the first round. The consistency of Bookmark and IDM is the highest In the second and last round. And the consistency of Bookmark and Mapmark in the last round is much lower than the first round. As round being repeated, the result of the Mapmark method becomes being different as the panelists undergoing an influence in various feedback data. Fourth, regarding the result of the survey to evaluate standard setting method by procedural criteria, the comprehension of panelists' conceptual and procedural is relatively high in every standard setting methods. Also, panelists are recognized easily as a positive way in every methods and the IDM method was recognized that others methods are more positively about validity of process than other two methods. On the other hand, the results of survey about teaching and practicability in a school were relatively negative. The actual operation of process was generally adequate in three methods. Especially information which obtain from feedback data had the highest value in the Mapmark method. According to the result, it can be said that the feedback data of Mapmark method influenced to the panelists. Lastly, applicabilities of the three standard setting methods in our educational situation are as follows. As the three methods are based IRT, these methods can classify the students accurately and use effectively for the mix-form test and multiple cut scores. On the other hand, 'IRT and Scaling' is too difficult to understand on public area. Consequently, three standard setting methods are effective in the large-scale achievement assessment more than in schools. Regarding the result of this study, the IDM method was relatively valid standard setting method than Bookmark and Mapmark method in internal criterion. When it is trying to synthesize the result of evaluation by external and procedural criteria, three methods have a similar validity. Three methods are more applicable in the large scaled achievement assessments than schools. However, this result was not generalized because of the limitation of this study. So, many panelists and mix-form test are using for standard setting and many studies about the comparison of the various methods for classification consistency are necessary. Also it is required the research about factors which caused differences of panelists. Finally, it has to be keep up the study what standard setting method is suitable in our education and the introduction of new standard setting methods.
Fulltext
Show the fulltext
Appears in Collections:
일반대학원 > 교육학과 > Theses_Master
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE