Modified Angoff, Bookmark, Item-Descriptor Matching(IDM) 방법에 의한 진료수행시험(CPX)의 준거설정

The Standard Setting of Clinical Performance Examination(CPX) by Modified Angoff, Bookmark, and Item-Descriptor Matching(IDM) Method
대학원 교육학과
이화여자대학교 대학원
In Korea, the social demand for 'high-quality medical care' has rapidly increased in recent years, underscoring the importance of medical education as an essential process to train good doctors. A good doctor can be defined as one with adequate clinical capabilities in all three domains of knowledge, skills, and attitude required of a primary care physician. For proper evaluation of clinical competence, balance in assessment areas is essential. The Korean Medical Licensing Examination (KMLE) constituted only written tests to evaluate knowledge of examinees until 2010, when the objective-structured clinical examination (OSCE) and the clinical performance examination (CPX) were introduced to evaluate clinical skills and attitude as well. When judging pass or fail based on CPX scores, decisions should be made after checking if the examinee has acquired the minimal competence to function as a medical doctor. In this case, it is most reasonable and practical to use criterion-referenced tests, which give information about whether an examinee has reached a certain criterion to perform a specific task successfully. The criterion-referenced tests are required not only for KMLE but also for evaluation tools of medical education. However, many Korean medical schools set passing scores for CPX as norm-referenced tests, i.e., relative evaluation. Therefore, in order to establish more reasonable passing scores for CPX, a valid standard-setting for criterion-referenced tests is required. This study aimed to set a reasonable cut score that can be used to judge whether an examinee has achieved the minimal competence level required to practise medicine as a primary care physician. In this study, three standard-setting methods were employed: modified Angoff method that is most widely used for licensing examinations, Bookmark method and IDM method that compensate some drawbacks of the Angoff method and have an advantage of achieving both standard setting and item-mapping simultaneously. Cut scores of CPX were obtained with the three standard-setting methods, and compared and evaluated according to the internal, external, and procedural criteria. In addition, possibilities for mapping items were also searched by connecting cut scores and test items. For this purpose, data of test scores developed and obtained by the CPX consortium of medical schools in the area S in 2008. Then, the cut score of CPX set by the current relative evaluation method and the three cut scores obtained by this study were compared, and the strengths and limitations of the three standard-setting methods were analyzed. For internal criteria, intra-panelist and inter-panelist consistency were calculated. For external criteira, inter-method consistency was calculated. For procedural criteria, each method was evaluated based on questionnaire obtained from panelists. The results of this study are as follows: (1) The cut scores obtained by modified Angoff method and Bookmark method were similar while IDM method yielded a higher cut score. As rounds were repeated, the cut scores obtained by all three methods gradually decreased. The pass/fail ratios were also similar for modified Angoff method and Bookmark method, while IDM method yielded a considerably different result. For modified Angoff method, inter-panelist variation of the cut scores gradually decreased as rounds were repeated. For Bookmark method, the variation decreased in general, but with a tendency to increase slightly for a few test areas and cases. (2) When the standard-setting methods were evaluated by internal criteria, modified Angoff method and Bookmark method showed a high intra-panelist consistency, whereas IDM method generally showed a low intra-panelist consistency. After the final round of standard-setting, inter-panelist consistency was generally high for modified Angoff method and IDM method with agreement statistics .85 and Kappa coefficient .60, but low for Bookmark method. This was caused by the fact that the assessment areas had large item difficulty intervals in the ordered item booklet. (3) When the standard-setting methods were evaluated by external criteria, inter-method consistency was high between modified Angoff method and Bookmark method with agreement statistics .85 and Kappa coefficient .70, but relatively low between modified Angoff and IDM method or Bookmark and IDM method with agreement statistics less than .55 and Kappa coefficient less than .40. This is related to the fact that the intra-panelist consistency of IDM method was generally low when compared to the other two methods. (4) Analysis of questionnaire obtained from the panelists to evaluate the procedural criteria of the standard-setting methods revealed that panelists' understanding of the standard-setting procedures and the theoretical concept and principles were relatively high for all three methods. The modified Angoff method received higher rates than the other two methods in feasibility and applicability in real world settings. IDM method was rated relatively low in terms of procedural appropriateness and executional difficulty. Panelists generally answered that the training for the three methods and the time required were fairly reasonable. They also answered that they obtained important information from the feedback data provided to them. They have chosen modified Angoff method and Bookmark method as the most suitable methods for setting standards for CPX. (5) When the cut scores obtained by the three standard-setting methods and the current cut score of CPX were compared, the current method resulted in the lowest fail ratio of 1.13 ~ 4.59%, followed by 1.05 ~ 10.45% of Bookmark method and 1.20 ~ 9.77% of modified Angoff method whereas IDM method resulted in the highest fail ratio of 10.15 ~ 56.99%. The results of this study can be discussed as follows: (1) When considering the evaluation of the three standard-setting methods based on the internal, external, and procedural criteria, it can be concluded that modified Angoff method is suitable for the current CPX. Bookmark method and IDM method, however, should also be considered as potential standard-setting methods for CPX when taking into account their strengths that they allow description of examinees' performance levels as the standard-setting and the item-mapping happen simultaneously. IDM method can also be employed for standard-setting of CPX because it offers advantages of providing useful information for improving test items through item-descriptor matching. (2) The validity of CPX can be discussed in relation to the fact that IDM method produced a higher cut score than the other methods. When IDM method was used in this study, the threshold region was relatively wide after the first round, and became narrower when consensus was achieved as the rounds were repeated. The θ value was large for the wide threshold region, and small for the narrow threshold region. Threshold regions exist when knowledge, skills, abilities required by items are unclear or when the performance level descriptions are vaguely defined. This means that the CPX construct is not well-defined. The IDM method can yield a valid result only when the performance level description of the items are accurate and detailed. Otherwise, the validity of IDM method will be seriously compromised. To compensate this, CPX should be developed with more accurate and clearer item descriptions. In addition, in relation to the high cut score obtained by IDM method, the administrative aspect of standard-setting could be taken into account by considering scoring models such as compensatory scoring model and conjunctive model. In order to apply the cut scores obtained by IDM method to a real situation, the compensatory scoring model would be more desirable than the conjunctive model because it can increase the pass ratio. However, such a policy should be adopted only after various practical evidence and theories were given sufficient consideration. (3) For a desirable standard-setting, the selection, number, and training of the panelists should be considered in advance. Panelists for standard-setting of CPX should be recruited among medical school professors with adequate experience and interest in medical education. The more panelists participate in the standard-setting procedure, the more accurate and appropriate cut score will be obtained. However, it would not be easy to recruit a sufficient number of medical school professors due to many practical reasons such as their busy schedules. Effective training of panelists is also essential for high-quality standard-setting. This also takes additional time and efforts of the panelists, requiring proper planning in advance. (4) If item-mapping methods such as Bookmark method and IDM method are employed for CPX standard-setting, it would be possible to describe what knowledge and skills a passed examinee should have. Accordingly, the relationship between the examinee's ability expected from the performance level and the real-life clinical competence can be established, making it possible to continually improve CPX items, cut scores, and item-mapping techniques. (5) For all the above conclusions, this study has a few limitations. First of all, standard-setting rounds were finished at round 3 for all methods even though it is more desirable not to finish the rounds when a large deviation is observed in a case or an assessment area. For an official standard-setting at a college, a policy not to limit the number of rounds could be adopted. Moreover, several limitations has happened in this study because there were only two items for the patient-education area. Thus, for a high-quality evaluation, the number of CPX items needs to be increased. Also, as stated above, a limitation of this study is that a satisfactory condition was not met in the selection, number, and training of panelists. Lastly, follow-up studies are necessary to find out factors that can affect the accuracy and consistency of the panelists' judgement, and to compare with other standard-setting methods. In addition, studies on predictive validity would be necessary to evaluate if the examinees passed the tests according to a cut score set by the standard-setting procedures are demonstrating satisfactory performance as primary care physicians.;최근 우리 사회에 ‘의료의 질 향상’에 대한 사회적 요구가 급격히 증가하고 있으며, 이에 따라 의사를 양성하는 의학교육의 중요성이 더욱 강조되고 있다. 바람직한 의사는 의학교육과정을 이수하고 일차의료를 수행하는데 필요한 지식, 수기, 태도의 세 영역에서 균형 있는 임상 능력을 갖춘 자이다. 이러한 임상 능력을 제대로 평가하려면 무엇보다 평가영역에서 균형을 이루어야 한다. 우리나라의 의사국가시험은 그동안 지필검사에 의한 지식 평가 위주로 운영되었으나 2010년부터 태도와 수기 영역까지 평가할 수 있는, 객관구조화진료시험(OSCE)과 진료수행시험(CPX)으로 구성된 실기시험을 도입하였다. 이러한 CPX의 점수를 바탕으로 합격여부를 판정할 때는 의사로서 갖추어야할 최소 자격기준, 즉 기본 진료를 수행할 수 있는 능력을 보유하고 있는지를 판단하여 결정해야 한다. 이 경우 피험자가 어떤 직무를 성공적으로 수행하기 위해 일정한 준거에 도달했는지 여부를 판정하는 준거참조평가의 사용이 가장 합리적이고 실용적이다. 의사국가 실기시험 뿐 아니라 의학교육 평가도구로서 CPX가 사용될 때에도 준거참조평가가 바람직하다. 하지만 우리나라 의과대학에서 일반적으로 시행되는 CPX에서는 합격점수 설정 방법으로 규준참조평가를 사용하고 있다. 따라서 CPX에 있어 보다 신뢰로운 합격점수를 결정하기 위해서는 준거참조평가의 타당한 준거설정이 요구된다. 이에 본 연구에서는 피험자가 일차진료의사로서 갖추어야 할 능력을 보유했는지 여부에 대한 합리적인 판단 근거로 활용할 수 있는 준거점수를 제시하고자 하였다. 이에 따라 면허나 자격시험에 가장 널리 사용되고 있는 준거설정 방법인 변형된 Angoff 방법과, Angoff 방법의 일부 단점을 보완하고 준거설정과 문항연계(item-mapping)가 동시에 이루어질 수 있는 장점을 가진 Bookmark 방법 및 Item-Descriptor Matching(IDM) 방법을 사용하여 CPX의 준거점수를 설정하고, 타당성을 검증하기 위해 각 준거설정 방법을 내적, 외적, 절차적 준거에 따라 평가하였다. 그리고 준거점수와 문항을 연계하여 준거 기술의 예를 제시함으로써 문항연계 가능성도 탐색하였다. 이를 위해 2008년 S지역 의과대학의 CPX 컨소시엄에서 개발하여 시행한 성적 자료를 사용하였으며, 또한 현재의 CPX 합격점수 설정 방법의 준거점수와 세 가지 방법에 의해 설정된 준거점수를 비교하고, 각각의 강점과 제한점을 분석하였다. 내적 준거로는 준거설정자내 분류일치도와 준거설정자간 분류일치도를, 외적 준거로는 준거설정 방법간 분류일치도를 각각 산출하였고, 절차적 준거로는 준거설정자를 대상으로 설문조사를 실시하여 각 방법을 평가하였다. 이에 따른 연구결과는 다음과 같다. 첫째, 세 가지 준거설정 방법에 의한 분할점수 설정 결과 전반적으로 변형된Angoff 방법과 Bookmark 방법이 거의 유사하게 설정되었고, IDM 방법은 두 방법에 비해 높은 값을 보여 차이가 있는 것으로 나타났다. 그러나 세 가지 방법 모두 전반적으로 평정이 반복될수록 분할점수는 점차 낮아졌다. 합격/불합격으로 분류된 학생들의 비율 역시 Angoff 방법과 Bookmark 방법에서 거의 유사하게 나타났고, IDM 방법은 두 방법과 큰 차이를 보였다. 준거설정자간 분할점수의 표준편차는 평정이 반복될수록 변형된 Angoff 방법에서 점차 감소하였고, Bookmark 방법에서는 전반적으로 다소 감소하였으나, 몇몇 평가영역과 증례에서는 평정이 반복될수록 표준편차가 다소 증가하는 경향을 보였다. 둘째, 준거설정 방법에 대한 내적 준거에 따른 평가 결과, 준거설정자 내 분류일치도는 변형된 Angoff 방법과 Bookmark 방법에서 높은 값을 보였고, IDM 방법은 다른 두 방법에 비해 전반적으로 낮은 값을 보였다. 최종 평정 결과 준거설정자간 분류일치도는 변형된 Angoff 방법과 IDM 방법이 일치도 통계 .85와 Kappa 계수 .60 이상으로 전반적으로 일치한 반면, Bookmark 방법은 다소 차이를 보였다. 이는 해당 평가영역에서 문항순서집의 문항난이도 간격이 컸기 때문이다. 셋째, 외적준거에 따른 평가 결과, 준거설정 방법 간 분류일치도는 변형된 Angoff 방법과 Bookmark 방법이 전반적으로 일치도 통계 .85와 Kappa 계수 .70 이상으로 높게 산출되어 일치함을 보였고, IDM 방법과 다른 두 방법의 분류일치도는 전반적으로 일치도 통계 .55 이하와 Kappa 계수 .40 이하로 비교적 낮게 산출되었다. 이는 IDM 방법의 준거설정자내 분류일치도가 다른 두 방법에 비해 전반적으로 낮게 산출된 것과 연관된다. 넷째, 절차적 준거를 평가하기 위해 준거설정자들을 대상으로 설문조사를 실시한 결과, 이론적 개념과 원리 및 절차의 이해정도는 모든 방법에서 비교적 높게 나타났고, 성취수준 기술의 명확성과 유용성도 비교적 긍정적으로 인식하였다. 실행의 용이성과 학교현장의 적용가능성은 변형된 Angoff 방법이 다른 두 가지 방법에 비해 다소 높게 인식되었으며, 절차의 타당성과 절차 이행의 부담 정도에 대해서는 IDM 방법이 다른 두 가지 방법에 비해 다소 낮게 인식되었다. 또한 각 방법에 대한 훈련과 실행 시간은 비교적 타당하게 제공되었음을 알 수 있었으며, 세 가지 준거설정 방법에서 모두 준거설정자들은 피드백 자료로부터 중요한 정보를 얻었다고 하였다. 그리고 CPX의 준거설정에 가장 적합하다고 생각하는 방법은 각각 Angoff 방법과 Bookmark 방법이라고 응답하였다. 다섯째, 세 가지 준거설정 방법에 의해 설정된 준거점수와 현재의 CPX 합격점수 설정 방법의 준거점수를 비교한 결과, 전체적으로 현재 CPX 방법이 1.13% ~ 4.59%로 가장 낮은 불합격 비율을 보였고 그 다음 1.05% ~ 10.45%의 불합격 비율로 Bookmark 방법, 1.20% ~ 9.77%의 불합격 비율로 변형된 Angoff 방법 순이었으며, 10.15% ~ 56.99%로 IDM 방법이 가장 높은 불합격 비율을 보였다. 본 연구의 결과를 바탕으로 다음과 같은 논의가 가능하다. 첫째, 본 연구 결과를 바탕으로 세 가지 준거설정 방법의 내적․외적․절차적 준거를 가지고 각 준거설정 방법에 대한 평가 결과를 종합하면, 현재 CPX에 적합한 준거설정 방법은 변형된 Angoff 방법이라는 결론을 내릴 수 있다. 그렇지만 Bookmark 방법과 IDM 방법은 평정에 소요되는 시간을 효율적으로 사용할 수 있고, 준거설정과 문항연계가 동시에 이루어져 합격자의 성취능력을 기술할 수 있다는 장점이 있기 때문에 CPX 준거설정 방법으로서 중요하게 고려되어야 한다. 또한 IDM 방법은 문항-기술 연계를 통해 문항개선을 위한 유용한 정보를 제공할 수 있는 장점이 있기 때문에 CPX 준거설정을 위해 사용할 수 있다. 둘째, IDM 방법이 다른 방법들에 비해 분할점수가 높게 산출된 것과 관련하여 CPX의 타당도에 대하여 생각해 볼 수 있다. 본 연구에서는 IDM 방법을 적용했을 때 대체적으로 1차 평정에서 경계지역 범위가 넓게 설정되었고, 평정을 반복할수록 점차 의견 수렴이 이루어지면서 경계지역 범위가 좁아졌다. 경계지역의 범위가 넓을수록 능력수준 값이 높았고, 경계지역 범위가 좁아질수록 능력수준 값은 낮았다. 경계지역은 문항이 요구하는 지식, 기술, 능력이 불명확할 경우나 성취수준 기술이 애매하게 정의되었을 경우 등에 의해 발생할 수 있다. 즉 이는 CPX 검사 내용에 기초한 구조(CPX 구조)가 “잘 정의(well-defined)” 되어있지 않다는 것을 의미한다. IDM 방법은 성취수준 기술과 문항 기술(description)이 정확하고 구체적일 경우에는 타당한 결과를 산출할 수 있지만 그렇지 못한 경우 결과의 타당성이 확보되지 못한다. 이를 보완하기 위해서는 CPX 문항 기술이 보다 정확하고 명료하게 개발되어야 한다. 또한, IDM 방법의 분할점수가 높게 산출된 것과 관련하여 준거설정의 정책적인 측면을 생각해 볼 수 있는데, 이는 보상모형(compensatory scoring model)과 결합모형(conjunctive model)의 점수화 모형을 고려하는 것이다. IDM 방법의 분할점수를 실제로 적용할 경우 결합모형 보다는 합격률을 높일 수 있는 보상모형을 선택하는 방법을 고려해 볼 수 있다. 하지만 이러한 결정을 내리기 전에 여러 경험적 증거들과 이론들을 반영하여 충분한 사전 숙고를 거치는 것이 중요하다. 셋째, 바람직한 준거설정을 위해서는 참여하는 준거설정자의 선정, 숫자, 훈련을 사전에 고려할 필요가 있다. CPX의 준거설정자들은 의과대학의 전공과목 교수 중 교육 경험 및 교육에 대한 관심이 풍부한 전문가들 중에서 선정될 필요가 있다. 그리고 많은 수의 준거설정자들이 참여할수록 보다 정확하고 적절한 분할점수를 산출할 수 있겠지만, 의과대학 교수들의 바쁜 일정 등 현실적인 문제로 인하여 적정한 수의 준거설정자들을 참여시키기는 쉽지 않다. 또한 준거설정자들에 대한 효과적인 훈련을 시키는 것 역시 양질의 준거설정을 위해 필수적이다. 이는 준거설정자들의 또 다른 시간과 노력을 요구하므로 사전에 이에 대한 대비가 필요하다. 넷째, 문항연계 방법인 Bookmark 방법과 IDM 방법을 CPX에서 활용한다면 합격/불합격의 성취수준을 가지고 합격한 피험자가 무엇을 알고, 또한 무엇을 할 수 있는지에 대한 기술이 가능하다. 따라서 실제 업무능력과 기대된 성취수준 능력 간의 관계를 파악할 수 있을 것이며 그 결과를 통해 CPX의 문항과 준거, 문항연계기술 등을 지속적으로 개선해나갈 수 있을 것이다. 다섯째, 위와 같은 결론에도 불구하고 본 연구는 몇몇 제한점을 가지고 있다. 우선 각 개별 증례의 평가영역에서 편차가 크게 발생한 경우 평정을 종료할 수 없지만, 본 연구에서는 모든 준거설정 과정을 3차 평정에서 종료하였다. 학교의 공식적인 준거설정 과정에서는 준거설정자들에게 평정 횟수를 제한하지 않는 방법을 채택할 수 있을 것이다. 그리고 본 연구에서 사용한 CPX 영역 중 환자교육 영역의 경우 2개의 문항으로만 구성되었기 때문에 여러 가지 제한점이 발생하였다. 따라서 양질의 평가가 제대로 이루어지려면 CPX의 문항수를 증가시켜야 할 필요가 있다. 또한 이미 언급하였듯이 준거설정자의 선정과 숫자, 훈련에 있어서 만족스러운 조건을 충족시키지 못했다는 것도 이 연구의 한계이다. 마지막으로 본 연구의 후속 연구로서 준거설정자들의 판정의 정확도와 일관성에 영향을 주는 요인에는 어떤 것들이 있는지에 대한 연구가 필요하고, 또한 다른 준거설정 방법들과의 비교 연구도 필요하다. 그리고 준거설정 결과를 통해 시험에 합격한 학생들이 실제 일차진료의사로서의 역할을 제대로 수행하고 있는지에 대한 예측타당도 연구 역시 필요하다.
