의과대학의 임상수행능력시험(CPX)에 대한 타당도와 신뢰도 검증

의과대학의 임상수행능력시험(CPX)에 대한 타당도와 신뢰도 검증
Other Titles
A psychometric evaluation of CPX in relation to validity and reliability
Issue Date
대학원 교육학과
이화여자대학교 대학원
현대 사회는 개인이 적극적으로 정보를 활용하여 지식을 재창출하는 능력이 요구되지만 전통적인 교육환경에서 이를 배양하기에는 많은 한계가 있다. 이에 전통주의 교육과 평가의 대안으로 수행평가가 제안되었다(Haertel, 1999; Linn, 1993; Resnick & Resnick, 1992). 의학교육에서도 여러 가지 형태의 수행평가가 이뤄지고 있는데 이 중에서 국내외적으로 가장 많이 활용되고 있는 것 중에 하나가 임상수행능력시험(Clinical Performance/ Practice Examination, CPX)이다. 임상수행능력시험이란 의사의 전반적인 능력을 진료 전(全) 과정에 대해 10~20분 동안 특정 질환을 가진 환자의 연기를 하도록 훈련 받은 모의 환자인 표준화 환자를 활용하여 평가하는 방법이다(박훈기, 2007; 박완범, 2005). 표준화 환자를 이용한 교육이나 시험을 많은 의과대학에서는 공동으로 컨소시엄을 구성하여 증례(case)를 개발 및 운영하고, 표준화 환자의 양성 및 관리를 하고 있다. 임상수행능력시험은 대학 교육에서는 물론 미국과 캐나다에서는 의사면허시험의 한 단계로 활용되고 있으며 우리나라도 2010년에 도입 예정으로 현재 준비 중에 있다. 교육적으로 의미 있는 검사 도구의 질을 측정학적으로 평가하는 기본적인 방법은 타당도와 신뢰도를 분석하는 것이다. 타당도(Validity)란 검사 목적에 의해 도출된 검사 점수의 해석에 대해 이론과 증거가 지지해 주는 정도를 말한다(성태제, 2005; AERA, APA, NCME, 1999). 타당도는 그 분류 방법이 다양한데, 이 중에서 내용 타당도, 준거 타당도, 구인 타당도가 가장 중요하게 간주되고 있으며, 특히 최근에는 구인 타당도를 중심으로 분석하고 다른 타당도들이 보완해 주는 방식으로 검증하고 있다(Messick, 1999; Kane, 2006). 수행평가에서 타당도 검증은 소수의 증례, 소수의 구인 수, 적은 사례 수, 다양한 척도 등의 측정학적 한계를 가지고 있다. 한편 신뢰도(reliability)란 측정의 일관성(consistency)으로, 검사도구가 얼마나 정확하게 오차 없이 측정하였느냐의 문제이다(AERA, APA, NCME, 1999; 성태제, 2005). 임상수행능력시험의 경우 채점자의 주관적 판단과 학교별 시험 시행 조건 차이, 학교의 학생 간 시험 정도 공유 정도 등을 포함한 학교 효과가 주요한 오차원으로 작용한다. 본 연구의 목적은 컨소시엄형태로 구성된 임상수행능력시험 결과 자료에 대한 타당도와 신뢰도를 검증하고, 산출된 결과를 통해 개선 방안을 제안하고자 하였다. 타당도는 최근 타당도의 총체적인 검증 방법으로 간주되는 구인타당도를 검증하였고, 신뢰도는 증례 수, 채점자, 학교를 주요 오차원으로 간주하여 검증하였다. 구인타당도의 검증은 임상수행능력시험의 대표적인 구인을 도출하기 위해 일부 증례와 대학의 시행결과를 기반으로 탐색적 요인분석을 실시하였다. 탐색적 요인분석에서 도출된 구인 구조의 교차타당화를 위해 나머지 대학의 8개 증례에 대해 확인적 요인분석을 실시하였다. 아울러 비교 모형도 함께 검증하였다. 신뢰도 분석은 먼저 전체 증례에 대해서는 학생과 증례를 오차원으로 하여 분산의 크기를 확인하고, 최적의 신뢰도 조건을 탐색하였다. 그리고 개별 증례에 대해서는 다양한 오차원을 설정하여 각 오차원의 유의성과 분산의 크기를 확인하였다. 사용된 오차원은 학생, 채점자, 학교이며, 각 오차원을 순차적으로 모형에 적용하였다. 그리고 확인된 오차원의 분산에 독립변수를 추가하여 설명을 시도하였다. 연구 결과는 다음과 같다. 먼저 임상수행능력시험을 대표하는 구인을 모색하기 위해 탐색적 요인분석을 실시한 결과, 분석한 5개 증례 모두 2 요인은 보통 수준의 적합도(RMSEA < .10)를, 3 요인은 양호한 적합도(RMSEA < .08)를 보였으며 요인 수가 많을수록 적합도도 좋아졌지만 일부 요인에서는 추정이 불가하였다. 측정변수의 요인에 따른 요인부하량과 내용을 고려할 때 3 요인 모형이 가장 적절하여 이를 ‘연구 모형’으로 설정하였다. 내용을 살펴보면, ① '병력청취와 교육'으로, 의사가 환자의 의료적 문제에 대해 병력청취를 하고, 이후 검사 계획 등을 알려주는 것으로, 병력청취와 환자교육의 평가항목들이 주로 속한다. ② ‘신체진찰과 예절’로, 의사가 정보 수집을 위해 환자의 신체를 진찰하기 위해 준비, 시행, 마무리에 해당하는 행동과 언어가 포함되며, ‘신체진찰’과 ‘임상의사예절’이 주로 속한다. ③ ‘환자의사관계’로, 의사와 환자가 의료적 문제에 대한 대화 내용 및 의사 태도 등이 포함되며, ‘환자의사관계’와 ‘정보나누기’가 여기에 속한다. 이외에도 모형 비교를 위해 미국 의사국가시험의 평가 기준을 바탕으로 한 2 요인 모형(‘CS 모형’)과 임상수행능력시험의 분류 기준으로 구인으로 간주한 ‘자료 모형’을 함께 분석하였는데, ‘연구 모형’은 ‘CS 모형’과 ‘자료 모형’에 비해 대부분 상대적으로 높은 적합도를 보여 가장 적절한 모형으로 확인되었다. ‘연구 모형’인 3 요인 모형의 증례별 적합도를 보면, 증례 6이 가장 양호한 적합도를 보였으며(RMSEA < .05), 증례 1과 증례 3은 양호한 적합도를 보였고(RMSEA < .03), 증례 8은 보통 수준의 적합도를 보였고(RMSEA < .10), 증례 2와 증례 7은 부적절한 적합도를 보였다(RMSEA > .10). 임상수행능력시험의 신뢰도 검증에서, 먼저 전체 증례에 대해 학생과 증례를 오차원으로 일반화가능도이론을 적용하여 분석한 결과, 학생 성적의 전체 분산 중에서 학생의 차이로 인한 분산은 19.44%, 증례의 차이로 인한 분산은 18.23% 그리고 학생과 증례의 상호작용 및 설명되지 않은 분산이 62.33%를 차지하였다. 0.8 이상의 적정한 신뢰도를 확보하기 위해서는 13개 이상의 증례를 시행해야 하는 것으로 나타났다. 다음으로 개별 증례에 대한 신뢰도를 분석한 결과를 보면, ① 오차원 학생과 채점자 모형의 분석 결과, 채점자의 분산은 전체 분산 중에서 대체로 10%대였지만, 증례 7은 44%로 매우 높은 비율을, 증례 4는 채점자들 간의 분산이 거의 존재하지 않았다. ② 오차원 학생, 채점자, 학교를 교차분류다층모형의 분석 결과, 채점자의 분산비율은 대체로 10%대, 학교의 분산비율은 대부분 10~20% 정도였으며, 대부분 증례에서 학교 차이가 유의수준 .05에서 통계적으로 유의하였다. ③ 오차원 학생, 채점자, 학교 그리고 채점자와 학교의 상호작용을 고려한 교차분류다층모형의 분석 결과, 증례 2, 증례 3, 증례 5, 증례 7이 유의수준 .05를 기준으로 통계적으로 유의한 차이를 보였다. ④ 주요 오차원인 채점자와 학교에 독립변수를 추가하여 오차원의 분산에 통계적으로 유의미한 영향력을 보이는 독립변수가 있는지 확인한 결과, 증례 3은 채점자가 ‘평가한 학생 수’가, 증례 4는 채점자가 ‘평가한 학교 수’가, 증례 6은 채점자가 ‘평가한 학생 수’와 ‘평가한 학교 수’가, 증례 7은 ‘시험 시행 순서’가 각 오차원에 통계적으로 유의한 영향력을 보이는 것으로 나타났다. 임상수행능력시험의 구인타당도와 신뢰도 분석 결과를 바탕으로 논의할 사항은 다음과 같다. 첫째, 임상수행능력시험의 개념적 틀을 구인 중심 접근법(construct-centered approach)으로 구성할 필요가 있다. 둘째, 준거참조평가 결과의 일관성을 보아야 하는데 이를 위해 구인을 중심으로 점수를 산출하는 것이 보다 신뢰도를 높일 것이다. 셋째, 두 검사점수 간의 관계를 분석할 때에는 구인 간의 비교하는 것이 보다 적절하다. 넷째, 타당도를 저해하는 요인들을 파악하고 이를 통제하기 위한 방안을 마련해야 한다. 다섯째, 다층모형을 이용하여 단일 채점자의 일관성을 분석한 방법은 향후 지속적인 후속연구를 통해 일반화시킬 필요가 있다. 여섯째, 학교 간 차이와 시험 시행 조건 등이 함께 포함된 학교 차이의 원인을 파악할 필요가 있다. 일곱째, 다층모형 분석에서 각 수준에서 필요한 독립변수를 확보하여 다양한 오차원에 대한 설명을 시도할 필요가 있다. 여덟째, 임상수행능력시험의 증례 수에 대한 종합적인 검토가 필요하다. 본 연구는 기존 자료를 이용하여 수행되었기 때문에 다음과 같은 한계를 가지고 있다. 첫째, 분석에 활용한 연구 자료는 특정 지역을 중심으로 구성된 컨소시엄의 시행 결과를 활용하였으므로, 다양한 조건을 가진 더 많은 학교들을 연구에 포함시키지 못했다. 둘째, 다층모형에서 학생수준의 독립변수를 활용하지 못해 가장 큰 오차원에 대한 설명을 하지 못했다. 셋째, 연구 자료에서 ‘해당 없음’과 같은 모호한 평가 기준에 대해 점수 조정이라는 소극적인 교정 방법을 선택하였다. 본 연구의 내용과 관련하여 후속 연구를 제안하면 다음과 같다. ① 구인 점수에 미치는 채점자와 학교의 영향 정도를 파악할 필요가 있다. ② 성적 산출 방식에 따른 학생 분류의 일관성 정도를 분석할 필요가 있다. ③ 구인을 바탕으로 한 준거관련 타당도를 분석해 볼 필요가 있다. ④ 임상수행능력시험에서 표준화 환자가 연기와 채점을 동시에 수행할 경우에 표준화 환자의 정확성을 질적인 방법으로 분석할 수 있다. ⑤ 학교와 채점자의 상호작용 효과에 대한 구체적인 분석이 필요하다. ⑥ 학생 간 시험 정보공유에 대한 세밀한 설계가 필요하다. ⑦ 임상수행능력시험의 예측 타당도를 분석할 필요가 있다. 이때 구인을 바탕으로 한 검사 간 성적의 비교가 바람직할 것이다. ⑧ 학생들에게 동일한 검사를 주기적으로 반복 시행하여 그 능력의 변화도 확인할 수 있다.;In recent years, there has been an increase interest in the CPX (Clinical Performance Examination) in medical education. CPX is a performance assessment in the medical education, which will be adopted as a skill test in the medical licensing examination in Korea(KME) in 2010. The purpose of current study was to test the validity and reliability of CPX. The broad concept of construct validity was taken to encompass all evidences for validity, including content and criterion evidence, reliability, and the wide range of methods associated with theory testing(Kane, 2006). Messick(1989) adopted a broadly defined version of the construct model as a unifying frame work for validity. So, construct validity was adopted to test for validity. To examine the reliability of the CPX, there were a number of potential sources of errors associated with raters, with cases, with occasions, with rating criteria, with different scales, with their interactions, etc. In this study, the two main sources of errors were considered. First, raters are involved in the process of evaluating students' response in performance assessment and thus play roles influencing students' performance scores. Second, it made much more errors by school effect in the case of CPX. Generally, the cases of CPX consortium were performed by school respectively. The structural equation modeling was used to analyze the validity of CPX. The exploratory factor analyses were conducted to explore the representative constructs (factors) and the confirmatory factor analyses were to test the theoretical model. Factor analysis seeks to uncover the hidden structure of a test by elucidating latent factors, which underlie a larger number of variables that are directly observed. This process works in the same way a physician deduces an underlying disease from a group of symptoms. Multilevel analysis and generalizability theory were adopted to test the reliability. The main sources of errors were students, raters and schools. To test the reliability, the size of sources of errors were analyzed on the unconditional model and calculated the ICC. Additionally, the significance of level 2-predictors were estimated. There were 4 models to estimate the reliability of CPX by multilevel modeling. There were main effects(error sources) in each model, which were students and raters on the first model, students, raters and schools on the second model, students, raters, schools and rater-school interaction on the third model, students, raters, schools, rater-predictors, school-predictors on the fourth model. By generalizability theory, the first model was students crossed with cases. The results of construct validity analysis were as follows. Three kinds of constructs were deduced by EFA, which were 'History-Taking & Education, HTE', 'Physical Examination and Manners, PEM', 'Doctor-Patient Relation, DPR'. Three constructs(factors) model was called as 'Theoretical model'. Two models were analyzed together for comparing, which were 'CS model', the similar model in the USMLE, and 'CPX model'. 'Theoretical model' was relatively high fit index than the others. High fit index provided evidence for the construct validity of CPX. Applying with 'the theoretical model', case 6 was estimated the close fit (RMSEA < .05), case 1 and case 3 were reasonable fit (RMSEA < .08), case 8 was mediocre fit (RMSEA < .10), and case 2 and case 7 were bad fit (RMSEA > .10). The two cases were no convergence because of multicollinearity among latent variables and measured variables. The correlations with latent variables were almost over 0.4. The results of reliability analysis were as follows. The first model was considered students and case errors. In the results by generalizability analysis, the variance size of students was 19.44%, case was 18.23% and residuals was 62.33%. The condition of generalizability coefficient over 0.8 was 13 cases. Discussions were as follows. First, it will be recommended to make the conceptual frame of CPX by construct-centered approach. Second, it was consistency of classification for student's performance achievement. It was recommended to report the student's performance level based on construct (domain). Third, the relation between construct validity and criterion validity (concurrent validity and predictive validity) may be considered. The relations between performance scores in the different tests should be based on constructs. Fourth, there were multiple threats to validity in all types of assessment in medical education. Methods to eliminate or control validity threats are needed to study. Fifth, this is first trial to estimate the rater's reliability with school effects. So it could be generalized by testing other populations. Sixth, it is clear that more research is needed to assess the sources of variation present among schools. The sources are school facilities, test performing order, the degree of test security, etc. Seventh, the study using multilevel modeling with important independent variables are needed. Eighth, the number of case should be considered to develop the reliability with validity and financial condition together.
