수행평가의 타당도 검증을 위한 측정학적 접근

수행평가의 타당도 검증을 위한 측정학적 접근
A psychometric approaches of the validity verifications in performance assessments
대학원 교육학과
이화여자대학교 대학원
타당도는 평가도구를 개발하고 평가하는 데 가장 근본적으로 고려해야 할 측정학적 조건이다. 측정학적인 입장에서 타당도는 평가도구에 의해 얻어진 관찰 점수를 통해 평가대상의 진점수를 적합하게 추정했는가를 검증한다. 관찰점수가 평가대상의 진점수의 적합한 추정치라고 한다면, 관찰점수는 검사가 의도한 이론적 체계를 반영하고 있는 것이다. 구체적으로 검사도구에 의해 얻어진 관찰점수의 분산원에 검사가 측정하려는 특성이 포함되어 있을 때 그 검사도구는 타당하다. 이러한 관점에서 검사도구의 타당도 연구는 관찰점수의 분산원을 탐색하여 분산원의 타당도 근거를 추론하는 것이라 할 수 있다. 수행평가 형태들은 학생들이 응답한 수행표본에 대한 평가자나 채점자들의 판단에 의해서 점수가 부여되는 방식을 따른다. 문항에 대한 응답이 맞고 틀리는 이분적인 방식에 의해 학습자의 능력을 측정하는 평가형태와는 달리 수행평가는 모종의 기준을 가지고 채점자들이 판단하여 학습자의 능력을 측정하는 평가방법이기 때문에 전자의 점수화 방법과는 달리 복잡한 관찰점수 분산원을 가지고 있다. 전통적인 평가방법에 의한 검사점수의 분산원이 피험자들의 문항점수 분산원과 오차분산원으로 구성되어 있다면, 수행평가의 점수 분산원은 피험자들의 수행에 의한 점수, 채점기준의 수준, 채점자들의 채점반응 등에 대한 분산원과 오차분산원으로 구성된다고 할 수 있다. 따라서 수행평가에 의한 관찰점수를 통하여 진점수를 추정하는 적합성, 곧 타당도는 이러한 각 분산원에 대한 타당도 검증을 필요로 한다. 곧 수행평가의 타당도 검증은 전통적인 평가방법에 대한 타당도를 검증하는 접근들 뿐 아니라 채점기준의 수준, 채점자들의 채점반응에 대한 타당도 분석을 필요로 한다. 이 연구에서는 이러한 수행평가도구의 복잡한 점수 분산원에 근거하여 타당도를 검증하는 방법들을 구체화하고 이를 실제 수행평가자료에 적용하였다. 피험자들의 수행점수 분산원에 대한 타당도를 검증하기 위해서 전통적인 타당도 접근방법을 활용하였으며, 채점기준과 채점반응의 타당성을 분석하기 위해 다차원척도법, 중다회귀분석의 방법을 활용하였다. 수행평가도구의 타당도를 검증하는 방법들을 실제 자료에 적용하기 위해서 다음과 같은 구체적인 연구문제를 다루었다. 첫째, 수행평가도구의 내용 근거에 의해 내용타당도를 분석한다. 둘째, 수행평가도구의 내적 구조에 근거한 구인타당도를 검증한다. 셋째, 채점기준들간의 내적 구조에 근거한 타당도를 검증한다. 넷째, 채점자들의 채점반응의 타당도를 분석한다. 다섯째, 수행평가도구와 다른 형태의 검사도구와의 관계에 근거하여 공인타당도를 검증한다. 이 연구에서는 위와 같은 연구문제를 통하여 수행평가도구의 타당도 검증방법을 실제 자료에 적용하기 위해 초등학교 6학년 수학교과에서 6개의 과제로 구성된 수행평가도구와 20개의 문항으로 구성된 선택형 검사도구를 개발하였다. 두 가지의 평가도구는 제6차 초등 수학 교육과정의 관계 영역에서 출제되었으며, 수행평가는 개념적 이해, 전략적 지식, 의사소통기술 등의 문제해결을 측정하도록 구성되었고, 선택형 검사도구는 단순이해, 문제해결, 전략적 지식을 측정하도록 구성되었다. 2000학년도 1학기초에, 서울 시내 세 개의 중학교에서 1학년 582명을 대상으로 두 검사도구를 실시하여 응답표본들을 얻었고, 이 중에서 4개 이상의 수행과제에 응답한 피험자 238명의 응답자료를 선택하였다. 실제로 수행평가의 타당도를 분석하기 위한 실증적 자료는 238명의 수행표본에 대하여 8명의 채점자가 분석적 채점기준과, 총괄적 채점기준에 의해 각각 0∼4점으로 채점한 원점수들이다. 본 연구에서는 우선, 수행평가도구의 타당도를 분석하기 전에 수행평가도구의 양호도 검증을 실시하였고, 그 결과는 다음과 같다. 첫째, 평가도구의 신뢰도를 분석한 결과, 선택형 검사도구의 내적 일관성 신뢰도는 높은 편이었고, 수행평가에서의 채점자간 신뢰도는 상관계수와 일반화 가능도 이론에 의해서 분석한 결과, 대체적으로 높은 편이었다. 둘째, 선택형 검사도구의 문항분석을 한 결과, 적정 수준의 난이도를 유지하고 있으며, 변별도도 적절한 것으로 나타났다. 수행평가도구에서는 과제들의 평균에서 큰 차이는 없었지만 일부 과제간의 평균에서 약간의 변동이 있었고, 등급반응이론에 의한 문항특성 분석에 의해서도 과제에 따라 능력이 매우 낮은 피험자들에게는 적정하지 못한 경우가 있었다. 그러나 과제의 각 범주들이 대부분의 피험자 능력수준에서 기능하였고, 과제의 변별도도 적절한 것으로 나타났다. 위와 같은 측정도구의 기본적인 양호도 검증을 실시한 결과, 본 연구에서 개발한 수행평가도구는 타당도를 위협할 수준의 측정학적 문제점은 없는 것으로 나타났다. 다음은 본 연구에서 구체화하고 있는 타당도를 검증하는 방법을 적용한 결과이다. 첫째, 수행평가도구의 내용타당도를 분석한 결과 본 연구에서 개발한 수행평가도구는 이와 관련된 교수학습의 목표와 내용에 적합하며, 고등사고력의 측정, 실생활 맥락성, 공정성, 채점기준의 명료성, 변별성 등의 수행평가과제의 타당화 준거에 대하여 적합한 것으로 나타났다. 둘째, 수행평가도구의 구인 타당도를 검증하기 위하여 요인분석을 적용한 결과, 본 연구에서 개발한 수학과 수행평가도구에서 최종적으로 탐색된 요인의 구조는 3개의 내용영역으로 나타났다. 이러한 결과는 이 연구에서 개발한 검사도구의 이론적 체계를 반영한다고 할 수 있다. 셋째, 채점기준들간의 내적 구조에 근거한 타당도를 중다회귀분석과 다차원 척도법으로 검증한 결과, 두 방법 모두에서 총괄적인 채점기준은 분석적인 채점기준의 합이 아니며, 총괄적인 채점기준과 분석적인 채점기준은 내적 구조가 동일하지 않다는 공통적인 결과를 얻었다. 넷째, 채점자들의 채점 반응의 타당도를 다차원 척도법을 사용하여 분석하였다. 채점자들이 채점기준이 제시하는 채점영역들을 독립적으로 사용하는지, 혹은 유사하게 사용하는지의 채점 반응에 대하여 다차원 척도법을 사용하여 분석하였는데, 채점자들은 분석적인 채점영역에서 전략적 지식과 의사소통기술을 유사하게 판단하여 채점하는 것으로 나타났다. 다섯째, 수행평가도구와 다른 형태의 검사도구와의 공인타당도를 검증하기 위해 상관계수와 구조방정식 모형을 적용하였다. 그 결과 수행평가도구와 다른 형태의 검사도구가 측정하려는 인지적인 특성들은 상관이 있었다. 본 연구에서 구체화한 수행평가 타당도 검증방법을 실제 수행평가 점수 자료에 적용해 본 결과, 다음과 같은 시사점을 얻을 수 있었다. 첫째, 내용타당도와 구인타당도를 검증하여 검사의 점수가 검사의 이론적 체계를 반영하고 있다는 결과를 통해 수행평가도구의 타당화 준거에 대한 점검표와 요인분석은 수행평가도구의 타당도를 분석하고 검증하기 위한 적절한 방법임을 확인하였다. 둘째, 중다회귀분석과 다차원 척도법을 적용하여 채점기준들간의 내적 구조에 근거한 타당도를 검증하여 두 가지 방법에 의해 동일한 결과를 얻음으로써 두 방법론간의 호환 가능성을 확인하였다. 셋째, 두 검사도구의 공인타당도 검증방법에 대해, 본 연구에서는 두 검사도구의 형태가 다르고 사회적 영향이 큰 평가에 활용될 때에는 상관계수에 의한 공인타당도지수는 상관계수 해석기준에만 의존하여 해석되기 때문에 해석상의 오차를 포함하므로, 구조방정식과 같이 통계적으로 강건한 방법을 적용할 필요가 있음을 시사하였다. 또한 수행평가도구의 공인타당도 검증을 위해 다양한 교과영역에서 다양한 인지적 특성을 측정하는 표준화된 수행평가도구의 개발이 필요함을 논의하였다. 본 연구에서는 수행평가도구의 타당도를 검증하는 방법은 내용타당도, 구인타당도, 공인타당도와 같이 모든 형태의 측정에서 공통적으로 추구하는 타당도 접근도 필요 하지만, 점수를 부여하는 방식에 있어서 수행평가만의 특성으로 야기되는 복잡한 분산원을 고려할 필요가 있음을 제안하였다. 수행평가에 의한 점수는 채점기준의 수준과 채점자들의 판단에 의하여 점수가 부여되는 방식을 따르기 때문에 채점기준의 내적 구조에 대한 타당도와 채점자들의 채점반응에 대한 타당도 접근도 필요함을 실제적인 수행자료를 통하여 논의하였다. ; Validity is the most fundamental psychometric consideration in developing and evaluating test tool. In psychometric aspects, validity is to verify which to extent to appropriately estimate examinee true scores with observed scores by assessment format. If observed scores are appropriate estimates of examinee true scores, observed scores reflect the intended theoretical framework of the test. In other words, the test is valid when the sources of variance in the test scores include the traits which is intended to measure by means of test. In this aspects, the validity of assessment tools appropriately infers the validity evidence from the sources of variance in test scores. Performance assessments require raters judgement on students performance to produce a score, in contrast to assessment formats which are scored objectively as multiple choice tools. So the observed scores of performance assessment include the multiple sources of variance in test scores. The purpose of this study is to identify psychometric approaches of validity based on multiple sources of scores variance by means of performance assessment and to apply these approaches to emperical performance data. This study handles following study issues to apply validity approaches to real data. This study analyze content validity based on content of performance assessment tool and verify construct validity based on internal structures of performance assessment tool, validity based on internal structures of scoring rubrics, validity based on scoring responces of scorers, and concurrent validity based on other test scores. This study develops the performance assessment format with 6 tasks and multiple choice assessment format with 20 items from elementary 6th grade mathematics to apply specific approaches of validity in performance assessment tool. Two assessment formats were set from relationship content domain of the sixth elementary mathematics curriculum. Performance assessment is constructed to measure cognitive skills of conceptual understanding, strategical knowledge and communication skill and multiple choice test is intended to measure cognitive skills of simple understanding, problem solving, and strategical knowledge. The response data of examinees could be made from performance assessment and multiple choice test done to 582 1st grade students from 3 middle schools in Seoul, and among these, the response data of 238 students who responded more than 4 performance tasks is selected. The corroborative data to actually analyze the validity of performance assessment is the raw scores that 8 raters rated respectively 0-4 points for performance sample of 238 students based on analytic scoring rubrics and holistic scoring rubrics. This study analyze to technical quality of performance assessment tool before verifying of validity and the results are as follows.; Reliability analysis for two assessment tools says that reliability in multiple choice test and inter-rater reliability in performance assessment are generally high. And item analysis of multiple choice test shows consistent medium level difficulty and appropriate discriminant index. There is a little mean difference in each performance task and item characteristics analysis by graded response theory says the performance assessment format may not be appropriate for very low-ability level examinees and appropriate discriminant parameter. But the results of analysis to technical quality of performance assessment tools point out that two assessment tools have no problem in technical qualities. The results of this study through the analysis of performance assessment validity are as follows.; First, the results of content validity in performance assessment show that in content performance assessment tool which is development by this study is appropriate to content and objectives of teaching and learning process. Second, the construct validity test through factor analysis show that the final exploratory factor structure of performance assessment format has 3 content domains. Such a result reflects the intended theoretical framework of the test. Third, the multidimensional scaling and the multiple regression analysis on holistic scoring rubrics and analytic scoring rubrics shows that holistic scoring scores are not the sum of analytic scoring domains scores and the interrelationship of holistic scoring method and analytic scoring method is not the same. Fourth, multidimensional scaling was used to analyze validity of scoring reponses of scorers whether raters use similarly or separately domains of scoring criteria. The analysis says that raters do similar scoring using scoring domains of strategical knowledge and communication skill. Fifth, according to the results of examining the concurrent validity of performance assessment to multiple choice test score using Pearson s product correlation and structure equation models, two assessment formats are similar to measure cognitive skills. Therefore, this study emperically verifies that the performance assessment in teaching and learning process gives similar information to multiple choice test. And there is no statistically significant difference in the ability estimates of examinees. The implications of this study through the application of performance assessment validity approaches from real data are as follows.; First, analyses methods of content and internal structure of performance test in this study are appropriate performance test tools. Second, through analyses with multiple regression models and multidimensional scaling of validity based on internal structure of scoring rubrics show same results, two methods in exchangeable. Third, it is discussed that the concurrent validity approaches of performance assessment is need more sound method than correlation procedure. And the development of standardized performance assessments tool is discussed in order to verify validity of performance assessment by means of cuncurrent evidence with standardized assessment tool. This study proposes that psychometric approaches of validity in the performance assessment is needed to analyses validity of scoring responses by scorers and internal structure of scoring rubrics as well as validity approaches based on content, construct, and other test because performance assessments require raters judgement on students performance to produce a score with socring rubruics.
