dc.description.abstract수행평가(performance assessment)는 학습자의 산출물을 통해서 학습자가 맥락 속에서 “중요한” 지식과 기능을 활용할 수 있는지를 보는 평가방식이다. ‘수행’이란 실기시험에서 ‘실기’와 의미가 다르다. 실기와 같이 행위 자체가 아니라 아동들이 학습한 교육내용을 활용하여 새로운 사태에 적응할 수 있는지를 보는 “이해의 증거”로서의 의미를 갖는다. Herman, Ashbacher, 그리고 Winters는 수년에 걸친 경험적 연구에 기초하여, 수행평가과제가 적합성을 획득하기 위해서는 평가목표가 학습목표를 충분히 반영하고 있어야 하고, 평가하는 내용이 학문에 기반한 지식과 기능을 포함시켜야 하며, 조건 면에서 실제성(autheticity)을 갖추고 있어야 한다는 점을 밝히고 있다. 이에 본 연구에서는 수행평가과제의 적합성을 Herman, Aschbacher, 그리고 Winters가 제시한 기준에 따라 우리나라 현장에서 사용되고 있는 수행평가과제들이 적합한 것인지를 분석하고자 한다. 구체적인 연구문제를 살펴보면 다음과 같다. 1. 수행평가과제에서 제시되는 평가목표가 교육과정에서 제시되는 학습목표에 비추어 적합한가? 2. 수행평가과제에서 평가하고자 하는 내용이 그것이 기반하는 학문적 지식의 기능에 비추어 적합한가? 3. 수행평가과제가 실제성의 측면에서 적합한가? 3-1. 수행평가과제가 실생활 맥락성을 반영하고 있는가? 3-2. 수행평가과제가 간학문성을 갖추고 있는가? 3-3. 수행평가과제가 다차원적인 측면을 반영하는가? 본 연구의 분석대상이 되는 수행평가과제는 서울시 초등학교에서 사용되고 있는 6학년 수행평가과제들로서 수행평가과제의 수는 총 23개이다. 수행평가과제들이 평가하는 단원은 사회과의 정치학 영역에 해당하는 “2. 우리나라의 민주정치” 단원이다. 수행평가과제들의 적합성을 분석하기 위한 연구절차는 다음과 같다. <연구문제1>을 해결하기 위해서 수행평가과제에서 제시하는 평가목표를 제 6차 교육과정 문서와 교사용 지도서에서 제시하는 학습목표에 비추어 어느 정도 일치하는지를 분석하였다. 23개의 수행평가과제들 중에는 평가목표가 명시된 과제가 14개이며, 명시되지 않은 과제는 9개가 있다. 평가목표가 명시된 과제의 경우는 평가목표와 학습목표를 직접적으로 비교하여 일치도를 분석하였고, 평가목표가 명시되지 않은 과제의 경우는 과제로부터 평가목표를 도출한 후 도출된 평가목표와 학습목표 간의 일치도를 분석하였다. 먼저 연구자가 수행평가과제의 평가목표와 학습목표간 일치도를 리커트 4점 척도에 따라 ‘매우 일치한다’ ‘약간 일치한다’ ‘거의 일치하지 않는다’ ‘전혀 일치하지 않는다’로 점수를 부여하였다. 그리고 연구자의 분석결과의 신뢰성을 확보하기 위해서 평가 및 내용 전문가 5인으로 하여금 수행평가과제의 평가목표와 교육과정 상의 학습목표간의 일치도를 리커트 4점 척도에 따라 점수화 하도록 하였다. <연구문제2>를 해결하기 위해서 수행평가과제가 평가하고자 하는 학습내용이 그것이 기반하는 학문의 지식과 기능을 반영하고 있는지를 분석하였다. 먼저 연구자가 수행평가과제가 평가하고자 하는 지식은 “사실들의 나열, 사실과 사실들의 관계, 사실과 개념과의 관계, 개념과 개념간의 관계”로 범주화하여 어느 범주에 해당하는지를 분석하였다. 평가하고자 하는 기능은 Bloom이 목표 위계에서 제시한 사고기능인 지식, 이해, 적용, 분석, 종합, 평가 중에서 어떤 종류의 인지기능을 평가하고 있는지를 분석하였다. 그리고 연구자의 분석결과의 신뢰성을 확보하기 위해서 평가 및 내용 전문가 5인으로 하여금 지식과 기능의각 측면에서 어떤 종류의 지식과 기능을 평가하고 있는지 분석하도록 하였다. <연구문제3>을 해결하기 위해서 수행평가과제의 실제성을 실생활 맥락성, 간학문성, 다차원적 측면으로 나누었다. 먼저 연구자가 수행평가과제들이 실생활 맥락성, 간학문성, 다차원적 측면을 어느 정도로 반영하고 있는지 리커트 4점 척도로 분석하였다. 그리고 연구자의 분석결과의 신뢰성을 확보하기 위해서 평가 및 내용 전문가 5인으로 하여금 수행평가과제들이 실생활 맥락성, 간학문성, 다차원적 측면을 어느 정도로 반영하고 있는지 리커트 4점 척도로 분석하도록 하였다. 분석결과를 살펴보면 다음과 같다. 첫째, 수행평가과제에서 제시되는 평가목표가 6차 교육과정에서 제시되는 학습목표와 얼마나 일치하는가를 분석한 결과 23개의 수행평가과제들 중에서 학습목표와 매우 일치하는 과제는 2개, 약간 일치하는 과제는 11개, 거의 일치하지 않는 과제는 10개이며 전혀 일치하지 않는 과제는 없는 것으로 드러났다. 한편 평가목표가 명시된 14개의 과제들 중에서 학습목표와 매우 일치하는 과제는 2개, 약간 일치하는 과제는 9개, 거의 일치하지 않는 과제는 3개로 드러났다. 평가목표가 명시되지 않은 9개의 과제들 중에서 학습목표와 매우 일치하는 과제는 없으며, 약간 일치하는 과제는 2개, 거의 일치하지 않는 과제는 7개, 전혀 일치하지 않는 과제는 없는 것으로 드러났다. 그러므로 수행평가제들의 평가목표와 학습목표는 약간 일치하거나 거의 일치하지 않는다는 것이 드러났으며, 평가목표가 명시된 과제일수록 명시되지 않은 과제들보다 학습목표와의 일치도가 높다는 결과가 나타났다. 둘째, 수행평가과제가 평가하고자 하는 내용의 적합성을 연구자와 전문가가 분석한 결과, 23개의 과제들 중 21개의 과제에서 평가하고 있는 지식이 구체적인 사실을 평가하고 있으며, 2개의 과제가 사실과 사실간의 관계를 평가하고 있는 것으로 나타났다. 그리고 과제가 평가하는 기능의 경우, 23개의 과제들 중에서 20개의 과제들이 학습자들이 단편적이고 구체적인 사실들을 기억하고, 실태나 현상을 조사·파악하도록 하는 수준으로서 Bloom의 목표위계에서 가장 낮은 수준인 ‘지식’ 단계에 그치고 있으며 3개의 과제들이 이해의 수준에 있음이 드러났다. 이것은 평가하는 지식이 구체적이고 단편적인 사실들이기 때문에 기능 역시 그것을 상기하고 조사, 인식하는 수준에 그치는 것이라고 보여진다. 셋째, 수행평가과제가 갖추어야 할 실제성의 측면에서 연구자와 전문가 집단이 분석한 결과, 실생활 맥락성의 경우, 실생활 맥락성을 매우 충족하는 과제는 3개, 약간 충족하는 과제는 6개, 거의 충족하지 않는 과제는 6개, 전혀 충족하지 않는 과제는 8개로 드러났다. 과반수 이상의 과제들이 실생활 맥락성을 반영하지 못하고 탈 맥락적으로 제시되고 있다는 것이 드러난다. 간학문성의 경우, 간학문성을 매우 충족하는 과제는 없으며, 약간 충족하는 과제는 2개이고, 거의 충족하지 않는 과제는 7개, 전혀 충족하지 않는 과제는 12개인 것으로 드러났다. 그러므로 대부분의 수행평가 과제는 정치학 영역의 지식만을 다룰 뿐 사회과의 타 영역이나 타 교과와의 관련성을 거의 고려하지 못하고 있다는 것을 알 수 있다. 간학문성이 드러나는 경우도 타 영역이나 타 교과의 개념과 통합되어 있는 것이 아니라 소재나 사실들의 c극면에서 연결된 과제들이기 때문에 간학문성을 충족시키는 과제라 할지라도 그 수준이 매우 낮다. 다차원적 측면의 경우, 다차원적 측면을 매우 반영하는 과제는 없으며, 약간 반영하는 과제는 5개, 거의 반영하지 못하는 과제는 8개, 전혀 반영하지 못하는 과제는 10개인 것으로 드러났다. 다차원적 측면의 경우 대부분의 과제가 다차원적 측면을 고려하지 못하는 것으로 나타났다. 대부분의 과제들은 사실들을 상기하는 수준이기 때문에 여러 차원에서 평가될 수 있을 만큼 여러 차원으로 복잡하게 고안되어 있지 않다. 수행평가과제의 적합성을 분석한 결과, 수행평가목표의 적합성 부분에서만 부분적으로 적합한 것으로 드러났고, 평가하는 내용과 실제성의 측면들에서는 거의 적합하지 않은 것으로 드러났다. 그러나 수행평가목표의 적합성을 현 교육과정상의 학습목표와의 일치도 면에서 분석하였고, 수행평가과제가 구체적인 사실들을 탈맥락적으로 상기하는 수준임이 드러났기 때문에 학습목표 자체가 중요한 지식과 기능을 반영하고 있는지를 분석하는 후속 연구가 필요하다.;Performance assessment is a method of evaluating whether a student is able to use "key" skills and knowledge, based on his or her work. "Performance" in this sense is different from "performance" as measured by skills-based tests. What performance assessment evaluates is not the skill or activity itself, but whether children are able to apply what they have studied in a new and unfamiliar situation, in other words, "evidence of understanding." Years of empirical research conducted by Herman, Aschbacher and Winters suggest that performance assessment is appropriate when the following conditions have been satisfied: the objectives of assessment are sufficiently reflective of the objectives of the curriculum or course of study; the skills and knowledge being assessed are based on the discipline-based knowledge and skills ; and, the assessment process is authentic. This thesis analyzes whether performance assessment in Korea is appropriate in terms of the guidelines posited by Herman, Aschbacher and Winters. Specifically, the thesis focuses on three problems as follows: 1. Is performance assessment appropriate in that the objectives of assessment reflects the objectives of the course of study? 2. Is performance assessment appropriate in that the skills and knowledge being assessed reflect the skills and knowledge being taught? 3. Is performance assessment valid? 3-1 Do the performance assessment tasks reflect the context of a real life? 3-2 Are the performance assessment tasks interdisciplinary? 3-3 Are the performance assessment tasks multi-dimensional? For this paper, the researcher analyzed performance assessment tasks as conducted in Seoul elementary schools at the sixth grade level. The number of tasks totaled 23. The class upon which the performance assessment was based was "Korean Democratic Politics," a political science course in the social sciences field. The researcher used the following procedures to determine whether performance assessment was appropriate or not. To answer the first problem outlined above, the researcher compared the stated evaluation objectives of the performance assessment process with the objectives prescribed in the 6th edition of the national curriculum and the teacher's guidebook to see how closely they correlated. Of the 23 tasks assessed, fourteen had explicit assessment objectives and nine did not. For those tasks which had clearly defined objectives, the researcher directly compared the assessment objectives with the curriculum's objectives to analyze the degree of correspondence. For those tasks in which the assessment objectives were not clearly defined, the researcher extrapolated what the objectives would be and compared those to the curriculum's objectives. First, the researcher assigned values to the degree of correspondence according to a 4-point Likert scale as follows: "highly similar", "somewhat similar," "Not very similar," and "no similarity at all". Next, to ensure the credibility of her findings, the researcher asked five specialists on assessment and the subject matter to also assign a value according to the same 4-point Likert scale to the degree of correlation between the objectives of the assessment and those of the curriculum. For the second problem, the researcher analyzed whether the skills and knowledge that were assessed were properly reflective of the disciplined-based knowledge and skills. To this end, the researcher first analyzed the content or the kind of knowledge being tested in the assessment process by categorizing it as follows: "enumeration of facts," "relationship between fact and fact," "relationship between fact and concept," and "relationship between concept and concept." The researcher also categorized the skills that were assessed according to Bloom's hierarchy of learning objectives: knowledge, understanding, application, analysis, synthesis and evaluation. To buttress her findings, the researcher asked five authorities on assessment and content to analyze which category of knowledge and skill were being evaluated. As for the third problem of validity or authenticity, the researcher divided it into three separate issues: real life context, interdisciplinary approach and multidimensional content. First, the researcher analyzed how much the performance assessment tasks reflected real life context, and how interdisciplinary and multi-dimensional they were by assigning them a value according to 4-point Likert scale. To support her findings, the researcher then asked five experts to do the same. The results of the analyses are as follows. First, as to how closely the assessment objectives adhered to the learning objectives suggested by the 6th edition of the national curriculum, the mean result of researcher and expert is that out of the 23 tasks, 2 had highly similar objectives, 11 had somewhat similar objectives and ten had not very similar objectives. None of the task objectives were considered completely unrelated to the curriculum's objectives. A further breakdown shows that of the 14 performances assessment tasks in which the objectives were clearly stated, 3 had highly similar objectives, 8 had somewhat similar objectives and 3 had not very similar objectives. Of the 9 tasks in which the objectives were not clearly defined, none had highly similar objectives, 3 had somewhat similar objectives, and 7 had not very similar objectives. None had objectives that were not similar at all. Thus, the objectives of the assessment process and those of the curriculum showed a slight degree of correspondence or hardly showed any correspondence, and the degree of correspondence was for the most part higher for tasks in which the objectives were clear. Second, as to the suitability of the content being assessed, the mean result of researcher and experts is that out of 23 tasks, 21 tasks assessed "numeration of facts", 2 tasks assessed "relationship between fact and fact." It revealed that the level of knowledge attained did not advance beyond that of concrete fact. Similarly, out of 23 tasks, 20 showed that the students remembered piecemeal facts and concrete facts, or they sought to research or ascertain the actual conditions or context of time and place. This level of understanding falls under the most basic or lowest category in Bloom's taxonomy of learning objectives, that of mere "knowledge." Considering that the kind of knowledge assessed is either concrete fact of fragmentary knowledge, it comes as no surprise that the level of skill was no higher than the memorization, investigation and comprehension of facts. Thirds, as to authenticity of the performance assessment tasks, and in particular, whether they were practical in the context of real life, the mean result of researcher and experts in that three were judged to be highly satisfactory, six were somewhat satisfactory, six were not very satisfactory, and eight were not satisfactory at all. Thus, a majority of the tasks did not reflect the context of real life and so were considered impractical. As for whether the assessment tasks were interdisciplinary, none were judged to be highly so, two were somewhat so, seven were barely so, and twelve were not at all. Thus, most of the tasks narrowly focused on knowledge in the political science sector; rarely did they take into consideration other areas in the social sciences or their connectivity to other courses in the curriculum. When the tasks were judged to be interdisciplinary, they were not so on the conceptual level ? that is, integrating concepts from other areas or courses of study. Rather, the tasks integrated facts or subject matter from other areas or disciplines, thus the tasks were interdisciplinary in only the most rudimentary sense. As for whether the tasks were multi-dimensional, none were considered highly so, five were somewhat so, eight were barely so, and ten were not multi-dimensional at all. Thus, most of the tasks could not be considered multi-dimensional. Since most of the tasks remained at the simple level of memorizing facts, the tasks were not designed at such a complex level as to evaluate different dimensions of learning. As to the original question of whether performance assessment tasks in Korea are appropriate, the results show that only in terns of how closely the assessment objectives matched the curriculum's objectives were they deemed appropriate, and then only partially so. As for the contents and the validity of the tasks, these were considered not appropriate. However, the analysis of the suitability of the performance assessment objectives was based on how closely they matched the objectives of the curriculum. since the knowledge and skills evaluated by the tasks were at such a rudimentary level, memorization of concrete facts, further research must be done on whether the curriculum's objectives themselves are appropriate, that is whether they reflect discipline-based knowledge and skills.-
dc.description.tableofcontentsI. 서론 1 A. 연구의 필요성 및 목적 1 B. 연구문제 5 II. 이론적 배경 6 A. 수행평가의 개념 6 1. 수행평가의 정의 6 2. 수행평가의 특징 8 B. 수행평가과제의 요건들 13 1. 학습목표와의 일관성 13 2. 핵심 교육내용의 반영 14 3. 실제성의 조건 고려 18 4. 수행평가과제의 적합성 기준 21 C. 초등 사회과 교육과정 26 1. 사회과 교육과정 26 2. 우리나라의 사회과 교육과정 33 III. 연구방법 43 A. 연구대상 43 B. 분석 절차 및 도구 45 IV. 결과 53 A. 학습목표에 대한 수행평가 목표로서의 적합성 분석 53 1. 수행평가목표와 교육과정상의 학습목표간 일치도 분석 53 2. 수행평가과제의 평가목표와 학습목표간 일치도 분석 예시 55 B. 학문에 기반한 지식과 기능에 따른 수행평가내용의 적합성 분석 58 1. 수행평가과제에서 평가하는 지식의 적합성 분석 58 2. 수행평가과제에서 평가하는 기능의 적합성 분석 62 C. 수행평가과제의 실제성 측면에 기초한 적합성 분석 66 1. 실생활 맥락성 분석 66 2. 간학문성 분석 71 3. 다차원적 측면 75 V. 요약 및 논의 79 참고문헌 83 [부록] 86 ABSTRACT 91-
