dc.description.abstract평가의 타당도와 공정성의 문제는, 직접 측정이 불가능하여 검사(test)라는 도구를 통해 간접 측정해야 하는 인간의 내재적인 속성에 대한 평가에서 특히 강조된다. 특히 평가결과가 미치는 영향력이 큰 고부담검사(high-stake assessment)의 성격을 띠고 있는 대규모 표준화 학업성취도 검사는 학생들의 상위 학교로의 진학에 있어서 중요한 도구로 이용되고 있기 때문에 검사 점수를 해석함에 있어서의 신뢰성과 타당도뿐만 아니라 검사의 공정성은 중요한 문제이다. 평가도구의 공정성과 가장 밀접하게 연관된 측정학적 문제는 차별기능문항(differential item function)이라고 할 수 있다. 대규모 표준화 학업성취도 검사의 목적인 개인들의 순위를 순차적으로 매기는 것에 기본 전제 조건은 검사로부터 추론된 결과들이 모집단 내의 하위 집단 간에 동등하게 타당한 것인지 확신할 수 있어야 한다는 것이고, 그 근거는 차별기능에 대한 분석을 통해 확보될 수 있다는 것이다. 이제까지의 차별기능에 대한 연구는 개별문항 수준에서 이루어졌으나, 개별문항 수준에서의 연구는 차별기능의 원인을 규명함에 있어서 미흡하고, 차별기능의 원인은 개별 문항과 관련된 특성보다는, 여러 문항에 걸친 패턴 안에서 명확하게 규명될 수 있기 때문에 중요한 특성을 공유하는 문항군(item bundle)에서 차별기능을 검사하는 것이 타당하다. 본 연구는 기존의 개별 문항 수준에서 차별기능을 분석하는 방식에서 한 단계 나아가서, 검사의 내용 영역과 행동 영역을 기준으로 문항군을 구성하고, 해당 문항군이 성별에 따라 차별적으로 기능하는지 여부를 확인하고 개별문항 수준에서의 분석과 차별되는 점을 밝히며, 차별기능문항군으로 추출된 문항군의 특성을 분석하였다. 두 학년도의 대규모 표준화 학업성취도의 수리 영역 검사의 실제 자료를 사용하여 성별에 따라 차별적으로 기능하는 영역이 있는지 문항군 수준에서 분석하였다. 이 연구에서 사용된 자료는 2002학년도, 2003학년도에 실시된 대학수학능력시험(이하 대수능)의 수리 영역 중 선다형 24문항으로, 내용 영역은 대수, 해석, 기하, 확률과 통계 영역으로 구분되고, 행동 영역은 계산, 이해, 추론, 문제해결 영역으로 구분된다. 차별기능문항군을 추출하는 데 적용한 방법은 Simultaneous Item Bias Test(SIBTEST) 방법이고, 각 집단의 크기는 SIBTEST에서 가능한 각 집단의 최대 크기인 7,000명씩을 무선표집하였다. 본 연구의 결과는 다음과 같다. 첫째, 2002학년도, 2003학년도 검사의 응답결과를 분석한 결과 두 학년도 모두 남학생 집단의 평균점수는 여학생 집단의 평균점수보다 높게 나타났다. 또한, 고전검사이론과 문항반응이론에 의하여 추정된 문항난이도를 살펴보면, 두 학년도 모두 여학생 집단보다 남학생 집단에게 더 쉽게 기능하는 것으로 나타났으며, 문항변별도의 경우, 두 학년도의 고전검사이론과 문항반응이론에 의한 결과 모두 남학생 집단에서 더 높은 변별력을 나타냈다. 둘째, 성별에 따라 차별적으로 기능하는 문항을 추출한 결과, 2002학년도 검사에서는 2번, 24번의 두 문항이 남학생에게 유리하게 기능하는 문항으로 추출되었고, 2003학년도 검사에서는 2번, 3번, 4번, 6번, 7번, 17번의 여섯 문항이 남학생에게 유리하게 기능하는 문항으로, 16번 한 문항이 여학생에게 유리하게 기능하는 문항으로 추출되었다. 셋째, 내용 영역을 기준으로 문항군을 구성하여 차별기능에 대한 분석을 수행한 결과, 2002학년도 검사에서는 3문항을 포함하고 있는 기하 영역이 남학생에게 유리하게 기능하는 것으로 나타났고 다른 영역은 성별에 따라 통계적으로 유의한 차이는 보이지 않았다. 한편, 2003학년도 검사에서는 10문항을 포함하고 있는 해석 영역이 남학생에게 유리하게 기능하는 영역으로 나타났고, 다른 영역은 성별에 따라 통계적으로 유의한 차이를 보이지 않았다. 넷째, 행동 영역을 기준으로 문항군을 구성하여 차별기능에 대하여 분석한 결과, 계산 영역은 두 학년도 모두 여학생에게 유리하게 기능하는 영역으로 나타났고, 문제해결 영역은 두 학년도 모두 남학생에게 유리하게 기능하는 영역으로 나타났다. 이러한 두 영역에 대한 결과는 선행연구들과 일치하는 결과를 나타내는 반면, 이해 영역의 경우, 2002학년도 검사에서는 남학생에게 유리하게, 2003학년도 검사에서는 여학생에게 유리하게 기능하는 것으로 나타났고, 추론 영역의 경우 반대로 2002학년도 검사에서는 여학생에게 유리하게, 2003학년도 검사에서는 남학생에게 유리한 영역으로 나타났다. 다섯째, 각 영역의 평균점수 차이를 통한 t통계값과 차별기능문항군 추출을 이용한 각 영역의 값은 어떤 차이를 보이는지 살펴보았다. t통계값은 검사가 재고자 하는 특성에 있어서의 두 집단 간의 차이를 나타내는 집단차이(impact)를 보여주는 수리적인 통계치이고, 값은 같은 능력 수준의 피험자들이 어떤 집단에 속하는가에 따른 문항 정답률의 차이를 나타내는 산출값이다. 내용 영역에서 t통계값과 값의 결과에 있어서 차이를 보이는 영역을 살펴보면, 2002학년도 검사에서 대수 영역과 해석 영역의 평균은 남학생이 높고, 남학생과 여학생의 평균차이는 유의한 것으로 나타났다. 그러나 SIBTEST를 통한 분석 결과, 2002학년도 검사에서 대수 영역과 해석 영역은 성별에 따라 다르게 기능하지 않은 것으로 나타났다. 즉, 대수 영역과 해석 영역의 남학생 평균은 여학생 평균보다 통계적으로 유의하게 높지만, 다른 영역의 점수가 동일한 학생들을 비교하였을 때, 해당 영역은 성별에 따라 다르게 기능하지 않는다는 것이다. 행동 영역에서 t통계값과 값의 결과에 있어서 차이를 보이는 영역을 살펴보면, 2002학년도의 추론 영역은 평균 차이에서는 유의한 결과를 나타내지 않았지만, SIBTEST를 통한 값은 -0.139로 여학생에게 유리하게 기능하는 영역으로 나타났다. 이러한 결과를 종합하여 본 연구에서 특히 강조되는 연구결과는, 수리 영역에서의 성별 차이는 감소하는 추세에 있지만, 여전히 성별 차이가 존재하는 영역이 있다는 것이다. 특히, 행동 영역에서 차별기능문항군을 추출한 결과, 계산 영역은 여학생에게, 문제해결 영역은 남학생에게 유리하게 기능하는 영역으로 나타났고, 정확하게 일치하지는 않았으나 인지수준이 복잡해질수록 여학생에게 유리한 영역에서 남학생에게 유리한 영역으로 변하는 것을 확인할 수 있었다. 이것은 성별에 따라 학습 양식(style)에 있어서 차이가 나타나고, 남학생의 자율적 수학 학습 양식은 수학적 지식을 낯설고 익숙하지 않은 문제에 적용하고 일반화하는 검사 상황에 유리하고, 반대로 여학생의 기계적인 학습 양식은 교실에서 배운 규칙이나 알고리즘의 정형화된 사용에 기초를 두는 검사 상황에 유리하다는 선행 연구의 결과와 연결될 수 있다. 차별기능문항군이 존재한다는 것은 문항군 수준에서의 타당도에 문제가 있다는 것을 의미하고, 문항군들로 구성된 검사 수준에서의 타당도를 위협하는 요소가 된다. 따라서 대수능 수리 영역의 출제 단계에서 성별에 따라 다르게 기능하는 문항군이 존재하지 않도록 해야할 것이고, 나아가서 수학 학업성취도에 있어서의 성별 차이를 줄여나갈 수 있도록 교육과정과 교수·학습 과정에 있어서의 변화가 이루어져야 할 것이다. 이와 같이 차별기능에 대한 연구는 타당하고 공정한 평가도구의 개발과 교육과정, 교수·학습 과정에 있어서의 변화에 도움이 되는 정보를 제공할 수 있고, 이를 위해서는 다양한 검사 상황에서의 차별기능에 대한 연구들이 지속적으로 이루어져야 하며 차별기능의 원인을 밝히는 경험적인 연구가 다각도로 이루어져야 할 것이다.;Validity and fairness of evaluation is significantly important when the evaluation is about characteristics immanent in human beings, because characteristics immanent in human beings can be measured not directly but by the means of test. Especially, a high-stake assessment, such a large-scale standard achievement tests requires reliance, validity, and fairness when it comes to analyze scores since those scores are used as a barometer for students to go on to university. Differential item functioning is closely related to fairness of evaluation tools. A precondition of large-scale standard achievement test, whose purpose is to stand students in a queue, is that results deduced from the assessment should be fair to every subgroup within a population. This precondition can be achieved by the analysis regarding differential function. Researches about differential function have been performed at the level of single item up to now; however, this is insufficient. In addition, the cause of differential function can be examined by a pattern which spreads out over several items, rather than by single item. Hence, it is adequate to examine at the level of an item bundle, in which the items share important characteristics. This research, advanced from the process of analyzing differential function by single item, organizes the items into the item bundles with the content domain and the cognitive domain in the test. This also verifies whether related item bundles function differently between the male group and the female group, studies what differentiates this research from the other with single item, and analyze the traits of the items under the differential bundel functioning. Twenty-four multiple-choice items in the mathematics section of 2002 and 2003 College Scholastic Ability Test(CSAT) are used to verify differential function based upon gender. The content domain is composed of algebra, analysis, geometry, probability, and statistics sections, and the cognitive domain consists of calculation, understanding, reasoning, and problem solving sections. SIBTEST(Simultaneous Item Bias Test) is used in order to detect a differential bundle functioning. Each population is 7,000 students, which is the maximum capacity of SIBTEST. The results are as follows; First, on average, the scores of male students tend to be higher than those of female students in both tests. In addition, item difficulty, inferred by Classical Test Theory(CCT) and Item Response Theory(IRT), show that the items are more favorable to male students. In terms of item discrimination, with the same methods, items are more distinguishable among male students. Second, in 2002, it is detected that item 2 and 24 are favorable to male students. In 2003, item 2, 3, 4, 6, and 7 are considered advantageous to male students and item 16 to female students. Third, based upon the analysis about differential function with the content domain, in 2002, the algebra section with three items tends to be favorable to male students, and there is no significant gender difference in the other sections. In 2003, the analysis section with ten items is advantageous to male students, and no significant gender difference is observed in the other sections. Four, based upon the analysis about differential function with the cognitive domain, female students tend to have an advantage in the calculation section both in 2002 and in 2003, and the problem solving section is favorable to male students in both years. These findings are very similar to the results of the previous researches. However, regarding the understanding section, 2002 test is favorable to male students, while 2003 test is favorable to female students. To the contrary, the reasoning section shows that female students have an advantage in 2002 and male students in 2003. Five, T-statistics is a mathematical average score which shows an impact of two different subpopulations. explains how greatly results can vary from one subpopulation to another among equally knowledgeable students. After investigating a possible relation between T-statistics with an average score discrepancy in each section and by using differential bundle functioning in each section, in the content domain, on average, male students score higher than female students in the algebra and analysis section in 2002, and the gap is noteworthy. However, based upon SIBTEST, no differential bundle functioning is found in these two sections. Hence, even though an average score of male students is higher than that of female students, differential bundle functioning does not exist in these two sections. In the cognitive domain, there is no statistical advantage to any of either male students or female students in the reasoning section in 2002, but SIBTEST shows that is -0.139, which means that those questions are favorable to female students. In conclusion, in the mathematics section, there are still some domains which are favorable to only one subpopulation, not both of them, even though frequency is continuously decreasing. Especially, in the cognitive domain, calculation section tends to be favorable to female students and problem solving section to male students. Even if it is not entirely applicable, the more complex the level of human intelligence is, the more advantageous male students seem to have. This is because learning style varies between male students and female students: voluntary learning style of male students in mathematics enables them to adapt mathematical knowledge to unfamiliar items. On the other hand, learning style by rote gives female students an advantage when it comes to use standardized rules and algorithm. If differential bundle functioning exists, it means that validity of the item bundle is questionable, and this leads to question validity of the test itself. Therefore, when mathematical items are set in College Scholastic Ability Test(CSAT), it is important not to have item bundles which function differently based upon gender; at the same time, curricula and instruction methods need to change in order to minimize differences in mathematics achievement performance between male and female students. Researches about differential function can be helpful for developing evaluation methods which are valid and fair and for providing information beneficial to changes in curricula and instruction methods. Therefore, researches about differential function in various evaluation situations and empirical study to reveal the root cause of differential function need to be performed continuously.-
dc.description.tableofcontentsⅠ. 서론 = 1 A. 연구의 필요성 = 1 B. 연구의 목적 = 6 Ⅱ. 이론적 배경 = 7 A. 차별기능문항 (Differential Item Functioning: DIF) = 7 1. 차별기능문항의 정의 = 7 2. 차별기능문항의 종류 = 9 3. 차별기능문항의 추출방법 = 10 B. 차별기능문항군(Differential Bundle Functioning: DBF) = 13 1. 문항군(item bundle)의 개념 = 13 2. 차별기능문항군의 정의 = 14 3. 차별기능문항군의 추출방법 = 16 C. 차별기능에 대한 선행 연구 = 21 1. 차별기능의 추출방법에 대한 연구 = 21 가. 문항 수준에서 차별기능 추출에 대한 연구 = 21 나. 문항군 수준에서의 차별기능 추출에 대한 연구 = 23 2. 차별기능의 원인에 대한 연구 = 26 가. 문항의 형식과 관련된 연구 = 27 나. 문항과 실생활 맥락과의 관련성에 대한 연구 = 29 다. 학습양식의 차이에 관련된 연구 = 30 라. 행동 영역에 따라 추출된 차별기능에 대한 연구 = 32 마. 내용 영역에 따라 추출된 차별기능에 대한 연구 = 34 Ⅲ. 연구방법 = 38 A. 연구자료 = 38 B. 검사도구 = 39 1. 검사도구의 구성 = 39 2. 일차원성 검증 = 43 C. 분석절차 = 43 D. 연구문제 = 45 Ⅳ. 연구결과 = 46 A. 수리 영역 검사 결과의 기술통계 = 46 1. 수리 영역의 고전검사이론 결과 비교 = 46 가. 피험자 점수 기술통계 = 46 나. 문항 모수 추정치 비교 = 47 2. 수리 영역의 문항반응이론 결과 비교 = 48 가. 피험자 모수 추정치 비교 = 48 나. 문항 모수 추정치 비교 = 49 B. 성별에 따라 차별적으로 기능하는 문항군 추출 = 50 1. 성별에 따른 차별기능문항 추출 결과 = 51 2. 성별에 따른 차별기능문항군 추출 결과 = 54 가. 내용 영역에서 차별적으로 기능하는 문항군 추출 = 55 나. 행동 영역에서 차별적으로 기능하는 문항군 추출 = 55 다. 값과 t통계값 비교 = 56 라. 각 능력수준에서 집단별로 추정한 영역별 수행패턴 분석 = 59 마. 차별기능문항군의 측정학적 특성 분석 = 70 Ⅴ. 결론 = 77 A. 결론 및 논의 = 77 B. 연구의 제한점 및 제언 = 80 참고문헌 = 83 부록 = 97 ABSTRACT = 121-
dc.publisher이화여자대학교 대학원-
dc.title차별기능문항군 추출 방법을 활용한 대학수학능력시험 수리 영역에서의 성차 탐색-
