Effects of Nonnative English-Speaking Raters' Oral Proficiency Levels on English Speaking Test Ratings and Rating Processes

비원어민 채점자의 영어 말하기 능숙도 수준이 영어 말하기 채점 결과와 채점 과정에 미치는 영향
대학원 영어교육학과
이화여자대학교 대학원
The involvement of nonnative speakers as assessors is not the norm in language testing simply because it has long been assumed that only native raters are qualified to evaluate nonnative English speakers' English language proficiency without any empirically-justified evidence. When nonnative English speakers are allowed to apply to be raters in a rare situation, they are required to submit proficiency test scores. There is a lack of evidence, however, regarding the validity of cut scores for being selected as a rater. In the last few decades, a fairly large body of literature has existed on rater behaviors in language performance assessment contexts. Rater variability such as raters' different language backgrounds, occupational backgrounds, or rater training has been considered to be one of the important factors that could affect the validity of test score interpretations as well as the reliability of test scores (Bachman, Lynch & Mason, 1995; McNamara, 1996). However, there is little research about the effect of nonnative raters' oral proficiency levels on L2 speaking evaluations. This study aims to investigate if oral proficiency levels of nonnative raters influence their English-speaking ratings, and if there is a threshold level of nonnative rater oral proficiency, which enables them to produce ratings comparable to native raters’ ratings. It also investigates whether there is a specific oral proficiency level of test-takers or a specific scoring criterion that leads native and nonnative raters to award comparable scores. This study also explores how raters arrive at scoring decisions and examines whether nonnative raters' rating processes are similar to those of native raters. Sixteen nonnative English-speaking Korean raters and five native English-speaking raters evaluated 120 English Speaking Proficiency Test speech samples on four analytical scoring criteria: accuracy, fluency, pronunciation and vocabulary. Nonnative English-speaking Korean raters were divided into three groups based on their speaking proficiency scores: NNES 1 consisted of low-intermediate level nonnative raters, NNES 2 contained intermediate level nonnative raters, and NNES 3 included advanced-level nonnative raters. The English-speaking samples also included six different proficiency levels of Korean test-takers. This study utilized multivariate generalizability analyses to estimate the consistency of raters’ ratings, and one-way multivariate analyses of variance (MANOVA) to investigate if the raters' ratings are associated with raters' language backgrounds and raters' oral proficiency levels in relation to test-takers' oral proficiency levels and scoring criteria. The ratings awarded by the three nonnative groups of raters were respectively compared with those given by NES, the native rater group. This study also incorporated a qualitative approach through the think-aloud protocols to investigate the raters’ rating processes, and interview data to gather information about any perceived difficulties while evaluating L2 speakers' English-speaking abilities. As for rater consistency, the dependability estimates for the D-study design using the original conditions indicated that there were moderate high to high dependability indices for all four rater groups, which showed that all four rater groups awarded scores consistently within each group. The results of the MANOVA showed that there were significant differences among the four rater groups in their English speech ratings. NNES 1 produced significantly different scores from the NES across all six levels. On the other hand, NNES 2 produced comparable ratings to the NES ratings and NNES 3 produced scores partially similar to the NES. As NNES 3 evaluated higher level test-takers, they produced more comparable scores to the NES especially on fluency and pronunciation than did they lower level test-takers. The verbal protocol analysis showed that the raters' rating processes differed depending on test-takers' levels and scoring criteria. When evaluating the low level test-takers, raters from all four groups appeared to utilize the scale descriptors while making scoring decisions. However, when evaluating intermediate to high level test-takers, different rating patterns were observed across scoring criteria. During accuracy and vocabulary assessment, distinct rating patterns emerged for nonnative rater groups: making a judgment with partial lack of comprehension of the speaker's responses and making a judgment with uncertainty. Among nonnative rater groups, NNES 1 showed relatively more difficulties in understanding the high level test-takers' responses than NNESs 2 and 3. NNES 1 sometimes awarded scores based on the misunderstandings of the test-taker's response. When assessing fluency and pronunciation of high test-taker levels, raters from all groups tended to devote their attention to global impressions or they were likely to compare test-takers with others. A tendency to misapply the rating scales and descriptors was also observed within nonnative rater groups. The findings showed that nonnative raters' oral proficiency levels could affect their English speaking evaluations. The results suggest that there is a possibility that the more proficient nonnative English speaking raters are, the more likely they produce comparable ratings to native raters given that they had enough rater training with a detailed scoring rubric. Therefore, it is inappropriate to simply assume that nonnative speakers cannot score reliably without giving an opportunity them to work as a rater. The results of this study also suggest that there may be specific scoring criteria for which nonnative raters are able to produce comparable ratings to native raters' ratings; specifically fluency and pronunciation. This study also discusses the validity of native norms in language performance tests, possible forms of collaboration between native and nonnative raters in evaluations, as well as the procedures for establishing an oral proficiency threshold level for nonnative raters.;지난 수십 년간 언어 수행 평가에서 채점자의 특성이 채점결과에 미치는 영향에 대한 연구가 활발하게 이루어져왔다. 채점자들의 특성은 주로 채점자들이 원어민과 비원어민(Fayer & Krasinski, 1987; Galloway, 1980; Kim, 2006; Kim, 2009; Kobayashi, 1992; Kobayashi & Rinnert, 1996; Hinkel, 1994; Takashima, 1987)인 경우, 직업적인 배경(Brown, 1995; Shohamy, Gordon & Kraemer, 1992)이 다른 채점자인 경우, 채점 훈련(Lumley & McNamara 1995; Weigle, 1994)을 받은 채점자와 그렇지 않은 채점자가 채점한 경우 채점 결과에 차이가 있는지에 대한 연구들이 많이 이루어져 왔다. 이전 연구에서는 비원어민 채점자가 원어민 채점자와 다르게 혹은 비슷하게 채점하는지에 관심은 많았지만, 비원어민 채점자의 영어 말하기 능숙도가 영어 말하기 채점 결과에 어떤 영향을 미치는지에 대한 고려는 거의 없었다. 비원어민 채점자의 능숙도가 채점자의 자격 요건의 하나로서 채점 결과에 영향을 미칠 수 있는 요인이 될 수 있기 때문에 이에 대한 연구가 필요하다. 본 논문에서는 비원어민 말하기 능숙도 수준이 영어 말하기 채점결과에 어떤 영향을 미치는지, 비원어민 채점자가 원어민 채점자와 비슷하게 채점할 수 있는 최소 문지방 말하기 능숙도 수준이 있는지 조사하였다. 이와 아울러 비원어민 채점자가 채점이 가능한 특정 수험자 말하기 능숙도 레벨과 특정 채점 영역이 있는지에 대해서도 조사하였다. 이 연구에서는 총 21명의 채점자가 참여하였다. 그 중 16명은 한국인 채점자 나머지 5명은 영어권 국가출신(미국, 캐나다, 호주)의 원어민 채점자이다. 한국인 채점자들은 ESPT 영어 말하기 시험을 보고 시험 성적에 따라 세 집단으로 나뉘었다: 비원어민 채점자 집단 1, 비원어민 채점자 집단 2, 비원어민 채점자 집단 3. 각 집단의 채점자들은 120명 수험자 영어 말하기 샘플을 정확성, 단어, 유창성과 발음 4가지 영역에 따라 채점하였다. 120명의 영어 말하기 샘플은 ESPT 사전 시험 성적에 따라 6 레벨로 나뉘어져 있었다. 모든 채점자들은 채점자 훈련을 받고 각자 120명을 채점하였다. 21명의 전체 채점자 중 16명의 채점자는 채점한 후에 연구자와 만나 사고기술 기법을 사용하여 10명의 수험자의 답변을 하나씩 듣고 채점하는 과정을 기술 하였고 인터뷰도 하였다. 수집된 자료는 SPSS win 17.0 프로그램을 사용하여 수험자 레벨에 따라 다변량분석을 실시하였으며 채점자들의 집단별 채점 일관성을 알아보기 위해 엠제노바(m-GENOVA) 프로그램을 이용하여 의존도(dependability)를 계산하였다. 채점결과, 먼저 각 집단의 의존도를 살펴보면 채점자 네 집단 모두 의존도가 높은 편이지만, 원어민 집단의 의존도가 각 영역에서 가장 높았으며 비원어민 집단에서는 비원어민 채점자 집단 2가 높았다. 다변량 분석으로 통해 영어 말하기 능숙도가 채점 결과에 유의미하게 영향을 주는지 알아본 결과 모든 수험자 레벨에서 유의미한 결과가 나타났다. 영어 말하기 수준이 상대적으로 낮은 비원민 채점자 집단 1이 원어민 채점자 집단과 모든 수험자 레벨에서 거의 모든 채점 영역에서 유의미하게 차이가 났다. 이와는 달리 비원어민 채점자 집단 2는 원어민 채점자 집단과 모든 수험자 레벨에서 거의 모든 영역에서 비슷하게 채점하였다. 반면, 영어말하기 수준이 가장 높은 채점자 집단 3은 원어민 채점자 집단과 채점결과가 수험자의 수준에 따라 차이가 났다. 수험자 수준이 낮을수록 원어민 채점자 집단과 모든 채점 영역에서 채점결과가 다르게 나타났으며, 영어 말하기 수준이 높은 수험자를 채점할 경우 정확성과 단어에서는 원어민 채점자과 유의미하게 다르게 채점하는 것을 알 수 있었다. 사고 기술기법을 통해서 비원어민 채점자 집단과 원어민 채점자 집단이 채점하는 과정이 수험자 영어 말하기 수준에 따라 채점 영역에 따라 비슷한지를 알아보았다. 모든 채점자 집단에서 공통적으로 나타난 채점 과정의 특징은 수험자 레벨에 상관없이 채점할 때 채점 기준에 따라 채점을 하는 경향이 관찰 되었다. 특히 수험자 레벨이 낮은 경우 채점자들은 채점 기준을 잘 활용하는, 반면 높은 레벨의 수험자를 채점할 경우 여러 채점 전략들이 사용되었다. 특히, 비원어민 채점자들이 높은 레벨 수험자들의 정확성과 단어를 채점할 때 비원어민 채점자들의 언어적 능력이 채점 점수에 영향을 주는 것으로 관찰되었다. 특히 비원어민 채점자 집단 1, 2 는 말하기 능숙도가 높은 채점자들을 채점할 때 부분적으로 수험자의 답변을 잘 알아듣지 못하는 경우와 알아들었다 하더라도 점수를 주는 과정에서 판단의 불확실성을 드러냈다. 또한 수험자 레벨이 높은 샘플의 유창성과 발음을 채점할 경우, 모든 집단의 채점자들은 전체적인 인상에 근거해서 채점하는 것이 관찰 되었다. 이는 원어민 채점자들의 채점 과정에서도 종종 나타났다. 이와 아울러, 다른 연구에서도 관찰된 채점자들의 채점 전략들도 본 연구에서도 볼 수 있었다. 예를 들어, 채점 기준을 잘 못 적용해서 점수를 주는 경우, 채점 기준보다는 다른 특징에 근거해서 점수를 주는 경우, 혹은 자신만의 전략을 사용하여 채점을 주는 경우 등이다. 이런 채점 전략들은 비원어민 채점자들의 언어적인 능숙도의 영향이라기보다는 두 시간 정도 진행되었던 짧은 채점자 훈련이나 채점자들이 갖고 있는 가르친 경험 혹은 배경 지식에 그 원인이 있을 가능성도 배제 할 수 없다. 사고 기술기법을 통해 알 수 있었던 것은 비원어민 채점하는 과정이 유창성에서 가장 비슷했으며, 수험자 수준이 높은 레벨을 채점할 때는 정확성과 단어 채점하는 과정이 원어민 채점자와 다르게 나타나는 것으로 보아 어느 정도 양적 결과를 설명해 주었다. 다만, 낮은 레벨에서 채점하는 과정이 비슷했음에도 불구하고 정확성, 단어, 발음에서 채점 점수 차이가 난 것에 대한 이유를 알기 힘들었다. 그 만큼 채점이라는 것이 복잡한 과정이며 여러 요소에 의해 영향을 받는 다는 것을 알 수 있었다. 한편, 인터뷰 결과로 비원어민 채점자들은 수험자 수준이 아주 낮거나 아주 높을 때 채점이 어렵지 않지만, 수험자 레벨이 중간 정도에 있는 경우 채점하는데 좀 더 어려움을 느끼며, 유창성과 발음을 채점할 때 보다, 상대적으로 정확성과 단어를 채점할 때 어려움을 좀 더 느끼게 된다고 밝혔다. 또한, 비원어민 채점자들은 채점 기준이 좀 더 명확하고 상세화 되어야 한다고 했으며, 채점훈련이 좀 더 필요하다고 보고했다. 본 연구를 종합해 보면, 비원어민 채점자의 영어 말하기 능숙도 수준이 말하기 평가 결과에 영향을 미치며, 채점하는 과정을 살펴 본 결과 정확성과 단어 점수에 영향을 주는 것으로 나타났다. 비원어민 채점자를 뽑을 때 언어적 능숙도를 하나의 변인으로 고려해야 하며, 사고기술기법과 같은 방법으로 채점하는 과정을 통해 채점기준을 정확하게 이해했는지, 채점 훈련이 좀 더 필요한지를 살펴보아야 한다. 이 연구에서 시사점은 비원어민 채점자들도 영어 능숙도가 어느 정도 될 경우에는 원어민 채점자만큼 채점 할 수 있는 영역이 있다는 것이다. 본 연구에서는 채점 할 수 있는 영역이 유창성과 발음인 것으로 나타났다. 이는 채점 영역별로 원어민 채점자와 비원어민 채점자가 분담하여 채점하는 것도 대안이 될 수 있다. 이 연구에서 시사하는 바는 비원어민 채점자들도 원어민 채점자들처럼 동등하게 채점 기회가 주어지고, 장기간의 채점 훈련이 주어지며, 비원어민에게 도움을 줄 수 있는 채점 기준이 주어질 경우 채점할 수 있는 영역과 채점가능한 수험자 레벨이 좀 더 확대 될 것이다. 한편, 비원어민 채점자가 원어민 채점자와 비슷하게 채점하기 위한 영어 말하기 최소 문지방 수준이 있는지 알아 본 결과, 비원어민 채점자의 최소 문지방 수준을 정하기는 간단한 문제가 아니었다. 하지만, 영어 말하기 수준이 높을수록 장기간의 채점훈련을 통해 채점을 잘 할 수 있는 가능성이 있다는 것을 시사한다.
일반대학원 > 영어교육학과 > Theses_Ph.D
