TEPS/논란

시험 특성 | 시험 안내 | 문항 구성 | 난이도 | 학습법 | 활용도 | 논란 | 개정 전 문항 구성

1. 개요2. 학습 교재의 퀄리티3. 시험 성적 산출 방식에 대한 논란

3.1. 시험 회차별 유불리가 존재하는가?3.2. 문항 반응 이론이 실제로 적용되고 있는가?

3.2.1. TEPS 관리위원회의 입장3.2.2. 의혹의 내용3.2.3. 의혹에 대한 쟁점3.2.4. 현재 상황

4. 성적 환산표에 대한 응시생들의 불만

1. 개요

TEPS의 논란거리를 서술하는 문서이다.

2. 학습 교재의 퀄리티

TEPS는 2016년 이후로 청해와 독해 영역에서 학술적으로 낯선 소재와 특이한 상황에서의 대화 상황을 많이 출제함에 따라서 폭넓은 상황에 대한 이해와 순발력을 테스트하는 경향을 보이고 있다.

그러나 시중에서 판매되는 기출 문제집과 사설 문제집들은 지나치게 난이도가 쉽고 오래된 기출 문제를 수록하거나 지나치게 정형화된 소재가 등장하는 문제들만을 수록했다. 이로 인해 더욱 참신한 소재를 문제화하고 암기와 해석만으로 쉽게 풀리는 문제들을 배제하며, 논리적인 정확성을 평가하는 문제를 통해 순수한 영어 숙련도를 측정하는 2016년 이후의 최신 경향의 TEPS를 준비하기에 부족하다는 비판을 받고 있다.

더군다나 TEPS의 경우 시험 회차마다 출제 경향과 난이도가 물타기를 타기 때문에 불텝스인 회차에서는 시중에서 판매하는 문제집을 풀어도 점수는 오히려 떨어지는 기현상이 나타나기도 한다.

3. 시험 성적 산출 방식에 대한 논란

3.1. 시험 회차별 유불리가 존재하는가?

TEPS는 시험 회차별로 점수 분포가 일정하지 않아 대박달의 회차와 쪽박달의 회차가 극명하게 갈린다.

TEPS의 성적 분포는 그야말로 복불복이다. 시행된 지 20년이 되어가는 시험인데도 출제기관인 서울대학교 언어교육원이 시험 회차마다 난이도를 널뛰기하듯이 조정하고 TEPS 시험의 베일에 휩싸인 성적 산출 방식으로 인해 응시자들의 성적 분포가 시험 회차별로 일정하지 않은 경우가 많다.

이로 인해 공부를 했어도 실제 시험에서 실수 한두개만으로도 자신의 성적이 급격히 떨어지는 상황도 비일비재하다. 게다가 자신이 응시하는 회차에 성적이 잘 나오는 응시생들이 많고 밑으로 깔아주는 응시생들이 적은 경우에는 다른 회차의 시험보다 성적이 낮게 나올 가능성이 높다. 특히 TEPS는 1년 중에 의대, 치대, 약대 입시과 외고 입시의 데드라인이 임박한 시즌인 8월과 9월의 시험 수준이 상당히 높은 편이고 다른 어느 달의 시험보다도 가장 많이 응시한다. 반면, 10월부터 12월 시험의 경우에는 의대, 치대, 약대를 준비하는 수험생들과 외고를 준비하는 수험생들이 이탈하고 이를 감안해서 쉽게 출제되기에 점수 따기가 상당히 쉬워진다.

영어는 괜찮게 하지만 TEPS의 이런 스타일을 싫어하는 사람들 중 일부는 차라리 TOEFL을 보겠다는 극단적인 선택을 하기도 한다.

2017년 2월 18일 (228회) 시험에서 독해 영역이 과도하게 쉽게 출제되어 특정 구간대에 점수 쏠림 현상이 심해지면서 응시자들의 점수 분포가 다른 회차의 시험과는 다른 양상을 보였고, 동점 구간에 있는 응시자들의 점수는 급격하게 떨어지게 되었다. 그로 인해 801점 이상의 점수 분포가 8.17%로 다른 회차보다 많이 줄어들었다. 그 회차에서 예상보다 낮은 점수를 받은 응시자들이 TEPS의 성적 산출 방식에 큰 의문을 제기하게 되는 계기가 되었다. 자세한 내용은 아래 참조.

2017년 4월 2일 (231회) 시험에서 801점 이상의 점수를 받은 응시자 비율이 전례없이 무려 18.24%까지 늘어나게 되었다. 해당 회차의 시험은 응시자들에게 점수를 후하게 준 것이다. 231회 응시자 중에서 평상시에 700점대를 유지했던 사람들이 801점을 넘기는 상황이 속출했고, 그 회차의 시험을 보지 않았던 사람들은 상당히 후회하게 되었다.

3.2. 문항 반응 이론이 실제로 적용되고 있는가?

동일한 영역 내에서 틀린 개수가 같으면 틀린 문제와 상관없이 해당 영역의 점수가 똑같다는 의혹이 제기된 적이 있다.

2017년 2월, TEPS 성적 산출 방식에 대하여 의문이 제기되는 전례없는 사태가 발생했다. TEPS 228회 시험 성적이 발표되었던 날인 2017년 2월 24일, 해커스 홈페이지의 해커스 텝스 자유게시판을 중심으로 TEPS 관리위원회에서 응시자들이 영역별로 틀린 개수만 보고 임의로 점수를 부여한 것이 아니냐는 논란이 대두되었다.

3.2.1. TEPS 관리위원회의 입장

TEPS 관리위원회의 설명에 의하면 원래부터 TEPS는 상대평가 방식으로 성적을 산출했다. 응시자의 맞은 문제와 틀린 문제는 공개하지 않고 영역마다 파트별로 백분위만 공개하고 절대평가와 상대평가 방식을 절충하여 영역별 만점을 백분위에 맞춰서 대략적인 점수를 산출하고 동점자 구간에 따라서 미세하게 ±로 조정된 실제 조정 점수를 부여하는 방식이었다. 그래서 1000점이 아니라 990점이 만점이고 0점이 아니라 10점이 최저점인 것이다. 이는 TOEIC도 마찬가지다.

TEPS 관리위원회에 따르면 TEPS의 성적은 문항 반응 이론을 이용해 계산된다고 한다. TEPS 관리위원회 측에서 TEPS의 채점 방식을 설명한 글에 따르면 TEPS는 문항의 난이도 및 변별도 그리고 영역별 특정 가중치 등을 표준화된 절차에 따라 적용하고 있으며, 측정학적 방법인 동등화를 통해 회차가 다르더라도 동일 점수는 같은 의미를 지니도록 채점되며, 고전 검사 이론에서는 정답을 선택한 문항의 수가 같으면 동일한 점수를 얻지만 문항 반응 이론이 적용된 TEPS에서는 정답문항 수가 같을지라도 각각 다른 점수를 얻을 수 있다고 했다. 즉, 간단히 말해서 사람들이 많이 틀리는 어려운 문제를 틀리는 사람과 적게 틀리는 쉬운 문제를 틀리는 사람은 동일 회차 시험 동일 영역에서 한 문제씩 틀렸더라도 다른 점수를 받을 수 있다는 것이다.

한편, 2014년에 정재헌 TEPS 관리위원회 기획관리실장은 TEPS 성적이 상대평가 방식인 것은 사실이지만 표본 집단이 크기 때문에 어느 한 명의 성적이 나머지 모든 응시자의 성적에 유의미한 영향을 미치는 것은 아니라고 밝힌 바가 있다. #

그러나 이러한 주장에 대한 반례로 의심할 수 있는 의혹이 해커스 커뮤니티에서 제기된 것이다.

3.2.2. 의혹의 내용

그런데 알고 봤더니 동일 영역에서 동일한 개수의 문제를 틀린 모든 사람은 해당 영역에서 동일한 점수를 받은 것으로 드러난 것이다. 상세하게 추론된 점수는 다음과 같다.

제228회 시험 응시자들이 추론한 틀린 개수에 따른 점수 (2017년 2월 18일자)
틀린 개수	청해 영역 총점[1]	독해 영역 총점
0	396	396
1	382	372
2	364	344
3	349	322
4	337	308
5	327	293
6	318	279

또한, 사용자들의 주된 추측에 따르면 각 영역별 점수는 문제를 맞힌 개수에 따른 백분위와 큰 관련이 있는 것으로 보인다. 예를 들어 독해 영역 문제 중 2 문제가 매우 어려워 40개와 39개를 맞힌 사람의 비율은 매우 낮고, 38개를 맞힌 사람의 비율은 압도적으로 높다면 40~38개를 맞힌 사람의 독해 점수는 이론적 만점인 396점에 비해 크게 낮지 않지만 37개를 맞힌 사람의 점수는 폭삭 떨어지게 되는 것이다.

실제로 최초로 논란이 발생한 회차의 독해 영역은 상대적으로 다소 쉽게 출제되었다는 평을 받았고, 이에 따라 문제를 많이 맞힌 사람의 비율이 높아지면서 40개 중에서 한 문제만 틀리더라도 점수가 상당히 빠르게 떨어지는 것으로 드러났다. 396점 만점에 40문제이므로 문제당 평균 9.9점에 해당한다고 볼 수 있지만 실제로는 정답 개수가 40개인 사람과 39개인 사람의 점수 차는 24점, 39개와 38개의 점수 차는 28점, 그 이후로 22, 14, 13점, 이런 식으로 격차가 9.9점보다 훨씬 크고, 그 격차 자체도 일정하지 않은 것으로 보인다. 아무리 상대평가 기준이 적용되었다 해도 문제 당 20점은 기본이고 30점 가까이 빠진다는 것은 굉장히 납득하기 어려운 일이다. 하물며 그것이 고배점 문제여서가 아니라 문항 관련 없이 단순 오답 개수라면 응시생들을 더 납득시키기 어려워진다.

3.2.3. 의혹에 대한 쟁점

이번 논란이 사실이라면 응시자 표본의 실력이 상향평준화될수록 높은 성적을 받는 것이 어려워진다. 다시 말해 각 문항별로 보정된 가중치나 출제과정에서의 변별성 확보 작업보다는 수험표본의 질이 실제 수험자의 성적에 상당한 영향을 미친다는 것인데, 이는 객관적으로 수험자의 어학실력을 변별력 있게 평가할 수 없다는 말이나 다름 아니다. 게다가 이번 논란의 근거가 어디까지나 네티즌들의 가채점 및 추정 자료라는 점을 제외한다면 같은 영역 내에서 틀린 개수가 같아도 틀린 문제가 다르면 해당 영역의 점수가 달라질 수 있다는 점에 대해서 반례가 생겼다고 봐도 무방하다.

TEPS 시험에서 점점 응시자가 감소함에 따라서 표본 집단의 규모가 감소하고 있고 의대, 약대, 로스쿨, 대학원, 편입, 전문연구요원, 외고, 공무원을 준비하는 수험생들만 응시하여 TEPS 응시자들에 대한 표본 집단이 모집단에 대한 대표성을 잃어감에 따라서 모집단에 대한 추정 오류가 발생해 절대평가의 특성이 약화되고 있는 점에서 문항 반응 이론을 통해 응시자들의 성적을 채점한다는 TEPS 관리위원회의 설명이 응시자들 사이에서 쉽게 받아들여지지 못했다. 위원회의 설명을 그대로 대입해보자면, 오히려 토익보다 응시자 집단의 규모가 현저하게 줄어든 지금 텝스의 상황에서 상대평가는 그만큼 결과값의 변동성이 클 수밖에 없다는 것을 스스로 인정하는 꼴이 되어버린다. 이렇게 되면 변동성을 줄이기 위해 문항 반응 이론대로 각 문항마다 가중치의 차등을 주어 변별성을 높이는 방식이 요구되지만, 사실 작은 응시자 표본을 위해 이런 고생을 사서 할 바에 차라리 절대평가로 채점하는 방식이 더욱 합리적이다. 결국 배보다 배꼽이 더 커진 셈이다.

3.2.4. 현재 상황

이후 2018년 5월 12일 시험부터 New TEPS가 적용되었다. 청해 영역은 전체 40문제에 240점 만점, 독해 영역은 전체 35문제에 240점 만점이다. 어휘와 문법은 각각 30문제에 60점 만점이다.

각 문항별 정답률에 기반하여 채점한다는 주관사의 설명대로 이번 의혹이 제기되었던 해커스 텝스 자유게시판에서 1문제를 틀려도 각각 다른 점수를 받았다는 New TEPS 응시생들의 제보가 올라오면서 TEPS 관리위원회의 주장은 다시 사실로 받아들여졌다.

다만, 한 문제당 배점이 거의 비슷했던 Old TEPS와는 달리 New TEPS에서는 널뛰기식으로 편차가 심해졌다. 해당 커뮤니티의 제보에 따르면 독해 영역에서 한 문제당 17점이 감점되었다고 주장하는 네티즌도 있다. 해당 커뮤니티에서는 평균적으로 청해 한 문제당 6~7점, 독해 한 문제당 6~8점 정도의 배점인 것으로 추정하고 있다.

Old TEPS에 비해 New TEPS는 각 영역별로 제시문의 난도가 낮아짐에 따라서 영어에 대한 문해 난도는 확실히 낮아졌고 이에 따라서 변별력은 다소 줄어들었다. 이에 따라 특정 영역의 난이도가 쉬울 경우 한 문제를 틀리면 동점자가 많을 가능성이 높아 감점 폭이 Old TEPS 시절에 비해 더 커질 수밖에 없을 것으로 추정된다. 즉, 문제를 변별력 있게 연구해서 출제할 생각을 안 하고 상대평가를 악용하여 가중치를 가지고 기계적으로 변별력을 맞추려고 하는 상황이 생긴 것이다.

4. 성적 환산표에 대한 응시생들의 불만

TEPS 관리위원회에서 TEPS 성적과 TOEIC 성적 및 TOEFL 성적 간의 점수 환산표를 제공하고 있다. 동일인에게 각 시험을 친 뒤 점수를 제공 받아 통계적 분석을 했다고 설명되어 있다. 이 환산표가 다른 시험과 상관관계가 높다고 되어있는데, 아무래도 후발주자이다 보니 이렇게 환산하면 다른 공신력 있는 시험과 결과가 일치한다고 홍보할 필요가 있긴 하다. 그래서 공식 홈페이지에서 환산표를 제공하는 것으로 보인다.

TEPS 관리위원회와 서울대학교 언어교육원에서 TOEIC, TOEFL과 비교한 점수 산정 방식 중 TEPS의 난이도를 다른 어학 시험보다 편향적으로 조금 높게 선정했다는 논란도 있다. TEPS 관리위원회와 서울대학교 언어교육원이 산정한 점수 환산표에서 TEPS 556점 (New TEPS 301점)은 TOEIC 700점, TOEFL IBT 80점과 동일한 수준으로 환산된다. 반면, 서울시립대학교 편입 전형의 공인영어시험 환산표에서는 TEPS 572점 (New TEPS 309점)을 TOEIC 700점, TOEFL IBT 75점과 동등한 수준으로 간주하고 있다. 2017학년도 서울시립대학교 편입학 모집 요강의 21~23 페이지 (표지 페이지 포함)에 서울시립대학교가 참조하는 점수 환산표가 있다.

7급 공무원 공인영어 성적 기준표에도 TEPS 700점 (New TEPS 386점)이 TOEFL IBT 86점, TOEIC 790점과 동등한 선으로 제시했다는 점에서 서울대학교 언어교육원이 제시한 공인영어 환산표가 신뢰가 가능한지 의구심이 들 수 있다. 즉, TEPS를 실제 출제된 시험 난이도보다 더 어렵다는 듯이 점수를 편향적으로 책정했을 가능성이 있다.

KATUSA 지원 자격을 위한 공인 영어 성적 커트라인도 TOEIC 780점, TEPS 690점 (New TEPS 380점),TOEFL 83점을 동일한 선에서 제시한다. 하지만 서울대와 TEPS 관리위원회에서 제시한 기준과 비교해 보면 TEPS 관리위원회에서 제시한 점수 환산표에서 TEPS 점수가 일플레되었다는 의심이 들 수밖에 없다.

그러나 정작 TEPS 응시생들은 TEPS 점수를 올리는 것이 더 어려운데 언어교육원이 올린 환산표에서는 TEPS 점수를 너무 짜게 환산한다고 불만을 품는다. 2021년 환산표에서는 TEPS의 난이도를 더욱 어려워졌다고 가정하여 다른 시험과 환산 시 TEPS 응시자의 불이익이 더욱 줄어들도록 바뀌었다.

이러한 불만과 논란은 애초에 변별력이 없고 자기 실력보다 점수가 뻥튀기해서 숫자놀음하기 쉬운 시험인 TOEIC을 요령이나 편법이 안먹히서 변별력이 있는 다른 영어 시험의 점수와 비교하려는 데에서 비롯되었다. TOEIC은 영어 실력으로 900점을 넘기는 사람들도 있고 찍기로 900점을 넘기는 사람들도 있는 반면, TEPS 및 TOEFL의 경우에는 요령이 통하지 않아 영어 실력에 비례해서 정직하게 점수가 나온다. TEPS는 또한 특유의 논리력을 요하기 때문에 이러한 류의 시험에 아주 익숙하지 않으면 고득점을 받기 어렵다. 이러한 점을 고려해 볼 때 애당초 TEPS 및 TOEFL 성적과 TOEIC 성적을 정확하게 환산한다는 것은 불가능에 가까운 일이라고 할 수 있다. 즉, TOEIC이 애초에 영어 실력을 측정한다는 목적을 제대로 수행하지 못한다는 것이 문제의 시작점이다. 여기에 어디서나 써먹을 수 있다는 공신력까지 갖추어 굳이 영어 실력을 제대로 측정하는 어려운 시험들을 봐야 할 이유가 사라진 것이다. 결국 TEPS는 토익을 받아주지 않아서 TOEFL과 TEPS 중 선택해야 하거나 아예 TEPS만을 인정해주는데를 지원하는 사람만 보는 시험이 되었다. 서울대와 그외 공인영어시험 성적 반영 학교들의 편입, 서울대 대학원과 치전원 및 로스쿨 입학, 전문연구요원 선발시험 등 이는 텝스의 응시생 표본을 완전히 고인물로 만들어 버렸으며, 이에 따라 학생들은 더더욱 토익으로 몰리고, 악순환이 반복되는 것이다.

[1] 1개와 6개는 사이 점수가 밀려야 한다는 논란이 약간 있다. 즉, 2개가 382고 7개가 318이라는 논란이 아직 남아있지만 문항 관계없이 특정 오답 수에서 해당 점수만 나온다는 논란의 핵심은 동일하다.

TEPS/논란

1. 개요

2. 학습 교재의 퀄리티

3. 시험 성적 산출 방식에 대한 논란

3.1. 시험 회차별 유불리가 존재하는가?

3.2. 문항 반응 이론이 실제로 적용되고 있는가?

3.2.1. TEPS 관리위원회의 입장

3.2.2. 의혹의 내용

3.2.3. 의혹에 대한 쟁점

3.2.4. 현재 상황

4. 성적 환산표에 대한 응시생들의 불만

분류