AI 탐지기 신뢰도 낮음에도 불구하고 대학이 사용하는 이유
생성형 인공지능의 발전과 함께 등장한 AI 탐지기는 글쓰기 환경 전반에 큰 변화를 가져오고 있다. GPTZero, Turnitin, Copyleaks 등 다양한 AI 탐지기가 도입되면서 대학은 학생의 과제나 논문, 리포트를 평가할 때 AI 사용 여부를 검토하는 도구로 이를 활용하고 있다. 하지만 이러한 기술들이 보여주는 결과는 일관되지 않으며, 신뢰도에 대한 논란도 끊이지 않고 있다. 동일한 문장을 여러 번 분석해도 탐지 결과가 매번 달라지거나, 실제 사람이 작성한 글이 AI로 감지되는 오탐 사례가 지속적으로 보고되고 있다. GPTZero는 짧은 문장에서 퍼플렉서티가 낮게 나오는 경향이 있으며, Turnitin의 AI 탐지 점수는 기준이 비공개로 운영되어 평가자가 결과를 해석하기 어렵다는 비판도 있다. Copyleaks의 경우도 한글 텍스트에서는 신뢰성이 떨어지는 것으로 평가된다. 이처럼 현재 상용화된 AI 탐지기들은 기술적으로 불완전하며, 특히 한국어 환경에서는 분석 정확도가 떨어진다는 점이 공통적으로 지적된다. 그럼에도 불구하고 왜 대학은 이처럼 신뢰도가 낮은 도구를 계속해서 교육 현장에 도입하고 있을까. 이는 단순히 기술의 성능 문제를 넘어, 대학이 가진 평가 시스템과 통제 방식, 그리고 책임 분산 구조와 밀접하게 연관되어 있다.
AI 탐지기를 채택하는 대학의 평가 시스템 속 구조적 이유
대학이 AI 탐지기를 적극적으로 사용하는 이유 중 하나는 평가의 객관성과 행정 효율성 확보 때문이다. 교수자는 글의 진위 여부를 판단할 책임을 갖고 있지만, 주관적인 판단은 종종 논란을 일으킬 수 있다. 이때 AI 탐지기의 수치는 외부적으로 보여줄 수 있는 정량적 근거가 되며, 교수자 개인의 판단이 아닌 시스템의 결과로 책임을 전가할 수 있는 장점이 있다. 대학 입장에서도 민원 대응이나 평가 항의 시, AI 탐지 결과를 제시함으로써 대응 부담을 줄일 수 있다. 일부 대학은 Turnitin이나 GPTZero 결과를 평가 시스템에 직접 연동하거나, 일정 비율 이상일 경우 재제출이나 감점 조치를 취하는 규정을 도입하고 있다. 이처럼 탐지기 결과는 판단의 중심이 아닌 도구일지라도, 실무 현장에서는 그것이 평가의 기준처럼 활용된다. 특히 수십 건의 리포트를 짧은 기간에 평가해야 하는 교수자에게 탐지기는 최소한의 선별 기준이 되어주며, 의심 가는 문서만 추가 검토를 통해 심사할 수 있게 해준다. 결국 탐지기의 도입은 정확성보다는 행정 효율성과 시스템 안정성 차원에서 수용되고 있는 셈이다. 이는 대학이 기술의 완벽성을 기대하고 도입한 것이 아니라, 불완전하더라도 일정한 기준을 만들어낼 수 있다는 기대 아래 도입한 것임을 보여준다.
AI 탐지기의 교육적 오용과 학생에게 미치는 영향
AI 탐지기가 평가 기준으로 자리 잡기 시작하면서 학생들은 이 기술에 대해 복합적인 감정을 가지게 되었다. 탐지기의 신뢰도가 낮다는 사실이 알려지면서, 학생들은 결과를 무조건 받아들이기보다 탐지기를 피하거나 회피하려는 전략을 연구하기 시작했다. 대표적으로 GPT로 작성한 글을 QuilBot이나 Paraphraser.io로 리라이팅하고, 구어체를 일부러 삽입해 탐지기를 속이려는 방식이 널리 사용된다. 이 과정에서 글의 원래 의미가 손상되거나, 품질이 오히려 떨어지는 경우도 생긴다. 반면, 실제로 정직하게 작성한 글이 AI 탐지기에 의해 높은 AI 가능성으로 표시되었을 경우 학생은 억울함을 느끼고, 자필 초안, 타이핑 로그, 리서치 노트 등 여러 증거를 제출해야 하는 상황에 놓이기도 한다. 특히 한국어 환경에서 AI 탐지기의 신뢰도가 낮기 때문에, 탐지기 결과는 때로 학문적 평가보다는 기술적 편향에 의한 판단이 될 수 있다. 문제는 교수자 역시 탐지기 결과에 의존하기 시작하면서, AI 가능성 점수가 일정 수준을 넘으면 글의 내용 자체보다 점수 해명이 더 중요한 문제가 되기도 한다는 점이다. 이러한 환경에서는 학생의 글쓰기 역량이나 사고 과정보다는 감지기 회피 기술이 더 중요시되는 왜곡된 교육 구조가 형성될 수 있다. AI 탐지기의 교육적 오용은 평가자와 학생 모두에게 혼란을 야기하며, 오히려 창의성과 정직함을 저해하는 요인이 될 수 있다.
AI 탐지기 사용의 한계 인식과 대안적 평가 체계의 필요
현재 많은 대학은 AI 탐지기의 정확도나 언어적 한계를 인식하고 있음에도 불구하고 이를 계속해서 활용하고 있다. 이는 대학이 AI 기술에 대한 대안을 아직 충분히 마련하지 못했기 때문이며, 탐지기 외에 평가 신뢰도를 보완할 수 있는 수단이 부재하기 때문이다. 그러나 장기적으로 볼 때 탐지기를 중심으로 한 평가 방식은 지속 가능하지 않다. 첫째, 탐지기 결과는 절대적 기준이 아니라 참고 자료로 활용되어야 하며, 평가자는 탐지기 점수 외에도 글의 맥락, 자료 사용 방식, 초안과 최종본의 차이 등을 함께 고려해야 한다. 둘째, 학생에게는 AI 도구 사용에 대한 명확한 기준을 제공하고, 인용 방법과 책임 있는 사용 방식에 대한 교육을 병행해야 한다. 셋째, 평가 방식도 결과 중심에서 과정 중심으로 바뀌어야 한다. 예를 들어, 초안 제출, 수정 기록, 문헌 조사 과정 등을 함께 평가함으로써, 단순히 결과물이 아닌 작성자의 학문적 기여도를 종합적으로 판단할 수 있도록 해야 한다. 넷째, 탐지기의 알고리즘 한계나 업데이트 여부에 대한 정보를 교수자와 학생에게 정기적으로 제공하고, 탐지 결과 해석에 대한 교육도 병행되어야 한다. AI 탐지기는 앞으로도 교육 시스템에서 일정 역할을 하겠지만, 그것이 절대적 판단 기준이 되는 것은 바람직하지 않다. 기술은 교육을 보조하는 수단이지 통제하는 권한을 가져서는 안 되며, 평가의 본질은 여전히 사람의 사고, 정직함, 그리고 창의적 글쓰기에 기반해야 한다.