
AI 탐지기가 본격적으로 교육 및 평가 현장에 도입되면서, 많은 이들이 탐지기 점수가 실제로 AI 사용 여부를 얼마나 정확히 반영하는지에 대해 의문을 제기하고 있다. GPTZero, Turnitin AI, Copyleaks 등의 탐지 도구는 퍼플렉서티, 버스트니스, 언어 모델 확률 등을 기반으로 점수를 산출하며, 해당 점수가 높을수록 AI 작성 가능성이 크다고 판단한다. 하지만 현실에서는 AI를 전혀 사용하지 않은 글이 높은 점수를 받거나, AI로 생성한 문장이 낮은 점수로 판별되는 사례가 반복적으로 발생하고 있다. 이로 인해 AI 탐지기의 점수가 AI 사용 ‘정도’나 ‘비율’을 실질적으로 반영하지 못한다는 주장이 제기되고 있다. 탐지기는 문장의 구조나 언어 사용의 통계적 특성을 기준으로 판단하기 때문에..