AI 탐지

AI 탐지기 기준의 일관성 : 동일 문장, 다른 결과의 이유

yanjicci 2025. 8. 6. 07:23

AI 탐지기 기준은 일관성

AI 탐지기가 교육 현장에서 본격적으로 도입되면서, 기술적 기준의 일관성 문제가 심각하게 대두되고 있다. 대표적인 감지기인 Turnitin, GPTZero, Copyleaks 등은 각기 다른 알고리즘을 기반으로 동작하며, 동일한 글을 입력해도 전혀 다른 감지 결과를 내놓는 경우가 적지 않다. 예를 들어 한 학생이 작성한 논문 초록을 Turnitin에서는 ‘AI 가능성 85%’로 판단했지만, GPTZero는 ‘Mostly human’이라는 판정을 내리는 식이다. 이처럼 동일한 입력 문장에 대해 감지기별 결과가 극단적으로 갈리는 상황은 교육 평가에 혼선을 초래하며, 학습자에게 불필요한 혼란과 심리적 압박을 가중시키고 있다. 문제는 각 감지기의 판별 기준과 알고리즘 구조가 대부분 비공개라는 점이다. 사용자는 점수가 어떤 요소에 의해 결정됐는지, 어떤 기준이 AI스러운 문장으로 분류되는지를 알 수 없다는 점이 큰 문제이다. 감지기의 신뢰도가 교육적 도구로서 기능하려면, 동일 문장에 대해 감지기 간 결과 편차가 최소화돼야 하며, 그 결과는 예측 가능해야 한다. 그러나 현재는 같은 문장을 여러 감지기에 돌려보고 ‘덜 위험한’ 감지 결과를 선택하는 것이 현실이다. 이는 평가 공정성은 물론, 교육적 진정성까지 위협하는 구조다.

감지기 알고리즘 차이가 만드는 판단 기준의 불안정성

감지기의 결과가 감정적이거나 주관적인 것이 아니라면, 그 기준은 어떤 알고리즘에서 비롯되는지 설명 가능해야 한다. 하지만 현실은 다르다. Turnitin은 자체적인 문장 유창성 판단 지표를 사용하며, GPTZero는 퍼플렉서티와 버스트니스라는 두 가지 수학적 계산 지표에 근거해 판단한다. Copyleaks는 문장 패턴의 반복성과 문맥 내 일관성을 중점적으로 분석하며, 다른 감지기들은 AI 모델 학습 데이터셋과 비교해 유사도를 판단한다. 이처럼 감지기마다 감지 방식이 다르기 때문에, 동일 문장도 다른 방식으로 분석되고, 감지 결과도 그에 따라 달라진다. 예를 들어 GPTZero는 글 전체의 통계적 일관성을 중시해 단정적인 문장 구조를 ‘AI 의심’으로 간주할 수 있지만, Copyleaks는 표현의 창의성 여부를 더 비중 있게 판단할 수 있다. 이는 곧 글쓰기 스타일, 학문 분야, 문체에 따라 감지기별로 편향된 결과를 낳을 수 있다는 의미다. 특히 반복적인 기술 문서나 공식 보고서처럼 정형화된 문장을 자주 사용하는 경우, 통계 기반 감지기들은 높은 AI 가능성을 산출하기 쉽다. 그러나 그것이 실제로 AI가 작성한 글이라는 증거는 아니다. 따라서 감지기의 수치는 그 자체로 절대 기준이 될 수 없으며, 교육자는 감지기 간 결과 차이를 인식하고, 기술이 가진 해석의 차이를 교육적 판단에 반영할 수 있어야 한다.

평가 기준으로 감지기를 사용할 수 없는 구조적 한계

AI 탐지기의 감지 결과가 서로 다르다는 것은 단순한 기술적 차이를 넘어서, 평가 기준으로 감지기를 활용하는 것 자체에 구조적 한계가 있음을 보여주고 있다. 교육 현장에서 감지기를 도입하는 이유는 공정한 평가, 부정행위 방지, 그리고 객관적 기준 마련에 있다. 하지만 동일 문장에 대해 각 감지기가 내리는 판단이 다르다면, 학생들은 어떤 기준에 따라 평가받는 것인지 알 수 없고, 교수자 또한 무엇을 근거로 판단해야 하는지 혼란을 겪게 된다. 감지기마다 ‘AI 가능성’이라는 결과를 도출하는 방식이 다르고, 기준 역시 공개되어 있지 않기 때문에, 점수가 높다고 해서 반드시 AI로 작성됐다는 확신도 없다. 더욱이, 한 감지기에서 ‘AI 판정’이 나온 글이 다른 감지기에서는 ‘인간 작성’으로 판단될 수 있다는 점은, 감지기의 결과가 정량적 수치처럼 보여도 실제로는 해석 가능한 지표에 불과하다는 사실을 드러낸다. 이런 상황에서 교수자가 감지 결과만을 기준으로 학생에게 감점이나 징계를 내리는 것은 학문적 판단이라기보다 기술적 기계 해석에 교육 권한을 넘기는 일이다. 결국 감지기는 평가 보조 도구일 수는 있어도, 절대적인 판별 도구로 기능할 수 없으며, 이를 판단 기준으로 삼기 위해서는 적어도 결과 해석의 기준이 일관되고 예측 가능해야 한다.

교육기관과 교수자의 대응 방식이 감지기 신뢰도에 미치는 영향

AI 탐지기의 결과 해석은 결국 그것을 받아들이는 사람, 즉 교육자와 제도 운영자에 따라 달라진다. 감지기의 결과가 신뢰를 얻기 위해서는 단지 수치가 아니라, 그 수치가 어떤 판단 논리에 기반하고 있으며, 어떤 상황에서 해석이 필요한지를 함께 안내해야 한다. 따라서 교육기관은 감지기를 무비판적으로 도입할 것이 아니라, 감지기 간 편차와 알고리즘 차이에 대한 내부 기준을 마련하고, 교수자에게는 해석 기준을 교육해야 한다. 예컨대 “GPTZero에서 AI 가능성이 높게 나왔다”는 이유만으로 학생의 과제를 무효 처리하는 것이 아니라, 해당 글의 스타일, 작성 과정, 참고자료 사용 여부 등을 함께 고려하는 종합적 판단을 요청해야 한다. 교수자는 감지기의 결과를 점검하고, 상황에 따라 감지기 간 비교나 보완적인 평가 방법을 함께 활용해야 하며, 평가 전 사전 안내를 통해 학생에게 감지기의 원리와 반영 방식도 충분히 설명해야 한다. 특히 복수 감지기를 사용하여 비교 평가하거나, 결과 수치에 절대적 의미를 부여하지 않겠다는 정책을 명확히 해두는 것도 학생의 혼란을 줄이는 데 도움이 된다. 계속해서 감지기 기술은 진화하고 있지만, 그것을 실제 평가에 도입할 때는 기술을 해석하고 조율할 수 있는 인간의 판단력이 반드시 개입돼야 한다. 그 판단을 기준으로 제도화가 이루어질 때, 감지기는 보조 기술로서의 가치와 교육적 유용성을 동시에 갖출 수 있다.