AI 탐지

Turnitin의 AI 탐지 알고리즘 구조와 논란 정리

yanjicci 2025. 6. 26. 06:34

생성형 AI의 급속한 발전으로 인해 전 세계 대학과 교육기관은 새로운 문제에 직면했다. AI가 생성한 글을 기존 표절 감지기로 감지할 수 없다는 사실이 알려지면서, Turnitin을 비롯한 대표적 표절 검출 시스템들은 AI 탐지 기능을 새롭게 도입하기 시작했다. 특히 Turnitin은 ‘AI Writing Detection’이라는 기능을 통해 GPT 기반의 글을 탐지할 수 있다고 홍보하고 있으며, 이를 근거로 많은 대학이 이를 학문적 부정행위 감별 도구로 채택하고 있다.

 

Turnitin의 AI 탐지 알고리즘에 대한 정리

 

하지만 실제 Turnitin의 AI 탐지 기능은 불투명한 알고리즘 구조와 과도한 판정으로 인해 상당한 비판을 받고 있다. 사람이 쓴 글을 AI가 썼다고 오인하는 사례, 반대로 GPT로 생성된 글이 감지되지 않는 사례 등이 동시에 보고되고 있으며, 이에 대한 명확한 기술적 설명은 공개되지 않고 있다. 이 글에서는 Turnitin의 AI 탐지 알고리즘이 작동하는 방식과, 그 과정에서 발생한 문제 및 학계의 반응을 객관적으로 정리해보고자 한다.

Turnitin의 AI 탐지 알고리즘은 어떻게 작동하는가?

Turnitin은 2023년부터 ‘AI Writing Detection’ 기능을 정식으로 도입했다. 이 기능은 주로 문장의 언어 생성 확률, 형식적 일관성, 문장 구조의 반복성 등을 기반으로 판단한다. Turnitin 측은 공식적으로 이 알고리즘이 GPT-3, GPT-3.5, GPT-4 모델에서 생성된 글을 감지할 수 있다고 밝혔다. 알고리즘은 텍스트를 문장 단위로 분해한 뒤, 각 문장이 ‘AI 생성일 가능성’을 0~100%로 계산하고, 이를 종합해 전체 문서에 대한 ‘AI Score’를 제공한다.

하지만 이 감지 방식은 기술적으로 ‘폐쇄형 모델’에 기반하고 있어, 외부에서 검증이 불가능하다. 또한 GPT와 같은 생성형 AI는 훈련 과정에서 실제 사람의 문체와 문법적 특징을 흡수하고 모방하기 때문에, 단순한 언어 확률 분석만으로는 명확한 판단이 어렵다. Turnitin은 AI Score가 높은 경우에도 이를 부정행위로 단정하지 말고 ‘참고용’으로 사용하라고 안내하고 있으나, 실제 대학 현장에서는 이 점을 무시하고 징계나 감점에 활용하는 경우도 많다. 결과적으로 이 알고리즘의 구조는 ‘불투명성’이라는 심각한 문제를 안고 있다.

Turnitin 탐지기의 오답률과 실제 논란 사례들

Turnitin의 AI 탐지 기능은 오답률(False Positive Rate)이 높다는 지적을 꾸준히 받아왔다. 2023년 미국의 한 고등교육 연구소가 실시한 실험에 따르면, 인간이 쓴 글 중 약 20~30%가 Turnitin에서 ‘AI 생성 가능성 있음’이라는 경고를 받았다. 실제로 한 미국 대학에서는 대학원생이 직접 쓴 논문 초안이 85% AI 생성물로 판정돼 심사에서 탈락하는 사건이 발생했으며, 이후 언론 보도로 논란이 커지자 해당 대학은 뒤늦게 오류를 인정하고 입장을 번복한 사례도 있다.

국내 대학에서도 비슷한 일이 벌어지고 있다. 2024년 초, 한 사립대학에서는 에세이 과제를 제출한 학생 3명이 Turnitin AI 탐지 기능에 의해 ‘AI 사용 의심’ 판정을 받고 경고 조치를 받았으나, 이후 조사에서 학생들이 모두 직접 글을 작성한 것으로 드러났다. 이와 같은 사례는 Turnitin이 제공하는 점수가 기술적 정확성보다는 확률적 추정에 불과하다는 점을 시사한다. 더불어 사용자에게 점수 해석에 대한 충분한 정보 없이 ‘숫자만 제시’하는 방식은 혼란과 오판을 부르는 근본적 문제라고 볼 수 있다.

기술적 한계와 제도적 오남용의 위험성

Turnitin의 AI 탐지 기술은 본질적으로 생성형 AI의 진화 속도를 따라가지 못하고 있다. GPT는 매년 새로운 모델이 등장하며 언어 구조, 문맥 구성, 의미 전달력 측면에서 인간을 넘어서는 수준으로 발전 중이다. 반면, Turnitin의 탐지기는 일정한 문체 패턴과 단어 사용 빈도를 중심으로 분석하는 구조라, 최신 GPT 모델의 변형된 문장 생성 방식을 정확히 감지하기 어렵다. 예를 들어, GPT-4로 작성된 글을 사람이 문장 순서만 바꾸거나, 일부 표현만 수정하면 AI Score가 10% 이하로 떨어지는 사례도 있다.

더 큰 문제는 이 기술을 ‘절대적인 평가 기준’으로 삼는 대학들의 태도다. Turnitin 측은 AI Score가 단순 참고 수치에 불과하다고 명시하고 있음에도, 교육기관들은 이를 근거로 징계, 감점, 평가 탈락 등의 조치를 취하고 있다. 이는 기술의 한계를 고려하지 않은 일방적 적용이며, 학생에게는 심각한 불이익을 초래할 수 있다. 특히 대학이 공식적인 검증 절차 없이 Turnitin 점수를 곧이곧대로 받아들이는 행태는 ‘정책적 오남용’이라는 비판을 피하기 어렵다.

AI 탐지 기술의 미래와 Turnitin이 나아가야 할 방향

Turnitin은 앞으로도 AI 탐지 기능을 강화하겠다고 밝히고 있으나, 그 이전에 필요한 것은 ‘정확성’과 ‘투명성’이다. 현재의 알고리즘은 학문적 정직성을 판단할 수 있는 수준에 도달하지 못했으며, 그 결과는 기술적 오차가 아닌 인간의 삶과 명예에 직결되고 있다. 더불어 교육기관 역시 AI 탐지 기술을 맹목적으로 수용하기보다, 기술의 한계를 이해하고 학습자의 권리를 존중하는 방향으로 접근해야 한다.

궁극적으로 Turnitin이 신뢰받기 위해서는 몇 가지 과제가 있다. 첫째, 탐지 알고리즘의 핵심 작동 원리를 외부 전문가와 공유하고, 투명한 평가 기준을 마련해야 한다. 둘째, 학생이 이의를 제기할 수 있는 재검토 절차를 공식화하고, AI Score에 따른 단순 징계가 아닌 맥락 중심의 판단 시스템을 도입해야 한다. 마지막으로, AI 활용의 경계와 가능성을 가르치는 윤리 교육이 병행되어야 한다. AI 시대의 학문은 감시보다 신뢰와 소통으로 이루어져야 하며, 그 출발점은 오히려 기술 그 자체가 아닌, 기술을 어떻게 사용할 것인가에 대한 교육적 철학에서 출발해야 한다.