AI 탐지기를 처음 접한 교수들은 대부분 높은 기대감을 가지고 도입을 시작했다. GPTZero, Turnitin, Smodin 등 다양한 AI 탐지기가 텍스트를 분석해 "AI 생성 여부"를 알려준다는 설명은 그동안 표절을 판단하는 데 어려움을 겪어온 교수들에게 매우 매력적으로 다가왔다. 특히 GPT처럼 고도화된 언어 생성 AI의 등장은 교수들이 학생의 글을 ‘의심할 수밖에 없는 상황’으로 몰아넣었고, 이에 따라 AI 탐지기는 평가 보조 도구로 자리 잡기 시작했다.
하지만 실제 수업이나 과제 채점에서 탐지기를 테스트해본 교수들은 “기대와 현실이 달랐다”는 반응을 많이 보였다. 서울 소재 대학교의 사회학과 교수 A씨는 수강생 전원의 에세이를 GPTZero로 분석해봤는데, 고학년 학생들의 글이 의외로 AI 탐지기에서 높은 확률로 ‘AI 생성 텍스트’로 분류됐다는 사실에 충격을 받았다고 전했다. 학생들은 스스로 작성했음을 주장했고, 초안 및 작성 기록도 존재했지만, 탐지기는 일정한 문체와 논리 전개 방식 때문에 ‘기계적’이라고 판정했다. A 교수는 “글을 잘 쓰면 AI로 오해받고, 비문에 가까운 글은 오히려 사람이 쓴 것으로 나오는 아이러니한 상황”이라고 말했다. 이러한 경험은 AI 탐지기의 판단 기준이 사람의 창의성과 논리력마저 ‘AI 특성’으로 오해하는 구조적 문제를 지니고 있음을 보여준다.
AI 탐지기별 사용 후기: 교수들이 말하는 장단점 비교
교수들이 가장 많이 테스트한 AI 탐지기는 GPTZero와 Turnitin이다. GPTZero에 대해 교수 B씨는 “학생 에세이를 한눈에 분석해 색상으로 구분해주고, 의심되는 문단을 명확히 표시해주는 기능이 직관적이라 편리하다”고 평가했다. 하지만 그는 동시에 “결과가 일관되지 않아서 같은 글을 두 번 입력했을 때 판정이 달라지는 경우가 있다”고 지적했다. Turnitin을 사용한 교수 C씨는 “표절 감지와 AI 감지를 동시에 확인할 수 있어 논문이나 리포트 심사에 유용하다”고 말했지만, AI 탐지 점수가 너무 높게 나와 학생과 갈등이 생겼다고 설명했다. 그는 “한 학생이 자필로 작성한 글인데도 Turnitin이 100% AI 작성이라고 판정해 버려 곤혹스러웠다. 그 결과만 놓고 판단하기엔 위험했다”고 털어놨다. 한편 Smodin을 사용한 교수 D씨는 “UI는 간단하고 빠르지만, 결과가 너무 느슨해서 실효성이 떨어진다”고 평가했다. Smodin은 대부분의 글을 ‘혼합 작성’ 또는 ‘사람이 썼을 가능성 있음’으로 분류해, 정밀한 분석에는 적합하지 않았다는 의견이 많았다. 요약하자면, GPTZero는 직관적이지만 불안정성 문제가 있고, Turnitin은 권위적이나 과도한 AI 판정이 문제이며, Smodin은 간편하지만 학술적 신뢰도는 낮다는 것이 교수들의 공통된 평가다.
AI 탐지기 결과 해석과 학생과의 갈등 경험
AI 탐지기를 직접 테스트한 교수들은 대부분 공통적으로 “결과 해석이 어렵다”는 점을 지적한다. 특히 Turnitin의 AI 탐지 기능은 점수는 제시하지만, 어떤 문장에서 어떤 이유로 점수가 높게 나왔는지 설명하지 않는다. 이로 인해 교수는 학생에게 구체적인 피드백을 제공하기 어렵고, 학생은 자신의 글이 왜 AI로 분류됐는지를 전혀 이해하지 못한 채 억울함만 느끼게 된다. 문예창작학과 교수 E씨는 수업 중 학생이 낸 창작 시를 Turnitin에 넣어봤다가, 높은 AI 점수가 나오는 바람에 학생과 심각한 갈등을 겪었다. 학생은 “한 글자도 AI를 쓰지 않았고, 손으로 쓴 초안도 있다”고 주장했으며, 교수도 이를 믿었지만 시스템 결과 앞에서 판단을 유보해야 했다. 결국 교수는 해당 점수를 평가에 반영하지 않기로 했고, 이후 AI 탐지기 사용을 중단했다. 또 다른 교수 F씨는 GPTZero 결과를 바탕으로 일부 문단의 AI 가능성을 학생과 함께 검토했는데, 정작 학생은 “그 문단은 가장 고민하고 쓴 부분이었다”며 반발했다. AI 탐지기가 기술적으로는 정교해졌을지 모르지만, 결과에 대한 해석을 ‘교육적 언어’로 풀어내지 못한다면, 그것은 오히려 불신과 갈등의 도구로 전락하게 된다. 교수들은 탐지기 도입으로 인해 “학생을 믿지 못하는 시스템”으로 강제 이동하고 있는 상황에 대한 깊은 회의감을 드러내고 있다.
AI 탐지기 실사용에 대한 교수들의 결론과 제언
AI 탐지기를 직접 테스트해본 교수들의 최종 결론은 대부분 “참고용으로는 유용하지만, 평가 기준으로 삼기에는 아직 부족하다”는 데 모아진다. 이들은 AI 탐지기의 기술적 한계와 함께, 그 결과를 해석하고 판단하는 데 필요한 교육적 맥락의 부재를 가장 큰 문제로 지적한다. 특히 일부 교수는 “탐지기가 오히려 학생의 글쓰기 역량을 저해한다”고 경고한다. 학생이 AI 탐지 점수를 의식해 문장을 의도적으로 어색하게 쓰거나, 구조를 비논리적으로 바꾸는 일이 실제로 일어나고 있기 때문이다. 이는 평가 도구가 글쓰기 질을 떨어뜨리는 역효과로 작용하고 있음을 보여준다. 교수들은 탐지기를 신뢰하기보다는, 글쓰기 과정을 더 자세히 살피고, 초안과 수정 과정을 함께 평가하는 방식을 제안한다. 일부 대학에서는 아예 ‘AI 사용 자가 보고서’를 함께 제출하도록 하고 있으며, AI 탐지 결과는 참고 수치로만 반영하고 있다. 교육적 관계의 본질은 신뢰이고, 기술은 이 관계를 보조해야 할 뿐 대체할 수는 없다는 것이 많은 교수들의 공통된 견해다.
마지막으로 교수들은 “AI 탐지기는 앞으로도 계속 발전할 것이지만, 그 결과를 어떻게 활용하느냐는 교육자의 철학과 태도에 달려 있다”고 입을 모았다. 기술을 맹신하지 않고, 학문적 성실성과 인간적인 해석력을 함께 가져갈 때 비로소 AI 탐지기의 의미 있는 활용이 가능하다는 것이 현장의 목소리다.
'AI 탐지' 카테고리의 다른 글
AI 탐지기 시대, 논문 표절과 자동 생성의 도덕성은 어떻게 다른가? (0) | 2025.06.30 |
---|---|
인공지능 논문 생성 도구의 발전 속도와 AI 탐지기의 한계 (0) | 2025.06.30 |
연구 부정행위에 대한 새로운 기준이 필요한가? AI 탐지기 시대의 고민 (1) | 2025.06.29 |
AI 탐지기로 인해 생기는 윤리적 문제들: AI 탐지기의 그림자 (1) | 2025.06.29 |
AI 탐지기 신뢰도 실험: 같은 문장에 따라 다른 결과 나오는 이유 (0) | 2025.06.29 |