AI 탐지

ChatGPT로 쓴 논문 요약문, AI 탐지기에 걸릴 확률은?

yanjicci 2025. 7. 3. 00:16

AI 탐지기에 걸릴 확률?

 

생성형 인공지능이 빠르게 확산되면서, 대학 내 리포트와 논문 제출 방식에도 많은 변화가 일어나고 있다. 특히 논문 본문보다는 논문 요약문(abstract)을 대상으로 한 AI 탐지기 활용 사례가 눈에 띄게 증가하고 있다. 논문 요약문은 논문의 핵심 개념, 연구 목적, 방법, 결과를 간결하게 정리한 부분으로, 전체 연구의 방향성과 창의성을 압축해서 보여주는 역할을 하기 때문에, 심사자 입장에서는 해당 글의 작성 주체가 누구인지 판단하기에 매우 적합한 영역이다. 그동안 요약문은 비교적 가볍게 평가되는 경우가 많았지만, ChatGPT의 등장 이후, 단 몇 초 만에 완성도 높은 요약문이 생성될 수 있게 되면서, 많은 대학이 이 부분에 AI 탐지기를 적용하기 시작했다. 실제로 수도권의 A대학은 석사논문 요약문 제출 시 GPTZero 결과 스크린샷을 첨부하도록 규정했고, 지방 국립대 B대학도 요약문을 별도로 Turnitin AI 탐지기에 입력해 생성률 수치를 기록한 뒤 평가에 반영하고 있다.

이러한 흐름은 단순한 감시 목적이라기보다, 논문 본문은 표절 탐지기가 충분히 작동할 수 있지만, 요약문은 워낙 짧고 압축된 글이라 표절 여부보다는 작성자의 사고력과 AI 의존 여부를 판단하는 보조 장치로 AI 탐지기를 활용하는 방향으로 나타나고 있다. 특히 요약문은 전체 글과 비교해 AI 탐지기의 감지 성공률이 높은 편인데, 이는 문장 구조가 정형화되어 있고, 단어 선택이 반복되며, 퍼플렉서티(perplexity)가 일정한 패턴을 가지는 특성 때문이다. 교수 입장에서 요약문은 본문보다 더 정돈되어 있는 경우 오히려 ‘AI 티가 난다’고 느끼는 경우가 많고, 실제로 감지기 결과도 그런 경향을 반영하고 있다.

요약문에 AI 탐지기를 적용하는 흐름은 점차 확대되고 있으며, 앞으로는 단순한 보조 도구를 넘어서 평가 기준의 핵심 척도로 자리 잡을 가능성도 존재한다. 특히 요약문은 표절 탐지로는 감별이 어려워 AI 탐지기가 유일한 판단 수단이 될 수 있기 때문에, 요약문 작성 시에도 AI 탐지기를 의식한 전략적 글쓰기가 필수가 되어가는 추세다.

ChatGPT가 작성한 요약문이 AI 탐지기에 자주 걸리는 구조적 이유

ChatGPT는 논문 요약문을 생성할 때 높은 문법 정확도와 일관된 문체를 사용한다. 이 점은 일반적으로 ‘잘 쓰인 글’이라는 인상을 주지만, AI 탐지기 입장에서는 오히려 ‘너무 정제된 문장’으로 인식되어 AI 생성 가능성을 높게 평가하는 근거가 된다. 특히 GPTZero는 퍼플렉서티와 버스트니스라는 두 가지 지표를 중심으로 판단을 내리는데, 요약문이 지나치게 간결하고 문장이 길이별로 균일한 경우, 낮은 퍼플렉서티 값이 나오고, 이는 곧 AI 작성으로 인식된다. Turnitin 역시 요약문 내에서 반복되는 어휘와 구조적 대칭성을 분석해 일정 점수 이상이면 자동으로 AI 생성으로 간주한다.

문제는 실제 사람이 쓴 요약문이라고 해도, 작성자가 문법에 유의하고 논리적인 구조를 의식적으로 갖췄을 경우, AI 탐지기의 판별 기준과 매우 유사해져 감지에 걸릴 수 있다는 점이다. 반면 ChatGPT로 작성한 요약문이라 하더라도, 문체를 의도적으로 인간처럼 흐트러뜨리거나, 구어체를 일부 섞어 표현을 바꾸면 감지기의 AI 판별 가능성이 낮아지는 경우도 있다. 즉, 탐지기의 작동 원리는 ‘AI가 만든 문장’ 그 자체보다는, 문장이 얼마나 예측 가능한 방식으로 정리되어 있는가, 문법적으로 지나치게 완성되어 있는가를 기준으로 판단하는 것이다.

따라서 요약문은 실제 작성 주체와 상관없이, 탐지기 기준에 따라 오판될 가능성이 매우 높은 영역이다. 이로 인해 일부 교수나 평가자는 요약문에서 AI 판정이 나올 경우, 전체 논문에 대한 신뢰도 자체를 의심하게 되고, 결국 학생에게 추가 설명이나 초안 제출을 요구하는 일이 반복되고 있다. 짧은 글이지만 고밀도 구조와 정형화된 표현이 특징인 요약문은 AI 탐지기에게는 감지 대상 1순위가 되고 있으며, 동시에 가장 많은 오탐이 발생하는 구간이라는 점에서 교육 현장에 새로운 혼란을 야기하고 있다.

실제 사례로 본 요약문 AI 탐지 문제와 한계

국내 대학원 과정에서 실제로 발생한 사례들을 살펴보면, AI 탐지기가 논문 요약문에서 매우 다양한 판단 결과를 내리고 있다는 것을 확인할 수 있다. 서울 소재 C대학의 한 석사과정 학생은 ChatGPT를 이용해 논문 전체를 작성하진 않았지만, 요약문 초안만큼은 AI를 활용해 생성했다. 이후 GPTZero에 해당 요약문을 입력하자 AI 생성률 92%가 나왔고, 심사위원은 전체 논문의 작성 과정에 문제가 있을 수 있다는 의혹을 제기했다. 이로 인해 학생은 논문 초안, 리서치 노트, 발표 자료 등을 제출하면서 직접 작성한 내용임을 소명했으며, 결국 요약문 부분을 자필로 다시 써서 제출하는 조건으로 통과 판정을 받았다.

반대로 지방 국립대 D대학에서는 학생이 ChatGPT로 요약문을 작성하고, 이를 QuilBot으로 리라이팅한 후 제출했는데, GPTZero 감지 결과는 18%에 불과했다. 동일한 주제, 동일한 문장 내용이었지만 문체와 문장 구조를 바꾸는 것만으로 감지 결과가 완전히 달라졌다는 점에서, 탐지기의 기준이 얼마나 형식 중심으로 작동하는지를 보여주는 대표적 사례다. 또 다른 사례로, E대학의 사회과학대학원에서는 AI 탐지 결과가 높게 나온 요약문이 실제로는 학생이 직접 작성한 것으로 확인되었음에도 불구하고, 심사위원이 해당 수치를 근거로 논문 본문 전반에 대한 검증을 요청한 일이 있었다. 학생은 억울함을 호소했지만, 평가 기준이 명확히 정해져 있지 않아 다시 제출하거나 수정해야 했다.

이러한 사례는 요약문이 탐지기의 핵심 타겟이 되고 있지만, 정작 이 결과를 어떻게 해석하고 평가에 반영할 것인지는 교육기관마다 일관된 기준이 없다는 점에서 문제를 야기한다. 특히 AI 탐지기가 감지한 ‘AI 가능성’이 실제 AI 사용을 의미하지 않음에도 불구하고, 요약문에서 AI 점수가 높게 나오면 전체 글의 정당성까지 의심받게 되는 구조는 공정성과 신뢰성 모두에 의문을 불러일으키고 있다.

AI 탐지기를 의식한 요약문 작성 전략과 제도적 보완 필요성

현재 AI 탐지기가 요약문에 매우 민감하게 반응하고 있으며, 그 결과가 평가에 직접 영향을 미치는 구조라면, 학생 입장에서는 이에 대응하는 글쓰기 전략을 수립할 필요가 있다. 첫째, 요약문을 작성할 때는 문장을 너무 정제된 형태로 정리하지 않는 것이 좋다. 다양한 문장 길이, 부정확한 전치사 사용, 복합 문장의 활용 등을 통해 인간적 흔적을 남기는 것이 감지 회피에 도움이 될 수 있다. 둘째, 문체를 중립적으로 유지하기보다는, 주관적 표현이나 평가 어휘를 일부 섞어 AI 고유의 어투를 피하는 것이 좋다. 셋째, ChatGPT를 사용하더라도 요약문에 직접 넣지 말고, 주요 키워드를 뽑아 스스로 재작성하는 방식으로 접근하는 것이 안전하다.

교수자나 대학 측에서도 요약문 AI 감지 결과만을 근거로 전체 논문을 판단하는 것은 지양해야 하며, 학생의 작성 과정, 초안, 인터뷰 등을 포함한 종합적 평가가 병행되어야 한다. 더 나아가, 요약문만을 대상으로 AI 탐지기를 돌리는 대학의 경우, 그 결과를 어느 정도 비중으로 반영하는지를 명시하고, 해명 또는 수정 기회를 제공하는 절차도 필수적이다. 요약문은 작성자의 사고와 논리 구조를 가장 압축해서 보여주는 구간이지만, 동시에 탐지기 오판이 가장 빈번한 영역이라는 점에서, 기술적 판정에 전적으로 의존해서는 안 된다. 글의 일부 결과보다는 전체 맥락과 작성자의 설명 가능성을 함께 반영하는 구조가 마련되어야, AI 탐지기 활용이 진정한 교육적 기능을 할 수 있다.