AI 탐지기, 논문 창작성 판단에 과연 적합한가?
최근 GPT-4, Claude, Gemini와 같은 초거대 언어모델이 대중화되면서, 논문 작성 과정에서 생성형 AI를 활용하는 경우가 빠르게 확산되고 있다. 이에 따라 대학과 학술기관에서는 AI로 작성된 논문을 구별하고자 다양한 탐지 도구를 도입하고 있다. 대표적인 예로 GPTZero, Turnitin, Copyleaks 등의 AI 탐지기가 활용되고 있으며, 이들 도구는 문장의 퍼플렉서티, 버스트니스, 확률 기반 언어 패턴 등을 분석해 인간이 쓴 글인지 AI가 쓴 글인지를 예측한다. 여기서 문제는 이러한 AI 탐지기가 단지 글의 통계적 구조만을 기준으로 판단한다는 점이다. 논문에서 요구되는 창작성은 단순한 표현의 다양성이 아니라, 고유한 문제 제기, 분석 관점, 해석의 신선함 같은 고차원적 사고 능력과 직결되어 있다. 따라서 AI 탐지기의 점수가 낮다고 해서 해당 논문이 창의적인지는 알 수 없고, 반대로 점수가 높게 나왔다고 해서 비창의적인 것도 아니다. 기술적으로 창작성 판단을 수치화하려는 시도는 가능하겠지만, 아직까지는 AI 탐지기가 텍스트의 내용적 독창성이나 비판적 사고의 깊이를 측정할 수 있는 수준에 도달하지 못하고 있다.
AI 탐지기가 탐지하는 것은 창작성인가, 단순 패턴인가
AI 탐지기는 주로 언어 모델의 확률 예측을 기반으로 텍스트의 생성 주체를 분석한다. 예를 들어 GPTZero는 문장의 예측 난이도인 퍼플렉서티가 낮고, 문장 간 유사성이 높은 경우를 AI 생성 가능성이 높은 텍스트로 간주한다. 그러나 이러한 기준은 창작성과 직접적으로 연결되지는 않는다. 인간이 작성한 글도 논리적 일관성을 위해 유사한 구조를 반복하거나, 쉬운 문장으로 구성될 수 있다. 반대로 AI가 생성한 글이더라도 창의적 표현이나 고유한 어휘를 포함할 수 있다. 결국 AI 탐지기가 판단하는 것은 창작성의 유무가 아니라, ‘예상 가능한 문장 패턴을 얼마나 포함하고 있는가’라는 기술적 기준이다. 논문은 고유한 주제를 다루면서도 형식과 논리의 일관성이 요구되기 때문에, 실제로는 많은 학술적 문서가 AI 탐지기 기준상 AI로 생성된 것처럼 보일 수 있다. 이는 AI 탐지기의 정확도 문제라기보다, 기술 자체가 인간의 사고 구조와 창의적 기여를 해석할 수 없다는 근본적 한계를 드러낸다. 창작성은 단어의 조합이나 문장 구조만으로 측정될 수 있는 개념이 아니며, 더구나 그것을 점수화해서 판단하는 것은 지나치게 기계적인 접근이다.
논문 평가에서 AI 탐지기의 창작성 판단을 기준으로 삼는 문제
일부 대학과 학술지는 논문 평가 과정에서 AI 탐지기의 점수를 참고하거나, 일정 기준을 넘는 경우 추가 설명을 요구하기도 한다. 특히 학위 논문, 학술지 초록, 리포트 제출 등에서 AI 탐지 점수가 높으면 ‘창의적 기여가 부족하다’는 이유로 평가에서 불이익을 받는 사례가 있다. 그러나 앞서 설명했듯이 AI 탐지기의 점수는 창작성과 일치하지 않으며, 오히려 스타일 상의 규칙성과 표현 방식에 영향을 받는다. 예를 들어, 요약문을 작성할 때 학문적으로 요구되는 정형화된 문체를 사용할 경우 탐지기는 AI 생성 가능성을 높게 판단할 수 있다. 반대로, 자유로운 수필 형식이나 산문형 논문에서는 인간적인 흔적이 더 많이 드러나므로 탐지기 점수는 낮게 나올 수 있다. 이러한 상황은 학생이나 연구자에게 불필요한 혼란을 유발하며, 실제로 창의적으로 접근한 글이 낮은 점수를 받거나, 단지 AI 점수 기준만을 맞추기 위해 문장을 인위적으로 비정형화하는 일이 발생하기도 한다. AI 탐지기를 기준으로 창작성 여부를 평가하는 것은 결국 학문 본질의 왜곡을 초래할 수 있으며, 평가의 객관성과 공정성을 떨어뜨리는 원인이 된다.
창작성 판단을 위한 바람직한 평가 체계와 AI 탐지기의 위치
논문에서의 창작성은 단순히 탐지기 점수로 판단되는 것이 아니라, 문제 설정의 참신성, 분석 관점의 독자성, 논리적 구성의 독창성 등을 종합적으로 판단해야 한다. 따라서 평가자는 탐지기 결과에만 의존하지 않고, 글의 맥락과 작성자의 사고 흐름, 자료 활용 방식 등을 함께 고려해야 한다. AI 탐지기는 이러한 판단을 보완하는 참고 도구로 활용할 수 있지만, 중심적인 판단 기준이 되어서는 안 된다. 특히 교수자와 편집자는 탐지기 점수가 아니라, 해당 텍스트가 어떤 창의적 기여를 담고 있는지를 면밀히 분석할 필요가 있다. 교육기관에서는 학생에게 탐지기 회피 요령을 가르치기보다는, 창의적인 사고와 글쓰기의 본질을 훈련시키는 방향으로 교육을 전환해야 한다. 기술의 발전은 계속되겠지만, 기술이 학문을 대신해서 평가하거나 판단하게 하는 것은 위험하다. AI 탐지기의 도입은 효율성과 통제라는 측면에서는 유용할 수 있지만, 창작성이라는 가장 인간적인 학문 능력을 판단하는 데에는 한계가 뚜렷하다. 앞으로의 학문 생태계에서는 AI 탐지기를 맹신하지 않고, 인간 중심의 창작 평가 기준을 유지하면서도, 기술을 적절히 보조 도구로 활용하는 균형 있는 접근이 필요하다.
AI 탐지기의 활용이 완전히 배제되어야 한다는 주장은 비현실적이다. 그러나 그 역할이 어디까지인지를 분명히 정의하지 않으면, 평가 시스템은 기술의 편의성에만 의존해 학문적 가치 판단을 왜곡하게 된다. 특히 논문 심사나 교육 평가에서 창작성 판단을 AI 탐지기 점수에 전적으로 맡기게 되면, 정작 중요한 학술적 사고 능력은 평가에서 배제될 수 있다. 창작 활동은 종종 반복과 단순성을 동반할 수 있으며, 이러한 표현 방식은 AI가 생성한 문장과 유사하게 나타날 수도 있다. 하지만 이와 같은 형식적 유사성만으로 인간의 사고 결과물을 기계적 생산물로 단정하는 것은 위험하다. 향후 교육 현장과 학술 시스템은 탐지기 중심 평가에서 벗어나, 창작성의 본질을 보다 입체적이고 정성적으로 판단하는 체계를 도입해야 한다. 텍스트의 구조나 문장의 스타일이 아닌, 그 안에 담긴 해석과 사고의 방향을 중심에 두는 평가 시스템이 정착되어야만 진정한 의미의 창작과 학문적 진보가 가능해질 것이다.