최근 생성형 인공지능 기술의 급속한 확산으로 인해, 전 세계 대학과 학술지들이 논문 심사 과정에서 AI 탐지기를 도입하고 있다. GPTZero, Turnitin, Copyleaks 등 다양한 AI 탐지기가 활용되며, 논문 투고 시 제출된 원고에 대해 해당 텍스트가 AI에 의해 생성된 것인지 여부를 탐지한 후, 그 결과에 따라 심사 절차를 다르게 적용하는 사례가 늘고 있다. 특히 과학기술 분야보다는 인문사회 및 교육 분야에서 이러한 경향이 더욱 강하게 나타난다. 일부 학술지에서는 AI 탐지기의 점수가 일정 기준 이상일 경우, 자동으로 심사에서 제외하거나 재작성 요청을 하는 규정을 마련해두고 있다.
또한 국내외 일부 대학원 과정에서는 학위 논문 제출 전, AI 탐지기 점수를 일정 기준 이하로 낮추도록 요구하고, 그 점수를 인증하는 스크린샷 또는 리포트를 첨부하게 하기도 한다. 이러한 변화는 단순히 기술 도입의 문제를 넘어, 논문 심사의 흐름과 기준 자체를 변화시키고 있다. 기존에는 텍스트의 논리성과 내용적 완성도 중심으로 평가가 이뤄졌다면, 현재는 그 이전 단계에서 AI 사용 여부라는 기준이 하나 더 추가된 셈이다. 이러한 변화는 평가자에게는 새로운 판단 기준을 제공하는 반면, 작성자에게는 새로운 불확실성과 부담을 안겨주고 있다.
AI 탐지기 점수가 실제 논문 심사에 미치는 직접적 사례
AI 탐지기 결과가 논문 심사에서 어떤 식으로 작용하는지 구체적인 사례를 통해 살펴보면, 기술 도입이 평가 시스템에 미치는 실질적 영향을 보다 분명히 확인할 수 있다. 예를 들어 미국의 일부 학술지는 2023년부터 AI 탐지기 점수가 일정 기준 이상인 원고에 대해 자동 반려 처리를 시행하고 있으며, 점수가 높지 않더라도 AI 사용 내역이 명확히 기재되지 않은 경우에는 추가 설명을 요구하거나 심사를 유보하기도 한다. 국내 한 대학원에서는 GPTZero 점수가 60% 이상일 경우 자동 재작성 명령이 내려지고 있으며, 점수를 낮추지 않으면 논문 심사 접수가 불가하다는 규정까지 시행 중이다. 이러한 정책은 시스템적으로는 효율적일 수 있지만, 실제로는 오판 가능성이 존재하며, 인간이 직접 작성한 원고가 탐지기에 의해 AI 생성물로 분류되는 문제도 발생하고 있다. 실제 사례 중에는 학생이 순수하게 작성한 서론이 GPTZero에서 98% AI 생성으로 판단돼 재작성 요청을 받았고, 이후 수차례 수정에도 점수가 낮아지지 않아 결국 교수의 자필 확인서까지 제출한 경우도 있다. 또 어떤 학술지에서는 AI 탐지기 점수가 낮았다는 이유만으로 다른 평가 요소를 면밀히 보지 않고 자동 통과시킨 사례도 보고되고 있다. 이는 AI 탐지기가 평가의 기준을 과도하게 대체하고 있음을 보여주는 단면이다.
AI 탐지기 중심 평가가 초래하는 문제점
AI 탐지기를 논문 심사의 필수 절차로 삼는 경향은 여러 가지 문제를 야기할 수 있다. 첫째, 탐지기의 점수가 절대적 기준으로 작용할 경우, 창의적인 글쓰기나 새로운 표현 방식을 시도한 논문이 오히려 AI 생성물로 오해받을 수 있다. 예를 들어 새로운 학술용어를 만들거나, 기존 학술 문체에서 벗어난 글쓰기를 시도한 연구자의 텍스트가 퍼플렉서티나 버스트니스 기준에서 비정상적으로 감지될 수 있다. 둘째, AI 탐지기 알고리즘이 다양한 언어, 문화, 문체를 충분히 고려하지 못하는 경우, 비원어민이나 언어 구조가 다른 나라의 연구자들에게 불리하게 작용할 수 있다. 실제로 한국어나 일본어로 작성된 논문은 영어권 탐지기에서 높은 AI 생성 점수를 받는 경우가 많으며, 이는 알고리즘의 언어 적응성 부족에서 기인한다. 셋째, 평가자의 해석 능력을 약화시키는 문제가 있다. 점수가 주어졌다는 이유만으로 세부 내용을 꼼꼼히 보지 않거나, 점수에 과도하게 의존하게 되면, 평가자는 더 이상 글의 실제 가치보다는 숫자만으로 판단하게 된다. 이는 평가의 본질을 흐릴 뿐만 아니라, 결과적으로 형식적 평가가 강화되고 내용적 평가가 약화되는 결과를 낳는다. 마지막으로, 탐지기 회피 기술의 발전을 오히려 부추길 수 있다. 작성자는 점수를 낮추기 위해 리라이팅 도구나 비인간적인 글쓰기 기법을 익히게 되고, 이는 교육적 목표와도 정면으로 충돌하게 된다.
AI 탐지기 결과 활용의 바람직한 방향성과 대안
AI 탐지기를 완전히 배제하자는 주장은 현실적이지 않다. 그러나 그 활용 방식과 위치는 재정립될 필요가 있다. 탐지기의 결과는 절대적 기준이 아니라 보조적 참고 자료로 사용되어야 하며, 인간 평가자의 판단을 보완하는 데 그 목적이 있어야 한다. 학술지나 대학은 탐지기의 점수만으로 평가 결과를 결정하기보다, 해당 점수의 근거가 된 문장 구조, 반복 패턴, 의미 흐름 등을 종합적으로 분석하고 해석할 수 있는 교육을 평가자에게 제공해야 한다. 또한 AI 탐지기 결과가 논문 심사에 활용될 경우, 그 점수의 기준과 해석 방법, 오류 가능성에 대한 충분한 안내가 함께 제공되어야 하며, 작성자에게는 설명의 기회를 보장하는 절차가 필요하다. 예를 들어 GPTZero에서 AI 생성 점수가 80% 이상 나왔더라도, 그 텍스트가 어떤 방식으로 작성되었는지에 대한 작성자의 설명과 초안 자료를 종합적으로 판단해 결정을 내려야 한다. 더 나아가 탐지기 점수의 해석 기준도 학문 분야별, 문체별로 차등 적용되어야 한다. 인문학과 공학, 자연과학은 문체나 표현 방식이 근본적으로 다르기 때문에 동일 기준으로 AI 여부를 판단하는 것은 불합리하다. 최종적으로는 AI 탐지기 중심의 일방적 평가 구조가 아닌, 인간과 기술의 협업에 기반한 다층적 평가 체계를 구축하는 것이 바람직하다. 이 과정에서 탐지기는 감별 도구가 아니라, 평가 과정을 정교화하는 하나의 보조 메커니즘으로 재정의되어야 한다.
'AI 탐지' 카테고리의 다른 글
AI 탐지기 신뢰도 향상을 위한 기술적 과제와 제안 (0) | 2025.07.08 |
---|---|
AI 탐지기 판독 기준의 과학적 근거는 무엇인가 (0) | 2025.07.07 |
AI 탐지기, 논문 창작성 판단에 과연 적합한가? (0) | 2025.07.07 |
AI 탐지기 시대, 앞으로의 논문 작성 방식: AI + 인간 협업은 허용될 수 있을까? (0) | 2025.07.06 |
AI 탐지기 신뢰도 낮음에도 불구하고 대학이 사용하는 이유 (0) | 2025.07.05 |