AI 탐지

연구 부정행위에 대한 새로운 기준이 필요한가? AI 탐지기 시대의 고민

yanjicci 2025. 6. 29. 19:34

 

AI 탐지기의 도입은 연구 부정행위에 대한 전통적인 정의와 판단 기준에 커다란 혼란을 불러왔다. 과거의 연구 부정행위는 표절, 위조, 변조 등 비교적 명확한 기준에 따라 판단되었고, 그 기준은 대부분 ‘타인의 연구 결과를 무단으로 도용했는가’에 초점을 맞추었다. 하지만 ChatGPT와 같은 생성형 AI가 글을 직접 생산하고 요약·정리할 수 있는 시대가 되면서, 글의 ‘작성자’에 대한 개념 자체가 모호해졌다. 특히 AI 탐지기는 문장의 형식적 패턴을 근거로 ‘AI가 썼을 가능성’을 추정하는 도구로 사용되는데, 이 결과가 실제로 연구 윤리를 위반한 것인지는 별개의 문제다. 예를 들어, 학생이 ChatGPT를 단순 아이디어 정리에만 활용하고 실제 글쓰기는 본인이 했더라도, 탐지기 결과가 AI 생성 가능성 80% 이상으로 나온다면 해당 글은 연구 부정행위로 간주될 수 있는 위험이 있다. 이는 기존의 연구 부정행위 기준이 AI 기술의 등장 이후에는 더 이상 유효하지 않을 수 있다는 점을 시사한다. AI 탐지기는 기술적으로는 ‘형태’를 분석하지만, 교육기관은 여전히 ‘의도’를 중심으로 판단하고 있어 이 간극에서 불필요한 혼란이 생기고 있다.

AI 탐지기 판정과 실제 부정행위 판단의 충돌 사례

최근 다양한 대학과 연구기관에서는 AI 탐지기의 결과와 실제 부정행위 판정 사이에서 충돌이 일어나고 있다. 서울의 한 대학원에서는 석사 논문 심사 과정에서 Turnitin AI 탐지기 결과를 근거로 ‘AI 사용 가능성’이 제기되었고, 해당 학생은 직접 작성했다고 주장했지만 윤리위원회는 논문을 반려했다. 이 사건에서 AI 탐지기 결과는 결정적 근거로 작용했지만, 실제로는 어떤 문장을 어떤 방식으로 작성했는지에 대한 실증적 검토는 이루어지지 않았다. 반면 같은 대학의 다른 학과에서는 유사한 상황에서도 교수의 판단으로 ‘AI 보조는 허용되었다’는 결론이 내려졌고, 논문이 그대로 통과되었다. 이처럼 동일한 탐지기 결과에 대해 각 기관 또는 교수 개인의 해석에 따라 다른 결과가 도출되는 현실은 AI 탐지기가 연구 부정행위 판단에 얼마나 불안정한 기준이 될 수 있는지를 잘 보여준다. 또한 일부 교수는 학생들에게 ‘AI 탐지기 점수가 80% 이상이면 부정행위’라는 기준을 사전에 고지하고 있는데, 이 기준 자체가 객관적 검토를 거치지 않았으며, 기술의 한계도 반영하지 않은 채 무비판적으로 도입된 것이다. 이러한 상황은 학생에게 명확하지 않은 잣대를 들이대며, 학문적 성실성을 왜곡된 기준으로 평가하는 윤리적 문제를 발생시킨다.

AI 탐지기의 존재가 만든 새로운 윤리적 회색지대

AI 탐지기는 도입 초기에는 ‘기계가 만든 글을 판별해내는 간단한 도구’로 여겨졌지만, 실제 운영 과정에서는 수많은 윤리적 회색지대를 만들어내고 있다. 예를 들어, AI가 만든 초안을 인간이 수정했을 때 이것이 ‘공동 창작’인지, ‘보조 도구 활용’인지, 혹은 ‘부정행위’인지를 판단할 기준은 명확하지 않다. 또 하나의 예로, 논문 초안 작성을 위해 GPT를 참고하고, 그 문장을 일부 활용해 논리적 구조를 짠 후 스스로의 문장을 더한 경우도 있다. 이럴 경우 해당 글은 AI 탐지기에서 높은 AI 생성률로 판정될 가능성이 크지만, 실제로는 학문적 부정행위와는 거리가 있는 작업일 수 있다. 문제는 탐지기는 이 차이를 이해하지 못하고, 단지 ‘형태’를 기준으로 판단하기 때문에, 실제 의도를 반영하지 못하는 결과를 낳게 된다. 연구 부정행위는 본질적으로 ‘의도성’과 ‘기여도’를 중심으로 판단되어야 하지만, 현재는 탐지기 점수가 절대적 기준으로 작용하는 경향이 강하다. 이로 인해 학생과 연구자는 기술의 판단에 따라 글을 작성하게 되고, 오히려 ‘탐지기에 걸리지 않는 방식’으로 글을 왜곡하는 일이 발생한다. 이것은 학문적 정직성을 강화하기는커녕, 탐지기 우회 기술만 발달시키는 역효과를 낳게 된다. 결국 AI 탐지기의 존재는 새로운 윤리적 질문을 제기하게 만들며, 이 질문에 대해 교육기관과 연구계가 더 정교한 기준을 마련해야 할 시점이다.

AI 시대에 맞는 연구 윤리 기준의 재정립이 필요한 이유

기존의 연구 윤리 기준은 복제와 표절, 위조와 변조라는 비교적 전통적인 부정행위 유형에 초점이 맞춰져 있었다. 하지만 AI가 글을 생성하고, 탐지기가 그 결과를 판정하는 시대에는 윤리 기준도 기술 환경에 맞게 재정립되어야 한다. 첫째로, ‘AI 사용 자체를 금지’할 것인지, ‘어느 수준까지 허용’할 것인지에 대한 명확한 가이드라인이 필요하다. 예를 들어, 단순 아이디어 정리나 문법 검사까지 허용할 수 있는지, 전체 문장 생성은 어디까지 인정할 수 있는지 등 세부 기준이 정해져야 한다. 둘째로, AI 탐지기의 결과를 평가 기준으로 반영할 경우에는 반드시 해석 가능성과 반론 기회가 보장되어야 하며, 탐지기 결과는 판단의 ‘보조 지표’로만 사용되어야 한다. 셋째로, 교육기관과 연구기관은 AI 활용에 대한 투명한 보고 시스템을 마련해야 한다. 학생이나 연구자가 AI를 어떤 방식으로 사용했는지 자가 보고하도록 하고, 이에 대한 정직한 진술을 존중하는 문화가 함께 형성되어야 한다. 마지막으로, 기술 중심이 아닌 ‘윤리 중심의 해석 체계’가 필요하다. AI 탐지기의 결과는 ‘가능성’에 불과하다는 사실을 인식하고, 의도와 맥락을 해석할 수 있는 전문가의 판단이 함께 작동해야 한다. AI 시대의 연구 윤리는 단순히 탐지기로 적발하는 것이 아니라, 기술과 사람 사이에서 정직과 창의성의 균형을 어떻게 이룰 것인가에 대한 진지한 고민에서 출발해야 한다. 기준이 없다면 기술이 윤리를 대체하게 되고, 그 결과는 학문의 본질을 훼손할 수 있다.