
AI 탐지기의 보급이 확대되면서 언어 다양성의 문제는 중요한 논의 지점으로 떠오르고 있다. 대부분의 AI 탐지기는 영어와 같은 주요 언어를 중심으로 학습된 데이터셋을 기반으로 하고 있기 때문에, 소수 언어로 작성된 논문을 평가할 때 구조적인 편향이 발생할 수 있다. 영어와 같이 대규모 데이터가 축적된 언어에서는 탐지기의 판별 정확도가 상대적으로 높게 유지되지만, 데이터가 부족한 소수 언어에서는 기계가 문장의 구조적 특성을 제대로 인식하지 못해 잘못된 판정을 내릴 위험이 높다. 실제로 탐지기는 언어별 문법적 특징이나 어휘적 뉘앙스를 충분히 학습하지 못하는 경우가 많기 때문에, 해당 언어의 글이 인간이 쓴 글임에도 불구하고 기계적으로 AI 생성 텍스트로 잘못 인식되는 사례가 보고되고 있다고 한다. 이러한 오..