생성형 AI의 성장세가 점점 둔화되고 있다는 분석이 힘을 얻고 있습니다.
원인은 명확합니다. 인터넷에 공개된 인간 텍스트 대부분이 이미 AI의 학습 데이터로 활용된 상태이며, 이제 남은 건 저작권 문제가 있는 데이터나 AI가 스스로 만든 ‘합성 데이터’뿐입니다.
에포크AI는 “2026~2032년 사이 인간이 생성한 텍스트 데이터는 사실상 포화 상태에 이를 것”이라고 경고했습니다.
일론 머스크는 “AI가 인간 지식을 모두 흡수했고, 지금은 스스로 만든 데이터를 다시 학습하는 단계로 넘어가고 있다”며 ‘모델 붕괴’ 가능성을 언급했습니다.
EBU 조사에 따르면 챗GPT, 제미나이, 퍼플렉시티 등 주요 AI 서비스의 응답 중 약 45%에서 오류가 발견됐으며, 특히 제미나이의 오류율은 76%에 달했습니다.
CODA와 오라일리 등은 AI의 무단 학습 행위가 저작권 침해에 해당한다며 법적 대응에 나섰고, 이는 국제적인 분쟁으로 확산되고 있습니다.
전문가들은 이로 인해 AI가 ‘자기 학습 루프’에 빠지게 되고, 그 결과 정보의 다양성과 창의성은 줄어들고 오답 가능성과 정보 왜곡이 커질 수 있다고 우려합니다.
실제로 이미 주요 생성형 AI들의 응답 중 45%가 오류를 포함하고 있다는 조사 결과도 나왔습니다.
이러한 상황에서 AI 기업들은 새로운 데이터 확보를 위해 고품질의 비공개 데이터에 주목하고 있습니다. 특히 한국을 포함한 각국의 통신사, 포털, 금융, 메신저 등 B2B 데이터 시장이 새로운 타깃이 되고 있습니다.
🍽️ 한 데이터 수집 드론의 푸념:
"요즘 AI들, 밥은 안 먹어도 콘텐츠는 안 주면 삐지더라고요."
쿠팡·현대·아모레퍼시픽 등 각 분야 최고의 기업들이 실제로 본 뉴스를 모아, 뉴스럴 팀의 인사이트로 정리합니다.
News Clipping
뉴스럴 추천기사

