모래 위의 성

게시일 2025. 5. 1.

1분 읽기

신경망은 블랙박스이며, 이 특성은 언어 모델, 멀티모달 모델, 심지어 신경망 위에 구축된 에이전트 시스템에서도 공유됩니다. 블랙박스는 특정 출력으로 이어지는 추론 과정을 근본적으로 알 수 없다는 것을 의미합니다. 이는 모델의 변경이 가져올 결과를 예측하기 어렵게 만듭니다.

최근까지는 모든 것이 잘 작동하는 것처럼 보였지만, 이제 문제들이 나타나기 시작했습니다. 과도한 아첨, 환각, 이상한 행동들이 최고급 AI 서비스에서도 나타나고 있습니다. 입력의 무한한 다양성과 신경망의 블랙박스 특성으로 인해 아무리 많은 테스트를 해도 예상치 못한 문제가 발생할 수 있습니다.

특히 o3 사례는 한 능력을 향상시키는 것이 다른 능력을 저하시킬 수 있음을 보여줍니다. o3는 수학과 코딩에서 최고 성능을 달성했지만, 일반적인 질문에서는 환각이 더욱 심해집니다. 이는 불필요한 상황에서도 복잡한 추론을 적용하여 이상한 답변을 하기 때문일 수 있습니다. 이러한 부작용은 매우 복잡한 시스템의 한 부분을 고치는 것이 의도치 않게 다른 부분을 망가뜨릴 수 있는 것과 유사합니다.

에이전트의 시대가 막 시작된 지금, 안전하고 신뢰할 수 있는 AI 시스템을 구축하기 위한 연구와 논의가 필요합니다. 에이전트의 도입으로 실제 세계에 미치는 영향이 너무 커져서 더 이상 후속 조치로는 충분하지 않을 수 있습니다. AI를 사전에 검증하고 운영 중에 모니터링하는 시스템을 갖추는 것이 필수적입니다.