31강용 이미지.png
MIT는 인공지능이 불공정한 결정을 내리는 것을 감지하는 데 도움이 되는 테스트 프레임워크를 개발 중입니다. 사진: Midjourney

인공지능은 중요한 상황에서 의사결정을 최적화하는 데 점점 더 많이 활용되고 있습니다. 예를 들어, 자율 시스템은 전압 안정성을 유지하면서 가장 비용 효율적인 전력 배분 계획을 제안할 수 있습니다.

하지만 "기술적으로 최적의" 해결책이 과연 공정한 것일까요? 저비용 전략으로 인해 저소득 지역이 부유한 지역보다 정전에 더 취약해진다면 어떻게 될까요?

이해관계자들이 실행 전에 윤리적 위험을 조기에 감지할 수 있도록 돕기 위해 MIT 연구팀은 비용 및 신뢰성과 같은 양적 지표와 공정성 같은 질적 가치의 균형을 맞추는 자동화된 평가 방법을 개발했습니다.

이 시스템은 객관적인 평가와 사용자가 정의한 인간의 가치를 분리하고, 대규모 언어 모델(LLM)을 인간을 대표하는 도구로 사용하여 이해관계자의 우선순위를 기록하고 통합합니다.

적응형 평가 프레임워크는 추가 분석을 위해 가장 중요한 시나리오를 선택함으로써, 수동으로 처리할 경우 비용과 시간이 많이 소요되는 과정을 간소화합니다. 이러한 시나리오는 AI 시스템이 인간의 가치와 부합하는 경우와 윤리적 기준을 충족하지 못하는 경우를 보여줄 수 있습니다.

추추 판(MIT)에 따르면, 인공지능에 단순히 규칙이나 "안전장치"를 설정하는 것만으로는 충분하지 않습니다. 왜냐하면 이러한 것들은 인간이 예측할 수 있는 위험만을 예방하기 때문입니다. 따라서, 결과가 발생하기 전에 "알 수 없는 위험"을 감지하기 위한 체계적인 접근 방식이 필요합니다.

복잡계에서의 윤리적 평가

전력망과 같은 대규모 시스템에서 인공지능이 생성한 제안의 윤리적 적합성을 평가하는 것은 어려운 일이며, 특히 여러 목표를 동시에 고려해야 할 때는 더욱 그렇습니다.