테크 엔돌핀 <수요레터>

크라우드스트라이크 사태 정리

잇츠맨 2024. 7. 24. 16:07

 

  • 지난 7월 19일 금요일이었죠. 전 세계적인 IT 대란이 발생했습니다.
  • 크라우드스트라이크 (CrowdStrike) 라는 사이버 보안 기업의 제품을 패치하는 과정에서 심각한 시스템 충돌이 발생한 겁니다.
  • 빠르게 대처 방안이 배포되고 복구가 진행되고 있지만,
  • 피해 규모가 너무 크고 광범위해서 복구에 시간이 많이 소요될 것으로 보입니다.
  • 며칠이 지난 지금, 조금 차분히 이번 크라우드스트라이크 사태를 정리해 보려 합니다.
  • 혹시 잘못된 정보가 있다면 피드백 부탁 드립니다

 

       뉴저지주 뉴어크 공항의 블루스크린 (출처 : Atlanta 중앙일보)

 

 

 

 

문제의 시작

 

  • 한국시간 7월19일 금, 13시9분, 크라우드스트라이크 사의 팰콘 센서라는 EDR (Endpoint Detection and Response) 보안 소프트웨어의 패치가 배포되었습니다.
  • 그런데 이 패치가 자동으로 설치된 마이크로소프트 윈도우에서 오류가 발생하기 시작합니다. 
  • 문제를 파악한 크라우드스트라이크는 패치를 배포한 지 1시간 37분 후에 콜백 조치를 합니다.
  • 하지만 그 사이에 수많은 PC, 서버 및 시스템이 인터넷에 연결된 상태였고, 
  • 연결된 윈도우 시스템에는 자동으로 이 패치가 설치 되었죠.
  • 설치된 업데이트는 윈도우 시스템과 충돌이 일으키기 시작합니다. 
  • 충돌이 발생한 PC는 블루 스크린이 뜨면서 결국 시스템 멈춰 버리게 됩니다.  
  • 크라우드스트라이크 측은 해당 이슈가 보안 사고나 사이버 공격은 아니며,
  • 원도우 호스트용 업데이트에서 발견된 결함으로 윈도우 OS 시스템에서만 문제가 발생했다고 발표했습니다.

 

 

 

피해의 규모

 

  • 단순한 오류였지만 피해는 전세계적으로 퍼져나갔습니다.
  • 항공, 교통, 병원, 행정, 방송, 게임, 광고, 서비스업, 은행 등 전방위적인 피해가 속출했습니다
  • 장애가 발생한 시스템 또는 PC의 수가 850만 대가 넘을 거라는 추정치도 있습니다
  • 특히 항공 시스템이 먹통이 되는 바람에 수많은 항공편이 결항 또는 지연되는 사태가 발생했는데요,
  • 7월19일 한국시간 오후7시 기준으로 전세계적으로 1,390편의 항공편이 결항되었다는 기사도 있었습니다
  • 영국 NHS 의뢰 시스템이 마비되어 신규 환자 예약, 진료 및 처방 등 모든 의료 활동이 중단되는 사태도  벌어졌습니다.
  • 영국 Sky News는 생방송이 중단되는 상황이 발생했고, 프랑스나 호주도 비슷한 상황이었습니다.
  • 피해 규모나 범위가 너무 광범위해서 완전한 복구까지는 몇 주 정도가 소요될 것으로 예상하고 있습니다.

 

 

원인과 대처

 

  • 원인은 크라우드스트라이크 보안 솔루션 ‘펠컨 센서’의 업데이트 버젼의 오류로 알려졌구요.
  • 커널 모드의 소프트웨어의 경우 시스템과의 충돌 가능성이 있기 때문에 배포 전에 충분한 검증과 테스트가 이루어져야 하는데 이 부분의 오류나 실수가 있었던 것으로 보고되고 있습니다.
  • 빠르게 대처 방법이 배포가 되었는데요.
  • 윈도우를 안전모드로 부팅해서 특정 파일을 찾아 삭제 후 재부팅하면 해결된다는 방법입니다.
  • 하지만 문제가 발생한 PC가 부팅이 되지 못하는 상태이기 때문에
  • IT 관리자가 원격으로 고치거나 조처하기 어려워서 개별 PC를 직접 해결해야 하는 어려움이 있습니다.
  • 물리적으로 접근하기 어려운 서버나 기타 보안 암호화가 되어 있는 상태인 경우 복구에는 더 많은 리소스와 시간이 필요할 수도 있겠죠.

 

 

 

 

의견들

 

  • 크라우드스트라이크 사의 팰콘 센서는 PC, 노트북, 서버, 라우터 등과 같은 엔드포인트에서 멀웨어나 공격 행위 등의 의심스러운 활동들을 감지하기 위해 심층적인 시스템 억세스가 필요한 바이러스 백신 솔루션입니다.
  • 새로운 위협에 대비하기 위해 정기적으로 자동적으로 업데이트해야 하고, 이러한 자동 설치의 권한을 미리 부여받게 됩니다.
  • 통상적으로 보안과 안정성을 강화하는 순기능으로 동작되는 이 프로세스가 이번처럼 시스템 전체를 훼손할 수도 있다는 문제가 드러난 거죠 
  • 멀웨어나 보안 공격들이 더욱 진화되고 정교화되면서 방어를 위한 백신 소프트웨어는 지속적인 연결 그리고 더 광범위한 제어가 필요하게 되는데, 이런 과정이 전체 시스템과의 충동 가능성을 높힐 수 있다는 겁니다.
  • 그래서 사실 크라우드스트라이크의 이번 이슈는 모든 보안 솔루션이 잠재적으로 가질 수 있는 위험 요소라고 보는 게 맞겠죠.
  • 또 하나, 이렇게 광범위하게 피해의 규모가 커진 이유를 클라우드와 네트워크 때문으로 얘기하기도 합니다. 
  • 수많은 IT 인프라들이 서로 연결되어 있기 때문에 이번 사태와 같은 연쇄 반응이 일어나게 되었다는 겁니다.
  • 이런 규모의 사태는 사실 누구도 예상하지 못했던 결과이지요.
  • 이제 앞으로 이런 유사한 위기가 재발하는 것을 어떻게 막을 것인지에 대한 깊은 질문이 계속될 것입니다.

 

 

 

 

  • 이번 <수요레터>는 크라우드스트라이크의 IT 중단 사태에 대해 살펴 봤습니다.
  • 다음에도 또 흥미로운 이야기로 준비하겠습니다

 

촌장 드림