IT/네트워크

[IT/네트워크] AWS 운영 : 모니터링부터 장애 대응까지

59date 2024. 11. 15. 14:15

AWS를 성공적으로 운영하는 데는 두 가지 기본기가 필요합니다. 바로 '서비스가 잘 돌아가는지 실시간으로 확인하는 것'과 '클라우드 비용을 효율적으로 관리하는 것'입니다.

 

오늘은 모니터링부터 비용 관리, 보안, 그리고 장애 대응까지 AWS 운영의 핵심을 알아보는 시간을 가져보겠습니다.

 

먼저 모니터링 부분을 살펴보겠습니다.

 

모니터링

AWS에서 가장 많이 사용하는 모니터링 도구는 CloudWatch입니다. 이건 마치 우리가 차량용 블랙박스를 달고 다니는 것처럼, 서버나 서비스가 어떻게 동작하는지 모든 것을 기록해 주는 도구입니다. CPU가 얼마나 바쁜지, 메모리는 얼마나 사용하는지, 그리고 무슨 문제가 있었는지까지 다 기록해 줍니다.

 

재미있는 점은 CloudWatch로 경보도 설정할 수 있다는 것입니다. 예를 들어서, "서버가 너무 바빠서 CPU 사용량이 80%가 넘으면 알려줘"라고 설정해 두면, 실제로 그런 상황이 발생했을 때 문자나 이메일로 알림을 받을 수 있습니다.

 

그다음으로는 CloudTrail이라는 게 있는데, 이건 마치 CCTV 같은 겁니다. AWS에서 누가 무엇을 했는지 모든 활동을 기록합니다. 예를 들어 "누가 실수로 중요한 서버를 껐다"거나 "누가 새로운 서비스를 시작했다" 같은 모든 활동이 기록됩니다.

 

 

이제 비용 관리 쪽을 확인해 보겠습니다.

 

비용 관리

AWS에서 제공하는 Cost Explorer라는 도구가 있습니다. 이건 마치 가계부처럼 우리가 AWS에서 얼마나 돈을 쓰고 있는지 한눈에 보여줍니다. 어떤 서비스에 돈을 많이 쓰는지, 시간이 지날수록 비용이 어떻게 변하는지 그래프로 볼 수 있습니다.

 

특히 재미있는 기능이 AWS Budgets인데, 이건 용돈 제한을 걸어두는 것과 비슷합니다. "이번 달에 100만 원 이상 쓰지 말자"라고 설정해 두면, 비용이 그 금액에 가까워질 때 알림을 받을 수 있습니다.

 

 

 

실제 사례로 예를 하나 들어보자면

 

한 스타트업이 AWS를 사용하다가 갑자기 청구서가 평소보다 몇 배가 나온 적이 있었습니다. CloudWatch로 확인해 보니 테스트용 서버를 끄지 않고 계속 켜두었던 게 문제가 되었던 겁니다. CloudWatch 알람을 설정하고, Cost Explorer로 비용을 정기적으로 확인하면서 이런 실수를 막을 수 있습니다.

 

 

특히 처음 AWS를 시작하시는 분들은 Free Tier라고 해서 1년 동안 기본적인 서비스를 무료로 사용해 볼 수 있습니다. 이 기간 동안 이런 모니터링 도구들을 실제로 써보면서 경험을 쌓게 되면 좋은 경험이 될 것입니다.

 

 

추가 모니터링 도구

AWS에는 방금 설명드린 것 외에도 정말 유용한 도구들이 더 있습니다.

바로 X-Ray라는 도구입니다. 마이크로서비스 구조를 사용하시는 분들에게 특히 유용한 도구인데요, 마치 택배 배송 조회처럼 요청이 우리 서비스 내에서 어떤 경로로 움직이는지 추적할 수 있습니다. 예를 들어 "왜 이 기능이 이렇게 느리지?"라는 의문이 들 때, 정확히 어느 구간에서 지연이 발생하는지 찾아낼 수 있습니다.

 

 

보안

요즘은 보안도 정말 중요합니다. AWS는 GuardDuty라는 서비스로 이 부분을 챙기고 있습니다. 마치 아파트 경비원처럼 24시간 우리 시스템을 지켜보다가, 수상한 활동이 발견되면 바로 알려줍니다. 예를 들어 누군가 해킹을 시도한다거나, 이상한 IP에서 접속을 시도하면 즉시 감지할 수 있습니다.

 

 

효율적인 운영

AWS를 운영하면서 꼭 기억해 두시면 좋을 팁들이 있습니다.

먼저, 태그 전략이 정말 중요합니다. 모든 리소스에 꼬리표를 달아두는 것입니다.

  • "이건 어떤 프로젝트용이다"
  • "이건 테스트용이다"
  • "이 서버의 담당자는 누구다" 이렇게 태그를 달아두면 나중에 비용이 많이 나왔을 때 어떤 프로젝트, 어떤 팀에서 많이 썼는지 한눈에 파악할 수 있습니다.

또한 매주 또는 매월 정기적으로 비용 리뷰 시간을 가지면 좋습니다. Cost Explorer로 이번 달 지출 내역을 보면서 "어, 이건 왜 이렇게 비용이 많이 나왔지?" 하는 부분들을 팀원들과 같이 살펴보는 것입니다. 이렇게 하면 불필요한 비용을 조기에 발견할 수 있습니다.

 

 

장애가 났을 때

마지막으로 장애 상황에 대해 이야기해 보겠습니다.

AWS의 여러 도구들을 조합해서 체계적으로 대응할 수 있습니다.

  1. 먼저 CloudWatch가 문제를 감지하고 알람을 보냅니다.
  2. CloudTrail로 최근에 누가 어떤 작업을 했는지 확인합니다.
  3. X-Ray로 어느 부분에서 문제가 발생했는지 자세히 들여다봅니다.
  4. 필요하다면 Auto Scaling으로 서버를 늘리거나 줄입니다.

이렇게 AWS의 도구들을 잘 활용하면, 클라우드 환경을 더욱 안정적이고 경제적으로 운영할 수 있습니다. 처음에는 좀 복잡해 보일 수 있지만, 하나씩 익혀가다 보면 결국에는 모든 것이 더 편해지는 걸 경험하실 수 있을 것입니다.

 


 

잘못된 내용 혹은 오타가 있거나 더 좋은 내용 피드백은 언제나 환영입니다 :)