AWS Durumunu Kontrol Etme: Doğru Yolda Kalmak İçin Pratik Bir Kılavuz

  • AWS Sağlık Panosunu bölgeye göre önceliklendirin ve status.aws.amazon.com ve bağlam kaynaklarıyla tamamlayın.
  • EventBridge ile sağlık olaylarını alın ve CloudWatch ve Otomatik Ölçekleme ile yanıtları otomatikleştirin.
  • ACM'deki (Yenileme Durumu) yenilemeleri izleyin ve süresi dolmadan önce kademeli bildirimlere yanıt verin.
  • EC2 kontrollerini (sistem, örnek, EBS) yorumlar ve arıza durumunda yapılacak işlemleri tanımlar.

AWS Durumunu Kontrol Edin

AWS'nin iyi durumda olup olmadığını veya bir tökezleme yaşayıp yaşamadığını kontrol etmek söz konusu olduğunda, yalnızca yeşil veya kırmızı ışığa bakmak yeterli değildir: Sağlık panelini, gerçek zamanlı sinyalleri ve kaynaklarınızın belirli incelemelerini geçmeniz gerekiyorBu birleşik yaklaşımla, sorunun genel mi, bölgesel mi, yoksa kendi altyapınızla mı ilgili olduğunu bilecek ve ani bir hamle yapmadan harekete geçebileceksiniz.

Bu rehberde, AWS'nin durumunu bir başlıkla kontrol etmek için her şeyi iyi yapılandırılmış bir şekilde size bırakacağım: AWS Sağlık Panosu'ndan ve EventBridge ile entegrasyonundan, ACM'de yenileme durumunun nasıl görüntüleneceğini, EC2 kontrollerinin nasıl yorumlanacağını ve CloudWatch ölçümleri ve alarmlarıyla nasıl tepki verileceğini öğreneceksiniz. Ayrıca, konsol yüklenmeyi reddederse hangi adımları atmanız gerektiğini, genel durum sayfasını nasıl kontrol edeceğinizi ve Downdetector gibi üçüncü tarafların bağlam için yararlı olup otomasyon için neden yetersiz olduğunu öğreneceksiniz.

AWS Sağlık Panosu: Başlangıç ​​Noktası

AWS Sağlık Panosu, hizmetlerinizi ve kaynaklarınızı etkileyebilecek kesintileri, etkin olayları ve planlı bakımı görüntüler. Hesabınızın bir parçasıdır, herhangi bir yapılandırma gerektirmez ve bağlamsal görünürlük sağlar. Neler olup bittiği hakkında. Belirli bir örneğe veya konsola giriş yapmadıysanız, bakmanız gereken ilk yer burasıdır.

Sıkça unutulan bir ayrıntı: AWS bölgeseldirSağlık paneli seçicisinden doğru bölgeyi seçin, çünkü yanlış bölgeyi ararsanız sizi etkileyen olayı kaçırabilirsiniz. Bu hassasiyet, sorun belirli bir coğrafi bölgeyle sınırlı olduğunda yanlış teşhis yapılmasını önler.

2023'ten itibaren Sağlık paneliyle ilgili bir kamu etkinliği açıldığında, Tarayıcı URL'si etkinliğe derin bir bağlantı içeriyorBu, görüntülediğiniz olayı tam olarak paylaşmanıza veya yeniden açıp açılan pencere yüklenmiş halde aynı görünüme dönmenize olanak tanır ve olay sırasında ekip çalışmasını kolaylaştırır.

Yönetici konsolu açılmıyorsa veya tarayıcı hataları (örneğin 404) veriyorsa, acele etmeyin. Öncelikle Sağlık Pano'sunda ilgili etkin bir olay olup olmadığını kontrol edinve ardından önbelleği ve çerezleri temizleme, farklı bir tarayıcı deneme ve BT ekibinizle ağınızın Amazon alan adlarını (amazon.com ve aws.amazon.com gibi alt alan adları) engellemediğini doğrulama gibi yerel önlemleri uygulayın.

Güvenilir olay alımı: EventBridge, RSS'den daha iyidir

Sağlık etkinlikleri içeren RSS beslemeleri var, ancak biçimleri zamanla değişebilir ve entegrasyonlarınızı bozabilirKritik veri hatları için RSS'i kazımak veya RSS'e güvenmek en hafif tabirle risklidir.

Sağlam olan şey entegre olmaktır Amazon EventBridge ile AWS SağlığıBu şekilde, olayları kararlı bir şema ile, gerçek zamanlı olarak ve Lambda'ya, kuyruklara, bildirimlere veya dahili panolara yönlendirilmeye hazır bir şekilde alırsınız ve hassas parçalara ihtiyaç duymadan olay devrenizi oluşturursunuz.

EventBridge ile izlenebilirlik ve dayanıklılık kazanırsınız: Yanıtları etiketleyebilir, zenginleştirebilir, ilişkilendirebilir ve otomatikleştirebilirsiniz Hizmete, bölgeye veya etkiye bağlı olarak. Ayrıca, kamuya açık yayın sunumunun ayrıntıları yarın değişirse, entegrasyonunuz bozulmadan kalacaktır.

ACM: Sertifika yenilemelerini sorunsuz bir şekilde inceleyin

AWS Certificate Manager ile sertifikalarınızın yönetilen bir şekilde doğru bir şekilde yenilendiğini doğrulayabilirsiniz. Bir sertifika, AWS hizmetleriyle (örneğin ELB veya CloudFront) ilişkili olduğunda veya verilmesinden ya da son yenilenmesinden bu yana dışa aktarılmışsa otomatik yenileme için uygundur.Bu uygunluk, manuel yenilemeleri unutmanın temel taşıdır.

Yenileme döngüsü başladığında ACM, sertifika ayrıntılarında bir durum alanı görüntüler. Konsoldan, API'den veya CLI'den Yenileme Durumunu kontrol edebilirsiniz Nerede olduğunuzu bilmek için. Ayrıca, dikkat etmeniz gereken herhangi bir sorun varsa, Sağlık panonuzla ilgili ilgili durumları da göreceksiniz.

Eğer komutları tercih ediyorsanız, CLI işinizi kolaylaştırır: describe-certificate işlemi yenileme durumu dahil olmak üzere ayrıntıları döndürür.. Örneğin:

Örnek: aws acm describe-certificate --certificate-arn arn:aws:acm:REGION:ACCOUNT:certificate/CERTIFICATE_ID

JSON yanıtında RenewalStatus alanına bakın. Eğer bu alan henüz görünmüyorsa, ACM yönetilen yenilemeyi başlatmamıştır.. Önceden plan yapmak iyi bir fikirdir: ACM, sona erme tarihinden yaklaşık 60 gün önce otomatik olarak yenilemeye çalışır ve bir sorun çıkarsa (örneğin alan adı doğrulaması), Sağlık'ta önceden bildirimler alacaksınız: 45, 30, 15, 7, 3 ve 1 gün.

Konsol şarj olmadığında: hızlı ve etkili adımlar

AWS konsoluna erişim sırasında oluşan 404 hataları veya bağlantı hataları genellikle çözülebilir. Öncelikle kaynaklarınızın bulunduğu bölgedeki Sağlık Pano'sunu inceleyerek başlayın. söz konusu hizmeti veya konsolu etkileyen devam eden bir olayı reddetmek için.

Açık bir olay yoksa yerel tedbirleri uygulayın: tarayıcı önbelleğini ve çerezleri temizle, başka bir tarayıcıyla giriş yapmayı deneyin ve sistem yöneticinizle kurumsal ağın amazon.com veya aws.amazon.com gibi alt alan adlarını engellemediğini doğrulayın.

Sorun belirli bir kaynakla sınırlı olabilir. Örneğin, bir EC2 örneği planlı bakıma tabi tutuluyor olabilir.ve Sağlık paneli size o olayın penceresini ve etkisini gösterecektir. Köke inmek size zaman kazandırır.

Ayrıca, hesabınızda bir kilitlenme varsa, yardım makalelerini elinizin altında bulundurmanız her zaman iyi bir fikirdir: Yeni bir hesap oluşturun ve etkinleştirin, konsola giriş yapın veya yardım isteyin.Bu rehberlerin bulunması stresli zamanlarda bekleme sürelerini azaltır.

EC2 ayrıntılı olarak: durum kontrolleri ve başarısız olduklarında ne yapılması gerektiği

Amazon EC2, uygulamalarınızı etkileyen platform veya yazılım sorunlarını tespit etmek için örnek başına otomatik kontroller gerçekleştirir. Bu kontroller her dakika yapılır ve sonuçlarına göre OK veya bozuk olarak işaretlenir.Kapatılamazlar ve sizin erken uyarınızdırlar.

Her doğrulama türü CloudWatch'taki metrikler tarafından desteklenir. Bir kontrol başarısız olursa, ilgili metrik yükselir ve alarmı çalmanın zamanı gelmiştir.Bununla birlikte, kesinti süresini en aza indirmek için bildirimleri ve eylemleri otomatikleştirebilirsiniz.

Sistem kontrolleri (temel platform)

Bu kontroller, örneğinizin çalıştığı altyapıyı izler. Başarısız olduklarında, genellikle AWS müdahalesi veya örneği başka bir ana bilgisayara taşıma önlemleri gerektiren bir platform sorunu söz konusudur..

EBS destekli durumlarda etkili eylem örneği durdurun ve yeni bir ana bilgisayara taşımak için başlatınÖrneğiniz örnek deposunu (Linux) kullanıyorsa, geçici birimlerin kapatma sırasında kaybolacağını bilerek sonlandırmayı ve değiştirmeyi seçebilirsiniz.

Bu başarısızlığı yansıtan ölçüt şudur: DurumKontrolBaşarısız_SistemÇalıştırma kitaplarını tetikleyen alarmlar, otomatik kurtarma veya durum devam ederse destek vakası açma için mükemmeldir.

Bare Metal'in bir özelliği var: İşletim sisteminden yeniden başlatma, geçici olarak sistem kontrol hatasına neden olabilir.Örnek tekrar çalışır duruma geldiğinde, başka bir müdahaleye gerek kalmadan durum TAMAM'a dönecektir.

Örnek kontrolleri (bağlantı ve yazılım)

Bu kontroller, örneğin işletim sisteminin ve ağının sağlığını analiz eder. EC2, yanıt verdiğini doğrulamak için NIC'e ARP istekleri göndererek bağlantıyı doğrular.Burada bir başarısızlık genellikle sizin tarafınızdan ayarlamalar yapılmasını gerektirir.

Eğer kontrol başarısız olursa, harekete geçme zamanı gelmiş demektir: Örneği yeniden başlatın, güvenlik duvarını/iptables'ı kontrol edin, sistem günlüklerini kontrol edin ve ağın yanıt verdiğinden emin olun.Sebep yazılım veya yapılandırma olduğunda beklemek yeterli olmaz.

İzlenecek metrik şudur: DurumKontrolBaşarısız_Örnek. Tanılama prosedürlerini çalıştıran alarmları tetiklemek için kullanın (günlükleri toplamak, kontrollü yeniden başlatmalar yapmak veya kurtarma işlemi gerçekleşmediğini tespit ederseniz geri almalar yapmak).

Yine Bare Metal'de işletim sisteminden yeniden başlatma yapıldığında geçici bir hata ortaya çıkabiliyor. Örnek önyüklemeyi tamamladığında, kontroller normalde TAMAM'a döner., bu yüzden panik yapmayın.

EBS Ekli Kontroller (Birimlerdeki G/Ç)

Bu kontroller, ekli EBS birimlerinin erişilebilir olup olmadığını ve giriş/çıkış işlemlerini tamamlayıp tamamlayamayacağını doğrular. StatusCheckFailed_AttachedEBS ikili metriği, bir veya daha fazla birim başarısız olduğunda bozulmayı gösterir..

Bu cephede bir hata, EBS'deki altta yatan hesaplama sorunlarından veya sorunlardan kaynaklanıyor olabilir. AWS'den hafifletme bekleyebilir veya harekete geçebilirsiniz: Birimleri değiştirin, örneği durdurup yeniden başlatarak başka bir ana bilgisayara taşıyın veya darboğazlar görürseniz IOPS boyutlandırmasını inceleyin.

Yükünüzde I/O yapılmıyorsa ancak bozulma görünüyorsa, Durdurma ve başlatma döngüsü, birim erişilebilirliğini etkileyen ana bilgisayar sorunlarını çözebilir.. Zayıf performans modellerini tespit etmek için CloudWatch'taki yerel EBS ölçümleriyle tamamlayın.

Otomatik Ölçeklendirme gruplarında, ilkeyi şu şekilde yapılandırın: Ekli EBS kontrolünde kalıcı arızalara sahip örnekleri kaldırınFilonuzu manuel müdahaleye gerek kalmadan sağlıklı tutacak ve uzun süreli arızalardan kaçınacaksınız.

Alarmlar ve Otomasyon: CloudWatch + Otomatik Ölçeklendirme

Tüm sağlık ölçümleriyle CloudWatch sizin sinir sisteminiz haline geliyor. Eşikleri tanımlayın, alarmlar oluşturun ve eylemleri düzenleyin: bildirimler, Lambda, örnek kurtarma veya değiştirmeOtomatik ve tutarlı yanıtların temelini oluşturur.

İş sürekliliğine ihtiyacınız varsa, şunları otomatikleştirmeyi ve değiştirmeyi düşünün: Otomatik Ölçeklendirme başarısız örnekleri kaldırabilir ve yenilerini başlatabilir, alarmlarınız uygun bildirim kanallarını (e-posta, Slack, PagerDuty veya kullandığınız herhangi bir şey) etkinleştirirken.

Tam görünüm, ilişkili kaynaklardan gelmektedir: EventBridge aracılığıyla CloudWatch ölçümleri ve günlükleri, izlemeler ve AWS Sağlık olaylarıBu kutucuk sayesinde sorunun uygulamanızda, örnekte, volume'da veya platformda olup olmadığını ayırt edebilecek ve doğru tepki verebileceksiniz.

AWS'nin başarısız olup olmadığını öğrenmek için resmi ve bağlamsal kaynaklar

Bir düşüş söylentisi yayıldığında - örneğin AWS küresel kesintisi Büyük başarısızlıklara yol açan bu süreçte, ideal olan resmi kaynaklara öncelik vermektir. Hizmete ve bölgeye göre durumu görmek için status.aws.amazon.com adresindeki genel sayfayı kontrol edin.ve hesabınıza özel bilgiler için oturum açtıysanız AWS Sağlık Panosunu kullanın.

Üçüncü taraf kaynaklar ek sosyal bağlam ve sinyaller sağlar. Downdetector kullanıcı raporlarındaki ani artışları yansıtır ve The Stack Status çeşitli sağlayıcıların durumunu özetler.Bunlar resmi kanalların yerini almasa da erişimi tahmin etmede faydalıdır.

Ancak görünürlük ile otomasyon arasında ayrım yapıyor. Programatik olay alımı için EventBridge, RSS akışlarından veya veri kazıma yöntemlerinden daha iyidir.Çünkü dış formatlar değişebilir ve sizi bir olayın ortasında bırakabilir.

Büyük düşüşler nasıl ortaya çıkar ve neler bekleyebilirsiniz?

Büyük olaylar genellikle yoğun kullanılan bölgelerde (örneğin ABD Doğu Yakası) yoğunlaşmaktadır ve Etkisi şu zincirlerde hissediliyor: depolama, bilgi işlem, veritabanları veya DNSHata artışlarından etkilenen hizmetler arasında S3, EC2, RDS, Route 53 veya Kinesis gibi hizmetlerin listelendiğini görmek nadir değildir.

Bu durumlarda, yayın yapan şirketler, iş birliği araçları, e-ticaret veya mobil uygulamalar gecikme, kimlik doğrulama hataları ve aralıklı arızalar yaşayabilir. Desen düzensizdir: bazı kullanıcılar için işe yararken, diğerleri için yaramaz., güzergahlara, varlık noktalarına ve aktif bölgelere göre.

Resmi kanallar genellikle düzenli güncellemeler yayınlar: Nedenin önceden belirlenmesi (örneğin, bir API'deki DNS çözümleme sorunları), azaltma önlemlerinin dağıtımı ve yeniden deneme önerileriKurtarma ilerledikçe hatalar azalıyor ve trafik normale dönüyor.

Bazı ülkelerde veya sektörlerde, etkilenen belirli hizmetlerle ilgili başlıklar göreceksiniz. Netflix, Disney+, Slack, bankalar veya çok popüler uygulamalar gibi platformlar etkilenebilir Bağlı oldukları bölge zarar gördüğünde ve hatta LATAM'daki işletmeler (geçmiş olaylarda iFood, Mercado Livre veya PicPay gibi) bile bu sarsıntıyı hissetti.

Düşüşün ekonomik ve itibar üzerindeki etkisi

Teknik boyutun ötesinde, bulut kesintisinin gerçek bir maliyeti vardır: Dakika başına kayıplar, aşırı yüklenmiş destek, hayal kırıklığına uğramış müşteriler ve medya baskısıİnternetin bazı temel unsurlarının merkezileşmesiyle ağ etkisi daha da güçleniyor.

Kritik hizmetler yürüten kuruluşlar bunu çok iyi bilir: Başarısızlıklar tekrarlanırsa güven aşınır ve marka imajını geri kazanmak, teknik onarımın kendisinden daha pahalıya mal oluyor.

Bu krizler, apaçık ortada olan ama rahatsız edici bir dersi ortaya çıkarıyor: paylaşılan altyapılara büyük ölçüde bağımlıyızDayanıklılık ve gerçekçi başarısızlık varsayımları için tasarım yapmak artık isteğe bağlı değil.

Bir sonraki olaya karşı daha dayanıklı olmak için stratejiler

Eğer işletmeniz kapatılamıyorsa, operasyonel riski azaltan taktikler mevcuttur. Yükü farklı AWS bölgeleri arasında dağıtmak için çok bölgeli bir mimari düşünün. ve coğrafi başarısızlığın tek bir noktadan oluşmasını önleyin.

Kullanım durumu bunu gerektirdiğinde çoklu bulutu değerlendirin. Temel işlevselliği başka bir sağlayıcıya (Azure, GCP) dağıtmak size bir güvenlik ağı sağlar., daha fazla karmaşıklık ve koordinasyon maliyeti gerektirmesine rağmen.

Teslimat katmanında, iyi yapılandırılmış bir CDN fırtınalara karşı koymaya yardımcı olur. CloudFront gibi servisler veya Cloudflare gibi alternatifler, kaynağınız tökezlese bile statik içerik sunmanıza olanak tanır.Kullanıcılara ve sistemlere bir mola verme fırsatı veriyor.

Hiçbiri organize olmadan işe yaramaz: Roller, kanallar, yükseltme ve dış iletişim ile bir olay yanıt planı tanımlayınSıcak anlarda, netlik değerli dakikaları kurtarır.

Kaybolmadan AWS durumunu kontrol etmek için en iyi uygulamalar

Centraliza la observabilidad: Platform bağlamı için AWS Sağlık Panosunu ve operasyonel ölçümler için CloudWatch'u kullanınBu ikili yaklaşım, herhangi bir katmanda hazırlıksız yakalanmanızı engeller.

Sertifikalarla otomasyonu sağlayın. ACM'de Yenileme Durumunu izleyin ve Sağlık panosundan artan uyarılara tepki verin Son kullanma tarihine yanlış ayakla gelmemek için.

Önemli EC2 metriklerine alarmlar ayarlayın. StatusCheckFailed_System, StatusCheckFailed_Instance ve StatusCheckFailed_AttachedEBS önemlidirSLA'nıza göre Otomatik Ölçeklendirme yoluyla kurtarma, yeniden başlatma, devralma veya değiştirme eylemleriyle ilişkilendirilir.

Ve eğer konsol direnç gösterirse, kontrol listesini hatırlayın: Doğru bölgedeki Sağlık olaylarını kontrol edin, önbelleğinizi ve çerezlerinizi temizleyin, tarayıcınızı değiştirin ve BT ile AWS alan adlarının engellenmediğini doğrulayın. Bu basit kontroller, düşündüğünüzden daha fazla sorunu çözer.

İlgili Kaynaklar ve Hesap Yardımı

Operasyonlarınızı genişletmek ve güçlendirmek için ilgili hizmetlere ilişkin dokümanları inceleyin. Olay yönlendirme için AWS Health ve EventBridge, yenilemeler için ACM ve ölçümler ve eylemler için CloudWatch/EC2 referansı., güçlü bir kit oluşturur.

  • AWS Sağlık Kontrol Paneli: Herhangi bir ek yapılandırmaya gerek kalmadan genel ve hesap özelindeki etkinliklerin görünürlüğü.
  • Amazon EventBridge: Birden fazla hedefe yönlendirme için esnek kurallarla sağlık olaylarının güvenilir şekilde alınması.
  • AWS Sertifika Yöneticisi (ACM): Yenileme durumunun takibi ve sona ermeden önce kademeli bildirimler.
  • Amazon EC2 + CloudWatch: Dakikadaki kontroller, durum ölçümleri ve otomatik yanıtları tetikleyen alarmlar.

Hesabınıza erişim veya hesabınızı yönetme konusunda sorularınız varsa lütfen en sık kullanılan destek makalelerine bakın: Yeni bir hesap nasıl oluşturulur ve etkinleştirilir, konsola nasıl giriş yapılır ve hesabınız ve kaynaklarınızla ilgili yardım nasıl talep edilir.Bunların bulunması, bir şey uymadığında süreci hızlandırır.

Tek bir panele bakmak hiçbir zaman tüm hikayeyi anlatmaz: AWS'nin sağlığını kontrol etmek, Sağlık Panosu bağlamının, EventBridge ile güvenilir alımın, ACM sinyallerinin ve EC2 kontrollerinin birleştirilmesini gerektirir.İyi düşünülmüş alarmlar ve net oyun planları sayesinde teşhisler daha çabuk konur, tepkiler daha doğru olur ve trafik arttığında veya bölgesel huzursuzluklar yaşandığında bile operasyonlar çok daha sorunsuz hale gelir.

Amazon Web Services (AWS) dünya çapında çöktü
İlgili makale:
Küresel AWS kesintisi, büyük web sitesi, uygulama ve ödeme kesintilerine neden oluyor