- Insiden ini berpusat di US-EAST-1 dan masalah koneksi DNS ke DynamoDB, yang secara efektif meningkatkan layanan kritis.
- AWS memitigasi inti kesalahan dan komunikasi pemulihan progresif, dengan menyerang di CloudTrail/Lambda dan membuat kesalahan pada EC2 baru.
- Jutaan laporan dan ilmuwan perusahaan yang terkena dampak, dari bank dan administrasi permainan, media, dan e-commerce.
- Untuk memeriksa statusnya: panel publik AWS Health, halaman resmi status, dan rastreador komunitas seperti yang baru saja terjadi.
Ketika layanan Amazon Web Services dilakukan oleh responden, media internet tidak langsung dan hanya perlu dilakukan: Apa yang dilakukan AWS tentang aplikasi saya? Pada jam-jam terakhir ini, kami melihat dengan jelas gangguan besar yang berdampak pada jaringan sosial, bank, permainan online, perdagangan elektronik dan administrasi publik, dan menunjukkan bukti ketergantungan kami pada produk Amazon.
Lanjutan menemukan panduan yang jelas untuk memeriksa keadaan AWS pada saat yang sebenarnya, rincian detail dari apa yang telah Anda lakukan, layanan apa yang terkena dampaknya, karena masalah DNS di DynamoDB dapat diperoleh dengan efek dominasi, dan apa itu perusahaan, pakar, dan otoritas. Semua dijelaskan dalam bahasa Spanyol, tanpa rodeo dan dalam konteks untuk memahami situasi secara nyata.
Bagaimana cara membandingkannya dengan AWS adalah hal yang sama
Bentuk paling langsung dan dapat dilakukan adalah berkonsultasi dengan panel resmi. Panel publik AWS Health dan halaman status AWS mencakup aktivitas, mitigasi, dan layanan yang berdampak pada wilayah. Sejak September 2023 ada perubahan penting dalam navigasi: jika Anda mengklik acara publik apa pun, URL navigasinya akan lengkap dengan tautan langsung ke acara tersebut, dan membuka akses ke tampilan daftar acara dengan ventilasi yang muncul dari insiden yang dipilih untuk waktu yang lama.
Selain panel resmi, Anda dapat menjelajahi area terceros seperti rastreader caídas. Plataformas seperti Downdetector mengumpulkan pemberitahuan penggunaan waktu nyata, berguna untuk mendeteksi kesalahan dalam layanan nyata. Jadi, saya harap Anda melaporkan komunitas dan dapat memasukkan hal-hal positif yang salah; Ini adalah data yang saling melengkapi, tidak ada yang pasti.
Jika Anda mengelola sistem, pastikan Anda memantau wilayah yang paling sering digunakan. Wilayah US-EAST-1 (Norte de Virginia) merupakan wilayah yang paling kritis karena juga layanan troncales dan banyak muatan pekerjaan. Suatu kejadian dapat terjadi di seluruh dunia karena peso Anda dalam arsitektur global.
Pada akhirnya, perbaiki bagian masalah dalam ketergantungan Anda: jika aplikasi Anda bergantung pada DynamoDB, Lambda, CloudWatch, Route 53, atau CloudFront, anomali apa pun dalam komponen ini dapat menjelaskan latensi dan kesalahan. Jika Anda memerlukan informasi riwayat insiden, tampilan daftar AWS Health akan difasilitasi melalui saluran komunikasi dan mitigasi sementara.
Hal ini terjadi pada hari terakhir AWS
Di jalan raya, bermil-mil penggunaan di banyak tempat mulai melaporkan kesalahan penggunaan layanan internet. Pendaftaran downdetector lebih dari 4 juta pemberitahuan di seluruh dunia dan lebih dari 500 perusahaan yang terpengaruh, dengan masalah yang terputus-putus sehingga diperpanjang selama berjam-jam. Di Amerika, fokusnya terletak di Virginia del Norte, pusat wilayah US-EAST-1.
Komunikasi AWS akan meningkat secara signifikan dengan banyak hal. Pertama, selidiki peningkatan kesalahan dan latensi dalam beberapa layanan, semakin lambat untuk mengidentifikasi kemungkinan penyebab dalam API DynamoDB untuk US-EAST-1, setelah melakukan mitigasi primer dan sinyal pemulihan, dan pada akhirnya konfirmasi bahwa masalah DNS akan dilakukan mitigasi hingga selesai.
- 08:11 (hora del Reino Unido): AWS menunjukkan bahwa ada penyelidikan tentang peningkatan kesalahan dan latensi dalam berbagai layanan.
- 10:01: Anda mengidentifikasi kemungkinan penyebab kerusakan pada API DynamoDB di US-EAST-1.
- 10:22: jika penerapan mitigasi dimulai dan muncul titik waktu pemulihan; beberapa kesalahan bisa bertahan.
- 10:27: jika Anda mengamati hal-hal penting dari pemulihan; sebagian besar perhatian harus berfungsi saat proses dilakukan.
- 12:35: Masalah pada bagian bawah DNS dinyatakan sebagai mitigasi yang lengkap; sebagian besar layanan akan berjalan normal.
Sebuah pesar de la mitigación del núcleo del insidente, AWS melaporkan kesalahan yang terus berlanjut pada saat EC2 baru dan proses yang terganggu dalam layanan seperti CloudTrail dan Lambda, biasanya terjadi gangguan jenis ini ketika ada serangkaian peristiwa yang terakumulasi.
Layanan yang tidak mempengaruhi pemandangan
Dampaknya adalah transversal. Masuk ke layanan dan platform dengan masalah yang berhubungan dengan media sosial, juegos, banca, e-commerce, dan perangkat kerja. Ini adalah sejumlah perwakilan dari mereka yang melaporkan pengusaha dan perusahaan:
- Jaringan dan pesan: Snapchat, Sinyal dan juga kesulitan di Reddit.
- Trabajo y colaboración: Slack dan Zoom dengan insiden yang terputus-putus.
- Ekosistem Amazon: Amazon.com, Alexa dan perangkat Hubungi kami untuk menjawabnya.
- Videojuegos y ocio: Roblox, Fortnite, Clash Royale, Clash of Clans, Wordle, Pokémon Go, Rocket League, dan Peloton dengan banyak dan banyak lagi.
- Pendidikan dan kreativitas: Duolingo dan Canva con interrupciones.
- Banca dan sektor publik (Reino Unido): Halifax, Lloyds Bank, Bank of Scotland, HMRC dan bagian de Gov.uk, termasuk operator dan layanan seperti Sky, BT, EE, Vodafone, dan Virgin Media.
- Pagos y finanzas: Mercado Pago, Venmo dengan insiden yang dilaporkan oleh pengguna, Coinbase dan aplikasi inversi Robinhood dengan pengaruhnya.
- Media internasional: webs de The Wall Street Journal y The New York Times con problemas de acceso.
- Perplejidad y asistentes: platform IA Perplexity mengenali masalah AWS.
Dalam bahasa Spanyol juga tidak ada efeknya. BBVA dan ING registraron incidencias, y Movistar dan Oranye bereksperimen pada masalah pada saat-saat tertentu. Selain itu, Ticketmaster kesalahan komunikasi sementara dalam pembelian entri, dengan Live Nation señalando membuat monitor untuk mengatur ulang ventilasi sebelum memungkinkan.
Menyatakan bahwa, meskipun hubo ruido mengenai masalah pagos con tarjeta, Redsys menunjukkan bahwa waktu Anda tepat waktu dan terjadi pada kejadian AWS, terbatas pada infrastruktur komunikasi Anda. Saya memutuskan, tidak ada yang salah dengan dia yang berhubungan dengan dunia Amazon.
Penyebab teknis: DNS dan kertas DynamoDB
Kejadian ini terjadi di Sistema de Nombres de Dominio. DNS adalah “panduan telepon” internet: nama dagang yang dapat dibaca (seperti sebuah dominio) ke arah IP yang dapat digunakan oleh navegadores dan layanan. Jika DNS gagal, seperti yang terjadi pada peta: klien tidak akan menerimanya, jadi tentu saja layanan ini akan rusak.
Saat kejadian, API DynamoDB dan US-EAST-1 menunjukkan peningkatan kesalahan dan Anda mengidentifikasi masalah DNS yang disebabkan oleh hal berikut. Kombinasi layanan yang digunakan dengan wilayah yang kritis menyebabkan efek yang mengalir sehingga mempengaruhi beberapa dekade layanan. Salah satu perspektif yang tersedia mungkin mengarah pada hal itu Ada 113 komponen AWS yang bergantung pada DynamoDB se vieron salpicados.
Setelah menerapkan mitigasi DNS, platform diterapkan untuk memulihkan operasi. Jadi tidak menghalangi apa yang harus dilakukan untuk memproses (backlog), yang mengganggu latensi dan beberapa kekhawatiran yang terjadi sementara waktu akan membuat beban menjadi normal. Ini adalah hal yang mustahil untuk dilakukan dalam skala besar.
Selain itu, komunikasi AWS yang terkait dengan pemulihan umum, petisi untuk meluncurkan instans EC2 baru setelah melakukan kesalahan besar seperti kebiasaan. Dalam waktu satu jam, operasi ini akan berkurang secara signifikan karena peralatan tidak dapat bekerja dengan baik.
Infrastruktur yang mendukung jaringan internet
Untuk memasuki acara seperti apa dimensi AWS. Jutaan situs dan aplikasi bergantung pada infrastruktur Anda (komputasi, almacenamiento, bases de datas, redes, IA…). Analisis BuiltWith situasi a lebih dari 76 juta web di AWS, dan cifras lainnya mencapai 76,8 juta dalam penerimaan terbaru, dengan alrededor de 200.000 sitios en España.
Bisnis Amazon juga dilakukan sendirian: AWS menghasilkan 107.600 juta dolar dalam pendapatan pada akhir tahun, digabungkan seperti pemimpin pasar melalui Microsoft Azure dan Google Cloud. Hegemoni ini berimplikasi pada suatu wilayah tropis yang tepat waktu, meskipun wilayah geografisnya berada di tengah-tengah dunia.
Periodistas teknologi telah menunjukkan hal itu frekuensi kejadian yang relatif ini mengungkapkan kerapuhan ekosistem. Jika ada kesalahan di tengah, dampaknya akan semakin besar karena “tenemos más huevos en menos cestas”. Dan seperti yang ditunjuk oleh profesor Universitas Notre Dame, pemulihan dapat menyebabkan “kesalahan dalam cascada” selama waktu berjalan lambat ketika subsistem distabilkan, sehingga tidak berfungsi dengan baik pada perangkat listrik besar.
Episode ini juga memiliki riwayat pengumpulan data terbaru dari kesalahan besar lainnya, seperti pada tahun 2024 dengan bukti keamanan perusahaan yang melakukan aktualisasi, acabó colgando equipos Windows en rumah sakit dan aeropuertos. Penyebab berbeda, pelindung lainnya: vínculos críticos que, al fallar, interrumpen funciones clave en cadena.
Tanggung jawab perusahaan dan administrasi
Rangkaian komunikasi ini sangat luas. Mercado Libre y Mercado Pago mengenali provokasi yang tidak stabil karena masalah yang digeneralisasikan di AWS dan memastikan bahwa layanan tersebut berfungsi untuk memulihkan layanan. Di Reino Unido, HMRC menunjukkan bahwa pengguna kami memiliki kesulitan untuk mengakses layanan online berdasarkan kejadian global dan merekomendasikan tindakan cepat untuk mengambil keputusan.
Desde la banca británica, Lloyds Bank menyesali perbuatan buruknya dan mungkin layanan Anda akan secara bertahap diluncurkan secara online. Halifax sebagian besar pesan kesalahan menjelaskan bahwa Anda tidak dapat memproses masalah teknis. Sesuaikan hari berikutnya, entitas akan mengonfirmasi pengembalian seperti biasa.
Di lingkungan sekitar dan di lingkungan kerja, Live Nation memperingatkan tentang gangguan yang mempengaruhi Ticketmaster, untuk sementara waktu membeli entri, saat publikasi seperti The Wall Street Journal dan The New York Times mengatasi masalah akses.
Ekosistem Amazon tidak memiliki batas: klien melaporkan kesalahan pada pembelian yang lengkap di Amazon.com dengan pesan jenis “algo salió mal”, dan perangkat lain Alexa. Meskipun mitigasi DNS sedang berlangsung, pemulihannya sangat lambat karena jumlah permintaan yang tertunda.
Keahlian, tanggung jawab, dan ketahanan
Apakah Anda ingin melakukan kesalahan ketika gagal? Jawabannya adalah mati. Bagian ini ditemukan dalam bukti ketika sumbernya berasal dari dalam, tetapi para ahli menemukan bahwa klien harus mengembangkan sistem mereka untuk mengatasi kesalahan: memanfaatkan redundansi, menghapus berbagai zona dan wilayah, dan menjaga kontinuitas dan salinan keamanan untuk layanan kritis.
Voces como la del profesor Ken Birman (Universidad de Cornell) menyadari bahwa banyak perusahaan tidak memiliki simpanan yang cukup dalam aplikasinya. Hal ini juga terjadi pada kertas dari beragam teknologi: ketahanan yang lebih baik jika tidak bergantung pada bukti unik, bahkan jika eskalasi yang digunakan AWS untuk melakukan alternatif sebenarnya dikurangi menjadi satu titik (Azure dan Google Cloud, pada prinsipnya).
Dari yurisdiksi dan perdagangan, tugas tanggung jawab dapat diperoleh di pengadilan. Jika terjadi gangguan besar lainnya di wilayah tersebut, maka akan ada biaya tambahan sebesar 500 juta dolar untuk kerugian yang diperoleh. Pelengkapan infrastruktur ini menyebabkan kerusakan dan pemeliharaan lahan yang sulit dan berkepanjangan.
Analis dan akademisi berkonsultasi secara bersamaan: saling ketergantungan yang sangat besar dan “sedikit” kesalahan manusia atau konfigurasi dapat berdampak secara sistemik. Membangun ketahanan, menjamin keberagaman dan mempraktikkan bidang-bidang yang mungkin terjadi bukanlah pilihan untuk mempertahankan kepercayaan dan kesinambungan bisnis.
Spanyol: kronologi, dampak lokal dan aclaraciones
En horario peninsular, deteksi kesalahan jika terjadi pada jam 9:00. AWS menginformasikan tentang peningkatan latensi dan kesalahan dalam layanan biaya ini dari Status Unidos yang berdampak pada klien secara global, menggunakan “beberapa alternatif secara paralel” untuk mempercepat pemulihan.
Conforme pasaron las horas, el volumen insiden yang diberitahukan terjadi secara berlebihan dan, sekali lagi setelah pemberitahuan pertama, perusahaan itu akan meringankan masalah DNS. Namun demikian, banyak platform berikut memulihkan dosis dengan cara yang ditingkatkan dengan mengumpulkan muatan.
Saat ini, perdebatan publik dikaitkan dengan AWS ada beberapa hal yang tidak ada hubungannya. Fue el caso de los pagos con tarjeta en la red merah, yang menyatakan bahwa kejadian tersebut disebabkan oleh masalah yang terjadi tepat waktu dan terutama karena infrastruktur komunikasi Anda, namun tidak dapat diatasi dengan akses ke Amazon.
El balance final deja una lección clara: Meskipun peristiwa ini terjadi di wilayah geografis tertentu, dampaknya mungkin bersifat global jika mempengaruhi layanan di wilayah yang relevan seperti US-EAST-1. Untuk penggunaan terakhir, Anda akan menemukan aplikasi yang tidak ada, halaman yang tidak ada pasan, dan web yang tidak ada muatan.
Itu AWS dan karena itu kesalahannya tidak sama
Amazon Web Services adalah divisi dari Amazon, sebuah pintu masuk yang luas dari pusat data dan layanan admin bahwa perusahaan-perusahaan tersebut sedang dalam perjalanan untuk membangun dengan cara mereka sendiri. Katalognya berhasil S3, EC2, SQS, RDS, DynamoDB, IAM, CloudFormation, AWS CDK, Route 53, CloudFront, Lambda, VPC, CloudWatch y Glacier, di antara banyak lainnya.
Model ini mengizinkan perusahaan besar dan kecil meluncurkan produk global dengan inversi awal, delegasikan ke AWS pembelian perangkat keras, koneksi, replika di seluruh wilayah, dan pengoperasian 24/7. Kontrapartida adalah paparan a insidencias compartidas: ketika ada orang kritis yang gagal dalam pembuktian, berapa banyak klien yang akan datang ke sana.
Ini adalah bagaimana kita bekerja dengan perangkat ini yang memiliki banyak situs berdedikasi pemberitahuan, artikel, dan kegunaan tentang AWS, mempelajari praktik keselamatan yang telah dilakukan dengan CDK atau konfigurasi lanjutan Route 53. Beberapa komunitas ini dapat membedakannya anggota (Anggota), melatih kembali kerja sama antara para profesional.
Pencarian cepat untuk mendeteksi suatu pekerjaan ketika “semuanya gagal”
Jika Anda mencatat bahwa berbagai aplikasi berbeda dan kesalahan serupa di masa lalu, Anda akan melihat kejadian di platform. Pelajari AWS Health dan status resminya dan bandingkan dengan komunitas rastreador untuk versi gambar laporannya. Jika Anda menggunakan layanan di US-EAST-1, gunakan fokusnya.
Ketika panel resmi mengonfirmasi mitigasi, kami memulihkannya pemulihan tidak terjadi seketika: backlogs terlambat di vacciarse, DNS perlu disebarkan dan saat-saat baru dapat terjadi kesalahan dalam proses devolve yang harus dilakukan agar stabil.
Jika Anda merupakan teknisi yang bertanggung jawab, buatlah rencana lanjutan untuk daftar ketergantungan dan konversi yang jelas. Salin data dan layanan penting di berbagai zona atau wilayah dan dokumentasikan “runbooks” ahorra sustos ketika reloj benar dan kontra Anda.
Tampoco descartes problemas locales tuyos. Kesalahan ISP, konfigurasi DNS yang buruk, atau gangguan terbaru dan aplikasi Anda dapat memiliki masalah yang sangat rumit di suatu perusahaan global. Konfirmasi cruzada tidak menghasilkan kesimpulan yang cepat.
Pada akhirnya, jika Anda perlu menggabungkan beton dengan peralatan Anda, setujui fungsi yang dirangkai secara mendalam: mulai September 2023, jika Anda memilih acara publik AWS Health, URL dari browser yang Anda masukkan ke dalam direktori dan buka kembali daftar dengan ventilasi yang muncul dari acara ini. Lebih mudah untuk melakukan semua hal di halaman yang sama.
Apa yang Anda pikirkan tentang angka dan suara di sektor ini
Dalam pico de la interupsi, Downdetector melebihi 6,5 juta pengaduan tingkat global dan mungkin lebih dari 1.000 perusahaan terpengaruh di berbagai negara. Meskipun itu bukan hasil resmi, itu adalah ide kehancuran yang memicu acara kaliber ini.
Para konsultan ahli bersikeras bahwa, meskipun masalah dasar adalah solusinya, pertahankan “kesalahan signifikan” pemulihan dalam beberapa layanan saat memasuki sistem di atas. Analogi dari tindakan tersebut adalah sebagai berikut: lampu dapat berputar, tetapi bagian tersebut dapat distabilkan secara integral pada waktu yang sama.
Kami juga melakukan interogasi mengenai tanggung jawab bersama. Beberapa hal yang membuat banyak perusahaan percaya diri dalam sebuah bukti unik tanpa perlindungan yang memadai. Replika lainnya, seperti skala AWS, diversifikasi total sangat rumit. Di antara banyak posisi, keyboard ini meningkatkan pengoperasian madu dan arsitektur ketahanannya.
En el frente jurídico, tidak ada yang mengetahui bahwa ada kerusakan yang dapat direklamasi ketika ada bagian besar dari aktivitas yang ada di frenada. Tetapi mengaitkan penyebab yang tepat dan dampak ekonominya jarang sekali sederhana, karena sistemnya sangat terintegrasi dan rangkaian efeknya tidak selalu linier.
Seperti teknik umum dan perdagangan, kesimpulan pengoperasiannya tidak jelas: ada yang diseñar untuk kesalahan itu. Permintaan tersebut tidak akan terjadi jika terjadi hal lain, jika tidak, dan karena dampaknya. Mempersiapkan tanda perbedaan antara keberlanjutan dan serangkaian krisis.
Episode tersebut jelas menunjukkan bahwa AWS sedang menguji sesuatu yang mungkin ingin dilihat oleh para pejabat dan kru señales, yang berarti bahwa suatu kesalahan DNS di wilayah kritis seperti US-EAST-1 dapat mengakses internet media, dan menerima bahwa pemulihan dilakukan dengan cepat, membatasi waktu dan menyesuaikan kemajuan. Fungsi Amazon yang sangat baik adalah bagian dari global merah, dan meskipun arsitektur internet resisten dan pulih, saling ketergantungan menyiratkan hal itu penyesuaian kecil dapat memiliki efek yang sangat besar. Conviene tenerlo presente y, sobre todo, persiapkan secara serio untuk el próximo sobresalto.