OpenAI Tarihindeki En Büyük Kesintinin Nedenini Açıkladı
OpenAI, Çarşamba günü yaşanmış olan büyük kesintinin yeni telemetri hizmetinden kaynaklandığını açıkladı.
OpenAI, Çarşamba günü yaşanmış olan ve firmanın tarihindeki en uzun kesintilerden biri olan büyük aksaklığın, yeni devreye alınan bir telemetri hizmetinden kaynaklandığını açıkladı. Bu kesinti ChatGPT, Sora ve geliştiriciye yönelik API hizmetlerinde büyük aksaklıklara niçin oldu.
Şirket yayımladığı son durum raporunda, kesintinin bir güvenlik vakası yada yeni bir ürün lansmanından değil, Çarşamba günü devreye alınan Kubernetes metriklerini toplayan bir telemetri hizmetinden kaynaklandığını belirtti.
OpenAI herkesten özür diledi
Kubernetes, uygulama paketlerini ve ilgili dosyaları izole ortamlarda yönetmeye destek olan açık kaynaklı bir programdır. Telemetri hizmeti, istemeden kaynak yoğun Kubernetes API işlemlerine niçin oldu ve bu da Kubernetes denetim düzlemini dönem dışı bıraktı. Yeni telemetri hizmetinin, OpenAI’nin birçok hizmetinin DNS çözümlemesi için güvenilmiş olduğu Kubernetes işlemlerini etkilediği açıklandı.
OpenAI’nin DNS önbelleklemesi, yayılımın tam kapsamının anlaşılmadan ilkin devam etmesine niçin oldu ve görünürlüğü geciktirdi. OpenAI, problemi müşteriler etkilenmeden birkaç dakika ilkin tespit ettiklerini, sadece aşırı yüklenmiş Kubernetes sunucuları sebebiyle süratli bir halde düzeltme yapamadıklarını açıkladı. Şirket, bu olayın birçok sistem ve sürecin aynı anda başarısız olması ve beklenmedik şekillerde etkileşimde bulunmasının bir sonucu bulunduğunu belirtti.
OpenAI, gelecekte benzer olayların meydana gelmesini önlemek için altyapı değişikliklerinde daha iyi seyretme, aşamalı yayılımda iyileştirmeler ve mühendislerinin Kubernetes API sunucularına her koşulda erişimini sağlamak için yeni mekanizmalar dahil olmak suretiyle çeşitli önlemler alacağını duyurdu. OpenAI, bu kesinti için ChatGPT kullanıcılarından özür diledi ve beklentilerinin altında kaldıklarını da kabul etti.



