Hata toleransı

Hata toleransı (ya da "duyarsızlık hatası"), bir sistem (aynı zamanda "söz muhtemelen daha düşük bir şekilde çalışmaya devam sağlayan bir tasarım yöntemi ifade eder  bozulmuş modunda  , bunun yerine, tamamen düşme"), biri onun bileşenler artık düzgün çalışmıyor.

İfade, kısmi bir arıza durumunda, yani muhtemelen iş hacminde bir azalma veya yanıt süresinde bir artış olması durumunda az çok işlevsel kalacak şekilde incelenen bilgisayar sistemleri için yaygın olarak kullanılır . Diğer bir deyişle, ister donanım arızası, ister yazılım arızası olsun, sistem çalışmayı durdurmaz.

BT'nin dışındaki bir örnek, lastiklerinden biri patlak olsa bile her zaman yola elverişli olacak şekilde tasarlanmış bir motorlu taşıttır.

Hata tolerans kriterleri

Elektronik ve BT'de bile hiçbir makine % 100 güvenilir veya yok edilemez değildir. Üretici veya bağımsız bir test laboratuvarı, az veya çok yoğun kullanımı gösteren testlerden sonra makine arızalarına karşı bir tolerans kriteri tanımlar .

Bu kriter, arızalar arasındaki ortalama saat sayısı (İngilizce MTBF veya arızalar arasındaki ortalama süre ) veya makinenin ömrünün bitiminden önceki çalışma saatlerinin sayısıyla ifade edilir. Diğer bir parametre genellikle onunla ilişkilidir, MTTR ( ortalama onarım süresi ), onarıma kadar ortalama süre . İkisinin birleşimi tahmin edilebilir kullanılabilirlik oranını belirler .

Kullanılabilirlik karşılık gelir .

Başarısızlık şiddeti dereceleri

  1. açık başarısızlık veya arıza durumunda kapanma (İngilizce'de başarısız durdurma ): ya sistem normal çalışır (sonuçlar doğrudur) veya hiçbir şey yapmaz. Bu, en basit başarısızlık türüdür;
  2. ihmal veya geçici arıza nedeniyle arıza  : mesajlar giriş veya çıkışta veya her ikisinde kaybolur. Sonsuz süreli geçici bir başarısızlık olarak kabul edilir;
  3. geçici arıza  : sistem yanıt süresi, özellik gereksinimlerini aşıyor;
  4. Bizans başarısızlığı  : sistem rastgele sonuçlar verir.

Kullanılabilirlik sınıflandırması

Açısından sistemlerinin sınıflandırılması kullanılabilirliği sınıfından 7 sınıflara yaygın satış olanakları, dikkate alınmamıştır için (zaman sistem mevcut% 90, ve yılda bir aydan fazla için kullanılamaz halde) ultra mevcut sınıfın (99,99999 mevcut) .% zaman ve bu nedenle yılda sadece 3 saniye kullanılamaz): bu farklı sınıflar , sınıfın sistemlerinin mevcut olduğu zaman yüzdesinde 9 sayısına karşılık gelir .

Tür Kullanılamama (yılda dakika olarak) Yüzde kullanılabilirliği Sınıf
yönetilmedi 50.000 (34 gün, 17 saat ve 20 dakika) % 90 1
yönetilen 5.000 (3 gün, 11 saat ve 20 dakika) % 99 2
iyi yönetilen 500 (8 saat 20 dakika) % 99.9 3
hatalı tolerans 50 (bir saatin biraz altında) % 99,99 4
yüksek kullanılabilirlik 5 dakika % 99,999 5
çok yüksek kullanılabilirlik 0,5 (30 saniye) % 99,9999 6
çok yüksek kullanılabilirlik 0,05 (3 saniye) % 99,99999 7

Not  : Bir yıl 8.760 saat veya 525.600 dakika sürer.

Metodlar

Dezavantajları

Hataya dayanıklı bir sistemin avantajları açıktır, peki ya dezavantajları?

Hata tolerans sistemi ne zaman kullanılır?

Genel bir kural olarak, her bileşenin arızalara karşı duyarsız olduğu bir sistem tasarlamak meselesi değildir. Hangi bileşenlerin hataya dayanıklı olması gerektiğini belirlemek için aşağıdaki sorular sorulabilir:

Tüm testleri geçen bir bileşene örnek, yolcu sabitleme sistemidir.

Normalde yerçekimi olan birincil yolcu hareketsizleştirme sistemini düşünmüyoruz. Veya üzerinde araba rulo ciddi birkaç at fren uygulanırsa gs , immobilizasyon bu birincil yöntem çalışma olmayabilir. Böylesi bir kaza sırasında yolcuların hareketsiz hale getirilmesi güvenlikleri için hayati önem taşır, bu nedenle ilk teste yanıt veririz.

Emniyet kemerleri ortaya çıkmadan önce yolcuların yerinden çıkmasına neden olan kazalar olağandı, bu nedenle ikinci test cevaplandı.

Emniyet kemerleri gibi yedekli bir yolcu engelleme sistemi ucuzdur ve çok düşük ağırlıktadır ve çok büyüktür, bu nedenle üçüncü test yanıtlanır.

Bu nedenle, tüm arabalara emniyet kemeri eklemek harika bir fikir. Yolcu hava yastığı (İngilizce hava yastığı ) gibi ek hareketsizleştirme sistemleri daha pahalıdır ve bu testi daha düşük bir marjla karşılar. Ucuz arabaların diğerleri kadar fazla olmamasının nedeni budur.

Hata toleransı örnekleri

Donanım hatası toleransı, bazen arızalı parçaların çıkarılmasını ve ardından sistem çalışır durumdayken yeni parçalarla değiştirilmesini gerektirebilir. Böyle tek bir yedekli sistemin " tek noktaya toleranslı" olduğu söylenir ve hataya dayanıklı sistemlerin büyük çoğunluğunu temsil eder. Bu tür sistemlerde, arızalar arasındaki ortalama arıza oranı, yöneticilerin yedekleme başarısız olmadan önce eskisini onarmak için zamanları olacak kadar yüksek olmalıdır. Arızalar arasındaki süre ne kadar uzunsa, o kadar kolaydır, ancak bir arıza tolerans sisteminde gerekli değildir.

Hata duyarsızlığı özellikle bilgisayar sistemlerinde işe yarar. Bu nedenle, Tandem Computers şirketi , çalışma süresi (son başlangıçtan bu yana geçen süre) (İngilizce çalışma süresi olarak ) on yıllarla ölçülen NonStop sistemlerini oluşturmak için "basit toleranslı" makineler kullanıyor . Netflix şirketi , bir sunucuyu rastgele seçen ve sistemin dayanıklılığını sürekli olarak test etmek için olağan çalışma saatleri sırasında onu etkisiz hale getiren bir program olan Chaos Monkey'i kurdu .

Hataya dayanıklı sistem ile birkaç hataya sahip sistem arasındaki fark

Hata toleranslı sistemler ile nadiren başarısız olan sistemler arasında bir fark vardır. Örneğin, Western Electric'in çapraz çubuk anahtarları kırk yıl boyunca iki saatlik bir arıza oranına sahipti ve bu nedenle arızaya karşı oldukça dirençliydi. Ancak, bir arıza meydana geldiğinde hala durdukları için, bu nedenle arızaya karşı tamamen bağışık değillerdi.

Operasyonel güvenilirlik

Operasyonun güvenilirliği (İngilizce güvenilirliği ), sağlanan hizmetlere güvenebilme yeteneğidir. Kullanılan bileşenlerin operasyonel güvenilirliğine bağlıdır.

Arızaların kaynağı

Dikkate alınacak hataların kaynağı değişebilir:

Hata durumu

Dahili hata durumu

Önceki koşulların neden olduğu bir dahili hata, sistemin harici işleyişi üzerinde sonuçları olmadığı sürece dahili olarak kalır. Bu hata uzun süre dahili kalabilir (hata gecikmesi), ancak kısa veya uzun vadede bir arıza veya başarısızlıkla harici bir hata durumuna yol açar.

Harici hata durumu

Dış hatanın durumu, bir başarısızlıkla, sunulan hizmet düzeyinde bir başarısızlıkla kendini gösterir. Yukarıdaki olaylardan herhangi birinin sonucu olarak, herhangi bir spesifikasyonunu karşılamıyorsa sistem çalışmaz. Genel olarak, yalnızca harici hata durumları görülebilir: başarısızlığa neden olan sorun nasıl belirlenir?

Başarısızlıktan kaçınma

Arızalardan kaçınmak (İngilizce'de hata önleme ), sistemin arızalanmasını önlemek için yukarı yönde araçlar kümesidir. Bu özellikle şunları içerir:

Ayrıca görün

Dış bağlantılar

<img src="https://fr.wikipedia.org/wiki/Special:CentralAutoLogin/start?type=1x1" alt="" title="" width="1" height="1" style="border: none; position: absolute;">