2010-02-15 БУМ

by Vasil Kolev

Това ми е личен рекорд, длъжен съм да го споделя :) 12 изгорели диска в един момент, в една машина.

Това е screenshot-а от началото. Последва смяна на контролера, смяна на цялата машина и никаква промяна. Доставчикът ще си я получи обратно и ще искам да разбера какво точно се е случило…
(нищо особено няма загубено)

Tags:

19 Responses to “2010-02-15 БУМ”

  1. Б.Величков Says:

    Брех, това да не са го включили директно към АЕЦ-а….

  2. CTEHATA Says:

    Имам същият контролер, но осмица на жизнено важен сървър. Направо изтръпнах…

  3. Р. Дочев Says:

    Интересно е да се разбере наистина причината за този феномен :)

  4. Георги Гроздев Says:

    Абе това направо си плаши, ето да се види че от бакъп-ите си има смисъл и при скъпите контролери с хотспейрс и тн. Ние ги ползваме масово 9650 но 4-портовите машини.

    Вижда се обаче, че всичките дискове са еднакви, и макар да има вероятност да умират по сходно време (случва се през ден-два е вижте Икономедия 2 дена като не си ребилднаха ареята какво се случи..), чак пък 12 диска на едно може да накаря някой професор по статистика да си скъса лекциите. Данеби нещо тоците по машината да са луднали или да сте имали ЕМП някъде из офиса (кой си играе с атомни бомби :)).

    БТВ какво ви е мнението за ползването на дискове на различни производители или различни ревизии на един и същи диск, с цел да се минимира такова паралелно умиране? Нали като се приеме, че има шанс дисковете да не се разбират евентуално което да претоварва някои от тях (минимални разлики в аксес тайм и сходни)?
    Жоро

  5. Vasil Kolev Says:

    @CTEHATA, аз ползвам подобни от 5-6 години, и съм минал поне през 300 такива – това ми е първия подобен случай (и като разпитах google, намерих само още един такъв case, в някакъв руски форум, само че с RAID1, двата диска). Много рядко явление изглежда :)

    @Георги Гроздев, определено има смисъл, shit happens. Иначе – наистина според мен е сериозен токов проблем, аз за това им връщам цялата машина с дисковете и да я прегледат, не знам и дали ще успеят да хванат проблема (но точно тази няма да приема да ми я върнат и да я ползвам :) ).
    Иначе за дисковете на различни производители – НЕ, щото имат различен timing и убива performance. По-скоро един и същи вид диск от различни производствени серии (въпреки че при мен не беше така, нямам много контрол в/у сглабянето). И също така – никакви SAMSUNG дискове, щото са боклук, от тия имам вече списък с около 30-40 изгорели.

  6. Р. Дочев Says:

    А контролера проверихте ли го дали работи? Най-вече наистина ми изглежда като токов проблем, но все пак…

  7. А.Янакиев Says:

    @Vasil Kolev – Различни производствени серии различни фирмуери, а както добре знаем в различните фирмуери, таймингите са различни (уж правят някаква оптимизация) , което също би замотало допълнително контролера. По моите представи, колкото по-еднакви са дисковете в един масив толквоа по-добре за масива от гледна точка на производителноста…
    А що се отнася до самият проблем, според мен е изцяло свързан със захранващата подсистема. Колко време е работила въпросната конфигурация?

  8. Intel Says:

    @Р.Дочев Написал е, че контролерът е сменен т.е. и при новите е така :)

  9. Vasil Kolev Says:

    @А.Янакиев, много вероятно е да си прав. Иначе – машината е работила около 20 дни.

  10. MiCRoPhoBIC Says:

    Според мен най-вероятно е проблем от захранването (CEZ) – такова масово убийство може да е само от него или EMR
    Пускай тото!!!

  11. А.Янакиев Says:

    Съмнявам се за машина с толкова дискове, да не е помислено за резервен вариант, а именно нещо катo UPS. Чудя се дали, ако съм прав за наличието на UPS-а разбира се, не е възможно той да е причинителят… Примерно ако му е дошло в неподходящ момент времето за автоматична диагностика, машинкта пък от своя страна да е натоварена с някоя задача в повече, и да се е получил някакъв гаден пик в захранващите напрежения… Тази вероятност ми е по-правдоподбна отколкото 12-едновременно спрели диска… Интересно ми е какво ще кажат, от гаранционната поддръжка.

  12. Vasil Kolev Says:

    Машината е в datacenter с още бая други, накачени на същия ток. По-скоро е проблем в компонентите, сутринта още една реши да прави странни мизерии и я сменям (прилича на токов проблем пак, но смяната на захранванията не е помогнала, вероятно нещо вътре съвсем си е заминало).

    От гаранционната поддръжка – ще видим.

  13. Pavel Says:

    Мен започва да ме хваща параноята :)

  14. Yassen Komsalov Says:

    Здравейте,
    Проблемчето найстина е голямо.
    Лично по мое мнение има няколко неща за дойзясняване: 1-цялостна комфигурация (визирам дъно, шаси, захранващ блок); 2- така нареченият “datacenter” дали е професионален или не чак толкова; 3- има ли същите машини работещи в същата среда и съответно ако има, как се държат.
    По мое мнение (и по мнение на най-големия производител на сървъри сглобявани в България) има само една марка и серия дискове които може да се ползват за подобни цели а именно Western Digital серия RE. В редки изключение аналога на Seagate серия ES, които май вече не се произвеждат или поне доста трудно се доставят вече. Всичко друго: Samsung, Hitachi и т.н. е невероятно безумие като в дадения случай. В моята фирма не слагаме Samsung на десктоп а какво остава за сървър. Аз лично за времето през което работя със сървъри не съм виждал подобно съобщение от 3ware макар, че съм виждал доста други мизерии от тези контролери (както и от всяка друга марка минала през фирмата). Ако дисковете са живи нещата могат да се оправят с вдигане на времето за засичане на дискове от контролера. Това се прилага при кофти дискове както в случая. Ако дисковете са мъртви единствената причина може да е в захранването или в backplane ако има такъв (както се е случвало и в други случай не много отдавна). Ще се радвам ако помислите върху думите ми и ги коментирате.

  15. Vasil Kolev Says:

    @Ясен Комсалов, абе не съм съгласен. Моя опит до тук показва, че Hitachi-тата са железни и с тях съм нямал никакви проблеми, а Seagate имат няколко много криви момента, като работят в RAID масив. Не знам за какви машини става въпрос при тебе, тия при мене са с по 12 диска и са около 200 около тоя проект – нямам оплаквания от Hitachi-тата (сменил съм 2 до тук). По други съм ползват какво ли не, и в общи линии двете неща, дето се избягват май са Western digital и seagate.

    Datacenter-а си е професионален, клиенти са им кило хора като Google например. За еквивалентните машини – всички са ми еднакви и досега подобно нещо не беше имало (като изключим опукалите дискове, но те от една бройка нататъка са си нормално явление).

  16. Yassen Komsalov Says:

    Не знам за твоя опит. Аз говоря от позицията и опита на фирма с 20 годишно присъствие на българския пазар. Няма да правя реклама в никакъв случай, но просто виж тук: http://www.persy.com
    Принципно изхождам от тезата, че няма производител който до момента аз да съм срещал и да не е имал нещо бъгаво. Винаги е имало и пак ще има бъгави серии. Затова и ние спряхме да работим със Seagate. Но за Western-ите хич не съм съгласен. Почети малко за Western Digital серия RE (RE3 – RAID Edition 3-то поколение). Иначе през ръцете ми са минали неколко стотин машини от десктоп до Blade (пълната гама от посочения сайт). Бройката на дисковете е доста над хиляда. Така, че остана да ми отговориш на конкретните въпроси за хардуера на въпросната машина и евентуално да се видят предварителните тестове от фирмата производител (ако въобще има такива), за да се хване от къде е проблема.

  17. ss7 Says:

    Напълно съгласен с Ясен . само WD . Имам работещ 80 MB (мегабайта) WD хард. Не си знае годините. Досега нито един WD не ми е отказвал. От всички друго марки имам изгърмяли дискове.

    А иначе вероятността да изгорят едновременно осем диска (без обща причина като проблем в захранването), граничи с невъзможното. Както каза някой , я пусни някой фиш :)

  18. Владимир Каравелов Says:

    Здравейте на всички,
    искам да направя малко коментар по начина на писане и изразяване на мнението ви. Без да искам да обидя някой персонално, но малко се стреля напосоки и несистематизирано. Като започнем от факта, че се споменава доставчик на електроенергия в западна българия /ами ако сървъра е във Варна.. а той дефакто не е в бг/ и минем през цитирането на измислени марки като Western Digital та свършим с останалите недомислици…. Искам и да отбележа, че гореспоменатата фирма не е доставчика на сървъри с най-голям капацитет.
    Да започнем малко систематично:
    1. Проблема изглежда като разбити DCB блокове на дисковете. Те може да са си здрави, но да са маркирани като дефектни по някаква причина. /никой не обърна внимание на думата incomplete/
    2. Firmware на контролера не е последна версия. Трябва да се ъпгрейдне 4.08.00.006 до 4.10.00.007. Нямам време да се занимавам да търся по компатибилити листове за стари версии тези дискове поддържат ли се/
    3. Диска се поддържа от този контролер само с фърмуеър 1АА01108. Дали тези дискове при инсталацията са имали точно тази версия.
    4. Интуитивното “смяна на контролера” не може да бъде решение в този момент, защото дисковете вече са маркирани като проблеми.
    5. От тук нататък, всеки с малко акъл може да продължи. Някой да се е замислял за проблем с бекплейн… Някои още помним проблема с supermicro кутия, Areca RAID и когато се включи зумера на беклейна всички дискове окапват в рамките на 2 минути ;-)
    6. Има дървени и елегантни решения на всеки проблем.

    Искам и малко да се спра на технологията.
    Диска има нужда от стабилно захранване, добро охлаждане и малко вибрации.
    По този повод мога да кажа, че на WD RE3 само лепенката отгоре му е RAID edition. Справка.. Сложете 5 машини в един небеизвестен /и странно защо ли.. считан за добър, дейтацентър в бг/ в техен скапан чешки шкаф и гледайте сеира на дисковата производителност, която сте я замерили на всяка машина поотделно. Именно поради тази причина Seagate не могат да произведат 2 еднакви диска, които като се сложат в РАЙД да работят абсолютно едновременно. По този повод ще спомена и поставянето на дискове от различни производители. Статистиката показва, че таймингите се почакват поне 3-4 пъти. Пред последните 6-7 години хитачи се оказаха най-добрите дискове от към брой изгорели и с най-малко намаляване на производителността при дългогодишното им използване.
    С наливането на акъл до тук… Психоаналитиците взимат пари за слушане/четене на глупости, а В. и А. ми знаят консултантската тарифа ;-)

  19. e-force Says:

    @Владимир Каравелов:

    1) Не съм съгласен, че Western Digital са световно безисвестна марка.
    2) Съотношението при нас e следнитo: от 100 гръмнали диска, 90 са Seagte и 10 Western Digital (говоря за дискове които се водят Server или Raid версии). Това разбира се е грубо казано, но цифрите не са много по-различни в действителност.
    Бележката която мога да извадя за себе си е, че всеки си има своите собствени убеждения и предразсъдъци.

    Относно причините породили по-горе споменатият проблем – напълно съм съгласен с теб, може да бъде всичко от изброените варианти.

Leave a Reply