it-swarm-ru.tech

Лучший системный администратор аварии

Я ищу забавные истории несчастных случаев системного администратора, которые у вас были. Удаление электронного письма генерального директора, форматирование неправильного жесткого диска и т.д.

Я добавлю свою собственную историю в качестве ответа.

87
Alan H

Я с удовольствием обнаружил разницу между командой linux "killall" (убивает все процессы, соответствующие указанному имени, полезно для остановки зомби) и командой Solaris "killall" (убивает все процессы и останавливает систему, полезную для остановки рабочего сервера в середина часа пик и заставляющая всех ваших коллег смеяться над вами в течение недели).

133
Tim Howland

Я отвечал за наш корпоративный веб-прокси, который в то время был продуктом Netscape. Во время игры в формах администратора (это был веб-интерфейс) была большая (и я клянусь, она была красной) кнопка с надписью Удалить базу данных пользователей. Нет проблем, подумал я. Давайте посмотрим, какие варианты он дает мне, когда я ударю это. Конечно, будет подтверждение, если нет вариантов.

Да, нет подтверждения. Нет вариантов. Нет больше пользователей.

Итак, подошел к г-ну Солярису Сисадмину и сказал, что я остро нуждаюсь в восстановлении с ленты, на которую он ответил: "Я не копирую эту коробку".

"Ну, приходи еще", - ответил я.

"Я не копирую эту коробку. Она есть в моем списке вещей, которые нужно добавить к резервной ротации, но я еще не дошел до этого".

"Этот сервер работает уже почти 8 месяцев!" Я закричал.

пожав плечами , ответил он. "Сожалею."

73
squillman

Много лет назад у компании, в которой я работал, был клиент, который запускал ночное резервное копирование своего сервера NT 4.0 на диск Jaz (как Zip-диск большой емкости).

Мы создали пакетный файл, который выполнялся как запланированное задание на ночь. Каждое утро они собирали диск прошлой ночи с диска, а перед тем, как уйти вечером, вставляли следующий диск в последовательность.

Во всяком случае, командный файл выглядел примерно так (диск Jaz был диск F:) ...

@echo off
F:
deltree /y *.*
xcopy <important files> F:

Во всяком случае, однажды ночью они забыли вставить диск. Изменение на диск F: не удалось (диск не на диске), и пакетный файл продолжал работать. Рабочий каталог по умолчанию для командного файла? C :. Впервые я увидел, как подпрограмма резервного копирования уничтожает сервер, на котором она создавала резервные копии.

Я узнал кое-что о системном администрировании (и обработке исключений) в тот день.

Джим.

PS: исправить? "deltree/y F:\*. *".

66
Jim OHalloran

root @ dbhost # find/-name core -exec rm -f {} \;

Я: "Вы не можете войти? Хорошо. Как называется БД?"

Cu: "Ядро".

Я: "О"

61
Dave

Мне нравится, как все оценивают свою историю как "когда я был молодым/зеленым", как будто они никогда не будут делать это снова. Несчастные случаи могут случиться даже с самыми опытными профессионалами.

Мой худший момент настолько плох, что у меня все еще учащается сердцебиение ...

У нас был SAN с производственными данными на нем. Критически важен для компании. Мой "наставник" решил расширить раздел, чтобы освободить место на диске. Вы видите, куда это идет? что программное обеспечение SAN может сделать это вживую, в рабочее время, и никто не заметит. Тревожные звонки должны были зазвонить, но они были заметно молчаливы. Он сказал, что сделал это "множество раз "без проблем. Но вот в чем дело - он заставил меня нажать на кнопку с надписью" ты уверен? "! Поскольку я был новичком в компании, я предположил, что этот парень знал, о чем он говорит. Большая ошибка. Хорошая новость заключалась в том, что LUN расширился. Плохая новость была ... ну, я знал, что были плохие новости, когда я начал видеть ошибки записи на диск в Windows.

Я рад, что на мне были коричневые штаны.

Мы должны были объяснить, почему 1TB данных исчезли в обеденное время. Это был действительно очень плохой день.

На самом деле это хороший принцип - прежде чем делать что-то, в чем вы сомневаетесь, представьте, что вам нужно объяснить руководству, если что-то пойдет не так. Если вы не можете придумать хороший ответ, чтобы объяснить свои действия, не делайте этого.

60
PowerApp101

Нагиос пинговал нас однажды утром, когда рабочие часы начали говорить, что он не может подключиться к некритическому серверу. Хорошо, поход в серверную комнату. Это старый сервер Dell 1650, купленный в 2002 году, и мы знали, что у 1650-х возникли проблемы с оборудованием. PFY нажимает кнопку питания. Ничего. Нажмите его снова и удерживайте в течение пяти секунд, чтобы "включить питание" ... что отменяет защиту от ошибок BMC, поскольку без DRAC невозможно проверить журналы BMC, не подключив питание к шасси.

Машина начинает POST, а затем снова умирает. Я стою над ним и говорю: "Я чувствую запах дыма". Мы вытаскиваем сервер на его Rails, и один из блоков питания чувствует себя теплым, поэтому PFY тянет его и собирается снова закрыть коробку. Я говорю: "Нет, это не дым блока питания, это дым материнской платы".

Мы снова открываем шкаф и ищем источник горящего запаха. Получается, что катушка индуктивности и конденсатор что-то сдуло с регулятора напряжения на материнской плате, и разбрызгивают расплавленную медь и конденсаторную петлю по всему, замыкая кучу вещей и в основном создавая большой беспорядок.

Хуже всего для меня было признание того, что я выкурил достаточно оборудования, чтобы понять разницу между запахом сгоревшей материнской платы и сгоревшего источника питания.

54
Karl Katzke

Три дня назад (серьезно) я удаленно вошел на школьный сервер, установив пакет обновления 2 на файловый сервер Windows Server 2008.

Я решил запланировать необходимую перезагрузку на поздний вечер, когда учителя не будут входить в учетные записи на конец года. Я набрал что-то вроде:

 в 23:59 "shutdown -r -t 0" 

... который мог бы работать нормально.

Но потом я второй угадала себя. Был ли правильный синтаксис "выключения"? Я пытался просмотреть справку по использованию, набрав

 выключение/ч 

... и мгновенно потерял мое соединение RDP. Паникуя, я выбрал Google для синтаксиса. Быстрый поиск показал, что версия завершения работы Server 2008 включает переключатель/h, который (как вы уже догадались) переводит компьютер в спящий режим.

Учителя начали звонить мне через несколько минут, чтобы сообщить, что они больше не могут открывать или сохранять табели успеваемости, над которыми они работали. Поскольку я находился вне офиса, а серверная комната была заперта, мне пришлось напрямую позвонить директору школы и провести ее через процесс включения машины.

Сегодня я принес всем домашнее печенье в качестве извинения.

47
Brent D

На предыдущей работе у нас была отличная доморощенная система, которая регистрировала и архивировала каждый фрагмент почты, который входил, оставлялся или оставался в компании.

Снес весь свой почтовый ящик? Нет проблем! Ищете письмо, которое кто-то прислал вам неделю/месяц/год назад, но вы не можете вспомнить, кто его отправил или какой был предмет? Нет проблем! Мы просто перенесем все с февраля для вас в специальную папку.

В какой-то момент генеральному директору компании потребовалось следить за пересылкой почты между конкурентом и внутренним продавцом, находящимся под подозрением. Поэтому мы создали скрипт, который запускался каждую ночь и доставлял соответствующую почту с предыдущего дня генеральному директору. Нет проблем!

Примерно через месяц стало известно о двойной проблеме. Похоже, что когда генеральный директор просматривал список писем, отправленных в $ OTHERCOMPANY, он наткнулся на это:

To: [email protected]$OTHERCOMPANY
From: CEO
Subject: CEO has read your message (subject line here)

Естественно, генеральный директор был важным человеком и все такое, он был слишком занят, чтобы щелкать по всем этим диалоговым окнам "Отправить чтение квитанции" в Outlook, и настроил своего клиента так, чтобы он просто отправлял их все. У одного из сообщений, перехваченных фильтром мониторинга, был установлен запрос на чтение. Угадайте, что сделал Outlook? Конечно, глючил "тайный" мониторинг.

Наша следующая задача: добавить правила в почтовый фильтр, чтобы заблокировать исходящие чеки от генерального директора этой компании. Да, это был самый простой способ. :)

37
MikeyB

Аааа, моя была около 10 лет назад, когда я еще промокала. Я имел радость установки резервных копий батареи на всех компьютерах программистов. Они также хотели, чтобы загруженное программное обеспечение предупреждало о сбое питания и корректно завершало работу.

Поэтому я настроил его на своем компьютере, чтобы сначала все проверить и убедиться, что все работает. Поэтому я отсоединяю шнур питания и на экране появляется сообщение. "потеря внешнего питания, начало выключения системы".

Так что я подумал, Эй, круто, это сработало. Но по какой-то странной причине, я даже не помню, он отправил это сообщение в виде сетевого сообщения, так что все 200+ компьютеров в компании получили это сообщение, где более 100 пользователей были программистами.

Да, говорить о массовом сумасшествии !!

Я долго держал голову в этом месте!

36
jherlitz

Я часто использовал команду "sys-unsfig" на машинах Solaris для сброса службы имен компьютеров, I.P. адрес и пароль root. Я был в системе пользователей, и я вошел на сервер установки здания и посмотрел что-то (как root), затем забыл, что я вошел на другую машину (не описательное "#" Prompt), я выполнил команду "sys-unsfig".

# sys-unconfig     
        WARNING

This program will unconfigure your system.  It will cause it
to revert to a "blank" system - it will not have a name or know
about other systems or networks.

This program will also halt the system.

Do you want to continue (y/n) ? y

Connection closed

#

Это сообщение "соединение закрыто" медленно превращалось в панику ... на какой машине я вошел, когда выполнил эту команду.

Хуже всего было не то, что мне дали мои коллеги, а то, что я сделал то же самое через месяц.

35
Alan H

У меня есть довольно хороший. По общему признанию, это было до моего времени как системный администратор, но все еще связано с технологиями, поэтому я решил добавить его.

Когда-то я работал технологом спутниковой связи/широкополосной связи для ВВС США. После окончания техникума я оказался в Южной Корее. Вскоре после прибытия на станцию ​​появилась возможность отправиться на юг с "большими парнями", которые были там некоторое время и фактически работали над некоторым реальным (то есть "производственным") оборудованием.

Я спустился с командой и, как энергичный молодой техник, ломал голову, весьма взволнованный перспективой получить в руки настоящий элемент оборудования, который передавал в прямом эфире военный голос и трафик данных.

Чтобы начать меня медленно, они вручили мне руководство, повернулись к секции профилактического обслуживания и указали мне в направлении четырех стоек, заполненных несколькими большими цифровыми мультиплексорами. Оборудование было достаточно простым, мы покрывали такое же оборудование в техникуме.

Первая страница руководства прочитана; "Подайте питание на цифровой мультиплексор. Поверните оба задних переключателя в положение ON и дождитесь включения оборудования, затем начните испытания". Я посмотрел вверх, и там уже была сила!

Я был в затруднительном положении наверняка. Не зная, как поступить, я выстрелил изо всех сил: "Ммммм… Кинда потерял здесь", посмотрите на старшего.

Он посмотрел на меня и засмеялся: "Нет, нет, все в порядке. Вы можете игнорировать эту часть контрольного списка". Затем, когда он заметил выражение моего лица (так как нас НИКОГДА не учили в школе, НИКОГДА не игнорировать какую-либо часть контрольного списка, а если кто-то так и сделал, это была определенная смерть и разрушение), он серьезно посмотрел на него. лицо и сказал: "Игнорировать только эту часть! Следуйте за остальным, к письму!"

К счастью, я пробежал многошаговые инструкции PM), довольный, как моллюск, и гордый тем, что они позволили столь низкому, хотя и умному, техническому персоналу выполнить эту важную работу.

Где-то между пятым и шестым контрольным списком профилактического обслуживания на этих огромных мультиплексорах я начал замечать повышенный уровень активности вокруг себя. Звонили телефоны, люди быстро двигались. Шутливые взгляды обменивались.

Наконец, ко мне подбежала группа людей во главе с одним из высокопоставленных техников, которые меня сбили.

"Эй! Мы наблюдаем ОГРОМНЫЕ перебои в трафике данных, и мы изолировали/проследили путь обратно к стойкам, над которыми вы работаете! Вы видите какие-то странные…"

(В этот момент он был отрезан другим специалистом по устранению неполадок, который пробирался к первой группе мультиплексоров, на которых я выполнял PM).

"СВЯТОЙ ОРЕХ! ОНИ ОТКЛЮЧЕНЫ! ОН ОТКЛЮЧИЛ ИХ !!!!"

Вскоре я наблюдал, как они поспешно пробежали по первому шагу в руководстве: "Поверните оба задних переключателя в положение ON ..." Когда старший специалист закончил, он подошел ко мне и недоверчиво спросил, что я думаю из, выключив критические части оборудования.

Испугавшись своего разума, я передал ему контрольный список, за которым следил, клянусь, что не отклонился от ВСЕГО. То, что я следовал за ним, "до буквы", как он наставлял.

Через некоторое время он засмеялся и указал, где проблема.

В руководстве ФИНАЛЬНЫЙ шаг в контрольном списке профилактического обслуживания был:

"Запишите окончательные показания датчика, вытрите переднюю панель, удалив всю пыль и частицы, затем поверните оба задних выключателя питания в положение ВЫКЛ."

:)

27
Greg Meehan

Я перезагружал систему для кого-то, и в процессе ручного резервного копирования я задал ему вопрос: "Есть ли у вас другие программы, которые вы используете?" и "Есть ли что-нибудь еще важное, что вы делаете на компьютере?"

Он сказал "нет" НЕСКОЛЬКО раз.

Я был убежден и отформатировал диск.

Примерно через 30 минут он сказал "Боже мой" и положил обе руки на голову.

Оказывается, он работал над книжным сценарием более 10 ЛЕТ в специализированной программе. Это было в то время, когда программы использовали для сохранения пользовательских данных в своем каталоге программных файлов, и я пропустил это.

Whhhhooooops.

Он не злился на меня, но это было отрезвляющее чувство.

26
MathewC

Это своего рода авария системного администратора ... поскольку системным администраторам иногда приходится физически перевозить большое количество машин из пункта А в пункт В (где, по-видимому, А и В всегда разделены несколькими лестничными маршами в здании без лифта). В n-й поездке дня я остановился в передышке на три рейса от уровня загрузки подвала, чтобы поболтать с кем-то, спускающимся вниз, подперев полноразмерную башню со станцией, которую я нес на внутреннем поручне открытого подъезда. и ... ну, как вы уже догадались ... немного потерял мою хватку. Он безошибочно погрузился прямо в колодец, и когда он добрался до дна, ну ... не так уж много с функциональностью для этого! Всего подлежащих утилизации частей: две палки ОЗУ, один дисковод гибких дисков и одна плата ISDN (благослови Бог инженеров Хермштедта!). Все остальное или треснуло, гремело или разбилось на мелкие кусочки.

По милости Божьей никто не шел под ним, что, к счастью для меня, было первым моим начальником, поэтому я должен был сохранить свою работу. Чувствовал себя очень плохо в течение часа или около того.

Мораль: гравитация всегда побеждает!

26
avstrallen

Мой личный фаворит на самом деле не мой, и я ОЧЕНЬ рад этому. Посмотрите здесь.

23
RainyRat

Это не случилось со мной, но ...

Я работал в компании, которая производила программное обеспечение, которое работало на машинах Linux, предоставленных клиентом. По сути, мы бы "взяли на себя" машины, полностью настроили бы их под наши спецификации и сделали бы все управление и мониторинг. По сути, мы были командой из 10-15 системных администраторов, управляющих тысячами серверов для сотен клиентов. Ошибки должны были случиться.

Один из наших сотрудников обнаружил некоторые проблемы на сервере (я думаю, что это резервная копия) и решил, что он должен запустить на нем fsck. Он остановил все соответствующие службы, удостоверился, что система недавно сделала резервные копии, и затем запустил fsck, но он пожаловался, что файловая система была смонтирована. Так как мы были удаленными и не имели удаленного доступа (DRAC, ILO и т.д.), Он не мог выполнить fsck, но он был совершенно уверен, что это было безопасно сделать при смонтированной файловой системе, если вы были осторожны.

Он решил попробовать сам, запустив fsck в своем корневом разделе, с предсказуемыми результатами - он повредил свой корневой раздел и больше не мог загружаться.

В замешательстве он подошел и поговорил с руководителем нашей команды. Ведущий сказал, что он почти уверен, что вы не можете этого сделать, и член команды сказал: "Конечно, вы можете!", Взял клавиатуру ведущего и показал ему, что вы можете - запустив fsck в корневом разделе руководства. Какой полностью поврежден корневой раздел HIS.

Конечный результат? Благодаря тестированию члена команды, данные о клиентах не теряются. Два дня производительности сотрудников были потеряны, но это стоило намного, намного меньше, чем данные на машине клиента. И для записи? Вы можете запустить fsck на смонтированном диске, но только для проверки данных. Не ремонтировать его. Это была ошибка члена команды.

-

Чтобы добавить свою историю, я работал в той же компании и пытался сбросить пароль пользователя. Наша система отказалась разрешить мне установить необходимый ему пароль, потому что она отслеживала старые хэши паролей и не позволяла вам дублировать пароль. Механизм был прост: он проверял ваш пароль по последнему хешу в базе данных.

(И для справки, это должен был быть старый пароль, потому что это была общая учетная запись, и удостовериться, что все знают, что новый пароль нецелесообразен)

Я решил просто зайти в базу данных пользователей и удалить новые записи, чтобы она использовала более старую. Это все просто SQL (работает древняя версия Sybase), так что это легко. Сначала я должен был найти записи:

SELECT * FROM users_passwords WHERE username='someuser';

Я нашел старую запись, которую он хотел сохранить; перед ним было еще два. Я решил быть умным и просто удалить что-нибудь новее, чем старая запись. Глядя на набор результатов, я увидел, что старый пароль был идентификатором № 28 в базе данных, а новый - идентификатором # несколько тысяч (очень загруженная система). Все просто, все старые строки были> 28, поэтому:

DELETE FROM users_passwords WHERE id > 28;

Нет ничего хуже, чем сделать простую обрезку строк и увидеть "затронуты 212 500 строк". К счастью, у нас было два главных сервера баз данных (с идентификатором пользователя), но Sybase (по крайней мере, наша версия) не поддерживала автоматическую репликацию, поэтому она не удаляла старые записи автоматически. Было несложно получить дамп таблицы users_passwords и повторно импортировать его. Тем не менее, довольно большое "о блин!" момент.

23
Dan Udey

Набрано kill 1 как root. init и ​​все ее дети умерли. И все их дети. и т.д. и т.п.

Я хотел напечатать kill %1

После того, как я понял, что я сделал, я побежал к панели управления БОЛЬШОЙ машины для сортировки шерстяных тюков и нажал кнопку аварийного останова. Это остановило машину, которая разорвалась на части, поскольку я только что убил программное обеспечение, которое управляло ею.

22
Jason Tan

Оператор DELETE без предложения WHERE в базе данных постоянных клиентов.

22
Ian Boyd

Еще один из моих любимых:

При настройке компьютера и локального лазерного принтера в системе у меня была блестящая идея подключить их обоих к ИБП компьютера. Пытались ли вы печатать на локальном лазерном принтере, когда он подключен к настольному ИБП? Ну, если вы не знаете, это имеет тенденцию тянуть все усилители ... который перезагружает компьютер ... И задание на печать никогда не заканчивается ...!

Когда-нибудь получал звонок: 'Всякий раз, когда я печатаю, он перезагружает мой компьютер и не печатает !!!'?

По электронной почте Ой!

JFV

22
JFV

Мы находились в середине перебоя в питании и увидели, что ИБП работал на 112% от настроенной нагрузки. Это не было большой проблемой, так как в то время мы работали на генераторе.

Таким образом, мы потянули за резервные кабели питания, чтобы уменьшить потребление энергии на этом ИБП (у нас было два, один намного больше, чем другой). Мы добрались до сетевого коммутатора, который управлял серверной комнатой (это была серверная комната со всеми внутренними серверами для компании, с обращенными к клиенту серверами в другой серверной комнате). Коммутатор представлял собой коммутатор большого корпоративного класса с тремя блоками питания. Поставки были N + 1, поэтому нам понадобилось всего два, чтобы запустить коммутатор.

Мы выбрали кабель и вытащили его. К сожалению, для нас два других были подключены к единому удлинителю, который быстро сдулся, поскольку нагрузка на два источника питания, которые были подключены к нему, возросла. Затем системный администратор запаниковал и подключил третий кабель. Коммутатор попытался сработать, перенеся всю нагрузку коммутатора на один источник питания. Вместо того, чтобы отключить источник питания, он взорвался потоком искр в 12 дюймах от моего лица, что заставило меня прыгнуть обратно в стойку с серверами.

Я инстинктивно пытался прыгнуть в сторону, но, к сожалению, слева от меня была стена, и два справа от меня был очень большой парень 6'4 ". Мне кое-как удалось перепрыгнуть через него или, возможно, через него отскочить из стеллажей Compaq (с тонкими сетчатыми фасадами), не кладя в стойку целое и не касаясь парня с оборудованием.

21
mrdenny

В какой-то момент моей карьеры судебное расследование в компании, на которую я работал, наложило на нас требование, чтобы вся электронная почта сохранялась с "этого дня", пока не будет сказано иначе. Приблизительно после года хранения ежедневных полных резервных копий нашей среды обмена (1 ТБ в сутки) у нас стало мало места.

Администраторы биржи предложили хранить только каждую восьмую копию письма. Чтобы сделать это, мы попросили их восстановить дневные базы данных для обмена, извлечь нужное письмо (определенные люди помечены для расследования) и повторно архивировать его. Они делали это для каждого восьмого дня электронной почты для всех наших резервных копий. Был выбран 8-й день, потому что в exchange был набор параметров, в котором "удаленные элементы" хранятся в базе данных в течение 8 дней.

После того, как они заканчивали каждый архив, я возвращался и удалял любые резервные копии, которые были старше, чем они архивировали.

У TSM нет простого способа сделать это, поэтому вам нужно вручную удалять объекты из резервной базы данных.

Я написал сценарий, который удалял бы все резервные копии старше некоторой даты путем вычисления даты с использованием разницы между сегодняшним днем ​​и рассматриваемой датой. В какой-то день мне пришлось удалить резервные копии на сумму примерно за месяцы, за исключением того, что когда я произвел расчет даты, я сделал опечатку и ввел дату как 7/10/2007 вместо 6/10/2007, и запустил сценарий. Я удалил данные за весь дополнительный месяц, случайно, что было частью очень важного судебного процесса.

После этого я добавил несколько шагов в скрипт, чтобы подтвердить, что вы хотите удалить данные, и показать, что они будут удалять ...

К счастью, они даже не использовали никаких данных, которые мы так усердно сохранили, и у меня все еще есть работа.

20
WerkkreW

После долгого рабочего дня или отслеживания производительности и настройки огромного мэйнфрейма (вы знаете, звери, которые берут пару часов, прежде чем все резервные сайты резервного копирования сошлись во мнении, что он действительно загружается снова и полностью синхронизирован), протянули пальцы, напечатали довольное завершение работы -p теперь в моем ноутбуке Prompt, закрыл крышку, выдернул последовательный кабель из базового блока, в ожидании хорошего холодного стакана из лагера.

Внезапно я слышу оглушительный звук вращающегося вниз базового блока, в то время как мой ноутбук все еще счастливо отображал X.

В ожидании, пока машина снова полностью подключится к Интернету, я решил, что у меня есть время, чтобы заставить мой ACPI работать на моем ноутбуке, поэтому я никогда не испытываю соблазна выключить мой ноутбук.

20
Martin P. Hellwig

Я удалил чью-то учетную запись по ошибке, перепутал имена с той, которую я хотел удалить. Opps

Крутая часть - они никогда не знали, что случилось. Получив звонок, который они не могли войти, пенни упал об аккаунте, который я удалил.

Находясь с ними на телефоне, я быстро воссоздал их учетную запись, заново подключил к ней их старый почтовый ящик (к счастью, Exchange не удаляет почтовые ящики сразу) и указал на их старые пользовательские файлы.

Затем я обвинил их в том, что они забыли свой пароль, который я только что сбросил для них :)

16
SpaceManSpiff

Случайно установил файл tar.gz на мою коробку Gentoo Linux в неправильном месте, и файлы остались повсюду. Должно быть, это было в 1999 году, 19 в то время (спасибо за комментарии ниже)

Будучи выродком, которым я являюсь, я решил попытаться составить сценарий самостоятельно, вручную просматривая каждый файл.

Итак, я попробовал:

tar - список evilevilpackage.tar.gz | xargs rm -rf

Мне не потребовалось много времени, чтобы заметить, что tar также перечислил все каталоги, которые использовала программа, в том числе были ''/usr,/var,/etc '' и несколько других, которые я на самом деле не хотел удалять.

CTRL-C! CTRL-C! CTRL-C! Слишком поздно! Все прошло, переустанови время. К счастью, в коробке не было ничего важного.

16
Andrioid

Эта авария не произошла ... но стоит упомянуть:

Меня отправили в интенсивно используемый центр обработки данных для тестирования пропускной способности на новом канале. Я добрался до демаркационной комнаты/IDF, нашел место на одной из стоек для моего тестового маршрутизатора, установил соединения и начал тесты. К сожалению, мне совершенно не удалось заметить, что производственный пограничный маршрутизатор не только точно находится на следующей стойке (почти на том же уровне), но также и того же производителя и модели, что и мой тестовый маршрутизатор.

Когда тест был завершен, я начал нажимать выключатель питания в выключенное положение (... представьте, что это происходит в замедленном режиме ...) и, клянусь, как раз когда я давил, меня осенило, что маршрутизатор, о котором я был, чтобы выключить был тот в производстве. Мое сердце остановилось, и я почти ... хорошо, использую ваше воображение.

Я покинул центр обработки данных MDF выглядел напуганным и бледным, но в то же время рад, что у меня все еще есть работа!

16
l0c0b0x

Как небольшая часть моей прошлой жизни, я управлял файловым сервером компании, коробкой Netware 4:11. Вряд ли ему когда-либо понадобился какой-либо ввод, но если он это сделал, вы открыли окно удаленной консоли.

Раньше я использовал DOS все время, когда я заканчивал, я, естественно, набирал "Выход". Для Netware "выход" - это команда для выключения ОС. К счастью, он не позволит вам выключиться, если вы сначала не "отключите" сервер. (Сделайте его недоступным для сети/клиентов). Поэтому, когда вы набираете "Exit" в консоли, он услужливо говорит: "Сначала вы должны набрать" Вниз ", прежде чем вы можете выйти"

Спросите меня, сколько раз я 1: набрал "exit" в сеансе консоли и 2: послушно набрал "Down", а затем "Exit", чтобы я мог "закончить то, что пытался сделать"

И тогда телефон начинает звонить .....

LOL

12
Bob

Последнее место, где я работал, у моего коллеги были его дети в серверной комнате (почему? У меня НЕТ ИДЕИ!).

Он позаботился о том, чтобы они были далеко от серверов, и объяснил своему 5-летнему, что ему не следует трогать ЛЮБОЙ из серверов и ОСОБЕННО ни один из переключателей питания.

На самом деле, он держал их прямо возле двери ... (видите, куда это идет ...?)

Мальчик не трогал ни одну из кнопок питания сервера ... Нет, это было бы слишком легко объяснить. Вместо этого он нажал БОЛЬШУЮ КРАСНУЮ КНОПКУ, которая находилась рядом с дверью ... Кнопка, которая отключает питание ВСЕЙ КОМНАТЫ СЕРВЕРА !!!

Телефонные линии сразу начали загораться, удивляясь, почему Exchange, файловые серверы и т.д. Не были доступны ... Представьте себе, что пытаетесь объяснить это СЕО!

-JFV

11
JFV

Еще одна история, которая не произошла (фу):

Мы ежедневно делали резервные копии на магнитную ленту.

Мы написали ленту с данными для отправки кому-то еще. Они сказали: "Мы не можем читать вашу ленту". На самом деле, мы не могли. Или любая лента на самом деле.

Мы купили еще один стример и задержали дыхание, пока не установили его.

Мораль истории. Всегда проверяйте свои резервные копии.

11
Matthew Farwell

Однажды я поссорился с программным обеспечением для мониторинга ИБП APC. Будучи небольшой компанией, у нас было несколько небольших ИБП, и для их мониторинга были настроены различные серверы. Большинство серверов были Linux, но некоторые из них работали под Windows, и поэтому они использовались потому, что программное обеспечение APC - только Windows.

Однако программное обеспечение APC в то время было жестко запрограммировано, чтобы предположить, что ИБП, с которым он разговаривает, также обеспечивает питание ПК! Это был не тот случай для этого сервера, но я обнаружил, что слишком поздно, чтобы сказать ему, чтобы остановить. Также, к сожалению, ведущий программист демонстрировал продукт компании партнеру - это веб-приложение, работающее на том же сервере, на котором я не хотел, чтобы программное обеспечение APC закрывалось ...

10
staticsan

Я работаю на поставщика услуг беспроводной связи в Северной Америке и провел некоторое обучение для человека в моей группе, чтобы выполнить рабочие задания. Я не спал первые пару ночей (мы все делаем во время технического обслуживания), но у него все было хорошо, и он сказал, что должен научиться этому сам, поэтому я позволил ему и оставил свой мобильный телефон и пейджер включенными. Я вошел в систему и проверил конфигурацию, когда встал в 8 часов утра на следующее утро.

Изменение состояло в том, что мы добавляли новый пул IP-адресов для BlackBerrys , пул, который мы добавляли, составлял около 10000 адресов. Для этого мы добавляем маршруты на маршрутизаторе, которые указывают на адрес процессора на блейде, который выполняет всю обработку вызовов (по сути, он работает как прокси-сервер). Кроме того, мы подключаемся к процессору, настраиваем пул IP-адресов и связываем пул IP-адресов, который будет использоваться нашими беспроводными пользователями. Однако для тестирования мы обычно настраиваем это на одном процессоре (фактически загружаем телефон и тестируем все функции), а затем просто переносим конфигурацию на тот процессор, на котором мы его хотим.

Перенесемся на две недели вперед, и мне звонят из нашего центра управления, что было много звонков о некоторых периодически возникающих проблемах с BlackBerry, и те несколько BlackBerry, на которые они смотрели, похоже, циклически перебирают общий пул, но не действительно уверен, что происходит. Мне потребовалось около 5 минут, чтобы понять, что это был новый пул, который мой колледж только что добавил две недели назад. Также не потребовалось много времени, чтобы увидеть, что в маршрутизаторе есть два маршрута: один идет к тестовому процессору, а другой - к соответствующему процессору вызовов. Так как это было, он забыл удалить маршрут к тестовому процессору, и он заменил правильный маршрут.

По сути, BlackBerry будет подключаться к сети, подключаться к прокси-серверу для получения своего IP-адреса, прокси-сервер будет давать ему адрес из пула с неправильным маршрутом, а BlackBerry будет пытаться общаться с [~ ~ # ~] rim [~ # ~] ретранслятор, и ответ будет перенаправлен на тестовый прокси и никогда не вернется к пользователю, что по сути означает отсутствие подключения.

Нам повезло, хотя, поскольку у BlackBerrys есть поведение, которое, если они не могут связаться с реле, они будут отключать/повторно подключаться к сети, но, тем не менее, некоторые устройства RIM оставались без обслуживания в течение нескольких часов, пока они не смогли переключиться на рабочий режим. бассейн. Я вспомнил, и когда я дважды проверил работу, я только проверил конфигурацию прокси, которая была новой для этого парня, я никогда не проверял конфигурацию маршрутизации, так как этот парень ранее был в магистральной команде, и маршрутизация была его вещью. К сожалению!

Я исправил это и позвонил ему в тот день, его день прошел хорошо, но я начал с того, что извините, но я собираюсь испортить вас целую неделю. Год спустя история все еще идет о пиве.

8
Kevin Nisbet

Споткнувшись о башенном сервере, который был втиснут за стойку, и ударился головой о заднюю часть основного маршрутизатора Cisco на пути вниз. Таким образом, выясняется, насколько свободно шнуры питания были в действительности расположены в источниках питания на передней панели Catalyst 65 .

Да. Теперь у нас в каске в серверной комнате. С моим именем на нем.

8
Bill B

Я проводил сисадмином экскурсию по приложению Service Manager. Я сказал: "Если вам когда-нибудь понадобится остановить эту услугу, вы нажмете эту кнопку, но вы никогда не должны делать это в течение дня". Вы бы никогда не поверили, насколько чувствительна ее кнопка мыши!

Через две минуты служба снова запустилась, и никто, казалось, не заметил.

8
Antony

Моя тетя попросила меня починить их компьютер. Они сказали, что это не загрузится, и это было так в течение 2 недель. Я подозревал, что это был либо BIOS, либо ОС.

Я сел перед своим компьютером. Я присел, чтобы нажать кнопку питания. Я смотрю вверх.

BIOS прошел. Это хорошо.

ОС загрузилась. Это хорошо.

Я переместил мышь, думая, что может быть проблема с устройствами ввода. Не было проблем с устройствами ввода.

Я открыл ее текстовый процессор. Это бежало.

Я печатаю тестовый принтер. Это напечатано.

К этому моменту я встал и сказал моей тете (которая следила за мной), что с компьютером все в порядке. Она утверждала, что это было не так, прежде чем я сел.

Теперь я могу заявить своей семье, что я настолько хорош , что могу починить любой компьютер, просто сидя перед ним.

7
MrValdez

Когда главный администратор впервые нанял меня в качестве системного администратора ... в течение первой недели мы получили совершенно новый сервер Dell ... Windows Server 2003 ... это был его маленький ребенок, пока меня тайно не вызвали в серверную в полночь однажды субботним вечером, чтобы очистить множество экземпляров вредоносного ПО от него, потому что он ПОХОЖИЛ СЕТЬ перед развертыванием БЕЗ АНТИВИРУСА !!!

У меня есть большой опыт очистки от вредоносных программ, но, поскольку это был сервер, я выполнил форматирование и переустановил его, чтобы обеспечить дополнительную безопасность.

Я никогда не говорил ему ни слова об этом. Он знал, что испортил по-королевски.

7
cop1152

Больше личного сценария, чем системного администрирования, но ...

Я писал сценарий Perl, который действовал бы как макрос, который теперь извлекает информацию о воспроизведении из Banshee и вводит ее символ за символом как события клавиатуры, используя программу "xte". Таким образом, я мог бы заставить его работать в программах без какого-либо особого взаимодействия, это было бы так же, как я набрал его.

Ну, я закодировал вещь почти идеально. Я решил проверить это в какой-то случайной игре. Клавиша для вызова чата была shift + enter, Теперь, чтобы сделать это, мне нужно было удерживать его shift, Нажмите enterзатем отпустите shift, К сожалению, в спешке я забыл "сдвиг релиза". Я запустил сценарий, и это привело к довольно смешному побочному эффекту блокировки ключа Shift. Я подумал: "Нет проблем, я просто пойду в терминал и вручную наберу строку, чтобы освободить смену". К сожалению, как все знают, Linux чувствителен к регистру. Это не будет принимать команду во всех заглавных буквах, поскольку я должен был ввести это. Я не мог "противодействовать" или что-то в этом роде.

Это привело к пятиминутной охоте за мусором, когда я посещал веб-сайты и использовал мышь, чтобы копировать + вставлять отдельные строчные буквы в терминал, чтобы сформировать команду, необходимую для его отключения.

7
DWilliams

Не большая проблема, но, конечно, утро "Яйцо на моем лице" около 10 лет назад. Я проходил инвентаризацию старого оборудования и перерисовывал диски, готовые к разгрузке оборудования. Пытаясь найти наиболее эффективный способ сделать это, я создал CDRom с копией Norton Ghost и образом для применения. Вы включили компьютер, и пока он выполнял POST, вставьте компакт-диск в дисковод. Машина загрузится с компакт-диска и автоматически создаст образ. Сработало хорошо.

Проблема возникла, когда я делал копии компакт-диска, чтобы можно было параллельно подключать больше машин. Я закончил записывать последний CD, выключил настольный компьютер и ушел домой на целый день. Ну, вы можете догадаться, что случилось на следующее утро. Я вошел, включил свой компьютер и пошел и сделал кофе ...

Когда я вернулся по какой-то причине, моя машина была вне домена и не принимала мой пароль ...

Я только что выяснил, что случилось, и начал ругаться, когда другие ребята приехали на день. Да, они не позволили мне пережить это некоторое время.

7
Sam

Когда-то, когда я был очень зеленым, мне нужно было устанавливать программное обеспечение AV на ПК моих пользователей, так как, похоже, никто этого не делал. Поэтому я потратил немного времени на то, чтобы выяснить, как выполнить удаленную установку, а не копаться в 40 или 50 рабочих столах. Удаленная установка прошла отлично, и все выглядело нормально, пока в мой офис не зашли различные менеджеры, чтобы жаловаться, что они не могут войти.

Оказалось, что несколько человек установили Symantec AV на свои машины, и это не очень хорошо сосуществовало с программным обеспечением McAfee, которое я использовал, и блокировало машины после попытки входа в систему.

К счастью, было возможно удаленно отключить службу, если вы добрались до машины до того, как они попытались войти в систему, поэтому мне удалось получить баллы за ее исправление вместо того, чтобы перестраивать все ПК старших руководителей ...

7
user2278
6
Rook

Совершено одним из моих сотрудников ... Прекрасный пример того, почему вы четко обозначаете свои серверы:

Отправил моего сотрудника в офис для восстановления вторичного сервера базы данных MSSQL (на котором не было текущих данных). Первичный активно использовался. Вы, вероятно, можете предсказать остальную часть этой истории ... Оказавшись там, он перезагрузил сервер, начал установку и переформатировал диски, только чтобы я позвонил ему и спросил, почему основной сервер базы данных больше не отвечает. (DOH)

6
skraggy

Моя произошла всего 6 месяцев назад. Мы только что переключились на новый сервер для веб-приложения PHP/MySQL. Так как я выбрал ОС, я выбрал ту, которая мне наиболее знакома/удобна: Ubuntu.

У нас было несколько скриптов резервного копирования, которые будут запускаться cron ежечасно, ежедневно и т.д. Переход прошел отлично. Было всего около 2 минут простоя, пока я переносил БД MySQL со старого сервера на новый и переключал IP-адреса.

Однако несколько недель спустя я работал в MySQL в командной строке и удалял несколько старых тестовых записей, которые больше не нужны. Так как я сначала программист, а затем системный администратор, у меня появилась привычка сначала вводить точку с запятой (;), а затем вводить команду. Ну, так как я собирался добавить предложение WHERE в мой запрос DELETE, я случайно нажал клавишу ввода. ... упс.

Query OK, 649 rows affected (0.00 sec)

"Ничего страшного", - подумал я. "Почасовое резервное копирование только что закончилось 4 минуты назад. Всего может быть потеряно 3 записи. Я быстро пошел в каталог резервного копирования и восстановил. Проблема решена.

... Затем я заметил метку времени на резервной копии. Это было 17 дней. Других резервных копий не было. Я только что уничтожил все, что было введено в систему менее чем за 17 дней.

Оказывается, в демоне cron в Ubuntu есть ошибка, из-за которой он не запускает файл сценария с точкой (.) В любом месте имени. Это не вызывает ошибку, поэтому нет никаких признаков проблемы. Он просто отказывается запускать его. Все наши резервные скрипты имели точки в именах. Они отлично работали раньше, но не сейчас.

Уроки, которые я выучил:

  1. Не ставьте точку с запятой в командной строке MySQL, пока не захотите выполнить запрос.
  2. Проверьте метку времени в файлах резервных копий перед их восстановлением.
  3. Проверьте свои сценарии резервного копирования и убедитесь, что они действительно работают.
6
Andrew Ensley

Давнее, чем мне хотелось бы думать, я был техническим специалистом компании и работал с некоторыми консультантами, устанавливающими их приложения. Аппаратное обеспечение было DEC VAX и использовало сервер хранения HSC50. Консультанты заняли большую часть дня своей установкой, и после их ухода я решил сделать резервную копию системного диска на пустой диск, используя утилиту побитового копирования HSC50. После того, как копия была сделана, и я попытался перезагрузиться, я обнаружил, что я поменял местами имена исходного и целевого диска, и, таким образом, сделал резервное копирование чистого диска на системный диск.

Мне удалось восстановить VMS на системном диске и переустановить большую часть приложения, но я думаю, что это никогда не работало так же хорошо. С тех пор, если бы я делал копию/резервное копирование/и т.д., я бы защищал от записи исходный диск, прежде чем продолжить. (Теперь, когда переключателей защиты от записи больше нет, я смотрю на команду перед Я нажимаю Return.)

6
JonP

Мне позвонили, чтобы расследовать предупреждение от компьютера с Windows, указывающее на то, что в системе мониторинга нет файла лицензии. Я открыл командную строку и начал исследовать проблему и обнаружил, что основные команды Windows даже не были там.

Системный администратор, который запускал скрипт удаленно, написал скрипт, который использовал команду del, чтобы удалить папку, указанную в корне, и подпапку с папками, указанными в переменных среды. Если переменные окружения не были установлены, он молча удалял весь раздел.

Когда ему сказали, что системный администратор был настолько удивлен, что подтвердил действие, запустив указанный скрипт в своей записной книжке, таким образом уничтожив его.

Удивительным было то, что Windows работала нормально, пока мы не перезагрузили сервер. Жаловались только скупые программы мониторинга.

Это был вторичный сервер Active Directory для политической партии. К сожалению.

5
Stuart Woodward

Добавление правила обхода в брандмауэр для ускорения загрузки BitTorrent. Оказывается, система, в которой использовалось правило обхода, была не слишком стабильной, и она отключила брандмауэр. Это был пограничный межсетевой экран для подключения к Интернету каждой школы в городе. Хуже того, перезагрузки было достаточно, чтобы жесткий диск брандмауэра умер. Забавные? Не так много. Эффектный провал? Определенно.

4
Mark

Мой был командным усилием.

Руководство поручило мне зарегистрировать одного из наших администраторов баз данных на сервере, чтобы он мог выполнить какую-то очистку. Он выполнил свой запрос, и сразу оба наших пейджера ушли, что вызвало ругательства от нас обоих.

Как выяснилось, очистка была на самом деле каплей базы данных, и должна была быть сделана на одном из серверов разработки. Однако полученные мной инструкции заставили меня поверить, что это была незначительная задача по очистке, которая должна была произойти в производстве.

К счастью, мы смогли восстановить данные из резервной копии с минимальной потерей данных.

Извлеченный урок: убедитесь, что вы ВСЕГДА точно знаете, что вы должны делать, когда возитесь с производственными серверами. Если есть неопределенность, лучше всего, если вы получите очищение.

4
Bill B

Хорошо. Получить & на клавиатуре США нажмите Shift-7. Чтобы получить его на шведской клавиатуре, нажмите Shift-6. Итак, что вы получаете, когда нажимаете Shift-7 на шведской клавиатуре? Ты получаешь /.

Несколько лет назад шведские макеты были не столь распространены. Моим личным предпочтением было использовать американский макет. Однажды я хотел удалить кучу файлов и подкаталогов в каталоге.

Я ударил:

rm -fr *

Но это было слишком медленно, поэтому я быстро ударил:

Ctrl-C rm -fr * &

Или я? Ну, я не сделал. Мне потребовалось несколько секунд, чтобы понять, что я на шведской клавиатуре. Смотрите выше, чтобы расшифровать то, что произошло. И эта катастрофа была фактом.

Это был день, когда я выучил команду:

dd

Мне удалось в конечном итоге добраться с диска на ленту, только это заняло всю ночь. На следующий день я узнал, что система все равно будет переустановлена.

Мне повезло, но я научился нескольким вещам.

4
fredarin

Когда большая часть серверного парка была еще Windows NT, основным удаленным методом был pcAnywhere. У нас была "общеизвестная" ошибка, которая иногда приводила к внезапному перезапуску серверов при использовании pcAnywhere, и конечным пользователям сообщалось об этой известной ошибке.

Ошибка заключалась в том, что pcAnywhere (по крайней мере, какую бы версию мы не использовали) имел кнопку "перезагрузить хост" рядом с кнопкой "отключить от хоста". Так что время от времени ...: D

4
marty

VNC подключился к Win 2k Server за 200 миль, добавил IP-адрес, поэтому ... щелкните правой кнопкой мыши значок сети на панели задач, выберите "Отключить", а не "Свойства" - DOH! .... Решение .... Садись в машину. Не счастлив! Если бы только у них было "Вы уверены" в этом пункте меню!

Майк

4
Mike McClelland

Лето 2002.

Я случайно развернул IE 6.0 с принудительной перезагрузкой для 16 000 пользователей в середине дня.

По правде говоря, я поймал свою ошибку и набрал самый быстрый одадмин отключить все (Команда Tivoli для остановки всех серверов развертывания).

3
Shawn Anderson

В Linux и FreeBSD hostname -s отобразит "Краткое имя хоста. Это имя хоста, вырезанное в первой точке".

На Солярисе 9, hostname -s установит имя хоста равным '-s'.

Итак, мой коллега-администратор запустил сценарий для проверки всех наших 120 систем, включая 10 критически важных серверов баз данных Oracle, работающих на Solaris 9.

for Host in `cat all-hosts`; do
ssh $Host "hostname -s"
done

Все наши серверы Oracle вышли из строя мгновенно. Скорость этой неудачи была действительно удивительной. Нам потребовалось около 20 секунд, чтобы оправиться от этой ошибки, но было уже слишком поздно. Все было вниз.

Ирония в том, что наш центр обработки данных пострадал от серьезного сбоя питания всего несколько дней назад, и мы обновляли нашу электронную таблицу "выключение/включение питания", чтобы обеспечить более быстрое восстановление при любых будущих сбоях питания.

3
Stefan Lasiewski

Не я, а кто-то, с кем я работаю. Они создали политику на AV-сервере, который содержал * в поле процесса. С точки зрения непрофессионала: не разрешайте чтение, запись, выполнение любому процессу, который содержит имя *.

Эта политика затем была реплицирована на 1500 серверов, которые в свою очередь отключают RDP и любой другой процесс. Исправить это означало монтировать каждый серверный жесткий диск один за другим и удалять политику. 48 часов с командой из 15 человек.

3
stuart Brand

Я программист, поэтому все мои ошибки относятся к переполнению стека. Однако ниже приведены некоторые ошибки системного администратора, которые я видел.

  1. Отмените разрешения на вход от ВСЕХ пользователей в домене Windows NT. (За исключением встроенного администратора на PDC, к сожалению, только тот подрядчик, который настроил домен, знал пароль, и они давно ушли) Я не знаю, как это было достигнуто. Я знаю, что я должен сидеть и общаться с моими коллегами-разработчиками в течение нескольких часов.

  2. Случайно удалите рядовые серверы OU . Это было еще несколько часов в чате, пока было сделано восстановление с ленты.

  3. Наш администратор намеревался дать всем администраторам домена разрешение на использование CD и дисковода гибких дисков. (В то время мы использовали SecureNT для управления доступом к съемным носителям.) К сожалению, он получил членство в группе назад и вместо этого предоставил всем пользователям съемных носителей полные права администратора домена. Я обнаружил это, потому что некоторые таблицы появились в производственной базе данных SQL, которая была создана пользователем, который не должен был этого делать. Когда я сказал администратору, о котором идет речь, я наслаждался, наблюдая, как его лицо изменилось с, нет, это правильный путь, вплоть до, о, ****. К счастью, не было никакого серьезного вреда.

3
pipTheGeek

Ха, моя первая действительно большая авария произошла, когда я писал небольшую панель администратора SVN на нашем сервере разработки, совершенно небезопасное программное обеспечение, которое предназначалось только для обновления внутреннего веб-сайта "Разработка".

Иногда репозиторий SVN повреждался, поэтому я написал кнопку, которая вызвала бы файл PHP), который очистил бы весь запрошенный каталог SVN, и выглядел примерно так:.

<?php
$directory=$_GET['dir'];
$result = Shell_exec("Sudo rm -Rvf /".$direcory);
echo $result;
?>

Для тех, кто этого не видит - я ошибочно набрал "$ directory" в Shell_exec, из-за чего система запустила "Sudo rm -Rvf /" .... Сначала я подумал, что веб-страница просто тратит время на удаление все файлы в репо. Примерно через 10-15 минут я обнаружил, что уничтожил более половины файловой системы.

К сожалению.

2
grufftech

Бывшая история работодателя, это здорово. Некоторые детали изменены, чтобы защитить невинных. У меня был проблемный работник, зовите его Фред, у которого были проблемы с производительностью, но, похоже, он выкупил себя и заработал некоторые привилегии. Единственная проблема состояла в том, что, когда его привилегии были восстановлены, ошибка в скрипте инициализации дала ему некоторые дополнительные привилегии.

Я был в середине большого проекта, поэтому я попросил Фреда упаковать исправление Windows, необходимое для приложения. (Это было в предбластерные дни, когда люди не исправлялись так же религиозно, как сегодня). Итак, Фред проводит тест в нашей лаборатории, и все работает отлично.

Фред затем задает пару вопросов:

"Who should I Push it to?" (Mind you, this is a patch for some custom VB app)

"Everyone", I respond

"Ok, what time should it start?"

"How about 2AM?", I answer. (Figuring I'd have time to look over everything before I left for the day!)

Так что же будет дальше? Он настраивает работу с нашим приложением по распространению программного обеспечения, чтобы Push to всем, и даже любезен, чтобы установить флажки для каждой платформы, которую поддерживает продукт. Затем установите время начала 2:00, как в 2:00, которое имело место около 12 часов в прошлом.

Результат? Все перезагружается и пытается установить какое-то исправление VB5. Примерно в 2:45 PM в пятницу днем. Все.

Все? Как 40000 ПК? Да. 3000 серверов Windows? Да. 300 HP, Sun и IBM Unix коробки? Да. Кластер AS/400? Да.

Единственной вещью, которая не перезагружалась, были контроллеры домена Windows, потому что ребята из AD почему-то отключили наше приложение. Святой кошмар. После недели зачистки я не мог поверить, что я все еще работал.

Изюминка? Фред получил огромное продвижение по службе, где он больше ничего не мог сделать.

2
duffbeer703

Возможно, более поздний ночной мозг пердит, чем что-либо еще.

У одного из разработчиков возникли проблемы с запуском Java профилировщика на коробке Solaris. Профилировщик жаловался, что было две копии Libc; одна в /lib и ​​один в /usr/lib. Итак, через несколько lds мы переместили один из /lib как все указывало на /usr/lib, или так они сказали.

Но вдруг ничего не сработало. Нет ls, нет cd, нет cp или mv. Примерно через 20 минут "о, , о, ", мы выяснили, что у одного из разработчиков была запущенная в данный момент копия Emacs на этой коробке, и мы смогли открыть резервную копию /lib скопируйте Libc и запишите его обратно с исходным именем. И вуаля! Все работало Урок выучен; оставьте Libc там, где он хочет, и не вносите изменения в запросы разработчиков в 2 часа ночи!

2
beggs

У меня был один не так давно. Во время развертывания моста Oracle ODBC) мне пришлось изменить путь примерно на 500 пользовательских публикаций.

Это довольно простая операция, правда. Жаль, что я забыл об этих цитатах. Люди начали звонить после того, как получили какие-то странные искаженные сообщения (ODBC установка не удалась), и, казалось, думали, что перезагрузка машины будет просто необходимостью.

Конечно, некоторые другие предыдущие установки ПРЕДВАРИТЕЛЬНО (!!!) путь к некоторым программным файлам в системной переменной (с пробелами и всем, без кавычек), поэтому новый путь остановился именно там, в c:\Program (конечно, существование % ProgramFiles% остался полностью игнорируемым). Нет системы, нет system32, нет Shell. Так что никаких скриптов входа в систему тоже нет.

У людей, которые перезагружались, больше не было доступа к сети, и никакой автоматизированный скрипт не мог исправить повреждение. Конечно, как только я подошел к жалобному пользователю, осмотрелся и проверил путь, у меня возникло это ... чувство погружения.

Примерно через 30 минут у меня был другой сценарий с самыми стандартными значениями пути, готовый для отправки всем по электронной почте (электронная почта все еще работала). Пользователи даже перезвонили, чтобы убедиться, что патч был реальным, так как они не используются, отправляя загадочные exe-файлы со странными причинами их применения, и большинство из них даже не знали о том, что происходит.

Первая версия была грязной (новая точка с запятой при каждом выполнении), но в ней регистрировались все возможные значения пути, поэтому я быстро получил данные с возможными путями, поэтому мне просто нужно было создать что-то умное, чтобы проверить их все, и в конце получить путь красиво на месте.

В общем, это продолжалось всего около 45 минут, и мне повезло, что все вернулось на круги своя. Но, тем не менее, когда сейчас появляется испорченный путь, я все еще готов взять на себя вину;)

2
Berzemus

Мой лучший пришел в то время, когда наш сервер резервного копирования находился в административном подвешенном состоянии - мой начальник "спорил", должен ли он оставаться в офисе, вне офиса нашей серверной комнаты (и не делать резервных копий по какой-то причине), или же он должен быть установлен в серверной комнате, чтобы сэкономить огромное количество пропускной способности. Кажется, я помню, что это неопределенное состояние существовало в течение нескольких месяцев.

Наш веб-сервер имел массив RAID 5 для хранения веб-сайтов. Похоже, что он работал в ухудшенном режиме (не сообщая мне по неизвестным или неизвестным мне причинам) в течение некоторого времени, прежде чем вышел из строя второй из трех дисков. Я должен вытащить всю ночь, соединяя сервер. Наши клиенты были недовольны тем, что их веб-сайты исчезли, и им нужно было восстанавливаться из собственных резервных копий. Особенно те, у кого не было собственных резервных копий.

Вопросы, которые задал мне мой начальник, были: "Как мог RAID-массив выйти из строя таким образом? и "Почему у нас не было резервных копий нашего веб-сервера?"

Однако урок не остался без внимания. Мой начальник проявил готовность помочь, когда я предложил, чтобы обновления нашего почтового сервера включали массив RAID 1 с горячим резервом (вместо того, чтобы спорить со мной по поводу дополнительных затрат, которые он обычно делал бы). И, конечно же, сервер резервного копирования правильно выполнял свою работу в короткие сроки.

2
Ernie

Как узнать разницу между функцией "Удалить почтовый ящик" и "Отключить почтовый ящик" в Exchange Server 2007? Особенно, когда я удаляю у каждого старый почтовый ящик для работы с поврежденной базой данных?

...

Восстановление на сервере обмена ... не весело ... Необходимость восстановления сервера обмена и Active Directory ... двойное не весело.

Делать это в 11:00 утра пятницы ... бесценно.

2
IceMage

Я пытался освободить место на основном разделе веб-сервера RedHat 5 сайта. Я был относительно новым для Linux, но использовал DOS целую вечность.

Мне удалось переместить всю папку/bin в другой раздел, забрав рабочий веб-сайт и оставив себя без каких-либо доступных системных команд. Я испугался, я не мог переименовать, скопировать, переместить, что угодно, потому что я переместил все эти полезные исполняемые файлы.

К счастью, я смог использовать загрузочный диск и отменить свою работу.

2
Darth Continent

Я был новичком в RAID 5 и все еще учился тому, как он работает. В то время я был единственным айтишником в очень маленькой компании. Все файлы, к которым обращались все, были сохранены только на одном сервере. На сервере не хватало места, и в массиве RAID было только 3 диска, поэтому я подумал, что добавление 4-го увеличит пространство и скорость отклика. Я сделал это в рабочее время. Я не изучил концепцию внеурочного обслуживания.

Массив начал перестраиваться, и он сказал, что это будет сделано через 36 часов. Я думал, что это было слишком долго. Я нашел ползунок, который контролировал приоритет перестроения, и для него было установлено самое низкое значение. Я установил его на средний. Время сократилось до 8 часов. Индикаторы жесткого диска мигали немного быстрее, но я все еще думал, что это все еще слишком долго для всего 80 ГБ данных. Поэтому я установил высокий приоритет. Огни жесткого диска погасли, и я подумал: "Это больше похоже на это!" Тогда графический интерфейс, который я использовал, перестал отвечать. Он подключен к коробке удаленно. Я попытался восстановить его, но он не смог найти сервер.

Я начал слышать, как люди по коридору жалуются, что они не могут войти на сервер. Я пошел на сервер, чтобы войти, чтобы увидеть, что происходит. Потребовалось 5 минут, чтобы пустой экран сменил фон. Прошло еще 5 минут, прежде чем появилось приглашение для входа в систему. Каждое нажатие клавиши занимало 5 минут для регистрации. Я установил приоритет так высоко, что сервер не отвечал ни на что. Восстановление массива заняло 2 часа. К счастью, это было за час до обеда, так что никого это не волновало. Мой менеджер в то время был очень крутой леди и сказал, что это не имеет большого значения. Главный инженер-конструктор все-таки посмотрел на меня скупо. Я 2 часа потел от пуль. Урок выучен.

2
Joseph

У меня был сотрудник, который жаловался, что его ноутбук работал медленно, поэтому я проверил фрагментацию жесткого диска, и это было (и по сей день) худшее, что я когда-либо видел. Попытки дефрагментировать диск оказались бесплодными, поскольку свободного места было недостаточно. Я попытался очистить временные файлы (не уверен, почему я не просто переместил материал на сервер временно) и тупо удалил весь его Outlook.pst, думая, что это резервная копия его электронной почты, а не его реальной электронной почты. Он простил меня, но никогда не позволял мне забывать это.

(Это произошло много лет назад вскоре после того, как я закончил университет. Теперь я гораздо более компетентен.)

2
Scott

Очень глупая ошибка. Я писал сценарий на моей рабочей станции Linux, который обрабатывал несколько файлов, но не имело значения, какие это были файлы, если их было много. Поэтому я решил, что это хорошая идея, чтобы скопировать /etc в каталог, в котором я проводил тесты. Когда что-то пошло не так, я удалил копию и скопировал /etc снова в мой тестовый каталог. Некоторое время все шло хорошо, а потом я набрал

rm -rf /etc 

вместо

rm -rf etc/  

ОК, не о чем беспокоиться, я все еще мог что-то делать на своей рабочей станции и думал, что смогу восстановить его, скопировав его с другой рабочей станции или еще чего-нибудь. Или переустановите в конце дня. Сначала попробуйте что-нибудь выпить, и из-за корпоративной политики я заблокировал экран. Черт, мне нужен пароль для разблокировки, и он находится в/etc/.....

Глупые ошибки:

  • делаю слишком много рута (у меня была веская причина для этого O :)).
  • набрав /etc вместо etc/
  • с помощью /etc для тестирования
2
blauwblaatje

Было время, когда я случайно удалил пользователя "bin" в окне Unix. Конечно, удаление пользователя также приводит к удалению его домашнего каталога.

Можете ли вы угадать, что домашний каталог бина?

/ бен

1
Barry Brown

Пару компаний назад мы использовали Windows NT 4 в качестве основного сервера, на котором выполнялось все, а в качестве резервной копии использовался зеркальный жесткий диск.

Я случайно удалил несколько важных файлов, без проблем просто перезапустил коробку, выбрал диск 2 из меню SCSI, и мы восстановили и запустили копию в течение минуты.

Затем я начал команду, чтобы восстановить зеркальный диск. Оказывается, что хотя у Windows теперь были новые диски C: и D:, умное программное обеспечение зеркалирования этим не обманулось. Он использовал идентификационные номера SCSI для источника и цели и успешно скопировал 1-> 2.

Спасибо Adaptec!

1
Martin Beckett

В конце недели, когда все почти ушли из здания, я захожу в серверную комнату, чтобы загрузить новые ленты в автоматическое устройство смены для полного резервного копирования на выходные. Я думаю, что кондиционер слишком холодный, и выключите его (серверная комната была просто комнатой с настенным кондиционером - никаких средств для чего-либо серьезного). Поэтому я загружаю ленты, проверяю, что TBU считывает штрих-коды, и выхожу наружу.

На следующий день я просыпаюсь утром с похмелья (эй, это выходные!), Смотрю на свой телефон и вижу кучу SMS сообщений "$ server down down". Затем еще один "основной ИБП идет вниз".

Я беру ключи, еду в офис и открываю серверную комнату, чтобы найти там около 60 градусов и все оборудование выключено.

Закончилось перетаскивание нескольких вентиляторов для отвода горячего воздуха, прежде чем я даже смог начать работать с переменным током, не говоря уже о ИБП и 40+ серверах и коммуникационном оборудовании. И проводить выходные в офисе, конечно. И спасибо всем божествам за умные блоки ИБП, которые могут прекрасно справиться со всем, если температура окружающей среды слишком высока. С тех пор я всегда держу в руках толстовку и никогда не выключаю кондиционер

1
dyasny

Десять с лишним лет назад я работал над проектом, который требовал SOCKS-прокси. Я использовал программу под названием WinGate, которая в дополнение к прокси-серверу SOCKS предоставляла небольшую функциональность интернет-шлюза с NAT, DHCP и некоторыми другими тонкостями. Это было до того, как у Windows был общий доступ к подключению к Интернету, поэтому WinGate позволил вам использовать модем удаленного доступа в сети Ethernet.

Я установил программное обеспечение и начал работу над функциональностью клиента SOCKS. Позже в тот же день мы потеряли связь с интернетом. Внезапно, это просто остановилось, и никто не мог получить доступ за пределами компании. Мы позвонили нашему провайдеру, и все выглядело нормально на связи. Роутер работал нормально. Мы просто не могли понять, что пошло не так. В какой-то момент я вступил в игру, так как имел некоторые знания о TCP/IP, но не добился успеха.

На следующий день наш ИТ-специалист выяснил, что DHCP-сервер дал адрес маршрутизатора кому-то, и каждый использовал его для шлюза по умолчанию, который никуда не делся. Позже в тот же день наш айтишник пришел ко мне в офис, и я спросил: "Так вы выяснили, кто выдал неправильный IP-адрес?" Он сказал: "Да, это ты!"

WinGate по умолчанию запустил DHCP-сервер и выдал адрес маршрутизатора первому клиенту, чей предыдущий адрес истек. Я был довольно красным лицом на некоторое время.

1
David Smith

В раннем детстве я пытался быть "полезным" и пытался скопировать 250 МБ данных по линии 128 кбит/с на 86 различных сайтов одновременно ... в рабочее время. Пока я делал это, я слышал, как люди спрашивали, почему все так долго.

Само собой разумеется, я убил переводы, и (к счастью) никто не знал, что это был я!

1
JFV

Мы создали системы IVR для клиентов под ключ на Unix-системах. Однажды разработчики поместили весь свой код в/devel. Они попросили меня удалить каталоги разработки и коробку и доставить серверы в аэропорт в воскресенье днем ​​(мой выходной!). В спешке я удалил/dev/*. Мгновенно увидел мою ошибку, сел и задумался на минуту. Не уверен, что система умрет, если ядро ​​не будет подключено к системным устройствам, поэтому я посмотрел каталог/dev на идентичной машине и по порядку сделал mknod [c | b] major minor для восстановления дисков клавиатуры, tty, scsi, Затем fd0 и null сделали дискету на другой машине/dev, смонтировали и скопировали ее локально, чтобы получить остальные.

До сих пор не знаю, что случилось бы, если бы я оставил вещи в покое, но я почти уверен, что при перезагрузке было бы плохо :)

Извлеченный урок - каталог разработки не должен называться/devel.

1
schemathings

Это произошло, когда я только начал свою первую работу по поддержке из универа, я был подключен к серверу клиента 2003 года, пытаясь подключиться к одному из компьютеров пользователя после того, как он пожаловался на проблемы с подключением.

Поговорил с ней по некоторым основным вопросам устранения неполадок и заметил, что у нее статический IP-адрес, поэтому начал обсуждать ее, установив для него DHCP Я открыл свойства подключения к локальной сети на сервере, чтобы использовать их, пока говорил ей, что делать. После того, как она попыталась установить его на DHCP, он все еще имел статический IP-адрес, поэтому попросил ее отключить соединение и снова включить его.

К этому моменту я делал все, что говорил ей на сервере, фактически не меняя никаких настроек, вплоть до того момента, когда я попросил ее щелкнуть правой кнопкой мыши по соединению локальной сети и нажать "отключить", что я затем продолжил делать.

Мне понадобилось пол секунды, чтобы понять, что я только что сделал.

Возможно, другим инженерам понадобилось 10 минут, чтобы перестать смеяться надо мной, прежде чем одному из них пришлось в течение часа покататься, чтобы снова включить NIC на сайте клиентов).

1
Darren Mac

Раньше я присматривал за кучей серверов баз данных, каждый из которых имел четко определенный цикл разработки и тестирования. Наша роль заключалась в том, чтобы внедрить изменения, предоставленные разработчиками, используя их документацию из тестовой среды в тестовую среду заказчика для тестирования клиента перед началом эксплуатации. В рамках этого среда тестирования клиентов была построена на основе самой последней резервной копии живой среды.

Все это было аккуратно задокументировано вместе с процессом внедрения изменений в живую среду после того, как заказчик подписал это изменение.

У нас был новый старт в нашей команде, и после того, как он был с нами в течение нескольких месяцев, мы позволили ему участвовать в ряде циклов перемен, пока одна роковая ночь не позволила ему сделать это самому. Тестирование клиента прошло гладко, и клиент с радостью согласился на изменение.

Затем новый старт делал именно то, что делал каждый раз, когда вносил изменения в тестовую среду, уверенный, что ему не нужно следовать документации, которую делали остальные из нас. Шаг (1), восстановить из предыдущей резервной копии ...

На следующее утро клиент заметил, что работа предыдущего дня отсутствовала, и нам не потребовалось много времени, чтобы выяснить, что произошло. К счастью, в базах данных было включено ведение журнала изменений, поэтому мы смогли восстановить всю активность. Новый старт, по крайней мере, научился ценить документацию и следовать ей в будущем.

1
Cry Havok

У меня был хороший новый случай со мной на прошлой неделе.

У меня был один из моих парней, который собирал временный DNS-сервер для тестовой платформы, которую мы создаем, я попросил наших парней DNS обновить конкретный тестовый домен, чтобы он указывал на этот новый временный DNS-сервер, но этот парень обновил живую запись, а не тестовую. ,.

Неожиданно этот один сервер (к счастью, новая коробка, вполне разумная спецификация) обслуживает почти каждый DNS-запрос для почти 5 миллионов пользователей - 400 миллионов запросов в первый день! - к счастью, TTL было всего 24 часа, так что в основном это истощено сейчас.

1
Chopper3

Абсолютно другое измерение, но это все еще случайность системного администратора.

Извините: Вы должны понимать итальянский сленг, чтобы получить это. Это не может быть переведено. Вы должны знать это наизусть

Меня попросили исправить что-то на сервере Solaris в Неаполе, Италия. Мне был нужен пароль root, и я тогда не очень хорошо говорил по-итальянски. Парни, похоже, неохотно рассказывали мне, что это было. Наконец один из них наполовину прошептал:

sticazzi

Я сказал: Ага, "Стикацци". Как это пишется?, и дал ему листок бумаги + ручку.

Через год я встретил M.*o B.* снова (Привет! - если вы читаете это). В то время мой итальянский был намного лучше. Я сказал ему, что теперь знаю еще немного итальянского.

Это был тяжелый смех.

Мораль этой истории: Если нужно попросить пароль root на языке, которого вы не знаете, как только он вам будет дан, лучше смеяться, краснеть и выглядеть оскорбленным одновременно

1
fredarin

Каждый 'rm -rf /' в какой-то момент случайно. Моя пыталась удалить некоторые из дополнительных файлов в моем домашнем каталоге за 2 дня до моего последнего назначения структур данных.

Профессионально я был достаточно способен, чтобы не иметь никаких катастрофических ошибок.

1
sclarson

Это не случилось со мной, но я думаю, что это действительно хорошая история.

Эти ребята работали с одним из тех старых серверов Solaris с полной башней, которые, как мне известно, хранили базы данных для нескольких баз данных Informix, которые были у этой компании. Это была компания, предоставляющая основные коммунальные услуги, поэтому вы можете себе представить, сколько данных это означает.

Был момент, когда несколько конфигураций через серверы копировались на дискету и затем передавались с сервера на сервер. После работы с сервером они просто извлекают дискету и переходят к следующему.

В сопровождении другого человека из группы сисадминов этот парень работал над этими конфигурациями, когда они говорили о случайных вещах. Он закончил свой шаг и нажал кнопку, чтобы извлечь дискету.

- "ПОДОЖДИТЕ! Не отпускайте кнопку!"

Когда он снова смотрит, он нажал кнопку сброса при ошибке, а не кнопку извлечения. В тот момент, когда он отпустил эту кнопку, вся система базы данных для компании немедленно отключилась. (Я думал, что эти кнопки были мгновенными ... но так идет история.)

Таким образом, каждый системный администратор останавливает то, что он делает, чтобы позвонить руководителям отделов и "сказать всем выйти из системы. Сейчас". в то время как этот парень смотрит все происходящее, прикрепленное к серверу его пальцем.

1
Alpha

При настройке статического IP-адреса в /etc/network/interfaces на коробке Debian кто-то случайно переключил IP-адреса в строке IP-адреса и в шлюзе.

Угадайте, что происходит, когда вы "крадете" IP основного коммутатора?

1
prestomation

О, однажды я случайно удалил базу данных PostgreSQL и восстановил ее из файлов журналов;)

0
maciek

К счастью, я смог легко оправиться от того, что я собираюсь поделиться с вами. Итак, вы слышали о печально известной

rm -rf /
deltree/Y/S/B \

Моя проблема заключалась в том, что я набрал это и знал, что это неправильно, поэтому я пошел, чтобы нажать клавишу возврата, но жир нажал на нее и вместо этого нажал клавишу ввода! Мне потребовалось буквально 2 секунды, чтобы понять, что я сделал, поэтому я яростно начал нажимать Ctrl-C, чтобы прервать операцию. К тому времени, когда я остановил его, половина файловой системы исчезла.

Бекапы на помощь, друзья! Кроме перезагрузки, другого простоя не было. В каком-то смысле мне очень повезло в тот день, потому что у меня были отличные резервные копии.

0
jftuga

В ранние годы системного администрирования я изобрел новый метод проведения инвентаризации (инвентаризации) для наших розничных магазинов. Я взял много ноутбуков и подключил к ним сканеры штрих-кода и сделал процесс в десять раз быстрее, чем обычно, когда мы делали это, написав все статьи пером на бумаге. Я также купил несколько портативных терминалов Symbol PDT DOS. Чтобы продлить срок службы батарей для клемм Symbol, я сделал свои собственные батарейные блоки и подключенные провода вручную. В ту ночь и на следующее утро я так гордился собой, как павлин, прогуливающийся по офису и говорящий, насколько я умен.

Кошмар начался, когда я отправлял данные на сервер для расчета и сравнения акций и списков. Одно из устройств Symbol с дополнительным аккумуляторным блоком мигало из-за разрыва одного из проводов, и устройство долгое время оставалось без энергии.

Теперь все работы около 100 работодателей упали в воду. Какова цель 13 или 15 устройств и их список, если у меня не было их всех? Как я мог знать, что из инвентаря не хватало.

Чтобы более подробно описать мою катастрофу, у нас было всего несколько выходных в году. Это когда мы закрываем наши магазины и проводим инвентаризацию, и это событие стоит нашей компании больших денег и усилий.

К счастью для меня, наш директор и шеф этого повторного судебного разбирательства был разумным и принял списки инвентаризации, как они были на компьютере в течение этого года.

После этого я всегда делаю две копии данных, пока работа еще продолжается, и сразу после того, как мы закончим процесс инвентаризации, и, конечно, я больше не хвастаюсь.

0
adopilot

Я немного новичок/любитель сисадмина, на моем сервере всего 30-40 сайтов, так что это не так уж плохо. Я удалял права на выполнение для всех файлов в каталоге/bin/xxx, и все они начинались с.

Поэтому, приняв очевидные меры, я побежал

chmod -R a-x .*

Ух ты. Когда вы удаляете права на выполнение для вашего каталога bin, это довольно сложно очистить. Специалисты центра обработки данных должны были загрузиться с живого CD, чтобы исправить это. Лучшая часть была в том, что я должен был рассказать им, как это исправить. Хуже всего то, что они все еще знали достаточно, чтобы смеяться надо мной: P

0
Brandon Wamboldt

В первые дни Интернета я запускал все на серверах SGI Challenge S. В какой-то момент, без моего ведома, "художественный отдел" заказал у IKON сервер печати демо-рендеринга. Прошло одно утро, Челлендж вел себя забавно, администратор звонил в серверную, мы проходили обычную диагностику и т.д., Наконец, я говорю, что ДОЛЖЕН БЫТЬ источник питания. Конечно, у нас нет запасных. Я возвращаюсь в главный офис - вижу машину ссудополучателя и понимаю - это тоже SGI - открываю ее, откручиваю блок питания, перезагружаю сервер - бинго! Мы заказываем запасной на ночь, в АМ появляется представитель, чтобы спросить, как нам нравится демо, нам нужно 30 минут хуммада хуммада, пока не появится FedEx, и мы снова поменяем блоки питания и выкатим демонстрационный блок за дверь. Все за сутки работают.

0
schemathings

Давным-давно я решил изменить точку монтирования моего раздела данных. Поэтому я создал новый каталог, изменил точку монтирования в/etc/fstab и удалил каталог, в котором он был ранее смонтирован.

Дело в том, что я только понял, что разделы все еще были смонтированы в старом каталоге, когда nautilus показал мне индикатор выполнения (для того, что должно быть удаление 4 КБ). К счастью, я смог отменить его до того, как был нанесен большой ущерб, но я потерял некоторые файлы.

0
Flávio Amieiro

Во время обслуживания в одном месте я вытащил наш основной кабель питания DNS. В то время я заменял вторичный и, должно быть, дернул кабель, прежде чем закрыл стойку. Все наши сайты начали быстро падать, и мне пришлось вернуться в совместное местоположение, чтобы снова подключить эту глупую штуку.

0
Snipper

В моей первой задаче установки (много лет назад, в возрасте DOS) я случайно удалил почти все системные файлы и половину файлов приложений на компьютере, который принадлежит директору государственного учреждения. Но это была не моя вина. Я пытаюсь удалить ненужные файлы в папке C:/TEMP, чтобы освободить место. Удаление начинается ... через несколько секунд я вижу несколько знакомых имен из корня и папки DOS, прокручивающихся вверх по экрану ... Сильно нажимая Ctrl + Break ... но слишком поздно ...

Это был более сложный способ узнать, что является проблемой кросс-связанных файлов в файловой системе FAT.

0
miHost

У нас есть оборудование для холодного тестирования наших инженеров в северной Миннесоте. Около 10 лет назад T1, который у нас там был, сдох. Мы переместили серверы с этого объекта в наш главный центр обработки данных, потому что мы установили более быструю линию, поэтому практически все было бесполезно. Приходите, чтобы узнать, что какой-то фермер в центральной части Миннесоты пробежал волокно с помощью некоторого сельскохозяйственного оборудования. Мы были не слишком рады, что волокно было даже доступно для этого оборудования и не было погребено намного глубже ...

0
squillman

Представьте себе чашку кофе. Это полная чашка с сахаром. Представьте, что он серьезно неуместен на выдвижной клавиатуре стойки. Стойка с серверами. Лоток как-то толкается в стойку. Чашка входит в стойку, а затем опрокидывается.

Это была моя вина, и к тому времени я был опытным администратором, поэтому у меня нет оправданий. Поблизости была ванная, и я смогла вытереть большую часть беспорядка бумажными полотенцами. К счастью, на серверах не хватило кофе, поэтому я закрыл их и почистил. Только 400 пользователей пострадали. Уф!

Потом произошел еще один несчастный случай, назовем его так, что случилось с моим другом. Последние 10 лет он посвятил созданию собственной компании. У него около 15 сотрудников, и все данные компании были на этом одном сервере. Это включало в себя все прошлые и настоящие проекты, множество данных о клиентах, информацию, с которой он заключил контракт для обеспечения безопасности, всю контактную информацию и т.д. Я долго приставал к нему, чтобы он начал делать резервные копии, но он так и не сделал. Слишком занят, не хватает средств, вы поняли идею. Он был уверен, что его RAID1 спасет его. Его последней резервной копии было 8 месяцев. Это было его время работы сервера тоже. Он изменил свой пароль LUKS прямо перед последней перезагрузкой, за 8 месяцев до этого. Теперь он перезагрузил свой сервер и понял, что не записал новый пароль и не запомнил его. Все, что он мог вспомнить, было то, что оно было очень длинным, и в нем было несколько слов, примерно расположенных каким-то образом, с какой-то прописной буквой и, возможно, символами.

Вы можете себе представить степень деморализации среди его сотрудников и ярость клиентов, которые должны были повторно отправить свою информацию для обработки, таким образом, узнав, что их данные были "временно" недоступны. Короче говоря, мне потребовалось около 40 часов работы, 14 дней работы и специализированная программа для генерации и тестирования более миллиона паролей, чтобы наконец найти свой пароль LUKS.

0
joechip

Несколько лет назад наш администратор iSeries в то время проводил уборку в той области, где наши серверы IBM iSeries находились в компьютерном зале. Это было около 8:30 утра. Так же, как я начал заниматься тем, над чем работал в то время. Через несколько секунд экран погас. Начали поступать телефонные звонки.

Приходите, чтобы узнать, когда он двигал стол, шнур питания был обмотан вокруг ноги настолько, что он вышел, когда он двигал стол.

Примерно через два часа после того, как система восстановилась после отключения питания, люди снова смогли работать.

0
Mike Wills

У нас была небольшая путаница несколько лет назад. В полдень пользователи начали сообщать о множестве ошибок, связанных с блокировками, при доступе к нашему приложению на сервере SQL. Приложение полностью останавливается - никто ничего не может сделать. Вместо того, чтобы найти время, чтобы выяснить, что его вызывает, мы делаем аварийную перезагрузку, и все начинает работать снова. Затем я перебираю различные журналы, чтобы посмотреть, что могло сработать, и как раз перед тем, как все обанкротилось, я обнаружил транзакцию с открытым именем в главной таблице без соответствующего COMMIT.

Оказалось, что мой коллега написал несколько SQL-запросов в Query Analyzer, чтобы исправить некоторые ошибочные данные в основной таблице, и он поместил их в транзакцию. Но вместо того, чтобы просто нажать F5 для запуска, он выделил все это и затем нажал F5. За исключением того, что он довольно выделил все ... он пропустил конец, где он фактически совершил транзакцию ... оставив стол заблокированным.

0
MartW