16 мая 2018

Скорая помощь IT-аутсорса

Алло, доктор, дело плохо!

Вирусная атака — страшный сон многих руководителей и IT-специалистов. Прошлым летом он стал явью для почти ста компаний по всему миру, которые подверглись заражению вирусом Petya. Сергей Гудков, руководитель отдела решений «Энвижн Груп», рассказал, как он с командой специалистов МТС возвращал к жизни предприятие с полностью поражённой IT-инфраструктурой.

Что случилось

Petya — вирус-вымогатель, который распространялся через спам-письма. Программа шифровала файлы, в результате чего вся информация, хранящаяся на жёстком диске компьютера, становилась недоступна. Появился Petya ещё в 2016 году, печально известная версия прошлого года требовала 300 долларов в биткоинах за разблокировку, однако выкуп не помогал. По версии McClatchy, общий ущерб от атаки вируса составил один миллиард долларов.

Когда мы приехали в компанию, на проходной висел большой плакат «КОМПЬЮТЕРЫ НЕ ВКЛЮЧАТЬ!». Это указание департамента IT распространялось на всех работников, всю технику выключили из розеток. Ситуация с инфраструктурой была аналогичной: многие серверы поражены, корпоративные базы данных хоть и бэкапились вовремя, но в целом, конечно, случилась катастрофа.

У предприятия есть IT-отдел, и сначала руководство хотело попытаться справиться своими силами. Каждый специалист тратил на один компьютер несколько часов, параллельно брался за несколько других. Один инженер мог переустановить максимум четыре компьютера в смену. Но как только их вводили в работу, Petya снова поражал их, распространяясь лавинообразно. Дело совсем не продвигалось, работа компании была парализована.

IT-отдел не смог самостоятельно справиться с вирусом, руководство осознало, что теряет время.

Помимо неудачного опыта самостоятельного деплоймента, была ещё одна большая проблема — сроки. Никто из потенциальных подрядчиков не гарантировал, что работы будут выполнены в сжатый срок. Также у заказчика было требование сохранить данные, которые уцелели и не успели зашифроваться (их надо было спасать), именно поэтому одной переустановки Windows было недостаточно.

Выбор в нашу пользу сделали после того, как мы при первом обсуждении провели предварительную экспертизу и дали оценку, за какой срок мы сможем закончить всю работу — три недели. Плюсом было и то, что у нас уже был сервер, который мы могли бы привезти на объект и подключить его к местному, не привлекая со стороны заказчика какие-то дополнительные ресурсы. Мы купили билеты и на следующий день уже сидели в самолёте с сервером под мышкой.

Что мы сделали

Основная идея, которую мы с самого начала обсуждали с заказчиком, — такое количество рабочих мест за установленный срок можно развернуть только из образа. Нужно применять технологию массового деплоя — другими словами, брался эталонный образ, и этот образ разливался на машины.

Сначала компьютер загружался в специальную оболочку, в которой выполнялись PowerShell scripts. Эти скрипты копировали на сетевое хранилище уцелевшие данные, потом устанавливалась новая чистая система из золотого образа, и уцелевшие данные возвращались на этот компьютер в определённую папку. Конечно, на сетевом хранилище стоял антивирус. Все файлы сканировались. Таким образом мы защищали их от повторного заражения.

Плюс к этому мы разбили сеть на множество небольших выделенных сетей VLAN. Все операции мы проводили во VLAN-ах, изолированных друг от друга, это также было сделано, чтобы предотвратить повторное заражение.

Уникальность этого решения была в двух фишках: во-первых, мы применили PowerShell scripts и всё сохраняли на файловые ресурсы, которые проводили потоковое сканирование антивирусом, во-вторых, мы всё сделали в небольших выделенных VLANax.

Несмотря на то что все процессы были максимально автоматизированы, у заказчика имелось много компьютеров и распределённая сеть в формате звезды — центральный офис, несколько региональных офисов и зависимые от последних удалённые рабочие места. Для решения задачи пришлось объехать все объекты — не меньше сотни. Были и небольшие офисы с одним-двумя компьютерами. Их все нужно было забрать и довезти до ближайшего крупного офиса заказчика, где уже имелась IT-инфраструктура, позволяющая на должном уровне производить работы. Заказчик, со своей стороны, конечно, максимально обеспечил нас транспортом, но кадровый ресурс был ограничен.

Мы мобилизовали 25 IT-специалистов МТС из соседних регионов. Они работали без выходных и с перерывом только на сон.

График работы был очень тяжёлым, и держать одного сотрудника на объекте больше трёх дней не представлялось возможным  — он бы просто выгорал. Поэтому мы запустили непрерывную ротацию кадров: сотрудник прилетает на три дня, улетает, вместо него прилетает другой. Так поддерживалась большая интенсивность работы. Что важно, ребята, которые приезжали, быстро становились командой. Они знали, что делать, у них был чёткий план, и их не надо было учить и вводить в курс дела. Отдельно у нас была команда, которая занималась восстановлением серверов.

Мы с руководителем проекта также вылетели на объект и занимались административной работой. Для заказчика было важно произвести чёткое планирование, защитить проект. Всё, конечно, горело, но есть регламент, комплаенс внутри: мы сидели и день и ночь готовили документы: обоснования, почасовое планирование, сетевой график выхода инженеров, писали, сколько и каких инженеров выходит на разработку, на каких объектах, какие работы они будут выполнять, — всё это было очень муторно, но необходимо для того, чтобы выполнить работу в срок.

Что получилось

В результате восстановление заняло 20 дней. Нам потребовалось сегментировать сеть на маленькие подсети, что мы не имели права делать сами, без участия сетевого инженера заказчика. Это оказалось узким местом: сетевой инженер делал процедуру не очень быстро. Но во время «простоя» по согласованию заказчика мы занимались проектными вещами, а не просто так сидели в гостинице.

На выходе все данные на серверах были подняты из бэкапа, и никакие критичные системы в итоге не пострадали, данные из корпоративных информационных систем утеряны не были. Помимо того сервера, который мы привезли с собой, в процессе реализации проекта решили развернуть дополнительные серверы MS Deployment Services на инфраструктуре заказчика. Мы научили его инженеров работать с этой системой, провели мастер-классы, обучали и консультировали. Заказчик остался с полной документацией, знал, как ему дальше производить деплоймент, как теперь с этим сервером дальше жить и что делать при наступлении похожей ситуации.

Проактивный мониторинг и спланированные заранее действия могут уберечь от возникновения такой ситуации. Но если она наступила, то придётся спешно изыскивать дополнительный инженерный ресурс.

Стоит отметить, что спрос на IT-услуги на аутсорсе в подобных ситуациях в будущем будет расти, и не только из-за увеличения количества атак и совершенствования навыков хакеров. У этой услуги определённый потребитель — это компании с высоким уровнем зрелости, которые уже достигли такого этапа развития, что начинают управлять IT как услугой. На этом этапе происходят изменения в мышлении IT-директора: он понимает, что при переходе на аутсорс можно не оглядываться на собственные ресурсы и возможности, не вникать в личные дела сотрудников. Можно просто ставить задачу, договариваться об уровне сервиса и поддерживать заданный уровень получаемой услуги. Таким образом, IT-директор может заниматься более высокоуровневым планированием и свои ресурсы перенаправлять на какие-то более критичные задачи.

Подписка на новости

Новое и лучшее