План непрерывности ведения бизнеса что это

Бизнес в XXI веке немыслим без информационных технологий. Это мощный двигатель экономики, но в то же время и источник рисков. Непрерывность бизнес-процессов «завязана» на бесперебойности работы ИТ-сервисов. Их отказ грозит в лучшем случае простоями и финансовыми потерями, в худшем — катастрофическими последствиями. Какими средствами обеспечивается информационная безопасность и непрерывность бизнеса, читайте в нашем материале.

Составные элементы кризис-менеджмента: BCM, BCP, DRP

Чем больше используются в бизнесе информационные технологии, тем серьезнее он нуждается в обеспечении бесперебойности процессов. Это касается кредитно-финансовых, телекоммуникационных компаний, высокотехнологичных предприятий непрерывного производственного цикла, например атомных электростанций. Продуманная система кризис-менеджмента востребована в ритейле, электронной коммерции, государственном секторе — словом, практически везде, где критически важна непрерывность деловой активности.

Для ряда отраслей существуют специальные регламенты в отношении непрерывности бизнеса, которые должны соблюдаться для лицензирования деятельности.

Степень риска определяется теми последствиями, которыми грозит сбой в работе ИТ-сервисов. Например, для банков даже непродолжительный перерыв в деятельности чреват колоссальными материальными потерями. А если инцидент произойдет в авиакомпании или на предприятии ТЭК? Здесь уже под угрозой не только деньги — опасности подвергаются жизни людей.

Причины возникновения бизнес-рисков различны. Это и природные бедствия (вспомним ледяной дождь в Москве в 2010 году, экономический ущерб от которого для ОАО «МОЭСК» составил порядка 1,3 млрд рублей[1]), и аварии в энергосистемах, не говоря уже о киберпреступлениях (их количество только в России ежегодно возрастает в три–четыре раза)[2]. В связи с многообразием рисков актуальность обеспечения информационной безопасности (ИБ) не вызывает сомнений.

Опрос, проведенный компанией DEAC в 2019 году, продемонстрировал ситуацию относительно рисков непрерывности бизнеса в российской деловой среде. Согласно результатам решения по обеспечению бесперебойности процессов наиболее востребованы в двух сферах — финансовой и информационной. В случае недоступности ИТ-систем 40% опрошенных смогут продолжать работу не более часа, 24% — не более минуты. Максимальную угрозу непрерывности бизнеса несут риски, связанные с информационной безопасностью и изменениями в законодательстве страны. Причем почти половина респондентов считает, что в ближайшее время эти риски будут только расти.

Существуют инструменты кризис-менеджмента, через которые реализуется общая информационная безопасность предприятия. Это специальные технологические дисциплины — BCM (BCP & DRP). Они «вытекают» из системы ИБ, наследуя ее методологию и следующие основные принципы:

анализ рисков появления и влияния чрезвычайных ситуаций на деловые процессы и функции;
контроль и управление инцидентами;
стратегическое и тактическое планирование непрерывности информационно-коммуникационных технологий (ИКТ).

BCM (BCP & DRP) обеспечивают безопасность бизнеса в целом, что обозначено во многих международных, национальных и отраслевых стандартах. В частности, в ISO/IEC 27001, ISO 22301:2012. Первый международный стандарт посвящен вопросам ИБ в общем, второй касается конкретно применения BCM. Соответствие их требованиям следует учитывать при выборе дата-центра для хранения информации. Если же предполагается задействовать собственные ресурсы предприятия, стоит задуматься о внедрении данных стандартов — это станет залогом безопасности данных и непрерывности бизнес-процессов.

Однако рассматриваемые дисциплины не тождественны управлению ИБ, которое является для них лишь основой. Исторически начавшись с банального резервного копирования информации, система BCM постепенно охватила помимо вопросов ИБ практически все аспекты деловой активности, превратившись в целостную структуру взглядов на методы обеспечения непрерывности бизнеса — устойчивости организации к всевозможным сбоям, разрушениям и потерям, в первую очередь — финансовым.

Для справки

BCM (Business Continuity Management) — управление непрерывностью бизнеса.
BCP (Business Continuity Planning) — планирование непрерывности бизнеса.
DRP (Disaster Recovery Planning) — план восстановления после сбоев.

Основные понятия, цели и задачи управления непрерывностью бизнеса

Приоритетные цели и задачи BCM зависят от масштаба и сферы деятельности. Во главу угла ставится управление определенным типом или классом взаимосвязанных инцидентов.

Incident management (IM), или управление инцидентами, охватывает целый комплекс происшествий высокой и средней вероятности возникновения — человеческий фактор, сбой в работе оборудования и прочее. На этом уровне ущерб бизнесу сравнительно невелик. Задачи и цели IM — обеспечить сохранность, доступность, целостность информации, отказоустойчивость оборудования.
Business continuity & disaster recovery management, или управление непрерывностью бизнеса и аварийным восстановлением, нацелено на предотвращение инцидентов, которые могут привести к приостановке работы всей организации или ее важнейших бизнес-процессов. Вероятность их невелика, но ущерб может оказаться внушительным, вплоть до банкротства. По данным исследования, проведенного компанией Veeam Software в 2019 году, ежегодные мировые потери от простоев приложений превышают 20 млн долларов, по России эта цифра немного ниже — 19,8 млн долларов[3].
Crisis & emergency management, или управление чрезвычайными (кризисными) ситуациями, ставит своей задачей предупреждение крайне редких, но катастрофических по последствиям инцидентов. Возможны экологические и гуманитарные катаклизмы, инфраструктурные разрушения в границах целого региона. Например, высокий уровень обеспечения непрерывности деятельности предприятий необходим в ТЭК (разведка, добыча, переработка углеводородов, производство электроэнергии).

На заметку

Ключевым понятием в управлении непрерывностью бизнеса (BCM) выступает «инцидент», под которым понимается любое незапланированное, внезапное происшествие, событие, ведущее к остановке ключевых, критичных процессов и функций, полной потере контроля над оборудованием.

О том, к каким драматическим последствиям для бизнеса может привести недооценка влияния инцидентов на непрерывность, красноречиво свидетельствуют следующие примеры.

12 мая 2017 года компьютеры по всему миру подверглись атаке вируса-вымогателя WannaCry. Он шифровал файлы на устройстве, а для восстановления доступа к ним требовал выкуп, причем неуплата в течение семи дней приводила к необратимой блокировке. Вредоносная программа атаковала более 200 стран, сильнее всего пострадали Россия, Украина, Индия и Тайвань. WannaCry парализовал работу больниц, аэропортов, заводов, банков, правительственных учреждений. Экономические потери от кибератаки составили около 4 млрд долларов[4]. Есть мнение, что в Агентстве Национальной Безопасности США были данные об уязвимости Windows, которые похитили и использовали злоумышленники. Таким образом, при надлежащем уровне предусмотрительности ущерб можно было предотвратить.

Полтора месяца спустя инцидент повторился, но уже с другой вредоносной программой: печально известный вирус Petya действовал аналогичным образом. Самые масштабные потери от него понесли российские и украинские компании[5].

Внедрение и применение программ BCM позволило бы значительно сократить размеры потерь, а возможно, и вовсе избежать катастрофических происшествий. Управление непрерывностью бизнеса — залог сохранности вложенных владельцами и акционерами средств. Если основная площадка дата-центра в результате сбоя или по другой причине временно выйдет из строя, работа будет в кратчайшие сроки продолжена на резервной площадке.

Статистика

По данным The Impact of Catastrophes on Shareholder Value (Rory J. Knight и Deborah J. Pretty), кумулятивный доход сверх нормы (разница между ожидаемой и реальной стоимостью акций) компаний, успешно восстановивших деятельность после крупномасштабной аварии, через год составляет в среднем 10%. В то же время корпорации, не внедрившие BCM, получают те же 10% и даже 15%, но со знаком минус.

Этапы внедрения BCM

Управление непрерывностью бизнеса (BCM) начинается с определения стратегии и планирования. Одновременно используются инструменты риск-менеджмента (Risk Management, RM). Таким образом, внедрение системы BCM в организации означает комплексный и многоэтапный подход, подразумевающий освоение технических и программных средств, регламентацию действий, распределение ответственности, обучение персонала. Осуществить все это силами самой компании, мягко говоря, проблематично. Выход — обратиться за помощью к ИТ-экспертам. Они не только грамотно разработают план мероприятий и подберут оптимальные для компании решения, но и помогут воплотить проект системы в жизнь.

Анализ и оценка рисков

Анализ бизнес-процессов (Business Environment Analysis, BEA). Характер рисков для различных организаций зависит от сферы и масштаба их деятельности. Например, в медицинском учреждении отказ системы учета пациентов не будет критичным, чего нельзя сказать о сбое в работе высокотехнологичного реанимационного оборудования. Отказ приложения для автоматизации совместной деятельности рабочих групп в телекоммуникационной компании, вероятно, к кризису не приведет, но вот сбой в системе биллинга, несомненно, обернется существенными финансовыми потерями. Эти примеры демонстрируют, что в разном бизнесе существуют специфичные точки критичности. Анализ бизнес-процессов позволяет выделить эти точки и ранжировать по степени влияния на непрерывность деловой активности компании.
Анализ рисков (Risk Analysis, RA). Сами риски можно разделить на две группы: зависимые и независимые от ИТ (ИКТ). После того, как были проведены выделение и градация бизнес-процессов по важности влияния на бизнес, из этой иерархии необходимо выделить группу ИТ-зависимых бизнес-процессов. Но что может повлиять на их бесперебойность? Для ответа на этот вопрос следует проверить достаточность и действенность технических и организационных механизмов, направленных на предупреждение прерываний бизнес-процессов, выделить и оценить наиболее уязвимые точки и значимые угрозы. В итоге формируются группы рисков, влияющих на ИТ, разделенные по степени важности.
Оценка воздействия на бизнес (Business Impact Analysis, BIA). На основе полученных данных составляется карта ключевых бизнес-процессов с указанием нарушений, способных привести к убыткам. Далее строится модель, иллюстрирующая связь между этими нарушениями и категориями (масштабами) возможных потерь, которые могут быть зафиксированы как количественно, так и качественно. К группам потерь могут относиться: деловая репутация, рыночная стоимость, уровень операционных издержек, возврат на инвестиции, штрафные санкции из-за нарушения контрактных обязательств и так далее.
Для аналитиков крайне важно получить достоверную информацию о бизнесе организации, в особенности финансовую, узнать о текущем положении дел в ИТ-комплексе и планах его развития.
Аналогичным образом следует провести детальный анализ информационных сервисов с привязкой к бизнес-процессам и информационным потокам. Результатом оценки возможного ущерба станет полноценная картина бизнеса, показывающая уровень критичности всех бизнес-процессов в целом, а также отдельных нарушений их функционирования в соотношении с величиной потерь.
Все перечисленные выше задачи решаются в процессе аудита, который проводится аналитиками перед началом сотрудничества. В ходе такой всесторонней оценки четко вырисовываются слабые места в системе информационной безопасности клиента и становятся понятны способы укрепления уязвимых точек.
Расчет экономического эффекта (стоимости простоя бизнес-процессов) предполагает наличие справедливых допущений о вероятности наступления тех или иных инцидентов в рассматриваемый период, что в дальнейшем позволяет выбрать наиболее приемлемую стратегию.
В итоге собственники и руководство компании должны совместно с аналитиками определиться с установлением так называемых тайм-аутов и производительной мощности для отдельных бизнес-процессов на случай чрезвычайной ситуации, а именно:
- Допустимого времени восстановления (Recovery Time Objective, RTO), или интервала вынужденного простоя, который технически может быть сведен к секундам, но из-за дороговизны не всегда оправдывает себя экономически.
- Целевой точки восстановления (Recovery Point Objective, RPO), или временного диапазона перед наступлением ЧС, за который все данные могут быть утрачены. Сегодня он может быть сведен к нулю, так как все зависит от частоты и технологии резервного копирования информации.
- Уровня непрерывности бизнеса (Level of Business Continuity, LBC), или допустимого уровня производительности (доли нагрузки) в чрезвычайных ситуациях в процентах от режима штатной работы.

Планирование

Планирование — это динамический процесс, а не разовая процедура. Следует поддерживать планы в актуальном и «синхронизированном» состоянии. С этой целью их нужно регулярно тестировать, при необходимости дополняя свежими данными.

Определение стратегии непрерывности бизнеса. Она должна затрагивать такие ключевые аспекты, как безопасность сотрудников, обеспечение их рабочими помещениями, техническими средствами и необходимыми материалами, доступ к критически важной информации, беспрепятственные коммуникации с партнерами, клиентами, поставщиками и подрядчиками. Для каждого направления вырабатывается отдельная подстратегия, призванная «указывать дорогу» к скорейшему восстановлению в соответствии с параметрами, определенными на этапах анализа рисков. Обеспечение непрерывности включает три стадии: реагирование на событие, продолжение выполнения критичных для бизнеса процессов в условиях ЧС, восстановление штатной работы.
Выбор организационных и технических решений определяется стратегией BCM. Разрабатываются политики, которые формализуют приоритетные цели и задачи поддержания непрерывности бизнеса, процедуры реагирования и области распространения системы BCM, устанавливаются кадровые потребности и степень вовлеченности персонала в реализацию программы внедрения (проекта) BCM.
Создание технической и организационной систем BCM. В настоящее время все более широкое распространение приобретают «облачные» услуги. Для защиты информации при помощи облака существует решение — DRaaS (Disaster-Recovery-as-a-Service). Его суть состоит в том, чтобы предоставлять в облачных средах корпоративного уровня услугу аварийного восстановления данных. Это позволяет снизить расходы на обеспечение безопасности, одновременно поддерживая ее на уровне принятых в индустрии стандартов. Предусмотрены разные варианты, но все они основаны на резервном копировании ИТ-инфраструктуры или наиболее критичных ее элементов:
1. Резервные копии ИТ-инфраструктуры создаются по расписанию, заданному в соответствии с нужными RTO и RPO, и помещаются в хранилище. Восстановление занимает до нескольких часов. Такая схема подходит для малого бизнеса, где некритична непрерывность, но важны экономия и надежная сохранность данных. Однако комплексную защиту резервное копирование не обеспечивает.
2. Инфраструктура копируется полностью, изменения в непрерывном режиме переносятся в облако, извлечение и восстановление информации происходит за минуты.
3. Запускается резервная облачная инфраструктура, полностью идентичная основной. Обновления в них происходят синхронно. Восстановление возможно за несколько секунд. Решение актуально для крупных финансовых и ИТ-компаний, госсектора — для любых организаций, где нельзя терять ни минуты на простой.
Построение отказоустойчивых ЦОД. В зависимости от потребностей бизнеса может понадобиться построение энергоэффективных отказоустойчивых центров обработки данных (ЦОДов) или их оптимизация. Решение данной задачи возможно за счет реализации комплекса мероприятий по строительству специализированных зданий, организации инженерной, телекоммуникационной и ИТ-инфраструктуры, их автоматизации, сервисного сопровождения подсистем ЦОДов или создания мобильного ЦОДа. Более простой путь — доверить организацию ИТ-инфраструктуры надежному провайдеру.
Разработка планов BCP и DRP. По мере роста бизнеса, а значит — наращивания вычислительных мощностей и усложнения ИТ-систем компании сталкиваются с тем, что вычислительные центры сами по себе становятся фактором угрозы непрерывности деловой активности, «точкой сбоя». Таким образом, необходим план восстановления системы после инцидента (DRP), являющийся составной частью более крупного плана обеспечения непрерывности бизнеса (BCP). Если DRP призван максимально быстро восстановить работоспособность ИТ-систем, поддерживающих и критичные бизнес-процессы, и обычные операции, то BCP должен обеспечить восстановление бизнес-процессов в целом.
Формирование программы сопровождения и эксплуатации систем BCM. Определение мер по обеспечению нормального функционирования системы, периодичности ее проверок, реагирования обслуживающего персонала на возникновение инцидентов.
Встраивание процессов в корпоративную культуру. На этом этапе необходима разработка мер и осведомление персонала о мерах, предпринимаемых в случае возникновения угроз, а также о мерах по устранению последствий внештатной ситуации. От подготовки компетентного персонала будет напрямую зависеть успех планирования восстановления после происшествия.

Эффективность внедрения системы

Об эффективности внедрения ВСМ на предприятии будут свидетельствовать:

Готовность организации к продолжению работы в случае возникновения аварий в ИТ-системах.
Оцененная вероятность простоя (недоступности) информационных систем в случае возникновения внештатной ситуации и возможные убытки.
Прохождение аудита и соответствие требованиям регулирующих органов.

Разумеется, силами самого предприятия обеспечить создание и эффективное внедрение системы — задача практически невыполнимая. Для этого потребуются огромные финансовые, кадровые и временные ресурсы, которые есть далеко не у каждой компании.

Источник

Планируем катастрофу?

Добрый день, уважаемые коллеги.

В одной из предыдущих статей, посвященной кризисным ситуациям мы коснулись вопросов написания антикризисного плана компании (в международной классификации — BCP) и, в частности, его IT-части — IT BCP. Там же были рассмотрены вопросы актуальности наличия антикризисного плана в каждой компании.

Основной темой настоящей статьи будет более глубокое погружение в данный документ. Мы детально рассмотрим структуру IT BCP, коснемся организационных и технических вопросов, а также разберем рабочий IT BCP на примере типового вероятного риска. Статья будет полезна собственникам бизнеса, риск-менеджерам, ИТ-директорам и другим руководителям, ответственным за непрерывность бизнеса.

Зачем бизнесу планы катастроф и как они устроены?

Разные компании в процессе своей работы решают множество стратегических и тактических задач Но все, так или иначе, стремятся к одному и тому же – улучшению своих показателей на рынке, минимизации расходов и увеличению прибыли. На разных этапах своей жизни бизнесы сталкиваются с аварийными ситуациями, которые могут кардинально поменять течение нормальной операционной деятельности компании или даже выбросить ее с рынка. Ненадолго, надолго или навсегда. В круг обязательных задач любой компании, независимо от размера и направления деятельности, входит превентивная работа с аварийными ситуациями — подготовка к ним, отработка в случае наступления, выход с минимальными потерями и дальнейшее совершенствование в этом направлении.

В общем случае в компании должен существовать единый документ BCP (business continuity plan – план обеспечения непрерывности бизнеса), регламентирующий и описывающий действия компании в типовых кризисных ситуациях и, самое главное, — действия при подготовке к ним.

Как правило, BCP пишется, внедряется и совершенствуется старшим офицером по безопасности или IT-директором при непосредственном участии руководителя организации. На этих лиц также возложены задачи по формированию антикризисной команды из числа сотрудников или путем привлечения внешних специалистов.

Разберем детально, как устроен IT BCP в общем случае, а также коснемся некоторых особенностей.

Обязательные разделы BCP

Раздел 1 — Каталог сценариев рисков

Это основной раздел антикризисного плана, включающий в себя описание всевозможных кризисных сценариев, путей их развития и максимально безболезненного закрытия.

Для каждого сценария указываются в обязательном порядке следующие параметры:

Вероятность наступления.
Здесь по различным параметрам оценивается возможность реализации данного кризисного сценария. Может быть – совершенно незначительная, незначительная, вероятная, очень вероятная и ожидаемая. В основном, все зависит от страны и региона, в котором размещается офисное здание. Например, вероятность землетрясения в Центральной части России будет совершенно незначительная, а вот вероятность пожара или отключения электричества вполне может иметь статус вероятной.
Возможный урон для бизнеса.
Данный параметр описывает различные последствия, которые насыпают для бизнеса в случае реализации кризисного сценария. Последствия бывают незначительными, минимальными, ощутимыми, значительными, критическими и ведущими к потере бизнеса. Очень важным является то, что последствия для бизнеса могут меняться с течением времени и определенный кризисный сценарий, незначительный на коротком интервале, может стать критическим по прошествии определенного времени.
Перечень затронутых подразделений.
Здесь указываются подразделения, деятельность которых затрагивается при реализации кризисного сценария. Может быть одно или несколько подразделений, а может быть и вся компания в целом (как это бывает при реализации глобальных кризисных сценариев – пожар, землетрясение и тд.)
Триггеры риска.
Содержит список всех превентивных мер, которые были приняты до наступления риска, и либо снижают вероятность наступления данного риска, либо минимизируют потери при наступлении. Сюда можно отнести автоматическое включение дизель-генератора при падении напряжение или автоматический перевод звонков на резервные линии в случае отказа телефонии.
Перечень мер противодействия, которые должны быть предприняты незамедлительно при наступлении кризисной ситуации.
Здесь детально описываются все меры, которые должны быть предприняты при наступлении риска. Как административного, так и технического характера. Также указываются контакты третьих лиц и организаций, которые должны быть привлечены к разрешению инцидента.
Перечень ответственных лиц.
Содержит перечень лиц, ответственных за закрытие данного конкретного риска. Список может меняться в зависимости от конкретного риска. Как правило, тут указываются генеральный директор, IT-директор, старший офицер по безопасности, руководитель АХО.
Перечень заместителей ответственных лиц, на случай их отсутствия.
Ссылки на дополнительную документацию, которая может понадобиться для противодействия данной кризисной ситуации.
Содержит ссылки на всю дополнительную документацию. Которая потребуется для закрытия данного риска. Может включать в себя специфичные для данного риска операционные процедуры и регламенты компании, а также регламенты взаимодействия с третьими лицами, привлекаемыми для закрытия данного риска.

Раздел 2 — Роли и ответственность ключевых игроков команды IT BCP

Данные раздел детально описывает роли всех участников процесса по закрытию риска. В общем случае включает в себя следующие роли:

Роль: Ответственный за разрешение инцидента.
Как правило, это топ-менеджер компании или IT-директор.
Обязанности:
— оценивает ситуацию в целом, оценивает возможные последствия для бизнеса и время разрешения инцидента (закрытия риска);
— оказывает информационное сопровождение инцидента – отвечает за получение клиентами, партнерами и СМИ правильной и непротиворечивой информации о происходящем;
— обеспечивает своевременную осведомлённость персонала и стейкхолдеров об инциденте и о предпринятых шагах к скорейшему разрешению инцидента;
— обеспечивает кризисную команду необходимыми ресурсами и поддержкой на протяжении всего времени работы над инцидентом.

Роль: Контролер/координатор разрешения инцидента.
Эту роль также может выполнять IT-директор или одни из линейных руководителей наиболее затрагиваемого инцидентом подразделения.
Обязанности:
— принимает решение об активации IT BCP;
— определяет наиболее подходящую стратегию восстановления для конкретной ситуации;
— оценивает степень нанесенного инфраструктуре и оборудованию ущерба, докладывает ответственному за разрешение инцидента;
— привлекает к разрешению инцидента необходимых специалистов;
— участвует в активации резервной локации;
— управляет, координирует и отслеживает все работы по разрешению инцидента (совместно с Антикризисной командой);
— обеспечивает необходимый для скорейшего разрешения инцидента уровень коммуникации между всеми задействованными в разрешении сотрудниками;
— планирует, организует и проводит отчетные встречи сотрудников о текущем статусе инцидента;
— отвечает за минимизацию нанесенного инцидентом ущерба.

Роль: Руководство разрешением инцидента.
Эта роль выполняется линейным руководителем или главным специалистом необходимого профиля.
Обязанности:
— координирует работу антикризисной команды в соответствии с BCP;
— оказывает помощь в оценке последствии инцидента;
— определяет любые особые требования для обеспечения непрерывности бизнеса;
— поддерживает связь с другими группами восстановления (в том числе и внешними), чтобы избежать дублирования задач и усилий;
— выполняет все согласованные требования в соответствии с временными рамками BCP;
— постоянно контролирует уровни риска во всех аспектах бизнеса и консультирует координатора разрешения инцидента о любом значительном увеличения риска;
— реализует стратегию восстановления.

Роль: Непосредственное разрешение инцидента.
Команда профильных специалистов, занятых в непосредственном разрешении инцидента.
Обязанности:
— на время инцидента создается специальная организационная структура, состоящая из штатных сотрудников компании. Эти сотрудники в составе команды восстановления занимаются непосредственно всей операционной деятельностью по разрешению инцидента.

В небольших компаниях довольно часто за BCP (при его наличии) отвечает один человек – генеральный директор. На него возлагается вся полнота ответственности за продолжение бизнеса в различных ситуациях.

Раздел 3 – Решение типовых задач

В данном разделе указываются все принятые в компании превентивные меры, направленные на продолжение ее функционирования в различных кризисных ситуациях с детальным описанием возможности и срока применения. Тезисно содержатся регламенты взаимодействия с внешними подрядчиками (телефонии, интернета, электричества) в части работы в критических ситуациях. Описываются режимы и сроки работы источников бесперебойного питания, дизель-генераторов, порядок переключения на резервные каналы связи (при их наличии).

Кроме того, данный раздел содержит инструкции по восстановлению типовых сервисов, пострадавших в результате реализации различных кризисных сценариев. Типичным примером подобной инструкции будет регламент восстановления работы сервера баз данных после полной гибели дискового хранилища, включающий в себя — порядок замены жестких дисков и, при необходимости, их закупки, порядок развертывания баз данных из резервных копий, порядок взаимодействия с заинтересованными пользователями во время и после восстановления работы сервиса.

Другие возможные разделы

Помимо описанных выше основных разделов для компаний, работающих в различных отраслях, в BCP могут быть введены специализированные разделы, характерные для конкретного бизнеса. Например, BCP крупных логистических компаний содержит детальные протоколы изменения маршрутов при отказе одного или нескольких логистических центров, складов. BCP компаний, работающих в сфере скоропортящихся продуктов питания, ориентирован в первую очередь на непрерывность работы рефрижераторов и возможность их гарантированной замены в установленные сроки.

Пример IT BCP для одного типового риска

Теперь, обладая необходимыми теоретическими знаниями и методикой построения IT BCP, в качестве примера разберем типовой риск, который также будет актуальный практически для любого бизнеса – долговременное отключение электричества. Данный риск является тяжёлым, в ряде случаев может привести к долгосрочной остановке или даже потере бизнеса в регионе. Имеет типовые сценарии наступления и развития, в зависимости от инфраструктуры предприятия. Имеет также типовые сценарии полного или частичного закрытия (устранения), в зависимости от того, какая сумма будет на это затрачена.

Итак, выдержка из реального IT BCP одной сервисной компании (публикуется с согласия автора):

Сценарии рисков

*Название риска*	Отказ системы электропитания длительностью от 30 минут до нескольких дней
*Возможный сценарий возникновения*	Глобальный сбой в магистральной сети электропитания, возникший в результате техногенной катастрофы, природной катастрофы, действий третьих лиц, отказа инфраструктуры подрядчика и тд.
*Вероятность наступления*	Вероятен
*Последствия для бизнеса*	Критические. Высокие репутационные и материальные потери в течение 6 часов. Потеря бизнеса в регионе Россия и СНГ в течение 1 дня.
*Затронутые департаменты/сервисы*	Все департаменты/все IT-сервисы компании
*Основные цели по закрытию риска*	Немедленное восстановления всех ключевых IT-сервисов компании (имеющих критических приоритет в каталоге сервисов)
*Триггеры риска*	3 устройства бесперебойного питания включаются автоматически при наступлении риска
*Необходимые действия и мероприятия*	Устройства бесперебойного питания обеспечивают работу серверного помещения и 10 компьютеров колл-центра в течении 1 часа Запуск дизель-генератора в течение 1 часа и обеспечение регулярного подвоза дизельного топлива с интервалом в 12 часов Контакт с провайдером телефонии и перевод входящих звонков в резервный колл-центр (согласно антикризисному протоколу работы колл-центра) Перемещение сотрудников колл-центра в резервную локацию (согласно антикризисному протоколу работы колл-центра)
*Ответственные за закрытие риска*	COO и Директор по IT
*Заместители ответственных за закрытие риска*	CEO и Руководитель службы безопасности
*Дополнительная документация*	Директива 37-95. Работа IT в кризисной ситуации. Раздел 3 – Работа с критическими рисками. Директива 37-16. Обеспечение непрерывности работы колл-центра.

Роли и ответственность ключевых игроков команды IT BCP

COO (CEO его замещающий)
Роль: Ответственный за разрешение инцидента
Обязанности:
— проводит первичную оценку ожидаемого времени простоя
— проводит инвентаризацию возможных мер разрешения инцидента
— извещает всех заинтересованных лиц в компании о масштабах отключения, прогнозируемом времени восстановления подачи электричества
— курирует работу антикризисной команды на протяжении всего времени разрешения инцидента

IT-директор (Руководитель службы безопасности его замещающий)
Роль: Контролер/координатор разрешения инцидента
Обязанности:
— принимает решение об активации кризисного сценария №6 IT BCP «Отказ системы электропитания длительностью от 30 минут до нескольких дней»;
— определяет наиболее подходящую стратегию восстановления для данного сценария в соответствии с информацией, полученной от ответственного за разрешение инцидента. Возможные антикризисные стратегии:
1. Работа офиса от источников бесперебойного питания.
2. Работа офиса от дизель-генератора.
3. Перемещение персонала компании на резервную локацию.
— организует работу антикризисной команды и персонала компании в соответствии с выбранной стратегией;
— Инициирует расконсервацию резервной локации при выборе антикризисной стратегии «Перемещение персонала в резервную локацию» в соответствии с Директивой 37-16. Обеспечение непрерывности работы колл-центра;
— 1 раз в час организует бриф-встречи в формате COO, IT-директор, команда антикризисного управления для обсуждения развития кризисного сценария и принятия решений о дальнейших шага.

Команда антикризисного управления
Роль: Руководство разрешением инцидента
Обязанности:
— координирует работу антикризисной команды в соответствии с выбранной антикризисной стратегией;
— на регулярной основе общается с энергосбывающей компанией с целью скорейшего разрешения инцидента;
— в случае выбора стратегии 2 «Работа офиса от дизель-генератора» организует непрерывную доставку дизтоплива для генератора в течение 1 часа;
— в случае выбора стратегии 3 «Перемещение персонала в резервную локацию»:
1. инициирует перевод телефонных линий на номера резервной локации в течение 24 часов;
2. непосредственно руководит расконсервацией резервной локации;
3. организует перемещение персонала на резервную локацию;

Команда восстановления
Роль: Непосредственное разрешение инцидента
Обязанности:
— команда восстановления по сценарию №6 «Отказ системы электропитания длительностью от 30 минут до нескольких дней» формируется из главного энергетика, специалиста по безопасности и IT-специалиста, ведет непосредственную операционную деятельность по разрешению данного инцидента в соответствии с выбранной антикризисной стратегией.

Решение типовых задач

Компания им имеет механизмы защиты, предназначенные для обеспечения непрерывности бизнеса в случае отключения электричества, в том числе:
— 24×7 соглашения о поддержке / техническом обслуживании с ключевыми поставщиками;
— Резервные батареи телефонной станции, рассчитанные на 3 часа работы;
— Устройства ИБП (источники бесперебойного питания), питающие ключевые серверы, А?