Обеспечение непрерывности бизнес-процессов и управление кризисными ситуациями
Информационные технологии стали неотъемлемой частью бизнеса XXI века. Они являются мощным двигателем экономики, однако источником рисков. Без бесперебойной работы ИТ-сервисов прерываются бизнес-процессы, что может привести к финансовым потерям и катастрофическим последствиям. Как обеспечить информационную безопасность и непрерывность бизнеса? Об этом мы подробно расскажем в этой статье.
Когда дело касается использования информационных технологий в бизнесе, обеспечение бесперебойности процессов становится еще более важным. Предприятия, занятые в кредитно-финансовой, телекоммуникационной, высокотехнологичной и производственной отраслях, особенно нуждаются в продуманной системе кризис-менеджмента. Однако, это также актуально для ритейла, электронной коммерции, государственного сектора и любой другой отрасли, где поставлены задачи по обеспечению непрерывности деятельности компании.
Существуют специальные регламенты, которые соблюдаются для лицензирования деятельности в ряде отраслей и указывают на необходимость непрерывности бизнеса. Риск сбоя в работе информационно-технических сервисов может иметь колоссальные материальные потери для банков и жизнь людей - если инцидент произойдет, например, в авиакомпании или на предприятии топливно-энергетического комплекса.
Риски могут возникнуть из-за природных бедствий, аварий в энергосистемах или киберпреступлений. При этом, уровень риска определяется последствиями инцидента для деловых процессов и функций. В связи с многообразием рисков, обеспечение информационной безопасности (ИБ) является актуальной и несомненно необходимой задачей.
В 2019 году компания DEAC провела опрос и выяснила, что решения по обеспечению бесперебойности процессов наиболее востребованы в финансовой и информационной сферах. Риск непрерывности бизнеса связанных с ИБ и изменениями в законодательстве страны является наиболее серьезным согласно данному опросу. Почти половина респондентов считает, что в ближайшее время эти риски будут только расти.
BCM (Business Continuity Management), BCP (Business Continuity Planning) и DRP (Disaster Recovery Planning) являются инструментами кризис-менеджмента, которые обеспечивают безопасность бизнеса в целом. Они вытекают из системы ИБ и следуют основным принципам анализа рисков появления и влияния чрезвычайных ситуаций на деловые процессы, контроля и управления инцидентами, а также стратегического и тактического планирования непрерывности информационно-коммуникационных технологий (ИКТ). BCM (BCP & DRP) широко применяются и регулируются международными, национальными и отраслевыми стандартами, такими как ISO/IEC 27001 и ISO 22301:2012. Обеспечение соответствия требованиям данных стандартов при выборе дата-центра для хранения информации или при внедрении их на предприятии, гарантирует безопасность данных и непрерывность бизнес-процессов.
Тем не менее, BCM, BCP и DRP не являются тождественными управлению ИБ, которое является лишь основой для данных дисциплин. BCM начинался с резервного копирования информации, но постепенно охватил вопросы ИБ и стал целостной структурой, взглядов на методы обеспечения непрерывности бизнеса, устойчивости организации к различным сбоям, разрушениям и потерям.
Управление непрерывностью бизнеса (BCM) предполагает ряд целей и задач, зависящих от размера и направленности деятельности компании. Важнейшим аспектом является управление конкретным типом или классом инцидентов, которые могут возникнуть в процессе работы.
Управление инцидентами (IM) охватывает ряд происшествий, связанных с человеческим фактором, сбоем оборудования и другими подобными инцидентами. На этом уровне ущерб для бизнеса сравнительно невелик, но важно обеспечить сохранность, доступность и целостность информации, а также отказоустойчивость оборудования.
Управление непрерывностью бизнеса и аварийным восстановлением (BCDR) нацелено на предотвращение инцидентов, которые могут привести к остановке работы всей организации или ее ключевых бизнес-процессов. Хоть вероятность таких событий невелика, ущерб может быть внушительным и даже привести к банкротству. Согласно исследованию Veeam Software за 2019 год, глобальные потери от простоев приложений свыше 20 млн долларов ежегодно, в то время как по России эта цифра немного ниже и составляет 19,8 млн долларов.
Управление чрезвычайными ситуациями (C&EM) ставит своей задачей предупреждение катастрофических инцидентов, которые происходят очень редко, но могут иметь катастрофические последствия для бизнеса, включая экологические и гуманитарные катаклизмы, а также инфраструктурные разрушения в пределах целого региона. Большое значение имеет обеспечение непрерывности деятельности предприятий ТЭК (разведка, добыча, переработка углеводородов, производство электроэнергии), где высокий уровень обеспечения непрерывности деятельности играет важную роль.
BCM выявляет ключевое понятие «инцидент», любое незапланированное происшествие, которое может привести к остановке критических процессов и функций, полной потере контроля над оборудованием. Примером недооценки влияния инцидентов на непрерывность бизнеса была атака вируса-вымогателя WannaCry в 2017 году, которая затронула компьютеры по всему миру. WannaCry привел к полной блокировке работы больниц, аэропортов, заводов, банков и правительственных учреждений, что привело к экономическим потерям в размере около 4 млрд долларов.
Реализация программ BCM могла бы значительно сократить размеры потерь, а возможно, и вовсе предотвратить катастрофические последствия. Управление непрерывностью бизнеса способствует сохранности средств вложенных владельцами и акционерами. Если возникает сбой на главной площадке дата-центра, работа может быть продолжена на резервной площадке.
По данным The Impact of Catastrophes on Shareholder Value (Rory J. Knight и Deborah J. Pretty), компании, успешно восстановившие деятельность после крупномасштабной аварии благодаря программам BCM, получают кумулятивный доход сверх нормы (разница между ожидаемой и реальной стоимостью акций) в среднем на 10% через год после аварии. В то же время, компании, которые не используют BCM, получают те же 10% и даже 15%, но со знаком минус.
Внедрение BCM: этапы и сложности
Ведение бизнеса без прерываний требует стратегического планирования и использования инструментов риск-менеджмента (RM). В свою очередь, эффективное внедрение системы управления непрерывностью бизнеса (BCM) в организации крайне сложно и многоэтапно. Включает в себя изучение технических и программных аспектов, установление регламента действий, а также обучение персонала и распределение ответственности.
Однако, даже при наличии необходимых знаний и ресурсов у компании, реализация всего этого может стать серьезной проблемой. Таким образом, компаниям рекомендуется обращаться за помощью к профессионалам в области ИТ, которые не только помогут разработать оптимальный план действий, но и предложат наиболее эффективные решения для конкретной организации.
Проведение этапов внедрения BCM является ключевым фактором для успешного функционирования компании в меняющихся условиях рынка. Проектный подход, применяемый опытными ИТ-экспертами, поможет быстро и качественно выполнить все задачи, связанные с внедрением BCM.
Анализ и управление рисками
Каждая компания сталкивается со своими уникальными рисками, в зависимости от сферы деятельности и масштабов бизнес-процессов. Например, сбой в системе учета пациентов в медицинском учреждении не критичен, в то время как неполадки в работе высокотехнологичного реанимационного оборудования могут стать серьезной проблемой. Авария в приложении для автоматизации совместной деятельности рабочих групп телекоммуникационной компании, скорее всего, не приведет к кризису, но сбой в системе биллинга наверняка вызовет серьезные финансовые потери. В связи с этим, важно проводить анализ бизнес-процессов, чтобы выявить точки критичности и ранжировать их по степени влияния на непрерывность деловой активности компании.
Анализ рисков позволяет выделить две группы: зависимые от ИТ (ИКТ) и независимые. После выделения и градации бизнес-процессов по важности, необходимо выделить группу ИТ-зависимых процессов и провести оценку их влияния на бизнес. Для этого следует проверить работу технических и организационных механизмов, направленных на предотвращение прерываний процессов, выделить и оценить уязвимые места и угрозы. В результате можно сформировать группы рисков, связанных с ИТ, и разделить их по степени важности.
Оценка воздействия на бизнес базируется на карте ключевых бизнес-процессов с указанием нарушений, которые могут привести к убыткам. Затем строится модель, отображающая связь между нарушениями и категориями возможных потерь, которые могут быть количественно и качественно оценены. К группам потерь могут относиться общественное мнение, рыночная стоимость, уровень операционных расходов, возврат на инвестиции, штрафные санкции из-за нарушения контрактных обязательств и т.д.
Для аналитиков имеет большое значение получение достоверной информации о финансах бизнеса и текущей ситуации в ИТ-комплексе, а также о планах его расширения.
Также необходимо провести детальный анализ информационных сервисов, связанных с бизнес-процессами и информационными потоками. Оценка возможного ущерба позволит получить полную картину бизнеса, отразив уровень критичности всех бизнес-процессов и нарушений их функционирования в соответствии с потерями.
Аудит, проводимый аналитиками перед началом сотрудничества, поможет решить все вышеперечисленные задачи. В процессе такой всесторонней оценки будут выявлены слабые места в системе информационной безопасности клиента, которые затем можно будет укрепить.
Расчет экономического эффекта (стоимости простоя бизнес-процессов) предполагает определенные допущения о вероятности возможных инцидентов в ближайшее время, что позволяет определить наиболее подходящую стратегию.
Совладельцы компании и ее руководство, совместно с аналитиками, должны определить установку так называемых тайм-аутов и производительной мощности для отдельных бизнес-процессов на случай чрезвычайных ситуаций. Эти тайм-ауты включают в себя:
- Допустимое время восстановления (Recovery Time Objective, RTO) - время простоя, которое технически может быть сведен к секундам, но из-за дороговизны не всегда оправдан экономически.
- Целевая точка восстановления (Recovery Point Objective, RPO) - это временной диапазон перед наступлением чрезвычайной ситуации, за который все данные могут быть утрачены. Сегодня он может быть сведен к нулю, так как все зависит от частоты и технологии резервного копирования информации.
- Уровень непрерывности бизнеса (Level of Business Continuity, LBC) - это допустимый уровень производительности в чрезвычайных ситуациях в процентах от режима штатной работы.
Планирование непрерывности бизнеса является процессом, который предусматривает тщательное определение стратегии для обеспечения безопасности сотрудников, доступности критически важной информации, свободного общения с партнерами, клиентами, поставщиками и подрядчиками. Для каждого направления в рамках стратегии вырабатывается подстратегия, которая должна указать на путь к быстрому восстановлению бизнес-процессов в соответствии с предварительно определенными параметрами рисков.
Этот процесс включает следующие стадии: реагирование на событие, продолжение выполнения критичных для бизнеса процессов в условиях ЧС и восстановление штатной работы. В каждом из направлений стратегии BCM определяются организационные и технические решения: разрабатываются политики для поддержания непрерывности бизнеса, формализуются приоритетные цели и задачи, процедуры реагирования и области распространения системы BCM, определяются кадровые потребности и степень вовлеченности персонала в реализацию программы внедрения (проекта) BCM.
Для создания технической и организационной систем BCM все чаще используются облачные услуги. Одно из решений, называемое DRaaS (Disaster-Recovery-as-a-Service), предоставляет возможность аварийного восстановления данных в облачных средах корпоративного уровня, благодаря чему удается снизить расходы на обеспечение безопасности и поддерживать ее на уровне принятых в индустрии стандартов.
Существует несколько вариантов резервного копирования ИТ-инфраструктуры или ее элементов. Например, в малом бизнесе, где непрерывность не критична, могут использоваться резервные копии, создаваемые по расписанию. Однако такая схема не обеспечивает комплексной защиты.
В более крупных организациях используются более серьезные технологии. Например, можно полностью скопировать инфраструктуру в облако с последующим переносом изменений в непрерывном режиме. Информация извлекается и восстанавливается за несколько минут. Для крупных финансовых и ИТ-компаний, госсектора и любых других организаций, где каждая минута простоя критична, предусмотрено запуск резервной облачной инфраструктуры, полностью идентичной основной. Обновления в них происходят одновременно, и восстановление возможно за несколько секунд.
Строительство отказоустойчивых ЦОДов становится все более актуальным для бизнеса, и это может быть необходимо как для создания новых, так и для оптимизации уже существующих центров обработки данных. Этого можно достичь путем проведения комплекса мероприятий, включающих в себя строительство специализированных зданий, а также инженерных, телекоммуникационных и ИТ-инфраструктур, их автоматизацию и сервисное обслуживание.
Существует также возможность создания мобильного ЦОДа. Однако, для более простого решения данной задачи, компании могут доверить организацию ИТ-инфраструктуры опытному провайдеру.
Развитие бизнеса обычно сопровождается увеличением вычислительных мощностей и усложнением ИТ-систем, что может привести к риску нарушения непрерывности деловой активности. Именно поэтому компаниям необходим план восстановления системы после инцидента (DRP), который является частью большего плана обеспечения непрерывности бизнеса (BCP). Данный план призван обеспечить максимально быстрое восстановление работоспособности ИТ-систем, поддерживающих как критичные бизнес-процессы, так и обычные операции. BCP, в свою очередь, должен предусматривать восстановление бизнес-процессов в целом.
Для обеспечения нормального функционирования системы необходима формирование программы сопровождения и эксплуатации систем BCM, включающую меры по периодической проверке системы, а также реагированию обслуживающего персонала на возникновение инцидентов.
Наконец, встраивание процессов в корпоративную культуру играет важную роль на пути к успешному планированию восстановления после происшествий. Для этого необходимо разработать меры и осведомить персонал о мерах, принимаемых в случае возникновения угроз, а также о мерах по устранению последствий внештатной ситуации. Компетентный персонал является ключевым фактором успеха на этом этапе.
Как известно, внедрение системы ВСМ на предприятии может значительно повлиять на его дальнейшую работу. Однако, какие именно параметры могут свидетельствовать об эффективности такого внедрения?
В первую очередь, важно отметить готовность организации к дальнейшей работе в случае возникновения аварий в ИТ-системах. Если в систему была внедрена ВСМ, это достаточно показательный момент, ведь организация приняла меры для сохранения своих данных и возможности продолжения работы в случае сбоев.
Кроме того, стоит оценить вероятность простоя (недоступности) информационных систем в случае возникновения внештатной ситуации и потенциальные убытки, которые могут быть связаны с такой ситуацией.
Также важным показателем является соответствие требованиям регулирующих органов и прохождение аудита.
Однако, само по себе создание и внедрение системы ВСМ может стать непростой задачей для предприятия, требующей значительных финансовых, кадровых и временных ресурсов. Не каждая компания готова на это пойти и поэтому речь идет об эффективности внедрения системы с учетом возможностей организации.
Фото: freepik.com