Аналитика и выявление аномалий


Виртуализация современной ИТ-инфраструктуры сделала её динамичной — топология приложений меняется без остановки их работы, данные часто мигрируют между хранилищами, а пользователи подключаются с различных удалённых рабочих мест. Современный уровень сложности такой среды превышает возможности её непосредственного ручного анализа.
Предоставление ИТ-услуг, формирующих главное конкурентное преимущество бизнеса, обеспечивается сложными ИТ-системами, включающими прикладное программное обеспечение и технологические платформы.
В крупных ИТ-инфраструктурах средства управления и мониторинга ИТ накапливают массивы исторических данных, и только очень небольшая доля их аналитического потенциала используется «классическими» системами мониторинга, основанными на отображении оперативных данных и предоставлении исторической отчётности.
Поэтому большинство компаний приходит к выводу, что нужны решения, которые позволят анализировать данные систем управления и мониторинга, выявлять зависимости, находить скрытые сбои и, предсказывать ухудшение производительности и показатели показателей доступности ИТ и бизнес сервисов, предоставляя информацию для более эффективного поиска проблем и прогноза изменения потребности в ИТ-ресурсах.
Для решения этих задач используются системы операционной аналитики IT Operations Analytics (ITOA). Одно из определений ITOA даётся агентством Forrester Research как: «Применение математических алгоритмов и других инноваций для извлечения значимой информации из большого объёма необработанных данных, собранных системами управления и мониторинга ИТ-инфраструктуры».
Основу операционной аналитики составляют такие направления, как:
- анализ доступности на основе сбора обширного набора данных о состоянии ИТ, построение шаблонов характерного поведения ее различных компонентов и выявление отклонений;
- проактивный анализ производительности ИТ-среды для предсказания возможных проблем за достаточный для оперативного вмешательства период до возможного сбоя.
Функционал большинства решений ITOA реализует следующие средства операционной аналитики:
- поиск и индексирование, которые с помощью встроенной системы анализа собирают, ищут и индексируют большие объемы данных в режиме реального времени;
- машинное самообучение с использованием имеющихся данных (структурированных и неструктурированных), включая события, журналы, топологии и показатели. Выявление аномалий, отклонений от шаблонов «нормального» исторического поведения на основе автоматического статистического анализа;
- построение визуальной карты взаимосвязей между компонентами ИТ для более эффективной корреляции событий, как правило, с использованием сервисно-ресурсных моделей CMDB. Топологическая модель позволяет определить конфигурационную единицу, связанную со сбоем или аномалией;
- прогнозная аналитика с использованием алгоритмов машинного обучения для автоматического расчёта базовых показателей, с учетом сезонности исторических данных;
- аналитика на основе журналов и событий, с помощью которой, благодаря автоматизированному анализу структурированных и неструктурированных данных, можно отфильтровать случайные показатели, определить релевантные кластеры и проанализировать события для выявления нестандартного поведения;
- анализ причин сбоев или нестандартного поведения при помощи функции воспроизведения данных Time Machine и интуитивно понятных информационных панелей, позволяющих в течение нескольких минут определять тенденции, выявлять отклонения и сбои;
- уведомления в режиме реального времени для предотвращения негативных последствий, связанных с критичными отклонениями метрик от их базовых показателей;
Операционная аналитика (ITOA) позволяет повысить эффективность работы ИТ за счет автоматической корреляции данных из множества источников и поиска их зависимостей для определения аномалий или сбоев:
- решения ITOA обеспечивают инструментарий для интеллектуальной поддержки реализации практик и процессов управления ИТ и повышения эффективности работы уже существующих традиционных систем управления и мониторинга ИТ;
- операционная аналитика выявляет ранние признаки неполадок до того, как они фактически возникнут, за счёт этого повышается доступность бизнес услуг и ИТ сервисов, снижается количество отказов систем;
- сокращается среднее время восстановления за счёт быстрого определения корневой причины сбоев с помощью анализа всех событий и изменений конфигураций с момента, когда система работала нормально.
Ознакомьтесь с другими решениями и услугами, предоставляемыми «ИНЛАЙН ГРУП» в рамках направления.