Быстрое выявление, изучение и устранение возникающих проблем является основной задачей оперативных групп. Приложение Проблемы поддерживает их, автоматически анализируя сложные проблемы, собирая весь контекст и представляя первопричину и последствия в едином представлении.
Приложение Проблемы, основано на данных Grail и ИИ. Анализ искусственного интеллекта помогает группам по эксплуатации и обеспечению надежности на объекте сократить среднее время ремонта (MTTR), представляя каждый аспект проблемы.
Цель и задача
В этом руководстве показано, как использовать приложение Проблемы для сортировки обнаруженных проблем и изучения их первопричин и последствий.
Целевая аудитория
Это руководство полезно для:
- Инженеры по эксплуатации
- Инженеры-трубопроводчики
- Системные инженеры
- Инженеры по надежности сайта (SREs)
- Инженер по автоматизации систем
Предварительные требования
Вам необходимо установить Проблемы из Ключ-АСТРОМ Hub.
- В Ключ-АСТРОМ Hub выберите Проблемы.
- Нажмите на кнопку Установить.
Изучение и устранение активных проблем
Фокусировка и сортировка
По умолчанию в приложении Проблемы отображается:
- Лента всех проблем за последние 2 часа. Чтобы помочь оперативным группам выявлять открытые проблемы, независимо от того, какой фильтр установлен, открытые проблемы остаются в верхней части ленты независимо от того, как долго они открыты.
- Диаграмма проблем вверху отображает любое отклонение от нормы с большим количеством проблем в прошлом. Выберите пик на диаграмме, чтобы детализировать его и продолжить изучение.
Фильтрация
Чтобы сосредоточиться на вашем домене и проблемах сортировки, которые его затрагивают, установите фильтры. Два наиболее распространенных фильтра — Состояние и Критичность – имеют выбираемые настройки слева от таблицы для быстрого доступа. Чтобы настроить другие фильтры, используйте панель фильтров над таблицей.
- Состояние — Может быть
Открытые проблемы
илиЗакрытые проблемы
.- Если этот параметр не установлен, будут перечислены все проблемы (открытые и закрытые).
- Если вы выберете состояние в элементах управления слева, соответствующий фильтр также отобразится на панели фильтров.
- Критичность— указывает характер инцидента, например, недоступность мониторинга, ошибки, проблемы, связанные с ресурсами, или проблемы с доступностью.
- Если вы выберете одну или несколько категорий в элементах управления слева, соответствующие фильтры также отобразятся на панели фильтров.
Фильтрация с помощью панели фильтров позволяет сфокусировать ленту на проблемах на основе множества критериев, таких как статус, количество затронутых объектов, уровень воздействия и многое другое – наведите курсор на поле ввода, чтобы просмотреть все доступные параметры. Критерии фильтрации объединяются с помощью логики И. Для каждого критерия ИИ предоставляет список предлагаемых значений на основе вашей ленты проблем.
Например, чтобы просмотреть проблемы, возникающие из-за увеличения количества ошибок JavaScript и сохраняющиеся более 1 часа, используйте следующие критерии фильтрации:
Состояние=Открыто
Длительность отсортировать по убыванию
Критичность=Ошибки
Текст=JavaScript error rate increase
Автоматическое обновление
Чтобы всегда отслеживать поступающие проблемы, используется автообновление каждую 1 минуту.
Исследуйте и сравнивайте проблемы
Чтобы просмотреть подробную информацию о проблеме
- В таблице выберите идентификатор проблемы в столбце Проблема.
- Просмотрите страницу сведений.
На странице сведений о проблемах представлены все доступные сведения о проблеме.
Все объекты, затронутые проблемой, перечислены в разделе Затронутые объекты вместе с информацией о типе объекта и количестве событий, обнаруженных в ходе анализа.
- В качестве начала исследования ИИ отмечает объект, который, по его мнению, является основной причиной проблемы.
- Чтобы просмотреть подробные сведения о затронутом объекте, выберите его в таблице.
Изучение свойств событий для получения дополнительной информации
Ключ-АСТРОМ получает события из нескольких источников событий, таких как ЕдиныйАгент, Synthetic, extensions и ingestion API. Ключ-АСТРОМ принимает и понимает различные свойства (также называемые полями) этих событий, которые предоставляют дополнительную информацию о событии.
Источники событий можно настроить таким образом, чтобы они предоставляли информацию, необходимую для анализа и устранения проблем, вызванных событиями. Например, привязка конфигурации, которая обнаружила событие (dt.settings.schema_id
и dt.settings.object_id
), помогает быстро адаптировать пороговое значение или базовый уровень, если такое действие необходимо. Другие примеры мощных свойств включают:
- Описание события (
event.description
). Описание события поддерживает текст в формате Markdown, что позволяет включать ссылки на ресурсы, которые могут помочь устранить проблему. - Запрос DQL для восстановления диаграммы событий в записной книжке или на панели мониторинга (
query_string
). - Связанные объекты (
dt.entity.*
).
Чтобы узнать больше о семантике и синтаксисе свойств событий и о том, как их можно использовать в Ключ-АСТРОМ, см. Семантический словарь.