监控

监控预警

网络设备指标采集——snmp

1、简介 在现代企业IT基础设施中,网络设备(如防火墙、交换机、路由器等)构成了整个系统运行的关键通道。为了确保业务连续性和网络的健康运行,网络设备的可观测性变得至关重要。 而 SNMP(Simple Network Management Protocol)是网络设备最广泛支持的标准协议。借助 Prometheus SNMP Exporter,我们可以轻松实现对任何支持 SNMP 协议的设备进行指标采集和告警。 本文将通过实践操作演示如何使用

网络设备指标采集——gNMI

1、简介 随着 AI 技术的迅猛发展,英伟达(NVIDIA)的硬件设备也成为 AI 智算中心中的核心基础设施。在这个浪潮中,NVIDIA 不仅提供强大的 GPU 计算资源,其网络产品也在高性能计算(HPC)和 AI 数据中心中发挥着重要作用,尤其是 InfiniBand 和 RoCE 交换机。

Kubernetes 高可用监控集群构建——vm-operator 实战详解

1、简介 随着云原生和 Kubernetes 的普及,监控系统也逐步走向容器化与自动化。VictoriaMetrics(简称 VM)作为一款高性能、高压缩比的时序数据库,已经成为 Prometheus 的优秀替代方案。而在 Kubernetes 中使用 VM,推荐使用其官方推出的 VictoriaMetrics Operator(vm-operator),它大大简化了 VM 集群的部署、

Episode

00:00:00 00:00:00