Linux如何监控服务的运行时间和负载（负载.监控.运行.时间.服务...）

要监控Linux服务的运行时间和负载，需选择合适的工具并配置监控与告警。首先明确监控目标如Web或数据库服务，然后选用top、ps、sar等命令行工具或Prometheus、Grafana、Nagios等系统级方案。使用top可实时查看CPU和内存占用；ps结合grep和STIME可查进程启动时间；sar能周期性收集CPU、内存、I/O数据并分析历史趋势；systemd-analyze用于查看systemd服务启动耗时。对于高级监控，部署Prometheus配合Node Exporter采集指标，Grafana实现可视化，并配置告警规则以及时响应异常。最终通过数据分析识别性能瓶颈，保障服务稳定运行。

linux如何监控服务的运行时间和负载

要监控Linux服务的运行时间和负载，可以使用多种工具和方法，从简单的命令行工具到更复杂的监控系统。核心在于收集关键指标，并根据这些指标进行分析和告警。

解决方案

监控Linux服务的运行时间和负载，可以采取以下步骤：

确定需要监控的服务：明确需要监控哪些服务，例如 Web 服务器（如 Apache 或 Nginx）、数据库服务器（如 MySQL 或 PostgreSQL）等。
选择监控工具：根据需求选择合适的监控工具。常用的工具有：
- ```
top
```
  /
```
htop
```
  : 实时查看系统资源使用情况。
- ```
uptime
```
  : 查看系统运行时间和平均负载。
- ```
ps
```
  : 查看进程信息，包括运行时间。
- ```
vmstat
```
  : 虚拟内存统计。
- ```
iostat
```
  : I/O 统计。
- ```
sar
```
  : 系统活动报告工具，可以收集和报告各种系统资源的使用情况。
- ```
systemd-analyze
```
  : 如果服务由 systemd 管理，可以使用此工具分析启动时间。
- Prometheus + Grafana: 强大的监控解决方案，适用于大规模系统。
- Nagios / Zabbix: 常用的监控系统，可以监控各种服务和主机。
配置监控：根据选择的工具，配置相应的监控参数。例如，使用
```
sar
```
收集 CPU、内存、磁盘 I/O 等数据，并设置收集频率。对于 Prometheus，需要配置 exporter 来暴露服务的指标。
分析数据：收集到的数据需要进行分析，以了解服务的运行状况。例如，查看 CPU 使用率是否过高，内存使用量是否接近上限，磁盘 I/O 是否频繁。
设置告警：根据分析结果，设置告警阈值。当某个指标超过阈值时，发送告警通知。例如，当 CPU 使用率超过 90% 时，发送邮件或短信告警。

如何使用

top

命令监控服务负载？

top

命令提供了一个动态的、实时的系统视图。它显示了系统中运行的进程列表，以及 CPU 使用率、内存使用率等信息。你可以使用

top

命令来快速了解哪些进程占用了最多的资源。

运行
```
top
```
命令：在终端输入
```
top
```
并回车。
观察输出：
```
top
```
命令的输出分为几个部分：
- 第一行：显示系统运行时间、当前用户数、平均负载等信息。平均负载是指在过去 1 分钟、5 分钟和 15 分钟内的平均进程数。
- 第二行：显示任务（进程）的总数、运行中、睡眠中、停止中和僵尸进程的数量。
- 第三行：显示 CPU 的使用率，包括用户态、系统态、空闲、等待 I/O 等。
- 第四行：显示物理内存的使用情况，包括总内存、已用内存、空闲内存、缓存内存。
- 第五行：显示交换空间的使用情况。
- 进程列表：显示各个进程的详细信息，包括 PID（进程 ID）、USER（用户）、PR（优先级）、NI（nice 值）、VIRT（虚拟内存）、RES（常驻内存）、SHR（共享内存）、S（进程状态）、%CPU（CPU 使用率）、%MEM（内存使用率）、TIME+（CPU 时间）、COMMAND（命令）。
查找目标服务：在进程列表中查找你需要监控的服务。你可以使用
```
grep
```
命令过滤
```
top
```
的输出，例如
```
top | grep nginx
```
可以查找所有包含 "nginx" 关键字的进程。
分析资源占用：观察目标服务的 CPU 使用率（%CPU）和内存使用率（%MEM）。如果 CPU 使用率过高，可能表明服务正在处理大量的请求或存在性能问题。如果内存使用率过高，可能表明服务存在内存泄漏或需要更多的内存。
使用
```
top
```
的交互命令：
```
top
```
命令提供了一些交互命令，可以帮助你更好地监控系统。例如：
- ```
M
```
  : 按内存使用率排序。
- ```
P
```
  : 按 CPU 使用率排序。
- ```
k
```
  : 杀死进程。
- ```
q
```
  : 退出
```
top
```
  。

如何使用

ps

命令查看服务的运行时间？

ps

命令用于显示当前进程的快照。它可以显示进程的 PID、用户、CPU 使用率、内存使用率、运行时间等信息。使用

ps

命令可以查看服务的启动时间和运行时间。

运行
```
ps
```
命令：使用以下命令查看指定服务的进程信息：
```
ps -ef | grep <service_name>
```
将
```
<service_name>
```
替换为你要监控的服务名称。例如，要查看 nginx 服务的进程信息，可以使用以下命令：
```
ps -ef | grep nginx
```
观察输出：
```
ps
```
命令的输出包含多个列，其中一些重要的列包括：
- ```
UID
```
  : 运行进程的用户 ID。
- ```
PID
```
  : 进程 ID。
- ```
PPID
```
  : 父进程 ID。
- ```
C
```
  : CPU 使用率。
- ```
STIME
```
  : 进程启动时间。
- ```
TTY
```
  : 进程运行的终端。
- ```
TIME
```
  : 进程使用的 CPU 时间。
- ```
CMD
```
  : 运行的命令。
分析运行时间：
```
STIME
```
列显示进程的启动时间。如果进程已经运行了很长时间，
```
STIME
```
列可能会显示日期而不是时间。
```
TIME
```
列显示进程使用的 CPU 时间。这个时间表示进程实际占用 CPU 的时间，而不是进程的运行总时间。
计算运行总时间：要计算进程的运行总时间，可以使用以下方法：
- 查看启动时间：从
```
STIME
```
  列获取进程的启动时间。
- 获取当前时间：使用
```
date
```
  命令获取当前时间。
- 计算时间差：计算当前时间与启动时间之间的时间差。可以使用
```
date
```
  命令的格式化选项来简化计算。例如：
```
start_time=$(ps -eo lstart | grep <service_name> | head -n 1)
current_time=$(date)
echo "Start Time: $start_time"
echo "Current Time: $current_time"
```
然后手动计算时间差。或者，你可以使用
```
date
```
命令的
```
-d
```
选项和
```
+%s
```
格式化选项将时间转换为 Unix 时间戳，然后计算时间戳的差值。

如何使用

sar

命令监控系统负载？

sar

（System Activity Reporter）是一个强大的系统活动报告工具。它可以收集和报告各种系统资源的使用情况，包括 CPU、内存、磁盘 I/O、网络等。

sar

命令可以帮助你了解系统的整体负载情况，并找出性能瓶颈。

安装
```
sar
```
：
```
sar
```
命令通常包含在
```
sysstat
```
软件包中。使用以下命令安装
```
sysstat
```
：
```
sudo apt-get update
sudo apt-get install sysstat
```
或者，在 CentOS/RHEL 上：
```
sudo yum install sysstat
```
配置
```
sar
```
：
```
sar
```
的配置文件通常位于
```
/etc/default/sysstat
```
。你可以修改此文件来配置
```
sar
```
的收集频率和保存时间。
- ```
ENABLED="true"
```
  : 启用
```
sar
```
  。
- ```
SADC_OPTIONS="-S ALL"
```
  : 收集所有统计信息。
- ```
HISTORY=28
```
  : 保存 28 天的历史数据。
运行
```
sar
```
命令：
```
sar
```
命令的基本语法如下：
```
sar [options] [interval] [count]
```
- ```
options
```
  : 指定要收集的统计信息类型。
- ```
interval
```
  : 指定收集数据的间隔时间（秒）。
- ```
count
```
  : 指定收集数据的次数。
一些常用的
```
sar
```
命令示例：
- 查看 CPU 使用率：
```
sar -u 1 5
```
  每 1 秒收集一次 CPU 使用率数据，共收集 5 次。
- 查看内存使用情况：
```
sar -r 1 5
```
  每 1 秒收集一次内存使用情况数据，共收集 5 次。
- 查看磁盘 I/O 情况：
```
sar -d 1 5
```
  每 1 秒收集一次磁盘 I/O 情况数据，共收集 5 次。
  Post AI
  博客文章AI生成器
  50 查看详情
- 查看网络流量：
```
sar -n DEV 1 5
```
  每 1 秒收集一次网络流量数据，共收集 5 次。
分析数据：
```
sar
```
命令的输出包含多个列，你需要根据不同的统计信息类型来分析这些列。
- CPU 使用率 (
```
sar -u
```
  )：
  - ```
  %user
```
  : 用户态 CPU 使用率。
- ```
%system
```
    : 系统态 CPU 使用率。
  - ```
  %iowait
```
  : 等待 I/O 的 CPU 使用率。
- ```
%idle
```
    : 空闲 CPU 使用率。
  如果
```
%user
```
  或
```
%system
```
  过高，可能表明 CPU 负载过重。如果
```
%iowait
```
  过高，可能表明磁盘 I/O 存在瓶颈。
- 内存使用情况 (
```
sar -r
```
  )：
  - ```
  kbmemfree
```
  : 空闲内存大小（KB）。
- ```
kbmemused
```
    : 已用内存大小（KB）。
  - ```
  %memused
```
  : 已用内存百分比。
- ```
kbbuffers
```
    : 缓冲区使用的内存大小（KB）。
  - ```
  kbcached
```
  : 缓存使用的内存大小（KB）。
如果
```
  %memused
```
过高，可能表明内存不足。
- 磁盘 I/O 情况 (
```
sar -d
```
  )：
  - ```
  tps
```
  : 每秒传输次数。
- ```
rd_sec/s
```
    : 每秒读取的扇区数。
  - ```
  wr_sec/s
```
  : 每秒写入的扇区数。
- ```
await
```
    : 平均 I/O 等待时间（毫秒）。
  - ```
  svctm
```
  : 平均 I/O 服务时间（毫秒）。
- ```
%util
```
    : 磁盘利用率。
  如果
```
await
```
  过高，可能表明磁盘 I/O 存在瓶颈。如果
```
%util
```
  接近 100%，可能表明磁盘已经饱和。
使用
```
sadc
```
收集数据：
```
sar
```
命令依赖于
```
sadc
```
（System Activity Data Collector）来收集数据。
```
sadc
```
通常由 cron 任务定期运行，并将数据保存到文件中。你可以使用
```
sar
```
命令来查看这些历史数据。
```
sar -f /var/log/sysstat/saXX
```
将
```
XX
```
替换为要查看的日期。例如，要查看 2023 年 10 月 27 日的数据，可以使用以下命令：
```
sar -f /var/log/sysstat/sa27
```

如何使用 Prometheus 和 Grafana 监控服务？

Prometheus 和 Grafana 是一个强大的监控解决方案，特别适用于大规模系统。Prometheus 用于收集和存储指标数据，Grafana 用于可视化这些数据。

安装 Prometheus：从 Prometheus 官网下载最新版本的 Prometheus，并解压到指定目录。

wget https://github.com/prometheus/prometheus/releases/download/v2.47.0/prometheus-2.47.0.linux-amd64.tar.gz
tar -xzf prometheus-2.47.0.linux-amd64.tar.gz
cd prometheus-2.47.0.linux-amd64

配置 Prometheus：编辑

prometheus.yml

文件，配置 Prometheus 的监控目标。

global:
  scrape_interval:     15s
  evaluation_interval: 15s

scrape_configs:
  - job_name: 'linux'
    static_configs:
      - targets: ['localhost:9100']
  - job_name: 'prometheus'
    static_configs:
      - targets: ['localhost:9090']

这个配置文件定义了两个监控目标：

linux

和

prometheus

。

linux

目标监控

localhost:9100

，这是 Node Exporter 的默认端口。

prometheus

目标监控

localhost:9090

，这是 Prometheus 自身的端口。

安装 Node Exporter： Node Exporter 用于暴露 Linux 系统的各种指标，例如 CPU 使用率、内存使用率、磁盘 I/O 等。从 Prometheus 官网下载最新版本的 Node Exporter，并解压到指定目录。
```
wget https://github.com/prometheus/node_exporter/releases/download/v1.6.1/node_exporter-1.6.1.linux-amd64.tar.gz
tar -xzf node_exporter-1.6.1.linux-amd64.tar.gz
cd node_exporter-1.6.1.linux-amd64
```
启动 Prometheus 和 Node Exporter：分别启动 Prometheus 和 Node Exporter。
```
./prometheus --config.file=prometheus.yml
./node_exporter
```

安装 Grafana：从 Grafana 官网下载最新版本的 Grafana，并安装到指定目录。

wget https://dl.grafana.com/oss/release/grafana_10.1.5_amd64.deb
sudo dpkg -i grafana_10.1.5_amd64.deb
sudo systemctl start grafana-server

配置 Grafana：打开 Grafana 的 Web 界面（默认端口为 3000），并添加 Prometheus 数据源。
- Data Sources: Configuration -> Data Sources -> Add data source
- Select Prometheus: 选择 Prometheus 作为数据源类型。
- URL: 输入 Prometheus 的地址（例如
```
http://localhost:9090
```
  ）。
创建 Grafana 仪表盘：创建 Grafana 仪表盘，并添加各种图表来可视化 Prometheus 收集的指标数据。你可以使用现有的仪表盘模板，也可以自定义仪表盘。
- Create: Create -> Dashboard -> Import
- Import via grafana.com: 输入仪表盘模板的 ID（例如
```
1860
```
  是 Node Exporter 的仪表盘模板）。
配置服务 Exporter：对于需要监控的服务，你需要安装相应的 Exporter 来暴露服务的指标。例如，对于 MySQL，你可以使用 MySQL Exporter。对于 Nginx，你可以使用 Nginx Exporter。
- 下载 Exporter：从 Prometheus 官网或 GitHub 下载相应的 Exporter。
- 配置 Exporter：根据 Exporter 的文档配置 Exporter。
- 启动 Exporter：启动 Exporter。
- 配置 Prometheus：在
```
prometheus.yml
```
  文件中添加 Exporter 的监控目标。
- 重启 Prometheus：重启 Prometheus 以加载新的配置。

如何监控 systemd 管理的服务的运行时间？

如果服务由 systemd 管理，可以使用

systemd-analyze

命令来分析服务的启动时间。

查看服务启动时间：
```
systemd-analyze blame
```
这个命令会列出所有 systemd 单元的启动时间，并按启动时间排序。
查看指定服务的启动时间：
```
systemd-analyze blame <service_name>
```
将
```
<service_name>
```
替换为你要监控的服务名称。例如，要查看 nginx 服务的启动时间，可以使用以下命令：
```
systemd-analyze blame nginx.service
```
查看服务启动过程的详细信息：
```
systemd-analyze critical-chain <service_name>
```
这个命令会显示服务启动过程中各个步骤的依赖关系和耗时。
查看服务的状态：
```
systemctl status <service_name>
```
这个命令会显示服务的状态信息，包括启动时间、运行时间、进程 ID 等。

通过结合使用这些工具和方法，你可以全面地监控 Linux 服务的运行时间和负载，及时发现和解决性能问题。

以上就是Linux如何监控服务的运行时间和负载的详细内容，更多请关注知识资源分享宝库其它相关文章！

相关标签： linux mysql centos git node apache github nginx 工具虚拟内存 mysql nginx count date default history github postgresql 数据库 apache 数据分析 http linux centos prometheus zabbix grafana unix 大家都在看： Linux怎么查看IPv6路由表 Linux如何查看ARP缓存表 Linux怎么显示进程的树状结构 Linux怎么使用ethtool检查网卡信息 Linux查看所有用户和用户组信息