
在Linux命令行中进行系统监控,核心就是利用那些内置的小工具,它们虽小,却能揭示系统运行的方方面面,从CPU、内存到磁盘I/O和网络活动,几乎无所不包。这不仅仅是看几个数字,更像是在跟系统进行一场“对话”,理解它此刻的“感受”和“状态”。
解决方案Linux命令行下的系统监控,没有一个“万能药”,它更像是一个工具箱,里面装着各种趁手的工具,根据你想要了解什么,去选择对应的工具。通常,我会把这个过程分解为几个层次:先宏观概览,再深入细节。
首先,你需要一个实时查看系统整体状况的工具,比如
top或
htop,它们能告诉你CPU和内存的占用大户是谁。接着,如果你发现内存或磁盘有问题,
free和
df会是你最好的朋友。当怀疑I/O成为瓶颈时,
iostat和
vmstat就能派上用场。最后,网络状况则可以交给
ss或
netstat。这些工具都是从
/proc文件系统读取数据,所以它们提供的信息是相当底层的、真实的。 实时资源占用概览:
top与
htop的选择与实践
当我们谈到Linux命令行下的实时系统监控,脑子里首先蹦出来的,大概率是
top。它确实经典,一运行就能看到CPU、内存的总体情况,以及当前运行的进程列表。我用
top的习惯是,按
P按CPU占用排序,按
M按内存占用排序,快速定位那些“吃资源”的家伙。如果你想杀死一个进程,记住它的PID,按
k,输入PID,再回车就行。
不过,说实话,我个人更偏爱
htop。如果你服务器上能装,我强烈建议你试试。
htop相比
top,简直是用户体验的飞跃。它有彩色的输出,更直观的CPU核心使用条形图,而且操作起来也更方便,用鼠标或者方向键就能滚动、排序、过滤进程。比如,我经常用F4来搜索特定进程,或者用F6来改变排序字段。这种直观性,在需要快速排查问题,尤其是在生产环境中,能大大提升效率。我记得有一次,一个应用突然响应缓慢,
htop的CPU条形图直接告诉我哪个核心被某个进程占满了,省去了我不少猜测的时间。它俩本质上都是通过读取
/proc文件系统里的信息来展示进程和系统状态,只是
htop在展示和交互上做了很多优化。 内存与磁盘空间:
free与
df的深度解读
内存和磁盘空间,这两个资源是系统稳定运行的基石。我经常遇到一些新手,看到
free -h输出的
free内存很小,就以为系统快要崩溃了,实际上这往往是一种误解。
free -h是我的日常,它会用人类可读的格式显示内存使用情况。这里面最容易让人困惑的就是
buff/cache这一项。Linux系统为了提高I/O性能,会把很多数据缓存到内存中,这就是
buff/cache。所以,
free那一列显示的是“真正”空闲的内存,而
available(可用)那一列,才是系统在不进行交换(swap)的情况下,可以立即分配给应用程序的内存。通常,只要
available内存足够,系统就不会出现内存不足的问题。我以前也犯过这样的错误,盯着
free那一小点数字紧张,后来才明白
available才是关键。
Post AI
博客文章AI生成器
50
查看详情
至于磁盘空间,
df -hT是我的首选。
df会列出所有文件系统(包括虚拟文件系统),
-h同样是为了可读性,
-T则能显示文件系统类型,这在排查特定文件系统问题时很有用。我最关注的是
Used%和
Mounted on。如果某个分区的
Used%过高,比如超过80%甚至90%,那就得警惕了,因为磁盘空间不足会导致很多意想不到的问题,比如日志无法写入、应用崩溃等。我曾遇到过一个数据库服务器,因为
/var分区被日志填满,导致数据库无法启动,这时候
df就成了我快速定位问题的关键。除了空间占用,
df -i还可以查看inode的使用情况,虽然不常见,但在某些场景下(比如大量小文件),inode耗尽也会导致无法创建新文件。 I/O与网络:
iostat、
vmstat与
ss的洞察力
当CPU和内存看起来都正常,但系统响应依然迟缓时,我通常会把目光转向I/O和网络。这两者往往是隐藏的性能杀手。
iostat -xz 1是我用来检查磁盘I/O的利器。
-x显示扩展统计信息,
-z则隐藏没有活动的设备,让输出更简洁,
1表示每秒刷新一次。我主要关注
%util(设备利用率),如果这个值长时间接近100%,那说明磁盘已经非常繁忙,很可能是I/O瓶颈。另外,
await(I/O请求的平均等待时间)和
svctm(平均服务时间)也能提供很多信息。我曾经遇到一个Web服务器,CPU和内存都很空闲,但页面加载奇慢,最后发现是
iostat显示数据库日志盘的
%util一直居高不下,定位到是磁盘I/O瓶颈后,优化了数据库配置才解决。
vmstat 1则提供了一个更全面的系统概览,它不仅仅是I/O,还包括了进程、内存、交换、系统和CPU的使用情况。对我来说,
vmstat最大的价值在于它的
wa(wait I/O)列。如果CPU的
wa值很高,意味着CPU大部分时间都在等待磁盘I/O完成,这也是I/O瓶颈的一个强烈信号。同时,它还能快速查看
si和
so(swap in/out),如果这两个值持续很高,说明系统正在频繁地进行内存交换,这通常预示着内存不足。
最后是网络,
ss -tunlp是我的首选,它比老旧的
netstat更快、更强大。
-T显示TCP连接,
-u显示UDP连接,
-n不解析服务名和主机名,
-l显示监听端口,
-p显示进程信息。通过这个命令,我可以快速看到当前系统开放了哪些端口,哪些服务正在监听,以及哪些连接是ESTABLISHED(已建立)、TIME_WAIT(等待关闭)等等。我经常用它来排查端口冲突、服务未启动或者网络连接异常的问题。比如,一个服务启动失败,
ss -tunlp | grep <port>可以告诉我这个端口是否已经被其他进程占用。
以上就是如何在Linux命令行中进行系统监控?的详细内容,更多请关注知识资源分享宝库其它相关文章!
相关标签: linux node 端口 工具 ai ios linux系统 linux命令 内存占用 var 数据库 udp linux 大家都在看: 如何在Linux命令行中进行系统监控? 如何在Linux中设置文件ACL Linux setfacl精细权限控制 Linux怎么限制服务的资源占用 Linux如何检查软件包更新的时间和日志 Linux命令行删除用户的正确方式






发表评论:
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。