1.
概述:常见故障类型与优先级
(1) CPU 占用高:单进程占用 > 80%、平均负载连续 5 分钟 > CPU 核数*2。
(2) 内存不足:Swap 使用率 > 30%、OOM 触发导致进程被杀。
(3) 磁盘瓶颈:iostat r/s 或 await 显著上升、磁盘 IOPS 达到配额上限。
(4) 带宽/网络饱和:出口流量接近链路带宽(例如 940 Mbps / 1 Gbps)。
(5) 域名解析或证书问题:DNS 解析异常、SSL 握手失败或证书过期。
2.
排查流程与常用工具
(1) 快速定位:top/htop、ps aux、uptime;关注 1、5、15 分钟负载。
(2) 磁盘与 IO:iostat -x 1、iotop,检查 await、util。
(3) 网络诊断:ss -tulpn、netstat、tcpdump -i eth0 port 80、mtr 与 ping 测试。
(4) 日志分析:/var/log/syslog、nginx/access.log、error.log,使用 tail -F 结合 grep。
(5) 持续监控:Prometheus + Grafana、Zabbix,设置告警阈值(CPU 85%、丢包 1%)。
3.
典型服务器配置对比(示例)
(1) 小型站点:1 vCPU / 1 GB RAM / 40 GB SSD / 100 Mbps。
(2) 中等站点:2 vCPU / 4 GB RAM / 80 GB SSD / 1 Gbps。
(3) 高并发站点:4 vCPU / 8 GB RAM / 160 GB NVMe / 1-10 Gbps。
(4) 数据库专用:8 vCPU / 32 GB RAM / RAID 10 NVMe / 10 Gbps。
(5) 下面表格居中展示典型实例规格:
| 规格档 |
CPU |
内存 |
磁盘 |
带宽 |
| 小型 |
1 vCPU |
1 GB |
40 GB SSD |
100 Mbps |
| 中型 |
2 vCPU |
4 GB |
80 GB SSD |
1 Gbps |
| 大型 |
4 vCPU |
8 GB |
160 GB NVMe |
1-10 Gbps |
4.
网络与域名故障排查要点
(1) DNS 检查:使用 dig example.com @8.8.8.8,确认 A / CNAME 指向与 TTL。
(2) CDN 与缓存:检查 CDN 回源配置、Cache-Control 与 Expires 是否合理。
(3) 证书与 TLS:openssl s_client -connect host:443,确认证书链与 SNI。
(4) 路由与链路:mtr -rw host,观察丢包点与延迟跳变。
(5) 反向代理错误:Nginx 502/504 常与后端超时或 keepalive 配置不当有关。
5.
DDoS 防御与性能优化技巧
(1) CDN + WAF:启用 CDN(如 Cloudflare、Fastly)可吸收 90% 静态层流量与常见攻击。
(2) 内核调优:示例 sysctl 调整 net.ipv4.tcp_fin_timeout=30、tcp_tw_recycle=0、tcp_max_syn_backlog=4096。
(3) nginx 限流:limit_conn_zone $binary_remote_addr zone=addr:10m; limit_req_zone $binary_remote_addr zone=req:10m rate=10r/s。
(4) 黑名单与速率限制:iptables -A INPUT -p tcp --dport 80 -m connlimit --connlimit-above 200 -j DROP(谨慎使用)。
(5) 弹性扩容:在峰值(如流量突增至 900 Mbps)时,临时升级到更高规格或启用自动扩容。
6.
真实案例:樱花网站遭流量激增的处理过程
(1) 现象描述:日本樱花网站(部署在 Sakura Cloud)4 vCPU / 8 GB 实例,0:00 开始出现 95% CPU 与外网出站 940 Mbps,响应超时。
(2) 初步排查:top 显示 nginx worker 占用,tcpdump 显示大量短连接 SYN,iptables 计数暴增。
(3) 应对措施:立即启用 CDN 回源,开启 Cloudflare Pro 的 DDoS 防护,临时将实例升级为 8 vCPU /16 GB。
(4) 内核与服务调整:启用 SYN cookie(sysctl net.ipv4.tcp_syncookies=1)、调整 tcp_max_syn_backlog=8192,并配置 nginx limit_req。
(5) 恢复结果:流量在 CDN 吸收后服务器带宽降至 120 Mbps,平均响应从 1.8s 降到 120ms,错误率从 12% 降到 0.2%,并在 24 小时内回滚到原规格。
来源:运维指南日本樱花网站云服务器常见故障排查与优化技巧汇总