大模型服務(wù)為什么總是爆顯存
大模型服務(wù)報(bào) CUDA out of memory,很多現(xiàn)場(chǎng)第一反應(yīng)都是“模型太大,換更大的卡”。這....
一次內(nèi)存泄漏排查復(fù)盤(pán)
故障發(fā)生在一套圖片縮略圖服務(wù)的晚高峰時(shí)段。版本發(fā)布后不到 90 分鐘,業(yè)務(wù)側(cè)先出現(xiàn) P99 RT 抖....
Linux內(nèi)核參數(shù)調(diào)優(yōu)避坑指南
線上問(wèn)題一來(lái),很多人第一反應(yīng)是改 sysctl。連接慢改 somaxconn,內(nèi)存緊張改 swapp....
MySQL主從延遲排查全流程
復(fù)制延遲一上來(lái),很多人先盯 Seconds_Behind_Master。這個(gè)指標(biāo)當(dāng)然要看,但它只能告....
Linux服務(wù)器CPU飆高怎么排查
線上 CPU 飆高最怕兩件事:一是盯著 top 看了半小時(shí),最后還是不知道是誰(shuí)打滿了核;二是誤把負(fù)載....
Nginx常見(jiàn)故障排查手冊(cè)
Nginx 報(bào) 502、504、連接超時(shí),看起來(lái)都是“請(qǐng)求沒(méi)成功”,但根因完全不是一類問(wèn)題。502 ....
SonarQube代碼質(zhì)量管理平臺(tái)詳解
代碼質(zhì)量問(wèn)題是技術(shù)債務(wù)的主要來(lái)源。一個(gè)未被發(fā)現(xiàn)的空指針異常可能在生產(chǎn)環(huán)境導(dǎo)致服務(wù)崩潰,一段存在SQL....
企業(yè)級(jí)KVM虛擬化平臺(tái)搭建實(shí)戰(zhàn)
企業(yè)IT基礎(chǔ)設(shè)施經(jīng)歷了從物理機(jī)時(shí)代到虛擬化時(shí)代的演進(jìn)。傳統(tǒng)數(shù)據(jù)中心中,每臺(tái)物理服務(wù)器運(yùn)行單一應(yīng)用,資....
MySQL慢查詢分析與索引調(diào)優(yōu)全流程
MySQL 性能問(wèn)題在生產(chǎn)環(huán)境中的表現(xiàn)通常是漸進(jìn)式的:業(yè)務(wù)量增長(zhǎng)、數(shù)據(jù)量膨脹,某天突然發(fā)現(xiàn) P99 ....
Linux入侵檢測(cè)與應(yīng)急響應(yīng)實(shí)戰(zhàn)手冊(cè)
生產(chǎn)環(huán)境的安全防護(hù)不能只靠邊界防火墻。攻擊者一旦突破外層防線,在主機(jī)上的橫向移動(dòng)、權(quán)限提升、后門(mén)植入....
TiDB分布式數(shù)據(jù)庫(kù)運(yùn)維實(shí)踐
TiDB 是 PingCAP 開(kāi)發(fā)的開(kāi)源分布式關(guān)系型數(shù)據(jù)庫(kù),兼容 MySQL 5.7 協(xié)議,底層存儲(chǔ)....
MySQL數(shù)據(jù)庫(kù)備份恢復(fù)方式對(duì)比
備份是數(shù)據(jù)庫(kù)運(yùn)維中最重要也最容易被忽視的環(huán)節(jié)。"重要"體現(xiàn)在數(shù)據(jù)丟失時(shí)備份是唯一的救命稻草,"忽視"....
Nginx高性能配置詳細(xì)步驟
Nginx 1.26.x 是當(dāng)前 mainline 分支的最新穩(wěn)定線,在 HTTP/3 支持、動(dòng)態(tài)模....
大模型推理服務(wù)的彈性部署與GPU調(diào)度方案
7B 模型 FP16 推理需要約 14GB 顯存,70B 模型需要 140GB+,KV Cache ....
Kubernetes Pod調(diào)度策略原理與落地指南
Pod調(diào)度是Kubernetes的核心機(jī)制之一,決定了Pod最終運(yùn)行在哪個(gè)節(jié)點(diǎn)上。默認(rèn)調(diào)度器kube....
Redis哨兵模式的自動(dòng)故障檢測(cè)與主從切換實(shí)戰(zhàn)
Redis 主從復(fù)制解決了讀擴(kuò)展和數(shù)據(jù)冗余問(wèn)題,但主節(jié)點(diǎn)故障時(shí)需要人工介入切換,這在生產(chǎn)環(huán)境中是不可....
Redis內(nèi)存管理、持久化策略與慢查詢排查分析
Redis 在生產(chǎn)環(huán)境中承擔(dān)著緩存、會(huì)話存儲(chǔ)、消息隊(duì)列、分布式鎖等多種角色。隨著數(shù)據(jù)量增長(zhǎng)和并發(fā)壓力....
使用Prometheus和Grafana的企業(yè)級(jí)監(jiān)控落地實(shí)戰(zhàn)
生產(chǎn)環(huán)境跑著幾百臺(tái)機(jī)器,出了故障全靠人肉巡檢和用戶反饋,這種被動(dòng)運(yùn)維的日子我們團(tuán)隊(duì)經(jīng)歷了兩年。201....
Docker容器網(wǎng)絡(luò)模式全解析
容器網(wǎng)絡(luò)是Docker使用中最容易出問(wèn)題的部分。容器之間怎么通信、容器怎么訪問(wèn)外網(wǎng)、外部怎么訪問(wèn)容器....
Helm包管理與模板化部署實(shí)戰(zhàn)
直接用kubectl管理K8s資源,10個(gè)微服務(wù)就要維護(hù)幾十個(gè)YAML文件,版本管理靠文件夾命名,回....
Prometheus告警規(guī)則編寫(xiě)與Alertmanager通知配置實(shí)戰(zhàn)
監(jiān)控系統(tǒng)搭完了,指標(biāo)也采集上來(lái)了,但如果沒(méi)有告警,等于白搭。我見(jiàn)過(guò)不少團(tuán)隊(duì)Prometheus跑得好....
使用VictoriaMetrics的Prometheus遠(yuǎn)程存儲(chǔ)方案
Prometheus單機(jī)存儲(chǔ)在生產(chǎn)環(huán)境跑到一定規(guī)模就會(huì)碰壁——單節(jié)點(diǎn)磁盤(pán)容量有限,TSDB默認(rèn)保留1....
Kubernetes HPA和VPA使用實(shí)戰(zhàn)指南
線上業(yè)務(wù)流量存在明顯的波峰波谷。白天高峰期Pod數(shù)量不夠?qū)е抡?qǐng)求排隊(duì),凌晨低谷期大量Pod空跑浪費(fèi)資....
基于OpenTelemetry的全鏈路追蹤微服務(wù)可觀測(cè)性實(shí)踐
微服務(wù)拆分到第三年,我們的服務(wù)數(shù)量從最初的5個(gè)膨脹到了47個(gè)。一個(gè)用戶下單請(qǐng)求要經(jīng)過(guò)API Gate....
Kubernetes存儲(chǔ)管理功能的落地實(shí)踐
容器本身是無(wú)狀態(tài)的,Pod重啟后容器內(nèi)的數(shù)據(jù)全部丟失。數(shù)據(jù)庫(kù)、消息隊(duì)列、文件存儲(chǔ)這類有狀態(tài)服務(wù)跑在K....
Kubernetes容器運(yùn)行時(shí)containerd與CRI-O如何選擇
Kubernetes 1.24版本正式移除了dockershim,Docker不再是K8s的默認(rèn)容器....
Istio服務(wù)網(wǎng)格的核心原理與部署實(shí)戰(zhàn)
微服務(wù)拆分之后,服務(wù)間調(diào)用關(guān)系變得復(fù)雜。一個(gè)請(qǐng)求從網(wǎng)關(guān)進(jìn)來(lái),經(jīng)過(guò)認(rèn)證服務(wù)、用戶服務(wù)、訂單服務(wù)、庫(kù)存服....
Kubernetes故障排查手冊(cè)
K8s集群出故障是常態(tài)。Pod起不來(lái)、Service訪問(wèn)不通、節(jié)點(diǎn)NotReady、證書(shū)過(guò)期、etc....
使用Dockerfile構(gòu)建鏡像的詳細(xì)步驟
Dockerfile寫(xiě)得好不好,直接影響三件事:鏡像大小、構(gòu)建速度、運(yùn)行安全性。我見(jiàn)過(guò)太多團(tuán)隊(duì)的Do....
編寫(xiě)一個(gè)生產(chǎn)級(jí)的Service配置文件
systemctl start xxx 敲了無(wú)數(shù)遍,但真要從零寫(xiě)一個(gè) Service 文件丟到生產(chǎn)環(huán)....