Engineer Operation Booklet|工程师运维小册 是一个面向 IT 运维、DevOps、SRE、安全运维、云原生平台工程师的知识库项目。
本项目主要收集和整理服务器运维规范、Linux 常用操作、自动化运维、数据库运维、安全基线、故障排查、云平台、容器化、CI/CD、监控告警、备份恢复等内容,帮助工程师在实际生产环境中形成标准化、流程化、工程化的操作习惯。
项目核心目标:
- 建立系统化的运维知识体系;
- 汇总常见 Linux / Bash / Python / MySQL / Redis / Nginx / Docker / Kubernetes 操作规范;
- 总结生产环境中的高危操作、风险场景与事故预防措施;
- 提供可复用的 Runbook、Checklist、故障排查流程和安全基线;
- 帮助运维工程师、DevOps 工程师和 SRE 工程师提升工程实践能力。
- Linux 运维工程师
- DevOps 工程师
- SRE 工程师
- 云计算工程师
- 云原生平台工程师
- 运维开发工程师
- 安全运维工程师
- 数据库运维工程师
- 运维经理 / 运维负责人
- 希望系统学习生产环境运维规范的开发工程师
目前,网上运维工程师,大部分都存在这三方面的问题:
-
服务器运维操作命令没有细粒度总结;
-
数据库操作命令记忆或设置不全面;
-
服务器安全重要,安全设置都有做,但实际操作有遗忘,安全意识不强。
-
比如:在2017/01/31 18:00 UTC国外Gitlab出现故障,丢失了6小时的生产数据!Gitlab 数据库终于在北京时间 2月2日 0:14 恢复成功(18:14 UTC 02/01)。运维工程师操作时。没有检查正在操作的服务器,以至于误删除了正常的数据。
-
安全设置要不要做?做安全还是不做安全?还是说只做一些基础设置。
-
如果安全相关工作,能让服务器和服务器集群更安全,那就要去做。
-
安全的相关工作尽量做,不会做的想办法做,实在没法做的,那就延后再说,也许现在没办法做,可能以后有办法,想做总能找到办法。
-
安全无小事,要想想不安全的后果,如果出现安全事件,数据泄露,数据库被拖库,后果是很严重的,这样的案例互联网上很多,就不多说了。
-
项目的口号是:使用服务器安全运维规范,不掉坑,不背锅!
- 如果想要贡献或是交流的话,请加 QQ 群: (313682642)
- Email:[email protected]
本项目覆盖但不限于以下技术方向:
| 分类 | 内容 |
|---|---|
| Linux 运维 | 用户权限、系统服务、磁盘、网络、日志、进程、性能排查 |
| Shell / Bash | 自动化脚本、批量任务、巡检脚本、日志处理 |
| Python 运维开发 | API 调用、批量管理、自动化工具、运维平台脚本 |
| 数据库运维 | MySQL、PostgreSQL、Redis、备份恢复、权限控制 |
| Web 服务 | Nginx、Apache、负载均衡、TLS、反向代理 |
| 容器技术 | Docker、Containerd、镜像构建、容器安全 |
| Kubernetes | Pod、Deployment、Service、Ingress、Helm、RBAC、集群排障 |
| 自动化运维 | Ansible、Terraform、SaltStack、配置管理 |
| CI/CD | Jenkins、GitLab CI、GitHub Actions、Argo CD |
| 云平台 | AWS、Azure、阿里云、腾讯云、云资源治理 |
| 可观测性 | Prometheus、Grafana、Alertmanager、日志、链路追踪 |
| 安全运维 | Linux 安全基线、SSH 加固、漏洞扫描、入侵排查 |
| 故障处理 | 事故响应、应急预案、RCA、复盘机制 |
| 备份恢复 | 数据备份、快照、灾备、恢复演练 |
| 运维规范 | Runbook、Checklist、变更流程、发布流程 |
关于运维安全的推荐阅读:
| 项目(点击预览) | 文章作者 ID | 文章链接 | 学习资源 |
|---|---|---|---|
| # 安全运维规范 # | @ppabc|安全运维规范发起人 | 原创链接 | 推荐|归档 |
| - 内部漏扫工具-巡风 | @ysrc|同程安全应急响应中心 | 原创链接 | 推荐|归档 |
| - Docker的蜜罐系统 | @atiger77|atiger77 | 原创链接 | 推荐|归档 |
| - jumpserver跳板机 | @jumpserver|jumpserver | 原创链接 | 推荐|归档 |
| - 脚本自动安全检查基线 | @ppabc|安全运维规范发起人 | 转载链接 | 推荐|归档 |
| - 服务器安全事件应急响应排查 | @ppabc|安全运维规范发起人 | 转载链接 | 推荐|归档 |
| - GitLab误删除数据库事件的几点思考 | @左耳朵耗子|程序员,酷壳博主 | 转载链接 | 推荐|归档 |
| - Gitlab从删库到恢复:丢失6小时生产数据 | 龙井、萧田国 | 转载链接 | 推荐|归档 |
| - 运维三十六计 | 梁定安、周小军 | 转载链接 | 推荐|归档 |
学习IT资源收集持续更新 https://github.com/lilinji/IT/wiki
