Skip to content

lilinji/DevopsBooklet

Repository files navigation

工程师运维小册(Engineer pamphlet operation)

DevOps SRE Linux Kubernetes Docker Security Automation SDN AI

项目简介

Engineer Operation Booklet|工程师运维小册 是一个面向 IT 运维、DevOps、SRE、安全运维、云原生平台工程师的知识库项目。

本项目主要收集和整理服务器运维规范、Linux 常用操作、自动化运维、数据库运维、安全基线、故障排查、云平台、容器化、CI/CD、监控告警、备份恢复等内容,帮助工程师在实际生产环境中形成标准化、流程化、工程化的操作习惯。

项目核心目标:

  • 建立系统化的运维知识体系;
  • 汇总常见 Linux / Bash / Python / MySQL / Redis / Nginx / Docker / Kubernetes 操作规范;
  • 总结生产环境中的高危操作、风险场景与事故预防措施;
  • 提供可复用的 Runbook、Checklist、故障排查流程和安全基线;
  • 帮助运维工程师、DevOps 工程师和 SRE 工程师提升工程实践能力。

适合的职业

本项目适合以下岗位或学习方向:

  • Linux 运维工程师
  • DevOps 工程师
  • SRE 工程师
  • 云计算工程师
  • 云原生平台工程师
  • 运维开发工程师
  • 安全运维工程师
  • 数据库运维工程师
  • 运维经理 / 运维负责人
  • 希望系统学习生产环境运维规范的开发工程师

现状

目前,网上运维工程师,大部分都存在这三方面的问题:

  • 服务器运维操作命令没有细粒度总结;

  • 数据库操作命令记忆或设置不全面;

  • 服务器安全重要,安全设置都有做,但实际操作有遗忘,安全意识不强。

  • 比如:在2017/01/31 18:00 UTC国外Gitlab出现故障,丢失了6小时的生产数据!Gitlab 数据库终于在北京时间 2月2日 0:14 恢复成功(18:14 UTC 02/01)。运维工程师操作时。没有检查正在操作的服务器,以至于误删除了正常的数据。

  • GitLab故障文章链接

服务器安全那些要做,那些不要做

  • 安全设置要不要做?做安全还是不做安全?还是说只做一些基础设置。

  • 如果安全相关工作,能让服务器和服务器集群更安全,那就要去做。

  • 安全的相关工作尽量做,不会做的想办法做,实在没法做的,那就延后再说,也许现在没办法做,可能以后有办法,想做总能找到办法。

  • 安全无小事,要想想不安全的后果,如果出现安全事件,数据泄露,数据库被拖库,后果是很严重的,这样的案例互联网上很多,就不多说了。

  • 项目的口号是:使用服务器安全运维规范,不掉坑,不背锅!

一起来参与,补充linux常用运维规范手册

  • 如果想要贡献或是交流的话,请加 QQ 群: (313682642)
  • Email:[email protected]

技术方向

本项目覆盖但不限于以下技术方向:

分类 内容
Linux 运维 用户权限、系统服务、磁盘、网络、日志、进程、性能排查
Shell / Bash 自动化脚本、批量任务、巡检脚本、日志处理
Python 运维开发 API 调用、批量管理、自动化工具、运维平台脚本
数据库运维 MySQL、PostgreSQL、Redis、备份恢复、权限控制
Web 服务 Nginx、Apache、负载均衡、TLS、反向代理
容器技术 Docker、Containerd、镜像构建、容器安全
Kubernetes Pod、Deployment、Service、Ingress、Helm、RBAC、集群排障
自动化运维 Ansible、Terraform、SaltStack、配置管理
CI/CD Jenkins、GitLab CI、GitHub Actions、Argo CD
云平台 AWS、Azure、阿里云、腾讯云、云资源治理
可观测性 Prometheus、Grafana、Alertmanager、日志、链路追踪
安全运维 Linux 安全基线、SSH 加固、漏洞扫描、入侵排查
故障处理 事故响应、应急预案、RCA、复盘机制
备份恢复 数据备份、快照、灾备、恢复演练
运维规范 Runbook、Checklist、变更流程、发布流程

关于运维安全的推荐阅读:

项目(点击预览) 文章作者 ID 文章链接 学习资源
# 安全运维规范 # @ppabc|安全运维规范发起人 原创链接 推荐|归档
- 内部漏扫工具-巡风 @ysrc|同程安全应急响应中心 原创链接 推荐|归档
- Docker的蜜罐系统 @atiger77|atiger77 原创链接 推荐|归档
- jumpserver跳板机 @jumpserver|jumpserver 原创链接 推荐|归档
- 脚本自动安全检查基线 @ppabc|安全运维规范发起人 转载链接 推荐|归档
- 服务器安全事件应急响应排查 @ppabc|安全运维规范发起人 转载链接 推荐|归档
- GitLab误删除数据库事件的几点思考 @左耳朵耗子|程序员,酷壳博主 转载链接 推荐|归档
- Gitlab从删库到恢复:丢失6小时生产数据 龙井、萧田国 转载链接 推荐|归档
- 运维三十六计 梁定安、周小军 转载链接 推荐|归档

鸣谢

IT

学习IT资源收集持续更新 https://github.com/lilinji/IT/wiki

Engineer Operation Booklet

About

Devops运维小册-记录点滴生活

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors