Skip to content

Latest commit

 

History

History
529 lines (352 loc) · 27.9 KB

Server.md

File metadata and controls

529 lines (352 loc) · 27.9 KB

一个基于快照的Kubernetes打包和管理工具 https://github.com/gravitational/gravity

一个图形化的 Kubernetes 部署工具 https://github.com/wise2c-devops/breeze

基本docker监控Web应用程序 https://github.com/salihciftci/liman

一个小而美的文件共享服务器 https://github.com/ihexxa/quickshare

结合 redis 实现的轻量任务队列 https://github.com/coleifer/huey

Kubernetes 中文指南/实践手册 https://github.com/rootsongjc/kubernetes-handbook

《微服务:从设计到部署》中文版 https://github.com/DocsHome/microservices

简单的基于队列的Worker后台服务 https://gitee.com/jackyzux/mWorkerService

部署 kubernetes 集群教程 https://github.com/opsnull/follow-me-install-kubernetes-cluster

开源云存储平台,功能齐全,可以用于搭建公司内部的云存储平台 https://github.com/nextcloud/server

用来探索 docker 镜像每一层文件系统,以及发现缩小镜像体积方法的命令行工具 https://github.com/wagoodman/dive

谈谈机器学习模型的部署 https://bigquant.com/community/t/topic/128841?suanfazu&181130&L3

Kubernetes上的超参调优框架 https://github.com/kubeflow/katib

专为机器学习设计的数据库系统 https://github.com/mldbai/mldb

GraphQL 是一种查询语言,由 Facebook 开发,用于替换 RESTful API。服务端可以用任何的语言实现。 Slothking 开发了一个 GraphQL 的可视化编辑器。 https://github.com/slothking-online/graphql-editor

MySQL 优化实施方案 https://clsn.io/clsn/lx287.html

Kubernetes资源情况实时观察工具 https://github.com/pulumi/kubespy

深度学习产品化部署资料集锦 https://github.com/ahkarami/Deep-Learning-in-Production

OpenVINO深度学习部署工具集,支持Open Model Zoo预训练模型以及100多种流行格式的开源和公共模型,如Caffe *,Tensorflow *,MXNet *和ONNX * https://github.com/opencv/dldt

GPU集群运维工具集 https://github.com/NVIDIA/deepops

TVM如何帮助部署隐私保护和安全的AI应用 https://zhuanlan.zhihu.com/p/47613848

Wayne:通用、基于 Web 的 Kubernetes 多集群管理平台 https://github.com/Qihoo360/wayne

复杂机器学习工作流(图形化)原型设计、构建和部署框架 https://github.com/khaxis/plynx

用Python/Keras/Flask/Docker在Kubernetes上部署深度学习模型 http://dockone.io/article/8316

Slurm:可扩展负载管理器,用于排队调度集群CPU/GPU资源,值得一试 https://github.com/SchedMD/slurm

用于部署深度学习应用的混合计算平台,支持插件 https://github.com/oeway/ImJoy

Web/移动端的深度学习模型部署 https://reshamas.github.io/deploying-deep-learning-models-on-web-and-mobile/

基于 dive 分析 docker 镜像,界面化展示了镜像每层的变动(增加、修改、删除等)、用户层数据大小等信息。便捷获取镜像信息和每层镜像内容的文件树,可以方便地浏览镜像信息。对于需要优化镜像体积时非常方便 https://github.com/vicanso/diving

基于 Docker 开箱即用统一预配置的 VS Code 开发环境 https://github.com/cdr/sail

用 Python 语言开发的开源容器集群管理平台。在离线网络环境下通过可视化 Web UI 在 VMware、Openstack 或者物理机上规划、部署和管理生产级别的 Kubernetes 集群。 https://github.com/KubeOperator/KubeOperator

Seafile:具有隐私保护和团队协作功能的开源云存储系统 https://github.com/haiwen/seafile

受 Tensorflow Serving 启发,用来部署机器学习模型的gRPC服务框架

https://github.com/Abhijit-2592/model-server

美团:基于TensorFlow Serving的深度学习在线预估性能优化

https://tech.meituan.com/2018/10/11/tfserving-improve.html

Dapr - portable, event-driven, runtime for building distributed applications across cloud and edge

https://github.com/dapr/dapr

【Hydrosphere Serving:机器学习服务集群管理平台】

https://github.com/Hydrospheredata/hydro-serving

Updog:简单的(Python3)Web服务,支持HTTP/HTTPS上传、下载 https://github.com/sc0tfree/updog

【Diagrams:用Python代码绘制云系统架构(原型),目前支持四个主要的提供者: AWS、Azure、GCP和Kubernetes】 https://github.com/mingrammer/diagrams

【KubeDL:Kubernetes深度学习operator】 https://github.com/alibaba/kubedl

【Docker & Kubernetes 从入门到实战教程】 https://github.com/collabnix/dockerlabs

Docker + Jupyter 一分钟配置机器学习开发环境 https://pan.baidu.com/s/10Y0FyEOeSbEMsIeYLkClew&shfl=sharepset

免费书:从 Keras 到 Kubernetes 的机器学习模型部署之旅 —— Kubernetes/Docker/Keras 深度学习模型部署实战 https://github.com/dattarajrao/keras2kubernetes

用Docker构建Python数据科学容器 https://medium.com/m/global-identity?redirectUrl=https%3A%2F%2Fhackernoon.com%2Fbuilding-python-data-science-container-using-docker-c8e346295669

CODO:为用户提供企业多混合云、自动化运维、完全开源的云管理平台 https://github.com/opendevops-cn/opendevops

CUDA GPU python作业调度程序 https://github.com/google/gpu-mux

Kubernetes 学习路径 https://github.com/caicloud/kube-ladder

Docker 虽然很帅,就是有时候用起来略嫌麻烦和琐碎。但是有个牛人开发了个小工具【Lazydocker】 https://github.com/jesseduffield/lazydocker

Easy Scheduler - 分布式工作流任务调度系统' https://github.com/analysys/EasyScheduler

用 Python 语言开发的开源容器集群管理平台。在离线网络环境下通过可视化 Web UI 在 VMware、Openstack 或者物理机上规划、部署和管理生产级别的 Kubernetes 集群 https://github.com/KubeOperator/KubeOperator

Kubernetes从入门到实战指南 https://github.com/collabnix/kubelabs

Airbnb的开源分布式延迟任务队列系统 https://github.com/airbnb/dynein

cinatra - 高效易用的c++ http框架 - modern c++(c++17), cross-platform, header-only, easy to use http framework https://github.com/qicosmos/cinatra

系统重构与迁移指南 - 手把手教你分析、评估现有系统、制定重构策略、探索可行重构方案、搭建测试防护网、进行系统架构重构、服务架构重构、模块重构、代码重构、数据库重构、重构后的架构守护 https://github.com/phodal/migration

用docker可简单部署的虚拟浏览器 https://github.com/nurdism/neko

Kubernetes IDE:Lens。 https://github.com/lensapp/lens

'Kuboard - 基于 Kubernetes 的微服务管理界面' https://github.com/eip-work/kuboard-press

【Ward:简单易用的服务器监控工具】 https://github.com/B-Software/Ward

slurm_gpustat:简单的SLURM集群GPU使用情况命令行查看工具 https://github.com/albanie/slurm_gpustat

Linux server远程管理课程资料 https://github.com/snori74/linuxupskillchallenge

GPU Manager:Kubernetes 集群Nvidia GPU设备管理器

https://github.com/tkestack/gpu-manager

Onepanelio:生产级Kubernetes原生全栈视觉AI平台

https://github.com/onepanelio/core

用Kubeflow自动化构建机器学习Pipeline https://towardsdatascience.com/machine-learning-pipelines-with-kubeflow-4c59ad05522

dokai:面向机器学习/深度学习及视频处理项目的Docker镜像集锦 https://github.com/osai-ai/dokai

pypyr automation task runner:自动化任务运行器,通过将命令、不同语言写的脚本和应用组合到一个pipeline进程来自动化任何事 https://github.com/pypyr/pypyr

AIOps 手册:AIOps 论文、演讲、开源库的汇总手册 https://github.com/chenryn/aiops-handbook

python, golang, devops 基础知识、 系统设计、后端开发路线图 https://github.com/DasyDong/interview

基于FastAPI/Transformers/PyTorch部署BERT情感分析API https://github.com/curiousily/Deploy-BERT-for-Sentiment-Analysis-with-FastAPI

基于FastAPI的产品级机器学习模型服务API框架

https://github.com/eightBEC/fastapi-ml-skeleton

如何将机器学习模型投入生产环境当中? https://stackoverflow.blog/2020/10/12/how-to-put-machine-learning-models-into-production/

kafka-manager - 一站式Apache Kafka集群指标监控与运维管控平台 https://github.com/didi/Logi-KafkaManager

FastAPI课程资料

https://github.com/talkpython/modern-apis-with-fastapi

Enssh:方便管理多服务器的ssh工具 https://github.com/mattisonchao/enssh

SuperEdge:Kubernetes原生的边缘容器方案,它将Kubernetes强大的容器管理能力扩展到边缘计算场景中,针对边缘计算场景中常见的技术挑战提供了解决方案

https://github.com/superedge/superedge

Docker使用速查 https://swissarmydevops.com/wp-content/uploads/2020/11/Docker_Cheat_Sheet-1.pdf

whaler:docker镜像磁盘使用可视化分析工具

https://github.com/treebeardtech/whaler

Nimble: Lightweight and Parallel GPU Task Scheduling for Deep Learning

https://github.com/snuspl/nimble

AntMan: Dynamic Scaling on GPU Clusters for Deep Learning https://github.com/alibaba/GPU-scheduler-for-deep-learning

深入浅出 K8s' https://github.com/wx-chevalier/K8s-Series

Rhit:nginx日志浏览器 https://github.com/Canop/rhit

katana:用于部署机器学习应用的快捷易用API模板 github.com/shaz13/katana

NVIDIA针对自家GPU优化的云推断解决方案,通过HTTP/REST或GRPC端点提供推理服务,也可以作为带API的共享库使用,支持各种深度学习框架 github.com/triton-inference-server/server

用GitHub做机器学习运维(MLOps) https://mlops.githubapp.com/

MLOps学习资源集锦 https://elvissaravia.substack.com/p/mlops-primer-2021

Opyrator:将机器学习代码转化为具有网络API、交互式GUI等的微服务

github.com/ml-tooling/opyrator

MLOps概述:机器学习平台技术能力 https://medium.com/prosus-ai-tech-blog/towards-mlops-technical-capabilities-of-a-machine-learning-platform-61f504e3e281

Model Deployment:机器学习模型部署库和技术集合 github.com/balavenkatesh3322/model_deployment

'jcnf 常用脚本包 - 个人常用服务器指令和一键脚本' github.com/Netflixxp/jcnf-box

fastDeploy - Deploy DL/ ML inference pipelines with minimal extra code. github.com/notAI-tech/fastDeploy

TensorHive:用于监视和管理分布式机器学习跨多个主机的GPU等计算资源的开源工具 github.com/roscisz/TensorHive

Nginx负载均衡配置误区 https://mp.weixin.qq.com/s/mCqecyAvzmkJBSoiANsm5A

KDash - A fast and simple dashboard for Kubernetes github.com/kdash-rs/kdash

Docker Getting Started Tutorial:Docker入门教程 github.com/docker/getting-started

Zadig:开源分布式持续交付产品 github.com/koderover/zadig

GPU Task Spooler:面向GPU的任务调度器,可管理来自多个终端的作业队列 github.com/justanhduc/task-spooler

关注AI模型上线、模型部署(系列文章) github.com/aipredict/ai-deployment

youtube上这个 k8s 的视频不错,前半部分把基本概念讲得很清楚 https://www.youtube.com/watch?v=X48VuDVv0do

inferoxy:用于快速部署和使用容器化计算机视觉模型的服务 github.com/eora-ai/inferoxy

看到知乎上有人问 kafka 和 RabbitMQ 的区别.... 其实他俩的区别没那么复杂: kafka 和 RabbitMQ 的应用场景区别其实很简单, RabbitMQ 是面向纵向复杂度的, kafka 则是面向横向复杂度的. RabbitMQ 甚至内置了多种协议 ( AMQP, MQTT 等) 和正则引擎用于处理复杂的消息和复杂的消息分发. 所以 RabbitMQ 适合业务不大, 但是处理消息复杂度很高的场景. kafka则相反, 适合业务巨大, 但是复杂度不是很高的场景(其实复杂度高也没问题, 在应用中处理就好了. 但 rabbitmq 反过来则不太行.) 除此之外, RabbitMQ 在负载不是很高的情况下, 延迟是最小的, 适合构建超低延迟应用.(得益于 Erlang 的特性). 但是负载打满了之后, 性能则惨不忍睹. 至于可靠性, 二者都很好. 总之, 如果你还在接 AMQP 等传统消息协议, 或者追求开箱即用带正则的消息队列, 则 RabbitMQ 合适. 但如果作为架构师考虑的话, 直接选择 kafka 就完事了. 面向横向复杂度的解决方案造成的技术债务会比其他选择小一些. (而且, 市场上真的能找到可以魔改 RabbitMQ 的Erlang工程师吗? [二哈]) kafka 早已经超脱了"消息队列"这个层次, 完全是个带深度缓冲的通信平面了. 至于 ZeroMQ? ZeroMQ 不是消息队列(传统意义上的).

PrimeHub Community Edition:基于Kubernetes的机器学习基础设施 github.com/InfuseAI/primehub

k8s 企业级云原生平台:Erda,主要提供 DevOps、微服务治理、多云管理以及快数据管理等云原生服务。其主要目的,在于让复杂业务应用的开发、运维、监控以及问题诊断流程变得更为简单与高效。 github.com/erda-project/erda ​​​​

DataEase - 人人可用的开源数据可视化分析工具 github.com/dataease/dataease

Kuboard,一款专为 Kubernetes 设计的开源管理界面。具备多集群管理、权限管理、监控套件、日志套件等丰富功能。 github.com/eip-work/kuboard-press

Kubernetes最佳实践101 #TODO

github.com/diegolnasc/kubernetes-best-practices

Docker 官方在 GitHub 开源的《Docker 入门教程》。主要讲解如何创建、运行并删除容器、数据持久化处理、多容器支持、Compose 的使用等内容。

github.com/docker/getting-started

Kubescape,第一款可用于测试 Kubernetes 是否已安全部署的开源工具。测试结果将以 NSA 发布的《Kubernetes 加固指南》为标准。 开发者可通过 Kubescape 测试集群,或扫描单个 YAML 文件,将该工具集成到开发流程中。 GitHub:github.com/armosec/kubescape

Rancher Desktop:桌面端Kubernetes与容器管理 github.com/rancher-sandbox/rancher-desktop

Kube-queue:旨在管理Kubernetes中的AI/ML和批处理工作负载 github.com/kube-queue/kube-queue

crane:易用漂亮的Docker镜像管理应用 github.com/InfuseAI/crane

一款简单易用的开源 Kubernetes 可视化管理面板:KubePi。 可允许管理员导入多个 Kubernetes 集群,并通过权限控制,将不同 cluster、namespace 的权限分配给指定用户。 此外,它还允许开发人员管理 Kubernetes 集群中运行的应用程序,并对其进行故障排查,供开发人员更好地处理 Kubernetes 集群中的复杂性。 github.com/KubeOperator/KubePi

Python开发者Docker最佳实践指南 https://testdriven.io/blog/docker-best-practices/

KML: 面向操作系统和存储系统的机器学习框架(占用内存更少,吞吐量更大) github.com/sbu-fsl/kernel-ml

lazydocker:管理Docker和docker-compose方方面面的命令行界面 github.com/jesseduffield/lazydocker

开源MLOps工具指南 github.com/fuzzylabs/awesome-open-mlops

CDN Up and Running:CDN原理详解 github.com/leandromoreira/cdn-up-and-running

用 90 天学 DevOps》(90 Days Of DevOps),里面记录了国外一名开发者学习 DevOps 的 90 天历程。 内容包括 DevOps 定义、Linux 基础知识、计算机网络、k8s 及容器的使用、自动化配置管理、日志监控管理与数据可视化等知识。 github.com/MichaelCade/90DaysOfDevOps

mosec:高性能机器学习模型服务框架,提供动态批处理和多阶段流水线

github.com/mosecorg/mosec

Ansible,一款开源的自动化运维工具,可让项目和系统变得更加容易部署和维护。 通过简单的语法,快速实现从代码部署到网络配置,再到云管理。并使用 SSH 实现一切自动化流程,无需在远程系统上安装代理。 github.com/ansible/ansible ​​​​

Flyte:云原生机器学习与数据处理平台 github.com/flyteorg/flyte ​​​​

Awesome CI/CD Security - A curated list of awesome CI CD security resources github.com/myugan/awesome-cicd-security

Earthly:容器时代的自动化Build工具 github.com/earthly/earthly

产品级MLOps机器学习运维从零到精通指南与路线图 github.com/trojrobert/MLOps_roadmap_and_curriculum

Container Security Checklist: 容器使用安全检查清单 github.com/krol3/container-security-checklist

Hugging Face Transformer模块企业级CPU/GPU推理服务器高效部署方案

github.com/ELS-RD/transformer-deploy

ZenML:可扩展的开源MLOps框架,用于创建可用于生产的机器学习管道 github.com/zenml-io/zenml

KServe - Serverless Inferencing on Kubernetes github.com/kserve/kserve

系统管理员应该了解的30个Linux系统监视工具 https://www.cyberciti.biz/tips/top-linux-monitoring-tools.html

Fidesctl: Privacy as Code for your CI and runtime environment github.com/ethyca/fides

Rayon,一款开源的服务器监控工具,支持 libssh2 主机连接、密钥认证、远程代码执行、GPU & RAM & 硬盘使用情况监控等功能。 GitHub:github.com/Lakr233/Rayon ​​​​

Tangram, Github上一个可帮助工程师训练、部署与监控模型的开源工具,看起来很不错,可方便查看模型的各项统计指标。 github.com/tangramdotdev/tangram

Mattermost:在整个软件开发生命周期提供安全协作的开源平台 github.com/mattermost/mattermost-server

Dockerized:用Docker运行流行的命令行工具,无需安装即可使用 github.com/datastack-net/dockerized

TME Cube Studio - 云原生一站式机器学习平台,在线开发,分布式训练,超参搜索,推理服务 github.com/tencentmusic/cube-studio

2000多页的PPT来讲Docker和K8S: Deploying and Scaling Microservices with Docker and Kubernetes: https://container.training/kube-selfpaced.yml.html#1

NVIDIA针对自家GPU优化的云推断解决方案,通过HTTP/REST或GRPC端点提供推理服务,也可以作为带API的共享库使用,支持各种深度学习框架

github.com/triton-inference-server/server

BlindAI:快速、易用和保密的推理服务器,允许将模型部署到敏感数据上 github.com/mithril-security/blindai

DockSTARTer:帮助在Docker中运行应用,可大幅简化配置难度降低入门门槛 github.com/GhostWriters/DockSTARTer

Docker 网络原理 https://mp.weixin.qq.com/s/jJiX47kRTfX-3UnbN8cvtQ

从零开始的Kubernetes攻防 github.com/neargle/my-re0-k8s-security

UnionML:构建和部署机器学习微服务的最简单方法

github.com/unionai-oss/unionml

Awesome-Redteam - 红队知识仓库 github.com/Threekiii/Awesome-Redteam

GitHub 上一款免费开源的安全平台:Wazuh,集威胁预防、漏洞检测、风险响应、安全监控于一身。 不仅如此,该开源平台还提供了搜索引擎和数据可视化工具,让用户可以更为直观的浏览、配置项目的安全监控信息。 GitHub:github.com/wazuh/wazuh ​​​​

'Development Containers: Use a Docker container as a full-featured development environment.' GitHub: github.com/devcontainers/spec

'Opni = AIOps for Kubernetes + Observability Tools - Observability + AIOps for Kubernetes' by Rancher GitHub: github.com/rancher/opni

【FlagAI:快速、易于使用和可扩展的大模型工具包,目标是支持在多模态的各种下游任务上训练、微调和部署大规模模型】’FlagAI - FlagAI (Fast LArge-scale General AI models) is an fast, easy-to-use and extensible toolkit for large-scale model.' by BAAI-Open GitHub: github.com/BAAI-Open/FlagAI

GitHub 上开源的学习资源:Cloud-DevOps-Learning-Resources。 该仓库里面收录了一系列云原生开发学习资料(如 Docker、K8s、Azure),包括技术书籍、速查表、测验题、面试笔记等内容。 GitHub:github.com/ahmedtariq01/Cloud-DevOps-Learning-Resources

【ktop:Kubernetes集群的类似top的资源查看工具】’ktop - A top-like tool for your Kubernetes clusters' by Vladimir Vivien GitHub: github.com/vladimirvivien/ktop

【MLOPs Primer:MLOPs入门资源汇编】’MLOPs Primer - A collection of resources to learn about MLOPs.' by DAIR.AI GitHub: github.com/dair-ai/MLOPs-Primer

'Paralus - an all-in-one Kubernetes access management tool.' by Paralus Project GitHub: github.com/paralus/paralus

【Spring Cloud Tencent:腾讯开源的一站式微服务解决方案,实现了Spring Cloud 标准微服务 SPI】’Spring Cloud Tencent - Spring Cloud Tencent is a Spring Boot based Service Governance Framework provided by Tencent, including service discovery, traffic control, circuitbreak, ratelimit, config and so on.' by Tencent GitHub: github.com/Tencent/spring-cloud-tencent

'Ikki - A tool for defining and running multi-container Docker applications' by jlkiri GitHub: github.com/jlkiri/ikki

'OmniEdge:端到端企业 VPN 解决方案,无需公网 IP,无需端口转发,无需反向代理,零配置’ GitHub: github.com/omniedgeio/omniedge/blob/main/README/README-zh-Hans.md

'Data Engineering - Open Source Tools/Databases - a curated list of docker-compose files prepared for testing data engineering tools, databases and open source libraries.' by BigData.IR GitHub: github.com/irbigdata/data-dockerfiles

'Acorn - A simple application deployment framework for Kubernetes' by Acorn Labs GitHub: github.com/acorn-io/acorn

【黑客工具速查】《Hacking Tools Cheat Sheet》 Github: github.com/CompassSecurity/Hacking_Tools_Cheat_Sheet https://blog.compass-security.com/2019/10/hacking-tools-cheat-sheet/

'Kubernetes Tutorials | k8s 教程' by liguangzheng GitHub: github.com/guangzhengli/k8s-tutorials

【MLOps Platform Skeleton:MLOps简化平台】’MLOps Platform Skeleton - A MLOps platform using prefect, mlflow, FastAPI, Prometheus/Grafana und streamlit' by Daniel Pleus GitHub: github.com/dpleus/mlops

多功能主机管理平台。Go 写的主机管理 Web 平台,支持 shell 和远程桌面管理 Linux、Windows 和 macOS 系统的主机。 https://github.com/lwch/natpass

用 Python 操作 Kubernetes 的框架。Kubernetes(k8s) 是一个容器编排系统,它本身提供了命令行工具(kubectl),但有时无法实现较为复杂的操作。通过该项目可以用 Python 轻松完成,需要条件判断、事件触发等复杂的 k8s 操作。 https://github.com/nolar/kopf

多服务器云监控。轻松监控多台服务器状态的工具,用于解决多个不同平台下的服务器状态监控问题 https://github.com/cppla/ServerStatus

平铺的监控工具。安装简单配置方便的“监控墙”,所有监控指标以平铺的方式展示,美观且一目了然。支持 Linux、macOS 和 Windows 主流操作系统 https://github.com/monitoror/monitoror

【DevOps路线图】’DevOps Roadmap 2022. - DevOps Roadmap for 2022. with learning resources' by Milan Milanovic GitHub: github.com/milanm/DevOps-Roadmap 带你快速了解最新的 DevOps 技术栈。 里面包含了 Git、常用编程语言、Linux、网络安全、容器、IaC、CI/CD 等各种 DevOps 相关的学习资料。

'Podman Desktop - A graphical tool for developing on containers and Kubernetes' by Containers GitHub: github.com/containers/podman-desktop

【Kubernetes学习路线图】’kubernetes-learning-path - A roadmap to learn Kubernetes from scratch (Beginner to Advanced level)' by TechiesCamp GitHub: github.com/techiescamp/kubernetes-learning-path

【cdebug:容器调试万能工具包】’cdebug - a swiss army knife of container debugging' by Ivan Velichko GitHub: github.com/iximiuz/cdebug

一个 dockerfile 合集,有各种常用的软件 https://github.com/jessfraz/dockerfiles

【DevOps学习路线图】’DevOps Roadmap' by Ann Felix GitHub: github.com/annfelix/DEVOPS-WORLD

【highlight.io: 开源全栈监控平台】'highlight.io: The open-source, fullstack monitoring platform. - highlight.io: The open source, full-stack monitoring platform. Error monitoring, session replay, logging and more.' GitHub: github.com/highlight/highlight

【Service Weaver:编写和部署云应用的编程框架】’Service Weaver - Programming framework for writing and deploying cloud applications.' GitHub: github.com/ServiceWeaver/weaver

'NVIDIA Container Toolkit - Build and run containers leveraging NVIDIA GPUs' NVIDIA GitHub: github.com/NVIDIA/nvidia-container-toolkit

【Primus:通用的分布式调度框架,针对机器学习应用进行管理并控制训练生命周期和数据分布,帮助TensorFlow等训练工具实现大规模分布式训练】'Primus - a generic distributed scheduling framework for machine learning applications’ by bytedance GitHub: github.com/bytedance/primus

'HAI Platform - 一种以任务级分时调度GPU算力的高性能深度学习训练平台'

High-Flyer AI GitHub: github.com/HFAiLab/hai-platform

【Nanocl:一个分布式系统,简化了容器和虚拟机的管理。提供了容器和虚拟机的测试、部署、扩展、监控和编排功能。Nanocl旨在通过使用Rust技术,简化容器和虚拟机的管理,提供易用性和高效性】'Nanocl - Distributed System that simplifies the management of containers and virtual machines.' Next Hat GitHub: github.com/nxthat/nanocl

【KubeBlocks:开源的云原生数据基础设施,帮助开发者和平台工程师在Kubernetes上管理数据库和分析工作负载。支持多个云服务商,提高DevOps效率】'KubeBlocks - KubeBlocks helps developers and platform engineers manage database workloads (MySQL, PostgresSQL, Redis, MongoDB, Kafka and vector databases) on K8s inside your own cloud account. It supports multiple clouds, including AWS, Azure, GCP, and Alibaba Cloud.' ApeCloud GitHub: github.com/apecloud/kubeblocks

【DevOps平台、工具、实践和相关资源列表】’Awesome DevOps - A curated list of awesome DevOps platforms, tools, practices and resources' Marius Stanca GitHub: github.com/wmariuss/awesome-devops

JumpServer,符合 4A 规范的专业运维安全审计系统,于 2014 年开源,至今仍在持续迭代更新。 项目界面简洁、功能强大,对于初学者来说也十分容易上手,适合各种规模的运维团队使用。 GitHub:github.com/jumpserver/jumpserver 项目主要拥有以下功能:

  • 开源: 零门槛,线上快速获取和安装;
  • 无插件: 仅需浏览器,极致的 Web Terminal 使用体验;
  • 分布式: 支持分布式部署和横向扩展,轻松支持大规模并发访问;
  • 多云支持: 一套系统,同时管理不同云上面的资产;
  • 多租户: 一套系统,多个子公司或部门同时使用;
  • 云端存储: 审计录像云端存储,永不丢失。 此次之外,JumpServer 还可以帮助企业以更安全的方式管控和登录各种类型的资产。 包括 Linux/SSH、Windows、数据库、Kubernetes、远程应用在内的一切资产皆可连接,同时还支持事前授权、事中监察、事后审计,符合 4A 规范,满足了等保合规的要求。

【Prem:提供了一个统一的环境,用于开发AI应用并在基础设施上部署AI模型。Prem抽象了所有技术复杂性,为AI部署带来了新的隐私中心化AI应用程序时代】'Prem - Self Sovereign AI Infrastructure - Prem provides a unified environment to develop AI applications and deploy AI models on your infrastructure' GitHub: github.com/premAI-io/prem-app

【Dynolog: 性能监控和追踪的遥测守护进程,从系统的不同组件(如Linux内核、CPU、磁盘、Intel PT、GPU等)导出指标】'Dynolog: a performance monitoring daemon for heterogeneous CPU-GPU systems - Dynolog is a telemetry daemon for performance monitoring and tracing. It exports metrics from different components in the system like the linux kernel, CPU, disks, Intel PT, GPUs etc. Dynolog also integrates with pytorch and can trigger traces for distributed training applications.' Meta Incubator GitHub: github.com/facebookincubator/dynolog

【nvshare:一种GPU共享机制,允许多个进程(或在Kubernetes上运行的容器)在同一物理GPU上安全运行,并且每个进程都可以使用整个GPU内存,通过使用系统RAM作为交换空间,透明地启用GPU页面故障来实现】’nvshare: Transparent GPU Sharing Without Memory Size Constraints' George Alexopoulos GitHub: github.com/grgalex/nvshare

【Trippy:结合了traceroute和ping功能的网络分析工具,支持使用多种协议进行追踪,包括ICMP、UDP和TCP】'Trippy - A network diagnostic tool' FujiApple GitHub: github.com/fujiapple852/trippy