#

model-parallelism

Here are 33 public repositories matching this topic...

ColossalAI

hpcaitech / ColossalAI

Making large AI models cheaper, faster and more accessible

ai deep-learning hpc distributed-computing inference big-model large-scale data-parallelism model-parallelism pipeline-parallelism foundation-models heterogeneous-training

Updated Jul 16, 2024
Python

microsoft / DeepSpeed

DeepSpeed is a deep learning optimization library that makes distributed training and inference easy, efficient, and effective.

machine-learning compression deep-learning gpu inference pytorch zero data-parallelism model-parallelism mixture-of-experts pipeline-parallelism billion-parameters trillion-parameters

Updated Jul 16, 2024
Python

PaddlePaddle / PaddleFleetX

飞桨大模型开发套件，提供大语言模型、跨模态大模型、生物计算大模型等领域的全流程开发工具链。

benchmark cloud lightning elastic unsupervised-learning large-scale data-parallelism paddlepaddle model-parallelism distributed-algorithm self-supervised-learning pipeline-parallelism pretraining fleet-api paddlecloud

Updated May 24, 2024
Python

torchgpipe

kakaobrain / torchgpipe

A GPipe implementation in PyTorch

deep-learning pytorch parallelism model-parallelism gpipe pipeline-parallelism checkpointing

Updated Sep 18, 2020
Python

Oneflow-Inc / libai

LiBai(李白): A Toolbox for Large-Scale Distributed Parallel Training

nlp deep-learning transformer large-scale data-parallelism model-parallelism distributed-training self-supervised-learning oneflow pipeline-parallelism vision-transformer

Updated Jun 28, 2024
Python

alibaba / EasyParallelLibrary

Easy Parallel Library (EPL) is a general and efficient deep learning framework for distributed model training.

deep-learning gpu memory-efficient data-parallelism model-parallelism distributed-training pipeline-parallelism

Updated Mar 31, 2023
Python

Shenggan / awesome-distributed-ml

A curated list of awesome projects and papers for distributed training or inference

distributed-systems machine-learning deep-learning high-performance-computing model-parallelism pipeline-parallelism

Updated Jun 24, 2024

xrsrke / pipegoose

Large scale 4D parallelism pre-training for 🤗 transformers in Mixture of Experts *(still work in progress)*

transformers moe data-parallelism distributed-optimizers model-parallelism megatron mixture-of-experts pipeline-parallelism huggingface-transformers megatron-lm tensor-parallelism large-scale-language-modeling 3d-parallelism zero-1 sequence-parallelism

Updated Dec 14, 2023
Python

kaiyuyue / torchshard

Slicing a PyTorch Tensor Into Parallel Shards

pytorch model-parallelism tensor-parallelism

Updated Jul 27, 2021
Python

dnn-distributed

vdutts7 / dnn-distributed

Distributed training of DNNs • C++/MPI Proxies (GPT-2, GPT-3, CosmoFlow, DLRM)

deep-neural-networks mpi dnn message-passing-interface distributed-deep-learning model-parallelism

Updated Feb 22, 2024
C++

hkproj / pytorch-transformer-distributed

Distributed training (multi-node) of a Transformer model

machine-learning tutorial deep-learning pytorch data-parallelism model-parallelism distributed-training gradient-accumulation distributed-data-parallel collective-communication

Updated Apr 10, 2024
Python

NERSC / sc23-dl-tutorial

SC23 Deep Learning at Scale Tutorial Material

deep-learning data-parallelism model-parallelism vision-transformers ai-for-science

Updated Nov 13, 2023
Python

tanyuqian / redco

NAACL '24 (Demo) / MlSys @ NeurIPS '23 - RedCoast: A Lightweight Tool to Automate Distributed Training and Inference

Updated Jul 15, 2024
Python

zhuangsc / altsplit

An MPI-based distributed model parallelism technique for MLP

deep-learning neural-network mpi-applications model-parallelism

Updated Jun 10, 2020
C

AlibabaPAI / FlashModels

Fast and easy distributed model training examples.

deep-learning pytorch zero data-parallelism model-parallelism distributed-training xla tensor-parallelism llm fsdp sequence-parallelism

Updated Jul 3, 2024
Python

ngrabaskas / Torch-Automatic-Distributed-Neural-Network

Torch Automatic Distributed Neural Network (TorchAD-NN) training library. Built on top of TorchMPI, this module automatically parallelizes neural network training.

machine-learning neural-network torch7 openmpi data-parallelism model-parallelism distributed-machine-learning

Updated Feb 28, 2018
Lua

AnveshaM / Enhancing-performance-of-big-data-machine-learning-models-on-Google-Cloud-Platform

The project is focused on parallelising pre-processing, measuring and machine learning in the cloud, as well as the evaluation and analysis of the cloud performance.

cache ml pyspark google-cloud-platform rdd keras-tensorflow data-parallelism model-parallelism dataproc-clusters google-colaboratory google-cloud-ai-platform

Updated Jul 6, 2022
Jupyter Notebook

dlzou / computron

Serving distributed deep learning models with model parallel swapping.

deep-learning inference-server model-parallelism

Updated Jun 19, 2023
Jupyter Notebook

explcre / pipeDejavu

pipeDejavu: Hardware-aware Latency Predictable, Differentiable Search for Faster Config and Convergence of Distributed ML Pipeline Parallelism

python deep-learning linear-regression pytorch dynamic-programming predictive-modeling data-parallelism sampling-methods model-parallelism distributed-training differentiable-programming pipeline-parallelism hardware-aware parallel-optmization random-initialization baysian-optimisation differentiable-dynamic-programming

Updated May 9, 2023
Jupyter Notebook

sjlee25 / legion-readme

Description of Framework for Efficient Fused-layer Cost Estimation, Legion (2021)

edge-computing model-parallelism tvm dl-optimization

Updated Dec 18, 2022

Improve this page

Add a description, image, and links to the model-parallelism topic page so that developers can more easily learn about it.

Curate this topic

Add this topic to your repo

To associate your repository with the model-parallelism topic, visit your repo's landing page and select "manage topics."