FlexGen High-Throughput Generative Inference of Large Language Models with a Single GPU
논문 : https://arxiv.org/abs/2303.06865 개인의견 : 타겟은 다르지만 deepspeed(zero) 오프로딩을 한다는 측면에서는 비슷한 느낌을 받았다 그리고 정말 높은 throughtput을 위해서 quantization과 선형계획법으로 효율적으로 디바이스 사용 …