FlexGen High-Throughput Generative Inference of Large Language Models with a Single GPU
논문 : https://arxiv.org/abs/2303.06865 개인의견 : 타겟은 다르지만 deepspeed(zero) 오프로딩을 한다는 측면에서는 비슷한 느낌을 받았다 그리고 정말 높은 throughtput을 위해서 quantization과 선 …
모든 게시글 목록입니다. 최신순으로 정렬되어 있습니다.
논문 : https://arxiv.org/abs/2303.06865 개인의견 : 타겟은 다르지만 deepspeed(zero) 오프로딩을 한다는 측면에서는 비슷한 느낌을 받았다 그리고 정말 높은 throughtput을 위해서 quantization과 선 …
논문 : https://arxiv.org/abs/2407.01527v1 개인의견 : 다양한 경량화 방법의 효과를 long context를 다루는 LLM에서 어떤효과를 주는지 분석을 통하여 인사이트를 주고있다.
논문 : https://arxiv.org/abs/2406.10774 개인의견 : 역시 songhan.. KV cache는 항상 볼때마다 압축을 하거나 줄이고 싶지만 그 특성상 query와 관계를 알아야 이게 중요한 KV …
논문 : https://arxiv.org/abs/2407.00326 개인의견 : 결국 프리미티브라고 하는 작은 단위로 나눈다는 개념을 도입하는거 같고 이게 LLM이 아닌 경우도 고려해서 한번에 serving을 한다는것이라고 이해를 했는데 vllm …
논문 : https://arxiv.org/abs/2406.15786v1 개인의견 : 내가 잘 이해를 한건지는 모르겠지만 결국 입력/출력의 cosine similarity를 보고 attention layer를 pruning 하겠다는것 같은데 이게 데이터 …
논문 : https://arxiv.org/abs/2404.19737 개인의견 : auto-regressive한 현재 LLM은 구조적으로 생성되는 토큰이 많아지면 많은 I/O를 동반하게 됩니다. 그렇기 때문에 memory-bound 로 빠지게 되어서 디 …
검색어를 입력하세요