논문 링크

Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘

결론: TetriInfer의 주요 기여 및 핵심 아이디어

TetriInfer는 대규모 언어 모델(LLM)의 추론 과정에서 발생하는 **간섭 문제(interference)**를 해결하기 위해 설계된 클라우드 기반 추론 시스템입니다. 주요 강점은 **사전 단계(prefill)**와 **디코드 단계(decode)**의 분리(disaggregation)와, 이를 통해 효율적인 자원 활용을 달성했다는 점입니다. 이를 기반으로 **TTFT(Time-To-First-Token)**를 97%, **작업 완료 시간(JCT)**을 47% 단축하고, **자원 효율성(performance per dollar)**을 최대 2.4배 개선했습니다.


강점과 독창성

1. 분리된 사전/디코드 아키텍처

2. 고정 크기 청킹(Chunked Prefill)

3. 예측 기반 이중 레벨 스케줄링

4. 유연한 인스턴스 전환(Instance Flip)


핵심 알고리즘의 동작 과정 (예시)

  1. 입력: 긴 프롬프트와 짧은 디코드 요청이 혼재된 작업 요청들이 들어옴.

    • 프롬프트: “Generate a detailed summary of…”
    • 디코드 예상 길이: 50 tokens.
  2. 스케줄링 및 청킹:

    • 프롬프트는 고정 크기(예: 512 tokens)로 청킹되어 처리.
    • 예측 모델은 디코드 길이를 분류(예: 50~100 tokens)하여 자원 요구량 추정.
  3. 사전 처리:

    • 각 청크가 독립적으로 처리되어 키-값(KV) 캐시를 생성.
    • 생성된 KV 캐시는 디코드 인스턴스로 전송.
  4. 디코드 처리:

    • 디코드 요청은 예상 길이와 현재 인스턴스 상태를 기반으로 분배.
    • 예를 들어, 가벼운 디코드는 메모리 부담이 적은 인스턴스로 할당.
  5. 결과 출력:

    • 병렬 처리를 통해 모든 작업 완료 후 응답을 반환.

한계점

  1. 프롬프트-디코드 모두가 무거운 작업(HPHD)에 비효율적

    • 디코드와 사전을 분리하면서 발생하는 전송 및 관리 오버헤드로 인해 큰 이점이 없음.
    • 관련 실험에서 성능 개선이 미미하거나 오히려 자원 소모가 증가.
  2. 예측 모델의 제한

    • 디코드 길이 예측이 정밀하지 않아 일부 스케줄링 정책의 최적 성능 미달.
    • 향후 더 정밀한 예측 모델 필요.
  3. 하드웨어 의존성

    • 테스트는 NVIDIA V100 GPU를 중심으로 수행되었으며, 고급 네트워크 스택(NVLink 등)의 제한적인 구현으로 실제 배포 시 추가 검증이 필요.

비교 및 요약

특징TetriInfer기존 vLLMSarathiSplitwise
사전/디코드 분리
고정 크기 청킹
예측 기반 스케줄링
자원 효율성(perf/$)2.4배 개선기준미제공일부 개선

TetriInfer는 특히 혼합 워크로드에서 뛰어난 성능 개선을 보여주며, 간섭 문제를 해결하기 위한 아키텍처 설계의 새로운 기준을 제시했습니다. 하지만 무거운 작업에서는 추가적인 최적화 필요성이 남아 있습니다.

Q : 논문의 핵심알고리즘을 예시를 들어 아주 자세하게 설명해주고 정리해 줘

논문의 핵심 알고리즘은 TetriInfer라는 시스템에서 작동하는 방식으로, 대규모 언어 모델(LLM)의 추론 요청 처리 과정에서 발생하는 간섭(interference)을 최소화하고, 성능과 자원 효율성을 극대화하는 데 초점을 맞추고 있습니다. 이를 구현하기 위해 **사전 단계(prefill)**와 **디코드 단계(decode)**를 분리하고, 이를 지원하기 위한 고정 크기 청킹(chunked prefill)예측 기반 이중 레벨 스케줄링을 사용합니다. 아래는 각 알고리즘과 과정을 예시를 들어 상세히 설명합니다.


1. Prefill 단계: 입력 청킹과 스케줄링

알고리즘 개요:

예시:

입력:

처리 과정:

  1. 청킹: 프롬프트를 고정 크기(예: 512 tokens)로 나눔.

    • 청크 1: Summarize the following document: [앞부분 512 tokens]
    • 청크 2: [중간 512 tokens]
    • 청크 3: [마지막 176 tokens (패딩 포함 512)]
  2. 스케줄링:

    • 청크들이 FCFS(First-Come-First-Serve) 또는 Shortest-Job-First(SJF) 정책에 따라 정렬.
    • 각 청크는 독립적으로 처리되어 **키-값 캐시(KV cache)**를 생성.
  3. 출력:

    • 각 청크에서 생성된 KV cache는 디코드 단계로 전달.

효과:


2. Decode 단계: 예측 기반 스케줄링

알고리즘 개요:

예시:

입력:

처리 과정:

  1. 예측 모델 활용:

    • OPT-125M과 같은 작은 예측 모델이 디코드 요청 길이를 추정.
    • 디코드 요청 1: 길이 범위 [50–100 tokens] → 가벼운 디코드(light decode)로 분류.
    • 디코드 요청 2: 길이 범위 [300–400 tokens] → 무거운 디코드(heavy decode)로 분류.
  2. 스케줄링:

    • 디코드 요청을 로컬 스케줄러가 관리:
      • 가벼운 요청은 메모리 사용량이 적은 인스턴스로 배정.
      • 무거운 요청은 메모리 자원이 충분한 인스턴스로 배정.
    • 두 요청 간의 간섭을 줄이기 위해 동적 배치(batch) 크기를 조정.
  3. 병렬 처리:

    • KV cache 전송 후 각 요청이 개별적으로 처리.
    • 가벼운 요청은 빠르게 완료, 무거운 요청은 병렬로 진행.

효과:


3. TetriInfer의 통합 워크플로

알고리즘 전체 동작 흐름:

1단계: 입력 스케줄링 및 청킹

2단계: 사전 처리(prefill)

3단계: 디코드 처리(decode)


정리: TetriInfer의 강점 요약

기능기존 시스템TetriInfer
고정 크기 청킹✅ 하드웨어 자원 최적화
사전/디코드 분리✅ 단계별 자원 간섭 최소화
예측 기반 스케줄링✅ 요청 길이 기반 자원 사용 최적화
효율성(performance per $)기준 대비 낮음2.4배 개선 (특히 디코드 중심 작업에서)

TetriInfer의 설계는 입력 데이터의 불균형 및 작업 유형의 차이에 적응할 수 있는 유연성과 확장성을 제공합니다.

Q : 이 논문에서 제시한 결과를 자세하게 보고 다른 방법론에 비하여 특출난 점과 논문에서 제기하는 어떠한 방법이 이러한 결과를 도출하게 되었는지 논문에서 제시하는 이유와 너의 생각을 알려줘

결론: TetriInfer의 성과와 주요 기여

TetriInfer는 기존 방식과 비교해 LLM 추론 효율성을 크게 개선했으며, 특히 혼합 워크로드에서 Time-to-First-Token(TTFT), Job Completion Time(JCT), 및 자원 효율성(performance per dollar) 면에서 탁월한 성능을 보였습니다. 논문의 저자들은 이를 가능하게 한 핵심 요소로 사전/디코드 분리(disaggregation), 고정 크기 청킹(chunked prefill), 그리고 **예측 기반 스케줄링(length-aware scheduling)**을 제시했습니다.


결과 요약 및 비교

실험 결과:

논문에서 제시한 TetriInfer와 기존 접근법의 성능 차이는 아래 표로 정리됩니다:

워크로드 유형TTFT 개선율JCT 개선율자원 효율성(perf/$)주요 원인
Light Prefill + Light Decode44%40%1.4배고정 크기 청킹으로 프롬프트 처리 효율 향상
Light Prefill + Heavy Decode97%47%2.4배디코드와 사전 분리, 예측 기반 디코드 스케줄링
Heavy Prefill + Light Decode9%23%낮아짐 (-43%)디코드 분리 효과 작고, 청킹 오버헤드 발생
Heavy Prefill + Heavy Decode19%19%1.1배디코드 분리 효과는 있지만 자원 소모 증가
혼합 워크로드(Mixed)85%50%1.9배분리된 처리와 동적 스케줄링의 조합

다른 방법론과 비교: TetriInfer의 특출난 점

논문에서는 여러 기존 접근법과 TetriInfer를 비교하며 그 독창성을 강조합니다. 관련 내용을 정리한 표는 아래와 같습니다:

특징TetriInfervLLMSplitwiseSarathi
사전/디코드 분리
고정 크기 청킹
예측 기반 디코드 스케줄링
혼합 워크로드 최적화일부 개선
자원 효율성(perf/$)탁월기준일부 개선미제공

TetriInfer의 성능 향상의 이유와 논문에서 제시하는 근거

1. 사전/디코드 분리 (Disaggregation of Prefill and Decode)

2. 고정 크기 청킹 (Chunked Prefill)

3. 예측 기반 디코드 스케줄링

논문에서 제시하는 근거:


개인 의견: TetriInfer의 설계와 결과의 상관성

1. 설계의 합리성

TetriInfer는 **사전과 디코드의 상충(interference)**이라는 근본적인 문제를 해결하기 위해 설계되었습니다. 사전과 디코드의 분리는 독립적 작업 스케줄링을 가능하게 했으며, 고정 크기 청킹과 디코드 요청 예측은 자원 사용 효율을 극대화했습니다. 이 설계는 클라우드 환경에서 혼합 워크로드에 특히 적합하다고 판단됩니다.

2. 한계와 개선 가능성

3. 실용적 의미

이 논문은 혼합 워크로드 환경에서 LLM 서비스의 성능 최적화를 위한 새로운 기준을 제시했습니다. TetriInfer의 접근 방식은 단순한 자원 증가가 아닌 구조적 최적화를 통해 효율성을 개선했으며, 이는 클라우드 서비스 환경에서 중요한 기여라고 평가할 수 있습니다.

Q : 이 논문의 입력데이터와 추론 과정에 대해서 예시를 들어 아주 자세하게 설명해 주겠니? 추가적으로 모델아키텍처의 구성 및 모델을 구성하는 연산과 메모리 요구량 컴퓨팅 요구량 대해서도 설명해줘

논문의 입력 데이터와 추론 과정: 예시를 통한 상세 설명


입력 데이터의 특성

이 논문에서는 대규모 언어 모델(LLM) 추론에서 발생하는 간섭 문제를 해결하기 위해 혼합 워크로드를 대상으로 실험을 수행했습니다. ShareGPT 데이터셋을 활용해 프롬프트와 디코드 요청을 구성하며, 다양한 워크로드 유형을 생성합니다.


추론 과정 예시

목표: 긴 프롬프트와 짧은 디코드 요청을 처리하면서 간섭을 최소화.

  1. 입력 데이터:

    • 프롬프트: "Summarize the following document: [긴 텍스트]" (1,200 tokens)
    • 디코드 요청:
      • 요청 1: "What is entropy?" (50 tokens 예상)
      • 요청 2: "Write a detailed story outline." (300 tokens 예상)
  2. 1단계: 사전(prefill) 처리

    • 프롬프트를 고정 크기 청크로 나눔 (예: 512 tokens 단위).

    • 청킹 결과:

      • 청크 1: [Summarize the following document: ...] (512 tokens)
      • 청크 2: [중간 텍스트...] (512 tokens)
      • 청크 3: [마지막 텍스트 (176 tokens + 패딩)]
    • 청킹된 프롬프트는 LLM으로 전달되어 각 청크에서 **키-값 캐시(KV Cache)**가 생성됨.

  3. 2단계: 디코드(decode) 처리

    • 디코드 요청 1: “What is entropy?“는 가벼운 디코드 요청으로 분류.
    • 디코드 요청 2: “Write a detailed story outline.“는 무거운 디코드 요청으로 분류.
    • 각 디코드 요청은 **예측 모델(OPT-125M)**로 처리 자원을 추정하여 스케줄링:
      • 요청 1: 짧은 길이 → 메모리와 계산 부담이 적은 인스턴스로 배정.
      • 요청 2: 긴 길이 → 메모리 여유가 많은 인스턴스로 배정.
    • 결과: 디코드가 병렬로 처리되어 각 요청에 대한 결과를 반환.

프롬프트모델 아키텍처: 구성 및 연산 설명

1. 주요 구성 요소

TetriInfer의 모델 아키텍처는 아래와 같은 구성으로 이루어집니다:

  1. 사전(prefill) 인스턴스:

    • 고정 크기 청킹 및 프롬프트 처리.
    • 각 청크에서 **키-값 캐시(KV Cache)**를 생성.
    • 예측 모델(OPT-125M)을 통해 디코드 요청 길이를 추정.
  2. 디코드(decode) 인스턴스:

    • 사전 처리된 KV Cache를 받아 디코드 수행.
    • 디코드 요청의 길이와 자원 요구량에 따라 로컬 스케줄링.
  3. 중앙 제어부(Centralized Control Plane):

    • 클러스터 상태 모니터링 및 사전/디코드 요청의 스케줄링 관리.

2. 연산 구성

Transformer 아키텍처 기반 LLM (OPT-13B):


3. 메모리 요구량

OPT-13B 모델 기준:


4. 계산 요구량

예시 시나리오 계산:


정리

TetriInfer의 입력 데이터와 추론 과정은 고정 크기 청킹과 디코드 요청 예측 기반 스케줄링을 통해 효율적으로 처리됩니다. 모델 아키텍처는 대규모 Transformer(OPT-13B) 기반으로, 사전 단계는 계산량이 주로 집중되고, 디코드 단계는 메모리 사용량이 주요 병목으로 작용합니다. TetriInfer의 설계는 이러한 연산 및 메모리 요구량의 비대칭성을 고려해 사전과 디코드를 분리하고 최적화했습니다.

Q : 이 논문의 한계를 극복하기 위한 방법으로 어떤 연구흐름이 있는지 정리해서 자세하게 설명해 줘

이 논문의 한계와 이를 극복하기 위한 연구 흐름

논문에서는 TetriInfer가 대규모 언어 모델(LLM) 추론 효율성을 크게 개선했지만, 몇 가지 한계를 명시적으로 제시하거나 간접적으로 암시했습니다. 이 한계들은 향후 연구 방향의 기회를 제공합니다. 아래는 한계를 극복하기 위한 관련 연구 흐름과 가능성을 정리한 내용입니다.


1. Heavy Prefill + Heavy Decode 작업에서의 한계

한계점:

극복 방안:

(1) Prefill-Decode 통합 최적화 연구
(2) 메모리-계산 통합 최적화
(3) Pipeline Parallelism 최적화

2. 디코드 요청 예측 정확도의 한계

한계점:

극복 방안:

(1) 더 정교한 길이 예측 모델
(2) 확률적 스케줄링
(3) 실시간 학습 기반 예측

3. 디코드 단계에서 메모리 병목

한계점:

극복 방안:

(1) 메모리 재사용 최적화
(2) 메모리 분할 및 공유
(3) 캐시 데이터 전송 효율 개선

4. Heavy Decode에서 TTFT 개선의 한계

한계점:

극복 방안:

(1) Token-Level 병렬화
(2) 가중치 공유 및 캐싱
(3) 디코드 단위 스케줄링 개선

5. 워크로드 예측 및 인스턴스 전환

한계점:

극복 방안:

(1) 강화 학습 기반 인스턴스 전환
(2) 다중 모드 전환

6. 실험 환경의 제한

한계점:

극복 방안:

(1) 최신 하드웨어 활용
(2) Cross-Cloud 배포 실험

결론: 연구 흐름의 방향성

TetriInfer의 한계를 극복하기 위해 디코드 최적화, KV Cache 전송 효율화, 워크로드 예측 개선, 그리고 강화 학습 기반 적응형 스케줄링이 주요 연구 흐름으로 나타나고 있습니다. 이러한 접근법은 대규모 언어 모델 추론의 자원 효율성과 성능을 더욱 높이는 데 기여할 것입니다.

Q : 사전(prefill)과 디코드(decode) 작업의 분리(disaggregation)가 혼합 워크로드에서의 간섭(interference)을 어떻게 줄이는지, 그리고 기존 통합 방식(vLLM 등) 대비 성능 향상이 발생하는 근본적인 이유는 무엇인가?

A:

사전(prefill)과 디코드(decode) 작업의 분리가 간섭(interference)을 줄이는 이유


1. 사전과 디코드의 작업 특성 차이


2. 사전/디코드 분리(disaggregation)의 효과

TetriInfer는 사전(prefill)과 디코드(decode) 작업을 별도 인스턴스로 분리하여 각각 독립적으로 실행합니다. 이로 인해 다음과 같은 개선이 이루어집니다:

  1. 간섭(interference) 제거:

    • 사전 작업이 계산 자원을 소모해도 디코드 작업에 영향을 주지 않음.
    • 디코드 작업은 필요한 메모리 대역폭을 확보하여 실시간 처리가 가능.
  2. 작업 스케줄링 최적화:

    • 사전 작업과 디코드 작업의 특성을 고려해 별도로 스케줄링 가능.
      • 사전 작업: 고정 크기 청킹(chunked prefill)으로 계산 부담 균등화.
      • 디코드 작업: 예상 길이 기반 메모리 최적화 스케줄링.
  3. 자원 활용 효율 극대화:

    • 사전 인스턴스는 계산 자원(GPU 코어)을 최대로 활용.
    • 디코드 인스턴스는 메모리 대역폭과 캐싱 효율을 최적화.

성능 향상이 발생하는 근본적인 이유


1. Time-to-First-Token(TTFT) 감소

2. Job Completion Time(JCT) 감소

3. 자원 효율성(performance per dollar) 증가


구체적인 성능 향상 이유를 실험 결과로 설명

실험 결과:

논문에서 제시한 실험 데이터를 기반으로 구체적인 성능 향상을 확인할 수 있습니다.

워크로드 유형TTFT 개선JCT 개선자원 효율성(perf/$)
Light Prefill + Heavy Decode97%47%2.4배
Heavy Prefill + Heavy Decode19%19%1.1배
혼합 워크로드85%50%1.9배

성능 향상의 이유:

  1. Light Prefill + Heavy Decode:
    • 디코드 중심 작업에서 분리된 인스턴스 설계로 디코드 작업이 계산 간섭 없이 최적의 메모리 대역폭 활용.
  2. Heavy Prefill + Heavy Decode:
    • 긴 프롬프트와 긴 디코드 요청의 자원 사용량이 모두 높아 분리 효과가 상대적으로 적음.
  3. 혼합 워크로드:
    • 각 작업의 특성에 따라 스케줄링을 최적화하여 전체적인 효율 개선.

결론

사전(prefill)과 디코드(decode)의 작업 특성 차이를 고려한 분리(disaggregation)는 간섭을 최소화하여 TTFT, JCT, 자원 효율성 모두에서 개선을 이끌어냈습니다. 이는 대규모 언어 모델 추론에서 혼합 워크로드가 발생하는 클라우드 환경에서 특히 효과적이며, 기존 통합 방식(vLLM 등)이 해결하지 못했던 자원 간 충돌 문제를 근본적으로 해결한 접근법으로 평가됩니다.

Q : TetriInfer의 고정 크기 청킹(chunked prefill) 및 예측 기반 디코드 스케줄링에서 발생하는 오버헤드는 무엇이며, 이를 최소화하기 위해 어떤 추가적인 최적화가 가능할까?

TetriInfer의 고정 크기 청킹 및 예측 기반 디코드 스케줄링의 오버헤드


1. 고정 크기 청킹(chunked prefill)에서의 오버헤드

TetriInfer는 사전(prefill) 처리 시 입력 프롬프트를 고정 크기(예: 512 tokens)로 나눠 처리하여 하드웨어 계산 자원을 최적화합니다. 그러나 이 과정에서 다음과 같은 오버헤드가 발생합니다:

  1. 추가적인 청킹 비용:

    • 긴 프롬프트를 고정 크기 청크로 분리하고 패딩하는 과정에서 추가적인 계산 비용 발생.
    • 청킹의 구현 복잡도가 증가하며, 이로 인해 작업 준비 시간이 늘어날 수 있음.
  2. 불필요한 패딩 처리:

    • 마지막 청크가 고정 크기를 채우지 못할 경우, 패딩된 부분이 모델의 계산에서 불필요한 연산을 유발.
    • 결과적으로 계산 자원이 효율적으로 사용되지 못함.
  3. 청킹된 요청의 캐싱 및 전송 오버헤드:

    • 각 청크별로 생성된 KV 캐시를 디코드 인스턴스로 전송해야 하므로, 네트워크 대역폭 소모가 증가.

2. 예측 기반 디코드 스케줄링에서의 오버헤드

디코드 요청 길이를 사전에 예측하고, 이를 기반으로 자원을 분배하는 과정에서 발생하는 오버헤드는 다음과 같습니다:

  1. 예측 모델 실행 비용:

    • TetriInfer는 작은 모델(예: OPT-125M)을 사용해 디코드 요청 길이를 예측하지만, 이 역시 추가 계산 비용을 유발.
    • 특히 디코드 요청이 짧거나 단순한 경우, 예측 단계 자체가 비효율적일 수 있음.
  2. 예측 부정확성으로 인한 자원 낭비:

    • 길이 예측 정확도가 **74.9%**로 제한적이므로, 잘못된 예측으로 인해 메모리 또는 계산 자원이 비효율적으로 할당될 가능성이 있음.
    • 예측 오류가 클 경우 디코드 간 간섭이 발생해 작업 완료 시간이 증가.
  3. 스케줄링 복잡성:

    • 예측 정보를 기반으로 각 디코드 요청을 적합한 인스턴스로 배정하는 과정에서 스케줄링 지연 발생.

오버헤드를 최소화하기 위한 추가적인 최적화


1. 고정 크기 청킹 최적화

(1) 동적 크기 청킹(Dynamic Chunking)
(2) 레이어 단위 캐싱 및 전송
(3) 프롬프트 병합(Merging Short Prompts)

2. 예측 기반 디코드 스케줄링 최적화

(1) 예측 모델의 경량화
(2) 실시간 보정 알고리즘
(3) 확률적 스케줄링(Probabilistic Scheduling)

3. 하드웨어 최적화

(1) Zero-Copy 메모리 전송
(2) GPU-CPU 메모리 계층 최적화

4. 워크로드 기반 스케줄링 정책

(1) 워크로드 특화 인스턴스 구성
(2) 강화 학습 기반 스케줄링

결론

TetriInfer의 고정 크기 청킹예측 기반 스케줄링은 혼합 워크로드 처리에서 성능 개선에 기여했지만, 오버헤드(청킹 비용, 예측 부정확성 등)가 여전히 존재합니다. 이를 최소화하기 위해 동적 청킹, 실시간 보정 알고리즘, 하드웨어 최적화, 워크로드 특화 스케줄링과 같은 추가적인 최적화를 통해 효율성을 더욱 높일 수 있습니다. 이러한 최적화는 대규모 언어 모델 추론의 실용적 적용 가능성을 한층 강화할 것입니다.

Q : TetriInfer의 설계와 결과가 최신 하드웨어(A100, H100) 및 클라우드 기반 환경(Google Cloud TPU, AWS Inferentia)에서 동일한 성능 이점을 제공할 수 있을까? 하드웨어나 네트워크 환경에 따라 어떤 변형이 필요할까?

TetriInfer의 설계와 최신 하드웨어 및 클라우드 기반 환경에서의 성능 이점

TetriInfer는 NVIDIA V100 GPU 기반 환경에서 설계되고 테스트되었으며, 최신 하드웨어(A100, H100) 및 클라우드 기반 환경에서 성능 이점을 제공할 가능성이 높습니다. 그러나 일부 설계 요소는 최신 하드웨어 및 네트워크 환경의 특성에 맞게 조정이 필요합니다.


1. 최신 하드웨어 환경에서의 성능 이점 가능성

1.1 A100 및 H100 GPU

1.2 최신 하드웨어에서의 추가 가능성


2. 클라우드 기반 환경에서의 성능 이점 가능성

2.1 Google Cloud TPU

2.2 AWS Inferentia


3. 하드웨어 및 네트워크 환경에 따른 변형

3.1 KV 캐시 전송 최적화

3.2 동적 청킹(Dynamic Chunking)

3.3 디코드 요청 스케줄링 최적화

3.4 메모리 사용 최적화


결론: 최신 환경에서의 TetriInfer 성능 전망

동일한 성능 이점 가능성

필요한 변형

미래 연구 방향

라이선스

저작자: Jaehun Ryu

링크: https://jaehun.me/posts/inference-without-interference-disaggregate-llm-inference-for-mixed-downstream-workloads/

라이선스: CC BY 4.0

이 저작물은 크리에이티브 커먼즈 저작자표시 4.0 국제 라이선스에 따라 이용할 수 있습니다. 출처를 밝히면 상업적 목적을 포함해 자유롭게 이용 가능합니다.

댓글

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키