With-Gpt

'With-Gpt' 카테고리의 모든 글

총 370개의 글

시간순 정렬

[논문 리뷰] Attention Sinks and Compression Valleys in LLMs are Two Sides of the Same Coin

논문 링크 Massive Activations가 만든 하나의 서사: Attention Sink 와 Compression Valley 를 잇다 TL;DR 잔차 스트림의 massive activations(특히 BOS) …

2025년 10월 23일

34 분

2510.06477v1 Massive Activations Attention Sink Compression Valley Residual Stream Representation Geometry Anisotropy Information Bottleneck Mix–Compress–Refine MLP Ablation Layerwise Analysis LLaMA3 Qwen2 Pythia LogitLens TunedLens LLM Internals Activation Dynamics Paper Review

[논문 리뷰] Hardware-Efficient Attention for Fast Decoding

논문 링크 GTA & GLA: 디코딩의 ‘메모리-지배’를 깨는 하드웨어 효율 어텐션 TL;DR GTA(키·값 타이잉)와 GLA(잠재 헤드 샤딩) 으로 FLOPs/byte를 끌어올리고 per-GPU KV 캐시를 줄여, …

2025년 10월 23일

33 분

2505.21487v1 Attention Optimization Arithmetic Intensity Inference Acceleration GPU Memory Bottleneck Grouped-Tied Attention (GTA) Grouped-Latent Attention (GLA) FlashMLA KV-Cache Optimization Tensor Parallelism Long-Context Decoding

[논문리뷰]Towards Efficient and Practical GPU Multitasking in the Era of LLM

논문 링크 “GPU에 OS를 입히자”: LLM 시대를 위한 GPU 멀티태스킹 OS 레이어 의 제안 한 줄 요약 (TL;DR) LLM 서빙에서 GPU는 종종 ≤10%대 활용 에 머무르고(현장 관찰), 부하는 수분 단위 3× 로 요동한다. 저자는 커널-그 …

2025년 10월 09일

39 분

2508.08448v1 GPU-OS Multitasking CUDA Virtual Memory GPU Scheduling Multi-Tenancy Kernel-Level Sharing Memory Multiplexing Guaranteed & Preemptible Utility Scheduling Kubernetes DRA NCCL Virtualization LLM Inference System Design Resource Isolation

[논문리뷰] Marconi: Prefix Caching for the Era of Hybrid LLMs

논문 링크 Marconi: 하이브리드 LLM 시대의 프리픽스 캐싱을 다시 설계하다 한 줄 요약 (TL;DR) Marconi는 하이브리드 LLM(Attention+SSM) 서빙에서 재사용 가능성이 높은 접두만 선별 입장(admission) 하고, …

2025년 10월 08일

39 분

2411.19379v3 Marconi Hybrid LLM Prefix Caching Inference Optimization FLOP-aware Scheduling SSM vLLM Serving Efficiency

[논문리뷰] SGLang: Efficient Execution of Structured Language Model Programs

논문 링크 SGLang & RadixAttention: “LM 프로그램” 시대의 실행 최적화, 어떻게 6.4× 빨라졌나 TL;DR 언어–런타임 공동 설계(co-design) 위에 RadixAttention(라딕스 트리 기반 KV 캐시+스케줄 …

2025년 10월 03일

41 분

SGLang RadixAttention KV 캐시 LLM Inference 프로그래밍 언어와 런타임 Constrained Decoding Speculative Execution Distributed Inference Prompt Optimization 멀티모달

[논문리뷰] Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality

논문 링크 Structured State Space Duality: Mamba-2로 본 SSM↔Attention 통일과 2–8× 가속 한 줄 요약 (TL;DR) SSD(Structured State-Space Duality) 는 SSM과 마스킹 어텐션 …

2025년 10월 03일

42 분

Mamba Mamba-2 Structured State Space Duality SSD State Space Models SSM Transformer Attention Mechanism Long Context Efficient Training FlashAttention Sequence Modeling Scaling Laws Parallelism GPU Acceleration 2405.21060v1

[논문리뷰] Inference-Time Hyper-Scaling with KV Cache Compression

논문 링크 Dynamic Memory Sparsification(DMS): KV 캐시 8× 압축으로 LLM 하이퍼-스케일링을 현실로 한 줄 요약 (TL;DR) 1 K 스텝만의 경량 재적합과 지연 퇴출 전략을 결합한 DMS는 KV 캐시를 최대 8× 압축 …

2025년 07월 29일

26 분

2506.05345v1

[논문리뷰] Llama-Nemotron: Efficient Reasoning Models

논문 링크 Hydragen: 공유 프리픽스가 있는 대규모 배치를 32 × 빠르게 디코딩하는 비밀 병기 한 줄 요약 (TL;DR) Softmax 분모 재스케일링으로 프리픽스-서픽스를 분해해 Code-Llama-13 B 기준 vLLM보다 최대 32배 빠르 …

2025년 07월 29일

26 분

2505.00949v4 Hydragen Prefix Caching Shared Prefix Decoding Efficient Inference Softmax Decomposition LLM Serving Attention Optimization FlashAttention vLLM Batch Inference Matrix-Matrix GEMM TensorCore Optimization

[논문리뷰] KIMI K2: OPEN AGENTIC INTELLIGENCE

논문 링크 Kimi K2: 오픈소스 LLM이 에이전트 지능을 향해 내딛은 한 걸음 TL;DR MuonClip 프리트레인 + 대규모 에이전틱 툴 데이터 + Verifiable‑RL 정렬의 3‑단계 파이프라인으로, Kimi K2는 τ²‑Bench …

2025년 07월 26일

28 분

KimiK2 MuonClip tool-use self-critique-RL agentic-llm long-context MoE-models open-source-LLM Tau2-bench SWE-bench

[논문리뷰] Qwen3 Technical Report

논문 링크 Qwen 3: 생각량을 조절하는 거대 MoE 언어모델의 진화 한 줄 요약 (TL;DR) Qwen 3는 “얼마나 깊게 생각할지”를 토큰 수치로 직접 제어할 수 있는 Thinking Budget과 128-전문가 MoE 설계를 결합해, 활성 파라 …

2025년 07월 26일

26 분

Qwen3 Mixture-of-Experts LongContext ThinkingBudget MultilingualModel ChainOfThought BenchmarkEvaluation OpenSourceModel

[논문리뷰] Massive Activations in Large Language Models

논문 링크 Massive Activations, Hidden Biases: 재해석된 Self-Attention의 비밀 한 줄 요약 (TL;DR) 수천만 개 중 4–10 개의 초거대 스칼라(×10 000) 가 LLM · ViT의 성능을 사실상 ‘혼자서’ …

2025년 07월 09일

24 분

2402.17762v2 Transformer SelfAttention BiasMechanism RepresentationLearning Interpretability NeuralMechanisms Massive Activations Explicit Attention Bias

[논문리뷰] Peri-LN: Revisiting Normalization Layer in the Transformer Architecture

논문 링크 Peri-LayerNorm: Post-LN와 Pre-LN을 넘어서는 세 번째 선택지 한 줄 요약 (TL;DR) Residual 직후에 LayerNorm을 한 번 더 넣는 “Peri-LayerNorm(Peri-LN)” 구조만으로 — 400 …

2025년 07월 09일

24 분

2502.02732v3 LayerNorm Transformer Architecture Training Stability Large Language Models FP16 Training Empirical Evaluation Gradient Explosion Benchmark Evaluation

[논문리뷰] SageAttention3: Microscaling FP4 Attention for Inference and An Exploration of 8-bit Training

논문 링크 SageAttention 3 & SageBwd — FP4로 달리고 8-bit로 학습한다 📝 한 줄 요약 (TL;DR) Blackwell 세대 GPU의 FP4 Tensor Core를 100 % 활용하도록 설계된 SageAttention …

2025년 07월 09일

26 분

2505.11594v1 LowPrecision FP4 INT8Training EfficientAttention SageAttention TransformerOptimization BlackwellGPU Quantization InferenceAcceleration TrainingEfficiency CUDA Triton

[논문리뷰] Helix Parallelism: Rethinking Sharding Strategies for Interactive Multi-Million-Token LLM Decoding

논문 링크 Helix Parallelism: 초장기 LLM 디코딩의 지연-처리량 벽을 깨다 한 줄 요약 (TL;DR) Helix Parallelism은 Attention과 FFN을 서로 다른 병렬화 전략으로 스케줄링해 KV 캐시 중복과 FFN 가중치 …

2025년 07월 08일

31 분

2505.09343v1 Helix Parallelism Tensor Parallelism KV Parallelism Mixture of Experts Grouped Query Attention (GQA) FlashAttention Parallelism for LLMs System-Aware ML Efficient Transformer Inference Serving LLMs at Scale Long Context Inference

DeepSeek-Prover-V2: Advancing Formal Mathematical Reasoning via Reinforcement Learning for Subgoal Decomposition

논문 링크 Subgoal Curriculum + CoT Consistency: DeepSeek-Prover-V2가 자동 정리 증명의 판을 갈아엎다 TL;DR DeepSeek-Prover-V2는 **“문제를 잘게 쪼개고, 쪼갠 대로 끝까지 맞춘다”** …

2025년 07월 08일

23 분

2504.21801v1 formal-theorem-proving automated-reasoning math-llm chain-of-thought proof-verification formal-mathematics DeepSeek

Inference-Time Scaling for Generalist Reward Modeling

논문 링크 Inference-Time Scaling: DeepSeek-GRM이 초대형 모델을 넘어선 비결 한 줄 요약 (TL;DR) “27 B 모델 × 32배 샘플”—Generative Reward Model(GRM)과 k-Vote …

2025년 07월 08일

22 분

2504.02495v2 Reward Modeling Generative Reward Model LLM Evaluation Preference Modeling Reinforcement Learning from Human Feedback (RLHF) DeepSeek

Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures

논문 링크 DeepSeek-V3: 2 048 대 H800으로 405 B-급 LLM을 돌린다는 것의 의미 TL;DR ― 한 줄 요약 Multi-Head Latent Attention (MLA) + FP8 MoE + Dual-Pipe + 2-계층 MPFT …

2025년 07월 08일

26 분

2505.09343v1 Large Language Models Mixture of Experts FP8 Training Transformer Optimization Memory Efficiency Distributed Training Inference Acceleration DeepSeek

Code I/O: Condensing Reasoning Patterns via Code Input-Output Prediction

논문 링크 CODE I/O: 코드 입·출력 + 자연어 CoT로 범용 추론까지 — 데이터 설계만으로 7B-30B LLM을 평균 +2 점 끌어올리다 TL;DR “코드 함수 → 입력·출력 예측 + 체계적 Chain-of-Thought(CoT)”라는 단일 데 …

2025년 07월 07일

31 분

2502.07316v4 DeepSeek LLM Code Reasoning Chain-of-Thought I/O Prediction Execution Feedback Data-Centric AI Instruction Tuning Transformer Long Context

Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention

논문 링크 Native Sparse Attention (NSA) — 64 k 토큰도 11× 빠르게, 정확도는 그대로 한 줄 요약 (TL;DR) NSA는 ‘압축 → 선택 → 슬라이딩’ 3 분기 희소 어텐션과 GQA/MQA-친화 커널을 결합해 64 k 컨 …

2025년 07월 07일

31 분

2502.11089v2 Sparse Attention Long Context Transformer Optimization Efficient LLM GPU Acceleration FlashAttention Memory Efficiency Inference Speedup Trainable Sparsity Triton Kernel Deep Learning Language Models DeepSeek

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

논문 링크 DeepSeek-R1: 공개 RL-Only 파이프라인으로 o1 급 추론을 재현하다 TL;DR** DeepSeek-R1은 critic-less GRPO RL + 소량 Cold-Start SFT + 다단계 RL/SFT + 지식 증류 파이프라인으 …

2025년 07월 06일

30 분

2501.12948v1 DeepSeek Large Language Models Reinforcement Learning GRPO Math Reasoning Knowledge Distillation Causal LM Open Source Models Self-Evolution SOTA Benchmarking

Janus-Pro: UnifiedMultimodalUnderstanding and Generation with Data and Model Scaling

논문 링크 Janus-Pro 7B: Dual-Encoder Multimodal LLM That Outsmarts Bigger Models 한 줄 요약 (TL;DR) SigLIP 이해 인코더 + VQ 생성 인코더를 완전히 분리한 뒤 7 B …

2025년 07월 06일

31 분

DeepSeek 2501.17811v1 Janus-Pro Dual-Encoder Multimodal Learning Vision-Language Models Text-to-Image Image Understanding Large Language Models Adapter Networks Visual Tokenization GenEval MMBench DPG-Bench DeepSeek-LLM Efficient Training Synthetic Data

셀프 로드 자전거 정비 가이드

안녕하세요! 오랜만에 일상글을 작성해보네요 오늘은 출퇴근 및 라이딩에 사용하고 있는 제 자전거(첼로 스칼라티 D7)를 집에서 셀프 정비하기 위한 가이드를 만들었는데 공유해봅니다.

2025년 07월 06일

7 분

첼로 스칼라티 로드자전거 자가정비 홈미캐닉 시마노105

DeepSeek-V3 Technical Report

논문 링크 한 줄 요약 (TL;DR) DeepSeek-V3는 671 B-parameter MoE LLM에 Aux-loss-free Load-Balancing Bias + FP8 혼정밀 훈련 + Multi-Token Prediction을 결합해, …

2025년 07월 05일

35 분

2412.19437v2 MoE FP8 Open-source LLM Model Efficiency DeepSeek CausalLM AI Research

DeepSeek-VL2: Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding

논문 링크 DeepSeek-VL2 — “작고 빠르면서 고해상도까지 정확한” 멀티모달 LLM 한 줄 요약 (TL;DR) Dynamic Tiling × MLA-MoE × 800 B VL 데이터라는 세 축의 설계로, 4.5 B …

2025년 07월 05일

31 분

2412.10302v1 DeepSeek Multimodal Learning Vision-Language Models High-Resolution Image Processing Dynamic Tiling Mixture of Experts (MoE) KV-Cache Compression Multi-head Latent Attention (MLA) Visual Grounding OCR Parameter Efficiency LLM Inference Optimization Edge AI Open Source Models Document Understanding Infographic QA Chart and Table QA Visual Reasoning Multilingual VQA Conversational AI with Images

Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation

논문 링크 📝 Janus: 두 얼굴의 인코더로 멀티모달 이해 + 생성의 딜레마를 깬 1.3 B 모델 한 줄 요약 (TL;DR) Janus는 멀티모달 이해와 이미지 생성에 요구되는 서로 다른 표현 ― 고차원 semantic vs. 저차원 texture …

2025년 07월 02일

30 분

2410.13848v1 Multimodal Learning Vision-Language Model Dual Encoder Image Generation Unified Transformer VLM Janus

JanusFlow: Harmonizing Autoregression and Rectified Flow for Unified Multimodal Understanding and Generation

논문 링크 한 줄 요약 (TL;DR) JanusFlow는 Rectified Flow + 분리형 비전 인코더 + 표현 정렬로 1.3 B 파라미터 단일 모델만으로 이미지 이해·생성 양쪽에서 동급 최고 성능(FID 9.51 / GenEval 0.63 / …

2025년 07월 02일

26 분

2411.07975v2 Multimodal AI Vision-Language Model Rectified Flow Image Generation Representation Alignment Unified Model FID SigLIP ConvNeXt

Auxiliary-Loss-Free Load Balancing Strategy for Mixture-of-Experts

논문 링크 한 줄 요약 (TL;DR) Loss-Free Balancing(LFB)은 auxiliary loss를 완전히 제거한 채, 전문가별 bias 한 줄 업데이트만으로 Mixture-of-Experts(MoE) 모델의 ‘로드 밸런스 ↔ 성능’ 딜레 …

2025년 07월 01일

28 분

2408.15664v1 DeepSeek Mixture-of-Experts Load Balancing Loss-Free Learning DeepSeek-MoE Routing Transformer MaxVio

DeepSeek-Prover-V1.5: Harnessing Proof Assistant Feedback for Reinforcement Learning and Monte-Carlo Tree Search

논문 링크 한 줄 요약 (TL;DR) “끊어 쓰고(Truncate-and-Resume) 탐험하며(내재 보상 MCTS) Lean 4 증명을 찾자” – DeepSeek-Prover-V1.5는 7 B 모델로 miniF2F 63.5 % / *ProofNet …

2025년 07월 01일

29 분

2408.08152v1 FormalProof AutomatedTheoremProving Lean4 LLMforProof ProofSearch WholeProof MCTS RMaxTS IntrinsicReward TruncateAndResume MathReasoning AI4Math LanguageModel ReinforcementLearning DeepSeekProver

Fire-Flyer AI-HPC: A Cost-Effective Software-Hardware Co-Design for Deep Learning

논문 링크 한 줄 요약 (TL;DR) Fire-Flyer 2는 1만 대의 PCIe A100 GPU를 HFReduce·HaiScale 스택으로 묶어 DGX-A100의 80 %대 성능을 장비·전력 40 % 절감으로 달성한 ‘가성비형 초대규모 LLM 훈련 …

2025년 07월 01일

27 분

2408.14158v2 Distributed Training PCIe GPU Cluster All-Reduce, HFReduce Communication Optimization Cost Efficiency Power Efficiency PyTorch Large Language Models System Architecture

DeepSeek-Coder-V2: Breaking the Barrier of Closed-Source Models in Code Intelligence

논문 링크 DeepSeek-Coder-V2: 오픈소스 코드-LLM이 GPT-4 급으로 뛰어오른 순간 한 줄 요약 (TL;DR) 236 B 파라미터 MoE + 10.2 T 토큰 + YaRN 128 K 컨텍스트 만으로, **HumanEval 90.2 …

2025년 06월 30일

30 분

2406.11931v1 Code LLM Mixture of Experts Open Source Transformer Long Context HumanEval Math Reasoning GPT-4 Alternative Model Scaling YaRN FIM (Fill In Middle) Instruction Tuning RLHF Language Modeling

DeepSeek-Coder: When the Large Language Model Meets Programming -- The Rise of Code Intelligence

논문 링크 DeepSeek-Coder: GPT-3.5 Turbo를 추월한 최초의 오픈소스 코드 LLM AI 실무자가 꿈꿔 온 **“상용 수준을 넘어서는 공개 코드 모델”**이 마침내 등장했다. DeepSeek-Coder는 레포지터리 전역 의존성 학습, …

2025년 06월 30일

28 분

2401.14196v2 Code LLM Code Completion Fill-in-the-Middle Cross-File Code Generation Software Engineering AI

Let the Expert Stick to His Last: Expert-Specialized Fine-Tuning for Sparse Architectural Large Language Models

논문 링크 한 줄 요약 (TL;DR) ESFT (Expert-Specialized Fine-Tuning)은 MoE LLM의 상위 5 ~ 15 % 전문가만 선택적으로 학습해 파라미터·스토리지 90 % 절감과 FFT급 성능을 동시에 달성한, _Sparse …

2025년 06월 30일

26 분

2407.01906v2 ESFT MoE SparseLLM ParameterEfficientTuning ExpertSelection DeepSeekV2

DeepSeek LLM: Scaling Open-Source Language Models with Longtermism

논문 링크 한 줄 요약 (TL;DR) FLOPs / token로 재정의한 DeepSeek Scaling Law 하나로 모델·데이터·하이퍼파라미터를 자동 결정하여, 2 T token만으로 67 B 파라미터 모델이 LLaMA-2 70 B를 코드·수학·대 …

2025년 06월 29일

25 분

2401.02954v1 LLM DeepSeek

DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models

논문 링크 DeepSeekMoE 정리 – Dense 성능을 40 % FLOPs로 끌어낸 ‘세분화-전문가’ 트릭 한 줄 요약 (TL;DR) Fine-Grained Expert Segmentation (FGES) + Shared Experts (SEI) …

2025년 06월 29일

36 분

2401.06066v1

DreamCraft3D: Hierarchical 3D Generation with Bootstrapped Diffusion Prior

논문 링크 📝 한 줄 요약 (TL;DR) DreamCraft3D는 2-스테이지 3D 생성 파이프라인과 *Bootstrapped Score Distillation(BSD)*라는 비밀 병기를 결합해, 단 한 장의 2D 이미지(또는 텍스트 프롬프트) …

2025년 06월 29일

28 분

2310.16818v2 DreamCraft3D BSD Hybrid-SDS

An Empirical Study of Qwen3 Quantization

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 ✅ 결론 요약 Qwen3 …

2025년 05월 12일

15 분

Gemini Embedding: Generalizable Embeddings from Gemini

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 ✅ 결론 요약 Gemini Embedding은 Google …

2025년 05월 12일

17 분

Gemma 3 Technical Report

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 ✅ 결론 요약 Gemma 3는 장문 컨텍스트( …

2025년 05월 12일

15 분

MELODI: Exploring Memory Compression for Long Contexts

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 📌 결론 요약 논문 “MELODI: …

2025년 05월 12일

24 분

Seesaw: High-throughput LLM Inference via Model Re-sharding

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 📌 결론 요약 논문 ‘Seesaw: …

2025년 05월 12일

18 분

Seedream 2.0: A Native Chinese-English Bilingual Image Generation Foundation Model

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 ✅ 결론 요약 (핵심 강점 및 독창성) Seedream …

2025년 04월 16일

15 분

Toward Efficient Inference for Mixture of Experts

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 ✅ 결론 요약 (핵심 기여) …

2025년 04월 16일

12 분

Comet: Fine-grained Computation-communication Overlapping for Mixture-of-Experts

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문 **“Comet: Fine-grained …

2025년 04월 14일

23 분

MegaScale-Infer: Serving Mixture-of-Experts at Scale with Disaggregated Expert Parallelism

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 📌 결론 요약 (핵심 기여 및 성능) …

2025년 04월 14일

21 분

SwitchHead: Accelerating Transformers with Mixture-of-Experts Attention

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문 「SwitchHead: Accelerating …

2025년 04월 14일

23 분

Duplex: A Device for Large Language Models with Mixture of Experts, Grouped Query Attention, and Continuous Batching

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 📌 결론 요약 논문 *“Duplex: A …

2025년 04월 13일

22 분

Mirage: A Multi-Level Superoptimizer for Tensor Programs

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문 『Mirage: A Multi-Level …

2025년 04월 13일

30 분

MoEUT: Mixture-of-Experts Universal Transformers

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 ✅ 결론 요약 (핵심 강점, 독창성, 핵심 메커니즘) …

2025년 04월 13일

23 분

FLEX ATTENTION: A PROGRAMMING MODEL FOR GENERATING OPTIMIZED ATTENTION KERNELS

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 📌 논문 요약 및 분석 (FlexAttention: A …

2025년 04월 07일

28 분

Inference-Time Scaling for Generalist Reward Modeling

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문을 자세히 읽고 분석하여 강점, 독창적인 지점, 핵심 …

2025년 04월 07일

26 분

LeanAttention: Hardware-Aware Scalable Attention Mechanism for the Decode-Phase of Transformers

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문 『LeanAttention: …

2025년 04월 07일

26 분

MegaScale-Infer: Serving Mixture-of-Experts at Scale with Disaggregated Expert Parallelism

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 📌 …

2025년 04월 07일

24 분

AIOpsLab: A Holistic Framework to Evaluate AI Agents for Enabling Autonomous Clouds

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문 『AIOpsLab: A Holistic …

2025년 04월 02일

15 분

SparseTransX: Efficient Training of Translation-Based Knowledge Graph Embeddings Using Sparse Matrix Operations

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문 『SparseTransX: Efficient …

2025년 04월 02일

15 분

Context Parallelism for Scalable Million-Token Inference

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문 『Context Parallelism for …

2025년 03월 31일

18 분

NEO: Saving GPU Memory Crisis with CPU Offloading for Online LLM Inference

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 📌 논문 제목: NEO: Saving GPU Memory …

2025년 03월 31일

25 분

PipeFill: Using GPUs During Bubbles in Pipeline-parallel LLM Training

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문『PipeFill: Using GPUs During …

2025년 03월 25일

25 분

SELF-DATA DISTILLATION FOR RECOVERING QUALITY IN PRUNED LARGE LANGUAGE MODELS

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 핵심을 정리하여 결론부터 간략히 제시한 후, 구체적 …

2025년 03월 25일

21 분

On Distributed Larger-Than-Memory Subset Selection With Pairwise Submodular Functions

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 ✅ 결론 요약 이 논문은 “메모리 용량을 초과하 …

2025년 03월 24일

22 분

SampleAttention: Near-Lossless Acceleration of Long Context LLM Inference with Adaptive Structured Sparse Attention

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 ✅ 결론 요약 SampleAttention은 기존 LLM …

2025년 03월 24일

12 분

TRAINING ULTRA LONG CONTEXT LANGUAGE MODEL WITH FULLY PIPELINED DISTRIBUTED TRANSFORMER

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 ✅ 결론 요약 이 논문은 초장문(long-context) …

2025년 03월 24일

19 분

QServe: W4A8KV4 Quantization and System Co-design for Efficient LLM Serving

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 강점과 독창적인 지점 1. 강점 저비트 정량 …

2025년 03월 18일

29 분

Venn: Resource Management Across Federated Learning Jobs

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 강점과 독창적인 지점 이 논문은 연합 학 …

2025년 03월 18일

16 분

AI Metropolis: Scaling Large Language Model-based Multi-Agent Simulation with Out-of-order Execution

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문『AI Metropolis: Scaling Large …

2025년 03월 17일

19 분

Balancing Pipeline Parallelism with Vocabulary Parallelism

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 핵심 내용을 요약하면 다음과 같습니다.

2025년 03월 17일

35 분

DIFFSERVE: EFFICIENTLY SERVING TEXT-TO-IMAGE DIFFUSION MODELS WITH QUERY-AWARE MODEL SCALING

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 핵심 요약 및 기여 DIFFSERVE …

2025년 03월 17일

31 분

EFFICIENT LLM INFERENCE USING DYNAMIC INPUT PRUNING AND CACHE-AWARE MASKING

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 핵심 내용과 독창적인 기여 이 논문은 대형 언어 모 …

2025년 03월 12일

37 분

Marconi: Prefix Caching for the Era of Hybrid LLMs

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 핵심 요약 및 평가 논문 제목: Marconi: …

2025년 03월 12일

37 분

LAVA: LIFETIME-AWARE VM ALLOCATION WITH LEARNED DISTRIBUTIONS AND ADAPTATION TO MISPREDICTIONS

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 강점과 독창성 강점 기존 VM 스케줄링 방식보다 높 …

2025년 03월 11일

39 분

TurboAttention: Efficient Attention Approximation for High Throughputs LLMs

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문 『TurboAttention: Efficient …

2025년 03월 11일

35 분

A PRACTICAL CROSS-LAYER APPROACH FOR ML-DRIVEN STORAGE PLACEMENT IN WAREHOUSE-SCALE COMPUTERS

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 강점 및 독창적인 지점 이 논문은 대규모 데이터 센 …

2025년 03월 10일

36 분

Comet: Fine-grained Computation-communication Overlapping for Mixture-of-Experts

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 핵심 요약 및 기여점 이 논문은 Comet이라는 새 …

2025년 03월 10일

35 분

Scaling Deep Learning Training with MPMD Pipeline Parallelism

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 본 논문은 JaxPP라는 시스템을 제안하여, …

2025년 03월 10일

28 분

LSERVE: EFFICIENT LONG-SEQUENCE LLM SERVING WITH UNIFIED SPARSE ATTENTION

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 핵심 내용을 먼저 간략히 요약한 후, 강점과 독창적 …

2025년 03월 06일

29 분

ThunderServe: High-performance and Cost-efficient LLM Serving in Cloud Environments

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문 『ThunderServe: …

2025년 03월 06일

24 분

VOLUT: EFFICIENT VOLUMETRIC STREAMING ENHANCED BY LUT-BASED SUPER-RESOLUTION

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문 『VoLUT: Efficient Volumetric …

2025년 03월 06일

27 분

Bridging the Safety Gap: A Guardrail Pipeline for Trustworthy LLM Inferences

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 핵심 요약 및 기여점 논문 제목: Bridging …

2025년 03월 04일

19 분

Forget the Data and Fine-Tuning! Just Fold the Network to Compress

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 핵심 내용 요약 및 강점 이 논문은 Model …

2025년 03월 04일

33 분

Dynamic Diffusion Transformer

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 핵심 요약 이 논문은 **Dynamic …

2025년 02월 25일

36 분

HEXGEN-2: DISAGGREGATED GENERATIVE INFERENCE OF LLMS IN HETEROGENEOUS ENVIRONMENT

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 핵심 요약 및 기여점 이 논문은 HEXGEN-2 …

2025년 02월 25일

39 분

Speculate, then Collaborate: Fusing Knowledge of Language Models during Decoding

논문 링크 Q : …

2025년 02월 25일

38 분

You OnlyPruneOnce: DESIGNING CALIBRATION-FREE MODEL COMPRESSION WITH POLICY LEARNING

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 핵심 요약 이 논문은 PruneNet이라는 새로운 …

2025년 02월 25일

36 분

FlashMask: Efficient and Rich Mask Extension of FlashAttention

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 핵심 요약 논문 **“FLASHMASK: …

2025년 02월 24일

37 분

TypedThinker: Typed Thinking Improves Large Language Model Reasoning

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 강점과 독창적인 지점 1. …

2025년 02월 24일

41 분

LASP-2: Rethinking Sequence Parallelism for Linear Attention and Its Hybrid

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 강점 및 독창적인 지점 1. 기존 Sequence …

2025년 02월 17일

26 분

BitsAI-CR: Automated Code Review via LLM in Practice

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 주요 강점과 독창적인 지점

2025년 02월 13일

36 분

Robust and Secure Code Watermarking for Large Language Models via ML/Crypto Codesign

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 핵심 요약

2025년 02월 13일

35 분

SmolLM2: When Smol Goes Big Data-Centric Training of a Small Language Mode

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문 요약 및 분석: SmolLM2 - When Smol …

2025년 02월 13일

38 분

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 강점과 독창성 1. 순수 강화학습 기반 모델 개발: …

2025년 02월 12일

36 분

DeepSeek-VL2: Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문 개요 및 강점 논문 제목: DeepSeek-VL2: …

2025년 02월 12일

39 분

Humanity's Last Exam

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 강점 및 독창적인 지점 문제 인식 및 대응: 이 논 …

2025년 02월 12일

16 분

Qwen2.5-1M Technical Report

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 개요 및 강점 Qwen2.5-1M은 Alibaba …

2025년 02월 12일

34 분

DeepSeek-Coder-V2: Breaking the Barrier of Closed-Source Models in Code Intelligence

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 개요 및 강점 논문 제목: …

2025년 02월 11일

39 분

JanusFlow: Harmonizing Autoregression and Rectified Flow for Unified Multimodal Understanding and Generation

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 JanusFlow 논문의 분석

2025년 02월 11일

37 분

Qwen2-VL: Enhancing Vision-Language Model’s Perception of the World at AnyResolution

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 강점과 독창적인 지점

2025년 02월 11일

41 분

DeepSeek-Prover-V1.5: Harnessing Proof Assistant Feedback for Reinforcement Learning and Monte-Carlo Tree Search

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 강점 및 독창성 강화 학습과 증명 보조기 피드백의 …

2025년 02월 10일

43 분

Let the Expert Stick to His Last: Expert-Specialized Fine-Tuning for Sparse Architectural Large Language Models

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 강점 및 독창성 논문 제목: Let the …

2025년 02월 10일

37 분

Qwen2 Technical Report

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 주요 강점 및 독창성 모델 성능 향상: Qwen2 …

2025년 02월 10일

66 분

DeepSeek-Prover: Advancing Theorem Proving in LLMs through Large-Scale Synthetic Data

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 강점 및 독창적인 지점

2025년 02월 09일

39 분

DeepSeek-VL: Towards Real-World Vision-Language Understanding

2025년 02월 09일

40 분

How to Train Data-Efficient LLMs

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문 개요: “How to Train …

2025년 02월 09일

39 분

DeepSeek-Coder: When the Large Language Model Meets Programming - The Rise of Code Intelligence

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문 요약: “DeepSeek-Coder: When the …

2025년 02월 07일

37 분

DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 개요 및 강점

2025년 02월 07일

38 분

DeepSeek LLM: Scaling Open-Source Language Models with Longtermism

논문 링크 Q : …

2025년 02월 05일

36 분

DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 강점과 독창적인 지점 핵심 기여:

2025년 02월 05일

39 분

Qwen-Audio: Advancing Universal Audio Understanding via Unified Large-Scale Audio-Language Models

논문 링크 Q : …

2025년 02월 05일

38 분

Qwen Technical Report

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 강점 및 독창적인 지점 강점 요약:

2025년 02월 04일

41 분

Qwen-VL: AVersatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 핵심 요약 및 평가 1. 논문의 강점과 독창적인 지 …

2025년 02월 04일

34 분

Janus:DecouplingVisualEncoding for Unified Multimodal Understanding and Generation

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문 요약 및 분석: Janus - Decoupling …

2025년 02월 03일

40 분

A Hardware Evaluation Framework for Large Language Model Inference

논문 링크 Q : …

2025년 01월 21일

25 분

Compressed Context Memory For Online Language Model Interaction

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 강점과 독창적인 지점 압축된 컨텍스트 메모 …

2025년 01월 21일

28 분

DeepSeek-V3 Technical Report

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 강점과 독창적인 지점, 핵심 알고리즘 및 한계점을 …

2025년 01월 21일

29 분

Fast State Restoration in LLM Serving with HCache

논문 링크 Q : …

2025년 01월 21일

29 분

Qwen2.5 Technical Report

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 강점 및 독창적인 지점 강점:

2025년 01월 21일

34 분

AIOS: LLM Agent Operating System

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 강점과 독창적인 지점 AIOS 시스템의 혁신성: …

2025년 01월 20일

41 분

DynamicKV: Task-Aware Adaptive KV Cache Compression for Long Context LLMs

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 강점과 독창적인 지점 적응형 KV …

2025년 01월 20일

23 분

SeerAttention: Learning Intrinsic Sparse Attention in Your LLMs

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 강점과 독창적인 지점 학습 기반의 Attention …

2025년 01월 20일

29 분

TAIPAN: EFFICIENT AND EXPRESSIVE STATE SPACE LANGUAGE MODELS WITH SELECTIVE ATTENTION

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문 요약 이 논문은 Taipan이라는 새로운 하이브리드 …

2025년 01월 20일

34 분

TokenRing: An Efficient Parallelism Framework for Infinite-Context LLMs via Bidirectional Communication

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 강점 및 독창성 강점:

2025년 01월 20일

21 분

SANA: EFFICIENT HIGH-RESOLUTION IMAGE SYN THESIS WITH LINEAR DIFFUSION TRANSFORMERS

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 강점, 독창적 지점, 그리고 핵심 내용 강점:

2025년 01월 15일

25 분

Block Transformer: Global-to-Local Language Modeling for Fast Inference

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 강점과 독창적 지점 강점:

2025년 01월 15일

29 분

FLAME: Factuality-Aware Alignment for Large Language Models

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 강점, 독창성, 핵심 알고리즘 설명, …

2025년 01월 15일

24 분

MobiLlama: Towards Accurate and Lightweight Fully Transparent GPT

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문 요약 및 분석 MobiLlama: Towards …

2025년 01월 15일

22 분

Rethinking Optimization and Architecture for Tiny Language Models

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 요약 및 강점 논문 “Rethinking …

2025년 01월 15일

22 분

Cascade Speculative Drafting for Even Faster LLM Inference

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 결론 요약 논문 **“Cascade …

2025년 01월 02일

22 분

Distributed Inference and Fine-tuning of Large Language Models Over The Internet

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 강점과 독창적인 지점 독창적인 분산 시스템 설계:

2025년 01월 02일

22 분

EE-LLM: Large-Scale Training and Inference of Early-Exit Large Language Models with 3D Parallelism

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 주요 강점과 독창성 효율적인 대규모 LLM …

2025년 01월 02일

21 분

Gated Linear Attention Transformers with Hardware-Efficient Training

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 결론 요약 이 논문은 **Gated Linear …

2025년 01월 02일

28 분

LLM in a flash : Efficient Large Language Model Inference with Limited Memory

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 주요 내용 및 독창성 이 논문은 **대용량 언어 모 …

2025년 01월 02일

24 분

Agile-Quant: Activation-Guided Quantization for Faster Inference of LLMs on the Edge

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 강점, 독창성, 핵심 알고리즘, …

2024년 12월 31일

23 분

Improving alignment of dialogue agents via targeted human judgements

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 강점과 독창적인 지점 강점:

2024년 12월 31일

26 분

Language Models are General-Purpose Interfaces

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 강점 및 독창적인 지점 일반 목적 인터페이스 모 …

2024년 12월 31일

23 분

OPT: Open Pre-trained Transformer Language Models

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 강점과 독창적인 지점 논문 “OPT: …

2024년 12월 31일

25 분

SparQ Attention: Bandwidth-Efficient LLM Inference

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문 요약 및 강점, 독창성, …

2024년 12월 31일

21 분

CBQ: Cross-Block Quantization for Large Language Models

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 결론 및 주요 결과 논문 *“CBQ: …

2024년 12월 30일

23 분

SCCA: Shifted Cross Chunk Attention for long contextual semantic expansion

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 강점 및 독창적인 지점 이 논문은 **Shifted …

2024년 12월 30일

22 분

GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 강점과 독창적인 지점 메모리 효율성: GaLore …

2024년 12월 26일

22 분

Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 주요 강점 및 독창성 초대형 컨텍스트 처리:

2024년 12월 26일

28 분

Gemma: Open Models Based on Gemini Research and Technology

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 요약 논문은 Google DeepMind …

2024년 12월 26일

24 분

LayerSkip: Enabling Early Exit Inference and Self-Speculative Decoding

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 강점 및 독창성 1. 주요 기여점:

2024년 12월 26일

22 분

The Truth is in There: Improving Reasoning in Language Models with Layer-Selective Rank Reduction

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 강점 및 독창적인 지점 핵심 요약: …

2024년 12월 26일

25 분

Gemma 2: Improving Open Language Models at a Practical Size

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 요약 논문 *“Gemma 2: Improving …

2024년 12월 24일

25 분

Mooncake: A KVCache-centric Disaggregated Architecture for LLM Serving

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 Mooncake: A KVCache-Centric …

2024년 12월 24일

24 분

SAGEATTENTION: ACCURATE 8-BIT ATTENTION FOR PLUG-AND-PLAY INFERENCE ACCELERATION

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 강점 및 독창적인 지점 효율적이고 정확한 INT8 …

2024년 12월 24일

24 분

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문 요약: ClusterKV: Semantic Space …

Orca: Progressive Learning from Complex Explanation Traces of GPT-4

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 주요 내용을 요약하자면, Orca 모델은 GPT-4 …

2024년 12월 19일

29 분

Fast Inference of Mixture-of-Experts Language Models with Offloading

논문 링크 Q : …

2024년 12월 18일

25 분

FlashAttention-2: Faster Attention with Better Parallelism and Work Partitioning

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문 분석: FlashAttention-2 …

2024년 12월 18일

28 분

FlashAttention-3: Fast and Accurate Attention with Asynchrony and Low-precision

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 FlashAttention-3 …

2024년 12월 18일

26 분

FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 요약 및 결론 이 논문, …

2024년 12월 18일

26 분

Infinite-LLM: Efficient LLM Service for Long Context with DistAttention and Distributed KVCache

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문 요약 Infinite-LLM은 초대형 언어 모 …

2024년 12월 18일

25 분

SuperServe: Fine-Grained Inference Serving for Unpredictable Workloads

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문 요약 및 분석 논문의 강점 문제 정의의 명확성: …

2024년 12월 18일

9 분

Fast and Effective Weight Update for Pruned Large Language Models

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 강점과 독창적인 지점 효율적이고 정확한 Weight …

2024년 12월 17일

24 분

FFSplit: Split Feed-Forward Network For Optimizing Accuracy-Efficiency Trade-off in Language Model Inference

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 강점과 독창성 핵심 아이디어 - Heavy …

2024년 12월 17일

23 분

FlightLLM: Efficient Large Language Model Inference with a Complete Mapping Flow on FPGAs

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문 요약 및 분석 제목: FlightLLM: …

2024년 12월 17일

26 분

Lightning Attention-2: A Free Lunch for Handling Unlimited Sequence Lengths in Large Language Models

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 강점 및 독창적인 지점 이론적 한계를 실질적 이점으 …

2024년 12월 17일

21 분

MoE-Mamba: Efficient Selective State Space Models with Mixture of Experts

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 강점과 독창적 지점 혁신적 구조: …

2024년 12월 17일

26 분

DeepSpeed-FastGen: High-throughput Text Generation for LLMs via MII and DeepSpeed-Inference

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 요약 논문의 제목: DeepSpeed-FastGen: …

2024년 12월 16일

29 분

DistServe: Disaggregating Prefill and Decoding for Goodput-optimized Large Language Model Serving

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 핵심 내용 및 독창성 논문 제목: …

2024년 12월 16일

36 분

Inference without Interference: Disaggregate LLM Inference for Mixed Downstream Workloads

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 결론: TetriInfer …

2024년 12월 16일

28 분

INFERFLOW: AN EFFICIENT AND HIGHLY CONFIG URABLE INFERENCE ENGINE FOR LARGE LANGUAGE MODELS

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문 요약 및 분석 결론 요약 논문 Inferflow는 대 …

2024년 12월 16일

30 분

MEDUSA: Simple LLMInference Acceleration Framework with Multiple Decoding Heads

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 핵심 요약 논문의 제목: “MEDUSA: …

2024년 12월 16일

23 분

Break the Sequential Dependency of LLM Inference Using LOOKAHEAD DECODING

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 강점 및 독창적인 지점 효율적인 병렬 디코딩: …

2024년 12월 15일

33 분

Decoding Speculative Decoding

논문 링크 Q : …

2024년 12월 15일

37 분

Efficient Prompt Caching via Embedding Similarity

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 강점과 독창적인 지점 강점: …

2024년 12월 15일

25 분

FP6-LLM: Efficiently Serving Large Language Models Through FP6-Centric Algorithm-System Co-Design

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 강점과 독창적인 지점 FP6 …

2024년 12월 15일

50 분

TP-Aware Dequantization

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문 요약과 분석 1. …

2024년 12월 15일

31 분

Benchmarking and Dissecting the Nvidia Hopper GPU Architecture

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 주요 내용 요약 이 논문은 Nvidia Hopper …

2024년 12월 14일

42 분

Get More with LESS: Synthesizing Recurrence with KV Cache Compression for Efficient LLM Inferenc

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 요약 논문 “Get More with …

2024년 12월 14일

17 분

Hydragen: High-Throughput LLM Inference with Shared Prefixes

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 핵심 요약 이 논문은 Hydragen이라는 새로운 …

2024년 12월 14일

26 분

QUICK: Quantization-aware Interleaving and Conflict-free Kernel for efficient LLM inference

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문 요약 및 강점, 독창성 강점과 독창성:

2024년 12월 14일

40 분

RelayAttention for Efficient Large Language Model Serving with Long System Prompts

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문 요약과 분석 핵심 내용 요약 문제 정의: 긴 시스템 …

2024년 12월 14일

52 분

TeraPipe: Token-Level Pipeline Parallelism for Training Large-Scale Language Models

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 강점 및 독창성 요약 이 논문 TeraPipe …

2024년 12월 14일

19 분

Dynamic Context Pruning for Efficient and Interpretable Autoregressive Transformers

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 강점 및 독창성 동적 맥락 정리 (Dynamic …

2024년 12월 13일

14 분

Fast Transformer Decoding: One Write-Head is All You Need

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 강점과 독창적인 지점 독창적인 접근법: …

2024년 12월 13일

16 분

GQA:Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문 **“GQA: Training …

2024년 12월 13일

17 분

H2O: Heavy-Hitter Oracle for Efficient Generative Inference of Large Language Model

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 강점 및 독창성 효율적인 KV 캐시 관리:

2024년 12월 13일

17 분

Scissorhands: Exploiting the Persistence of Importance Hypothesis for LLM KV Cache Compression at Test Time

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 강점 효율적인 메모리 관리:

2024년 12월 13일

16 분

Token Merging: Your ViT But Faster

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 주요 내용과 분석을 다음과 같이 요약하겠습니다:

2024년 12월 13일

15 분

FlexLLM: A System for Co-Serving Large Language Model Inference and Parameter-Efficient Finetuning

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 강점과 독창성 이 논문 **H2O …

2024년 12월 12일

15 분

GLM-130B: An Open Bilingual Pre-trained Model

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문 **“GLM-130B: An Open …

2024년 12월 12일

22 분

LLM Inference Unveiled: Survey and Roofline Model Insights

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 강점 독창적인 Roofline 모델 분석: 이 논문 …

2024년 12월 12일

8 분

LLMLingua: Compressing Prompts for Accelerated Inference of Large Language Models

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 강점과 독창성 강점:

2024년 12월 12일

19 분

Model Tells You What to Discard: Adaptive KV Cache Compression for LLMs

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문 요약 및 분석 논문 **“Model …

2024년 12월 12일

13 분

No Token Left Behind: Reliable KV Cache Compression via Importance-Aware Mixed Precision Quantization

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 상세 분석 1. 요약과 강점

2024년 12월 12일

14 분

Scaling Instruction-Finetuned Language Models

논문 링크 Q : …

2024년 12월 12일

19 분

Benchmarks as Limits to Arbitrage: Understanding the Low-Volatility Anomaly

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 주요 내용 및 독창성 논문 제목: …

2024년 12월 10일

12 분

BLOOM: A 176B-Parameter Open-Access Multilingual Language Model

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 이 논문은 BLOOM(176B 파라미터 오픈소스 다국어 언 …

2024년 12월 10일

18 분

CacheGen: KV Cache Compression and Streaming for Fast Large Language Model Serving

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문 **“CacheGen: KV Cache …

2024년 12월 10일

21 분

CHAI: Clustered Head Attention for Efficient LLM Inference

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 제목: CHAI: Clustered Head …

2024년 12월 10일

19 분

Compressed Context Memory For Online Language Model Interaction

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 강점 효율적 메모리 관리:

2024년 12월 10일

14 분

Galactica: A Large Language Model for Science

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문에서 다루는 내용인 **“Galactica: …

2024년 12월 10일

18 분

High Idiosyncratic Volatility and Low Returns: International and Further U.S. Evidence

논문 링크 Q : …

2024년 12월 10일

12 분

LongLLMLingua: Accelerating and Enhancing LLMs in Long Context Scenarios via Prompt Compression

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 주요 내용, 강점, 독창성, 알고리즘 예시, …

2024년 12월 10일

20 분

QAQ: Quality Adaptive Quantization for LLM KV Cache

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 요약, 강점, 독창성, …

2024년 12월 10일

17 분

Transformers are Multi-State RNNs

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 강점과 독창적인 지점 트랜스포머와 RNN의 연결 제 …

2024년 12월 10일

15 분

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 강점과 독창적인 지점 이 논문은 대규모 언어 모 …

2024년 12월 06일

15 분

LLMLingua-2: Data Distillation for Efficient and Faithful Task-Agnostic Prompt Compression

2024년 12월 06일

15 분

ALISA: Accelerating Large Language Model Inference via Sparsity-Aware KV Caching

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 강점과 독창성 독창적인 알고리즘 및 시스템 설계:

2024년 12월 05일

15 분

Direct Preference Optimization: Your Language Model is Secretly a Reward Model

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문은 **Direct Preference …

2024년 12월 05일

13 분

HIERARCHICAL CONTEXT MERGING: BETTER LONG CONTEXT UNDERSTANDING FOR PRE-TRAINED LLMS

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문 요약 및 분석 논문 제목: Hierarchical …

2024년 12월 05일

12 분

LLMLingua-2: Data Distillation for Efficient and Faithful Task-Agnostic Prompt Compression

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문 요약 및 분석 논문 제목: LLMLingua-2: …

2024년 12월 05일

16 분

MELTing point: Mobile Evaluation of Language Transformers

논문 링크 Q : …

2024년 12월 05일

13 분

MuxServe:FlexibleSpatial-TemporalMultiplexingforMultipleLLMServing

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 강점과 독창성 MuxServe: Flexible …

2024년 12월 05일

14 분

The Flan Collection: Designing Data and Methods for Effective Instruction Tuning

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 주요 강점 및 독창성 논문은 Google …

2024년 12월 05일

22 분

Transformer-Lite: High-efficiency Deployment of Large Language Models on Mobile Phone GPUs

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 요약 논문 제목: Transformer-Lite: …

2024년 12월 05일

19 분

Tree of Thoughts: Deliberate Problem Solving with Large Language Models

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문 **“Tree of Thoughts: …

2024년 12월 05일

22 분

CORM: Cache Optimization with Recent Message for Large Language Model Inference

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 강점, 독창성, 핵심 알고리즘, 그리고 한계점에 대 …

2024년 12월 04일

17 분

Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 주요 내용 분석 논문의 강점 무한 컨텍스트 처리 능 …

2024년 12월 04일

21 분

Llama 2: Open Foundation and Fine-Tuned Chat Models

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 다음은 논문 *“Llama 2: Open …

2024년 12월 04일

28 분

Mistral 7B

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문 요약: Mistral 7B Mistral 7B는 70 …

2024년 12월 04일

25 분

Retrieval Head Mechanistically Explains Long-Context Factuality

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문 “Retrieval Head …

2024년 12월 04일

22 분

SnapKV: LLM Knows What You are Looking for Before Generation

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문 분석: SnapKV 이 논문은 **대형 언어 모 …

2024년 12월 04일

16 분

SqueezeAttention: 2D Management of KV-Cache in LLM Inference via Layer-wise Optimal Budget

논문 링크 Q : …

2024년 12월 04일

24 분

Toward Inference-optimal Mixture-of-Expert Large Language Models

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 강점 및 독창적 기여 이 논문, …

2024년 12월 04일

14 분

DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model

논문 링크 Q : …

2024년 12월 03일

18 분

Fast Inference from Transformers via Speculative Decoding

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 강점과 독창성 이 논문은 Speculative …

2024년 12월 03일

17 분

MobileAIBench: Benchmarking LLMs and LMMs for On-Device Use Cases

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 이 논문 **“MobileAIBench: …

2024년 12월 03일

7 분

Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 강점과 독창적인 지점 효율적인 병렬 디코딩:

2024년 12월 03일

22 분

PowerInfer-2: Fast Large Language Model Inference on a Smartphone

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문 **“PowerInfer-2: Fast …

2024년 12월 03일

28 분

RAGCache: Efficient Knowledge Caching for Retrieval-Augmented Generation

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문 **“RAGCache: Efficient …

2024년 12월 03일

16 분

Tree-based Speculative Inference and Verification

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 주요 내용 및 독창적인 점 논문의 강점과 독창적인 …

2024년 12월 03일

18 분

KV Cache Compression

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 요약 및 강점 이 논문은 대형 언어 모델(LLM) …

2024년 12월 02일

18 분

Layer-Condensed KV Cache for Efficient Inference of Large Language Models

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문 제목: Layer-Condensed KV Cache …

2024년 12월 02일

16 분

PyramidInfer: Pyramid KV Cache Compression for High-throughput LLM Inference

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 PyramidInfer: Pyramid KV Cache …

2024년 12월 02일

16 분

SKVQ:Sliding-window Key and Value Cache Quantization for Large Language Models

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문 **“SKVQ: Sliding-window …

2024년 12월 02일

22 분

You Only Cache Once: Decoder-Decoder Architectures for Language Models

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 개요: “You Only Cache …

2024년 12월 02일

16 분

LoCoCo: Dropping In Convolutions for Long Context Compression

논문 링크 Q : …

2024년 11월 20일

20 분

LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy

2024년 11월 20일

15 분

SPARSEVLM: VISUAL TOKEN SPARSIFICATION FOR EFFICIENT VISION-LANGUAGE MODEL INFERENCE

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 강점 및 독창적인 지점 논문의 강점:

2024년 11월 20일

19 분

SWIFTKV: FAST PREFILL-OPTIMIZED INFERENCE WITH KNOWLEDGE-PRESERVING MODEL TRANSFORMATION

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 분석: “SWIFTKV: FAST …

2024년 11월 20일

19 분

TIDALDECODE: FAST AND ACCURATE LLM DECOD ING WITH POSITION PERSISTENT SPARSE ATTENTION

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 강점 및 독창성 TidalDecode의 주요 강점과 독창성 …

2024년 11월 20일

16 분

TorchTitan: One-stop PyTorch native solution for production ready LLM pre-training

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문 제목: TorchTitan: One-stop …

2024년 11월 20일

16 분

A Systematic Study of Cross-Layer KV Sharing for Efficient LLM Inference

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문 분석: “A Systematic Study …

2024년 11월 19일

19 분

In-context KV-Cache Eviction for LLMs via Attention-Gate

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 강점 및 독창성 문제의 명확성:

2024년 11월 19일

16 분

Prompt Compression for Large Language Models: A Survey

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문 분석 및 요약 논문 제목: Prompt …

2024년 11월 19일

6 분

Scaling Laws for Neural Language Models

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문 제목: Scaling Laws for Neural …

2024년 11월 19일

17 분

SimLayerKV: A Simple Framework for Layer-Level KV Cache Reduction

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 강점 효율성 및 간결성:

2024년 11월 19일

18 분

Textbooks Are All You Need

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 주요 내용 분석 및 설명 이 논문에서는 코드 생성 …

2024년 11월 19일

17 분

MagicPIG: LSH Sampling for Efficient LLM Generation

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문 요약: “MagicPIG: LSH …

2024년 11월 18일

26 분

Recycled Attention: Efficient inference for long-context language models

논문 링크 Q : …

2024년 11월 18일

22 분

Squeezed Attention: Accelerating Long Context Length LLM Inference

논문 링크 Q : …

2024년 11월 18일

24 분

TokenSelect: Efficient Long-Context Inference and Length Extrapolation for LLMs via Dynamic Token-Level KV Cache Selection

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문 **“TokenSelect: …

2024년 11월 18일

34 분

VL-Cache: Sparsity and Modality-Aware KV Cache Compression for Vision-Language Model Inference Acceleration

논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문 요약 및 분석 논문 제목: VL-CACHE: …

2024년 11월 18일

29 분

Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

논문 : https://arxiv.org/abs/2201.11903 아래 글은 Scholar GPT와 대화를 나눈 내용입니다. Q : 논문의 핵심 내용과 강점, 알고리즘 설명, …

2024년 11월 14일

15 분

Deep Compression Autoencoder for Efficient High-Resolution Diffusion Models

논문 : https://arxiv.org/abs/2410.10733v2 아래 글은 Scholar GPT와 대화를 나눈 내용입니다. Q : 논문의 핵심 내용과 강점, 알고리즘 설명, 그리고 한계점 논문 분석 및 요약: “Deep …

2024년 11월 14일

22 분

HART Efficient Visual Generation with Hybrid Autoregressive Transformer

논문 : https://arxiv.org/abs/2410.10812 아래 글은 Scholar GPT와 대화를 나눈 내용입니다. Q : 논문의 핵심 내용과 강점, 알고리즘 설명, 그리고 한계점 논문의 강점 및 독창적인 지점 이 논문은 Hybrid …

2024년 11월 14일

21 분

Learning Transferable Visual Models From Natural Language Supervision

논문 : https://arxiv.org/abs/2103.00020 아래 글은 Scholar GPT와 대화를 나눈 내용입니다. Q : 논문의 핵심 내용과 강점, 알고리즘 설명, 그리고 한계점 이 논문은 “Learning …

2024년 11월 14일

26 분

The CoT Collection Improving Zero-shot and Few-shot Learning of Language Models via Chain-of-Thought Fine-Tuning

논문 : https://arxiv.org/abs/2305.14045 아래 글은 Scholar GPT와 대화를 나눈 내용입니다. Q : 논문의 핵심 내용과 강점, 알고리즘 설명, 그리고 한계점 논문 분석: The COT Collection: …

2024년 11월 14일

22 분

Condition-Aware Neural Network for Controlled Image Generation

논문 : https://arxiv.org/abs/2404.01143 아래글은 Scholar GPT와 대화를 나눈 내용입니다. Q : 논문의 핵심 내용과 강점, 알고리즘 설명, 그리고 한계점 논문의 요약 및 분석 1. …

2024년 11월 13일

24 분

DistriFusion Distributed Parallel Inference for High-Resolution Diffusion Models

논문 : https://arxiv.org/abs/2402.19481 아래글은 Scholar GPT와 대화를 나눈 내용입니다. Q : 논문의 핵심 내용과 강점, 알고리즘 설명, …

2024년 11월 13일

32 분

FastComposer Tuning-Free Multi-Subject Image Generation with Localized Attention

논문 : https://arxiv.org/abs/2305.10431 아래글은 Scholar GPT와 대화를 나눈 내용입니다. Q : 논문의 핵심 내용과 강점, 알고리즘 설명, 그리고 한계점 논문 요약 및 주요 내용 분석 논문 제목: …

2024년 11월 13일

25 분

VILA On Pre-training for Visual Language Models

논문 : https://arxiv.org/abs/2312.07533 아래글은 Scholar GPT와 대화를 나눈 내용입니다. Q : 논문의 핵심 내용과 강점, 알고리즘 설명, 그리고 한계점 논문 분석: VILA: On Pre-training for …

2024년 11월 13일

19 분

VILA-U a Unified Foundation Model Integrating Visual Understanding and Generation

논문 : https://arxiv.org/abs/2409.04429 아래글은 Scholar GPT와 대화를 나눈 내용입니다. Q : 논문의 핵심 내용과 강점, 알고리즘 설명, 그리고 한계점 논문 요약 및 강점 분석 논문 제목: VILA-U: A …

2024년 11월 13일

23 분

Batch Calibration Rethinking Calibration for In-Context Learning and Prompt Engineering

논문 : https://arxiv.org/abs/2309.17249 아래글은 Scholar GPT와 대화를 나눈 내용입니다. Q : 논문의 핵심 내용과 강점, 알고리즘 설명, 그리고 한계점 논문의 강점과 독창적인 지점 이 논문은 **Batch …

2024년 11월 12일

19 분

LaRS Latent Reasoning Skills for Chain-of-Thought Reasoning

논문 : https://aclanthology.org/2024.findings-emnlp.206/ 아래글은 Scholar GPT와 대화를 나눈 내용입니다. Q : 논문의 핵심 내용과 강점, 알고리즘 설명, 그리고 한계점 논문 분석: 강점, 독창적인 지 …

2024년 11월 12일

25 분

LiteMoE Customizing On-device LLM Serving via Proxy Submodel Tuning

논문 : https://dl.acm.org/doi/10.1145/3666025.3699355 아래글은 Scholar GPT와 대화를 나눈 내용입니다. Q : 논문의 핵심 내용과 강점, 알고리즘 설명, 그리고 한계점 논문의 강점 및 독창적인 지점 이 논 …

2024년 11월 12일

37 분

Query-Efficient Correlation Clustering with Noisy Oracle

논문 : https://arxiv.org/abs/2402.01400 아래글은 Scholar GPT와 대화를 나눈 내용입니다. Q : 논문의 핵심 내용과 강점, 알고리즘 설명, 그리고 한계점 논문 분석: 강점, 독창적인 지점, 핵심 알고리즘 설명 및 한 …

2024년 11월 12일

16 분

ShadowKV KV Cache in Shadows for High-Throughput Long-Context LLM Inference

논문 : https://arxiv.org/abs/2410.21465 아래글은 Scholar GPT와 대화를 나눈 내용입니다. Q : 논문의 핵심 내용과 강점, 알고리즘 설명, 그리고 한계점 논문의 강점 및 독창적인 지점 ShadowKV는 긴 문맥을 가 …

2024년 11월 12일

18 분

COMET Towards Partical W4A4KV4 LLMs Serving

논문 : https://arxiv.org/abs/2410.12168 아래글은 Scholar GPT와 대화를 나눈 내용입니다. Q : 논문의 핵심 내용과 강점, 알고리즘 설명, 그리고 한계점 논문 **“COMET: Towards …

2024년 11월 11일

11 분

ELICIT LLM Augmentation via External In-Context Capability

논문 : https://arxiv.org/abs/2410.09343 아래글은 Scholar GPT와 대화를 나눈 내용입니다. Q : 논문의 핵심 내용과 강점, 알고리즘 설명, 그리고 한계점 The paper titled “ELICIT: …

2024년 11월 11일

21 분

EPIC Efficient Position-Independent Context Caching for Serving Large Language Models

논문 : https://arxiv.org/abs/2410.15332 아래글은 Scholar GPT와 대화를 나눈 내용입니다. Q : 논문의 핵심 내용과 강점, 알고리즘 설명, 그리고 한계점 이 논문 **“Epic: Efficient …

2024년 11월 11일

11 분

Foundations of Factor Investing

논문 : https://www.msci.com/documents/1296102/1336482/Foundations_of_Factor_Investing.pdf 아래글은 Scholar GPT와 대화를 나눈 내용입니다. Q : 논문의 핵심 내용과 강점, 알 …

2024년 11월 11일

11 분

MagicPIG LSH Sampling for Efficient LLM Generation

논문 : https://arxiv.org/abs/2410.16179 아래글은 Scholar GPT와 대화를 나눈 내용입니다. Q : 논문의 핵심 내용과 강점, 알고리즘 설명, 그리고 한계점 논문 **“MagicPIG: LSH Sampling …

2024년 11월 11일

14 분

RAG4ITOps A Supervised Fine-Tunable and Comprehensive RAG Framework for IT Operations and Maintenance

논문 : https://arxiv.org/abs/2410.15805v1 아래글은 Scholar GPT와 대화를 나눈 내용입니다. Q : 논문의 핵심 내용과 강점, 알고리즘 설명, 그리고 한계점 이 논문 **“RAG4ITOps: A …

2024년 11월 11일

15 분

Scientific Beta Multi-Beta Multi-Strategy Indices Implementing Multi-Factor Equity Portfolios with Smart Factor Indices

논문 : …

2024년 11월 11일

13 분

ALPINE Unveiling the Planning Capability of Autoregressive Learning in Language Models

논문 : https://arxiv.org/abs/2405.09220 아래글은 Scholar GPT와 대화를 나눈 내용입니다. Q : 논문의 핵심 내용과 강점, 알고리즘 설명, 그리고 한계점 논문 분석

2024년 11월 10일

10 분

Can Graph Learning Improve Planning in LLM-based Agents?

논문 : https://arxiv.org/abs/2405.19119 아래글은 Scholar GPT와 대화를 나눈 내용입니다. Q : 논문의 핵심 내용과 강점, 알고리즘 설명, 그리고 한계점 논문 분석: “Can Graph Learning …

2024년 11월 10일

16 분

Capital asset prices A theory of market equilibrium under conditions of risk

논문 : https://www.jstor.org/stable/2977928 아래글은 Scholar GPT와 대화를 나눈 내용입니다. Q : 논문의 핵심 내용과 강점, 알고리즘 설명, 그리고 한계점 논문 **“Capital Asset …

2024년 11월 10일

10 분

DynamoLLM Designing LLM Inference Clusters for Performance and Energy Efficiency

논문 : https://arxiv.org/abs/2408.00741 아래글은 Scholar GPT와 대화를 나눈 내용입니다. Q : 논문의 핵심 내용과 강점, 알고리즘 설명, 그리고 한계점 논문 분석: “DynamoLLM: Designing …

2024년 11월 10일

12 분

HYSYNTH Context-Free LLM Approximation for Guiding Program Synthesis

논문 : https://arxiv.org/abs/2405.15880v2 아래글은 Scholar GPT와 대화를 나눈 내용입니다. Q : 논문의 핵심 내용과 강점, 알고리즘 설명, 그리고 한계점 논문 분석: “HYSYNTH: …

2024년 11월 10일

11 분

MInference 1.0 Accelerating Pre-filling for Long-Context LLMs via Dynamic Sparse Attention

논문 : https://arxiv.org/abs/2407.02490 아래글은 Scholar GPT와 대화를 나눈 내용입니다. Q : 논문의 핵심 내용과 강점, 알고리즘 설명, 그리고 한계점 논문 분석: “MInference 1.0: …

2024년 11월 10일

21 분

Portfolio Selection

논문 : https://www.jstor.org/stable/2975974 아래글은 Scholar GPT와 대화를 나눈 내용입니다. Q : 논문의 핵심 내용과 강점, 알고리즘 설명, 그리고 한계점 논문 **“Portfolio …

2024년 11월 10일

4 분

The Cross-Section of Expected Stock Returns

논문 : https://www.jstor.org/stable/2329112 아래글은 Scholar GPT와 대화를 나눈 내용입니다. Q : 논문의 핵심 내용과 강점, 알고리즘 설명, 그리고 한계점 논문 **“The Cross-Section …

2024년 11월 10일

15 분

Efficient Streaming Language Models with Attention Sinks

논문 : https://arxiv.org/abs/2309.17453 아래글은 Scholar GPT와 대화를 나눈 내용입니다. Q : 논문의 핵심 내용과 강점, 알고리즘 설명, 그리고 한계점 네, 물론입니다.

2024년 11월 07일

14 분

Enabling Tensor Language Model to Assist in Generating High-Performance Tensor Programs for Deep Learning

논문 : https://www.usenix.org/system/files/osdi24-zhai.pdf 아래글은 Scholar GPT와 대화를 나눈 내용입니다. Q : 논문의 핵심 내용과 강점, 알고리즘 설명, 그리고 한계점 이 논문은 고성능 텐서 프로 …

2024년 11월 07일

3 분

Meta Large Language Model Compiler Foundation Models of Compiler Optimization

논문 : https://arxiv.org/abs/2407.02524 아래글은 Scholar GPT와 대화를 나눈 내용입니다. Q : 논문의 핵심 내용과 강점, 알고리즘 설명, 그리고 한계점 이 논문은 Meta AI에서 제안한 LLM Compiler …

2024년 11월 07일

4 분

Model Tells You What to Discard Adaptive KV Cache Compression for LLMs

논문 : https://arxiv.org/abs/2310.01801 아래글은 Scholar GPT와 대화를 나눈 내용입니다. Q : 논문의 핵심 내용과 강점, 알고리즘 설명, 그리고 한계점 논문은 FastGen이라는 적응형 KV 캐시 압축 기법을 제안 …

2024년 11월 07일

7 분

Transformers are Multi-State RNNs

논문 : https://arxiv.org/abs/2401.06104 아래글은 Scholar GPT와 대화를 나눈 내용입니다. Q : 논문의 핵심 내용과 강점, 알고리즘 설명, 그리고 한계점 이 논문은 **Transformers를 Multi-State …

2024년 11월 07일

6 분

BUZZ Beehive-structured Sparse KV Cache with Segmented Heavy Hitters for Efficient LLM Inference

논문 : https://arxiv.org/abs/2410.23079 아래글은 Scholar GPT와 대화를 나눈 내용입니다. Q : 논문의 핵심 내용과 강점, 알고리즘 설명, 그리고 한계점 논문의 강점 및 독창성 Beehive 구조와 Segmented …

2024년 11월 06일

5 분

CDMPP:ADevice-Model Agnostic Framework for Latency Prediction of Tensor Programs

논문 : https://i.cs.hku.hk/~cwu/papers/hphu-eurosys24.pdf 아래글은 Scholar GPT와 대화를 나눈 내용입니다. Q : 논문의 핵심 내용과 강점, 알고리즘 설명, 그리고 한계점 논문의 강점 및 독창성 장치 …

2024년 11월 06일

5 분

Don't Look Twice Faster Video Transformers with Run-Length Tokenization

논문 : https://openreview.net/pdf/e7782b237ab632c467717143b2b7ef283d71c282.pdf 아래글은 Scholar GPT와 대화를 나눈 내용입니다. Q : 논문의 핵심 내용과 강점, 알고리즘 설명, …

2024년 11월 06일

3 분

FLUX Fast Software-based Communication Overlap On GPUs Through Kernel Fusion

논문 : https://arxiv.org/abs/2406.06858 아래글은 Scholar GPT와 대화를 나눈 내용입니다. Q : 논문의 핵심 내용과 강점, 알고리즘 설명, 그리고 한계점 물론입니다. 논문의 주요 내용과 강점, 알고리즘 과정, 한계점 …

2024년 11월 06일

7 분

KVSharer Efficient Inference via Layer-Wise Dissimilar KV Cache Sharing

논문 : https://arxiv.org/abs/2410.18517 아래글은 Scholar GPT와 대화를 나눈 내용입니다. Q : 논문의 핵심 내용과 강점, 알고리즘 설명, 그리고 한계점 논문의 강점과 독창성 1. 독창적인 KVSharer 방식: …

2024년 11월 06일

7 분

Efficient Generative LLM Inference Using Phase Splitting

논문 : https://arxiv.org/abs/2311.18677v2 아래글은 Scholar GPT와 대화를 나눈 내용입니다. Q : 논문의 핵심 내용과 강점, 알고리즘 설명, 그리고 한계점 Answer 논문 **“Splitwise: …

2024년 11월 05일

10 분

KernelGPT Enhanced Kernel Fuzzing via Large Language Models

논문 : https://arxiv.org/abs/2401.00563 아래글은 Scholar GPT와 대화를 나눈 내용입니다. Q : 논문의 핵심 내용과 강점, 알고리즘 설명, 그리고 한계점 Answer KernelGPT …

2024년 11월 05일

7 분

Magicoder Empowering Code Generation with OSS-Instruct

논문 : https://arxiv.org/abs/2312.02120 아래글은 Scholar GPT와 대화를 나눈 내용입니다. Q : 논문의 핵심 내용과 강점, 알고리즘 설명, 그리고 한계점 Answer 논문 **“Magicoder: …

2024년 11월 05일

9 분

Optimal Kernel Orchestration for Tensor Programs with Korch

논문 : https://arxiv.org/abs/2406.09465 아래글은 Scholar GPT와 대화를 나눈 내용입니다. Q : 논문의 핵심 내용과 강점, 알고리즘 설명, 그리고 한계점 Answer 업로드된 논문은 DNN(딥 뉴럴 네트워크)의 성능 …

2024년 11월 05일

6 분

SpotServe Serving Generative Large Language Models on Preemptible Instances

논문 : https://arxiv.org/abs/2311.15566 아래글은 Scholar GPT와 대화를 나눈 내용입니다. Q : 논문의 핵심 내용과 강점, 알고리즘 설명, 그리고 한계점 Answer 논문 **“SpotServe: …

2024년 11월 05일

13 분

GraphPipe Improving Performance and Scalability of DNN Training with Graph Pipeline Parallelism

개인의견 : pipeline Parallelism에 관련된 논문을 몇개 봤는데 그 중에서 가장 재밋는 논문인것 같네요. graph의 toplogy-aware Pipeline Parallelism이라는 당연한 개념을 포함하여 효과적인 결과를 내는것 같습 …

2024년 11월 04일

15 분

Helix Distributed Serving of Large Language Models via Max-Flow on Heterogeneous GPUs

논문 : https://arxiv.org/abs/2406.01566v1 아래글은 Scholar GPT와 대화를 나눈 내용입니다. Q : 논문의 핵심 내용과 강점, 알고리즘 설명, 그리고 한계점 Answer 논문에서는 Helix라는 시스템을 소개하며, …

2024년 11월 04일

4 분

Memory Bounds for the Experts Problem

논문 : https://arxiv.org/abs/2204.09837 아래글은 Scholar GPT와 대화를 나눈 내용입니다. Q : 논문의 핵심 내용과 강점, 알고리즘 설명, 그리고 한계점 Answer: 이 논문, **“Memory …

2024년 11월 04일

4 분

Sequoia Scalable, Robust, and Hardware-aware Speculative Decoding

논문 : https://arxiv.org/abs/2402.12374 아래글은 Scholar GPT와 대화를 나눈 내용입니다. Q : 논문의 핵심 내용과 강점, 알고리즘 설명, 그리고 한계점 Answer: 논문 **“Sequoia: …

2024년 11월 04일

8 분

SpecExec Massively Parallel Speculative Decoding for Interactive LLM Inference on Consumer Devices

논문 : https://arxiv.org/abs/2406.02532 아래글은 Scholar GPT와 대화를 나눈 내용입니다. Q : 논문의 핵심 내용과 강점, 알고리즘 설명, 그리고 한계점 Answer 논문 *“SpecExec: …

2024년 11월 04일

7 분

Breaking the Curse of Quality Saturation with User-Centric Ranking

개인의견 : 잘모르는 분야이지만 meta publication을 보다가 흥미로워 보여서 선택한 논문.(내가 잘몰라서 질문을 못하겠다 ㅎㅎ;) 논문 : …

2024년 11월 03일

3 분

MEGABYTE Predicting Million-byte Sequences with Multiscale Transformers

개인의견 : 패치 기반의 병렬 연산과 Cross-Attention을 통한 글로벌-로컬 상호작용, 그리고 토크나이저 free? 한 신기한 논문으로 보인다. 논문 : https://arxiv.org/abs/2305.07185

2024년 11월 03일

10 분

Reasoning over Public and Private Data in Retrieval-Based Systems

개인의견 : 잘모르는 분야이지만 meta publication을 보다가 흥미로워 보여서 선택한 논문.(내가 잘몰라서 질문을 못하겠다 ㅎㅎ;) 논문 : …

2024년 11월 03일

5 분

Reasoning over Public and Private Data in Retrieval-Based Systems

개인의견 : 잘모르는 분야이지만 meta publication을 보다가 흥미로워 보여서 선택한 논문.(내가 잘몰라서 질문을 못하겠다 ㅎㅎ;) 논문 : …

2024년 11월 03일

3 분

FlexGen High-Throughput Generative Inference of Large Language Models with a Single GPU

논문 : https://arxiv.org/abs/2303.06865 개인의견 : 타겟은 다르지만 deepspeed(zero) 오프로딩을 한다는 측면에서는 비슷한 느낌을 받았다 그리고 정말 높은 throughtput을 위해서 quantization과 선 …

2024년 11월 01일

17 분

KV Cache Compression, But What Must We Give in Return? A Comprehensive Benchmark of Long Context Capable Approaches

논문 : https://arxiv.org/abs/2407.01527v1 개인의견 : 다양한 경량화 방법의 효과를 long context를 다루는 LLM에서 어떤효과를 주는지 분석을 통하여 인사이트를 주고있다.

2024년 11월 01일

7 분

Quest Query-Aware Sparsity for Efficient Long-Context LLM Inference

논문 : https://arxiv.org/abs/2406.10774 개인의견 : 역시 songhan.. KV cache는 항상 볼때마다 압축을 하거나 줄이고 싶지만 그 특성상 query와 관계를 알아야 이게 중요한 KV …

2024년 11월 01일

9 분

Teola Towards End-to-End Optimization of LLM-based Applications

논문 : https://arxiv.org/abs/2407.00326 개인의견 : 결국 프리미티브라고 하는 작은 단위로 나눈다는 개념을 도입하는거 같고 이게 LLM이 아닌 경우도 고려해서 한번에 serving을 한다는것이라고 이해를 했는데 vllm …

2024년 11월 01일

9 분

What Matters in Transformers? Not All Attention is Needed Fusion

논문 : https://arxiv.org/abs/2406.15786v1 개인의견 : 내가 잘 이해를 한건지는 모르겠지만 결국 입력/출력의 cosine similarity를 보고 attention layer를 pruning 하겠다는것 같은데 이게 데이터 …

2024년 11월 01일

5 분

Better & Faster Large Language Models via Multi-token Prediction

논문 : https://arxiv.org/abs/2404.19737 개인의견 : auto-regressive한 현재 LLM은 구조적으로 생성되는 토큰이 많아지면 많은 I/O를 동반하게 됩니다. 그렇기 때문에 memory-bound 로 빠지게 되어서 디 …

2024년 10월 31일

14 분

CacheBlend Fast Large Language Model Serving for RAG with Cached Knowledge Fusion

논문 : https://arxiv.org/abs/2405.16444 개인의견 : rag가 앞으로 정말 많이 사용될거 같은데 어떻게보면 이러한 방법론을 사용하여 kv cache를 partial하게 사용하고 update를 하는 방법에 대한 논문이군요

2024년 10월 31일

9 분

Keyformer KV Cache Reduction through Key Tokens Selection for Efficient Generative Inference

논문 : https://arxiv.org/abs/2403.09054 개인의견 : 예전부터 KV cache중에 핵심이 되는 내용만 잘 선택하면 오버헤드를 줄일수 있지 않을까라고 생각했는데 핵심 토큰만 가지고 이러한 방법을 구현한 논문입니다. 이러한 논문 …

2024년 10월 31일

15 분

Prompt Cache Modular Attention Reuse for Low-Latency Inference

논문 : https://arxiv.org/abs/2311.04934 개인의견 : 일부 반복되는 입력이 같은 위치에 들어오는 task에서(prompt에서 전처리가 있을시에 더욱) prefill시에 효과적으로 caching …

2024년 10월 31일

6 분

Taming Throughput-Latency Tradeoff in LLM Inference with Sarathi-Serve

논문 : https://arxiv.org/abs/2403.02310 개인의견 : 서비스를 하는 수준에서 생각하면 continuous batching같은 테크닉을 사용하면 prefill …

2024년 10월 31일

19 분