Streaming LLM – No limit on context length for your favourite LLM

Oct 2, 2023 ·

Efficient Streaming Language Models with Attention Sinks - GitHub - mit-han-lab/streaming-llm: Efficient Streaming Language Models with Attention Sinks