Add batched inference #771

Open

Open

Add batched inference#771

Labels

enhancementhigh-priority

Use llama_decode instead of deprecated llama_eval in Llama class
Implement batched inference support for generate and create_completion methods in Llama class
Add support for streaming / infinite completion

Metadata

Assignees

No one assigned

Labels

enhancementhigh-priority

Projects

No projects

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

pFad - Phonifier reborn

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.

Alternative Proxies:

Alternative Proxy