vllm.inputs.data ¶

DecoderInputs `module-attribute` ¶

DecoderInputs: TypeAlias = TokenInputs | MultiModalInputs

A processed decoder prompt from InputPreprocessor which can be passed to InputProcessor for encoder-decoder models.

DecoderOnlyInputs `module-attribute` ¶

DecoderOnlyInputs: TypeAlias = (
    TokenInputs | EmbedsInputs | MultiModalInputs
)

A processed prompt from InputPreprocessor which can be passed to InputProcessor for decoder-only models.

DecoderOnlyPrompt `module-attribute` ¶

DecoderOnlyPrompt: TypeAlias = (
    str
    | TextPrompt
    | list[int]
    | TokensPrompt
    | EmbedsPrompt
)

Schema of a prompt for a decoder-only model:

A text prompt (string or TextPrompt)
A tokenized prompt (list of token IDs, or TokensPrompt)
An embeddings prompt (EmbedsPrompt)

For encoder-decoder models, passing a singleton prompt is shorthand for passing ExplicitEncoderDecoderPrompt(encoder_prompt=prompt, decoder_prompt=None).

DecoderPrompt `module-attribute` ¶

DecoderPrompt: TypeAlias = (
    str | TextPrompt | list[int] | TokensPrompt
)

Schema of a prompt for the decoder part of an encoder-decoder model:

A text prompt (string or TextPrompt)
A tokenized prompt (list of token IDs, or TokensPrompt)

Note

Multi-modal inputs are not supported for decoder prompts.

EncoderDecoderPrompt `module-attribute` ¶

EncoderDecoderPrompt: TypeAlias = (
    EncoderPrompt | ExplicitEncoderDecoderPrompt
)

Schema for a prompt for an encoder-decoder model.

You can pass a singleton encoder prompt, in which case the decoder prompt is considered to be None (i.e., infer automatically).

EncoderInputs `module-attribute` ¶

EncoderInputs: TypeAlias = (
    TokenInputs | MultiModalEncDecInputs
)

A processed encoder prompt from InputPreprocessor which can be passed to InputProcessor for encoder-decoder models.

EncoderPrompt `module-attribute` ¶

EncoderPrompt: TypeAlias = (
    str | TextPrompt | list[int] | TokensPrompt
)

Schema of a prompt for the encoder part of a encoder-decoder model:

A text prompt (string or TextPrompt)
A tokenized prompt (list of token IDs, or TokensPrompt)

ProcessorInputs `module-attribute` ¶

ProcessorInputs: TypeAlias = (
    DecoderOnlyInputs | EncoderDecoderInputs
)

A processed prompt from InputPreprocessor which can be passed to InputProcessor.

PromptType `module-attribute` ¶

PromptType: TypeAlias = (
    DecoderOnlyPrompt | EncoderDecoderPrompt
)

Schema for any prompt, regardless of model type.

This is the input format accepted by most LLM APIs.

SingletonInputs `module-attribute` ¶

SingletonInputs: TypeAlias = (
    DecoderOnlyInputs | MultiModalEncDecInputs
)

The inputs for a single encoder/decoder prompt.

SingletonPrompt `module-attribute` ¶

SingletonPrompt: TypeAlias = (
    DecoderOnlyPrompt | EncoderPrompt | DecoderPrompt
)

Schema for a single prompt. This is as opposed to a data structure which encapsulates multiple prompts, such as ExplicitEncoderDecoderPrompt.

DataPrompt ¶

Bases: _PromptOptions

Represents generic inputs that are converted to PromptType by IO processor plugins.

Source code in vllm/inputs/data.py

class DataPrompt(_PromptOptions):
    """
    Represents generic inputs that are converted to
    [`PromptType`][vllm.inputs.data.PromptType] by IO processor plugins.
    """

    data: Any
    """The input data."""

    data_format: str
    """The input data format."""

data `instance-attribute` ¶

data: Any

The input data.

data_format `instance-attribute` ¶

data_format: str

The input data format.

EmbedsInputs ¶

Bases: _InputOptions

Represents embeddings-based inputs.

Source code in vllm/inputs/data.py

class EmbedsInputs(_InputOptions):
    """Represents embeddings-based inputs."""

    type: Literal["embeds"]
    """The type of inputs."""

    prompt_embeds: torch.Tensor
    """The embeddings of the prompt."""

prompt_embeds `instance-attribute` ¶

prompt_embeds: Tensor

The embeddings of the prompt.

type `instance-attribute` ¶

type: Literal['embeds']

The type of inputs.

EmbedsPrompt ¶

Bases: _PromptOptions

Schema for a prompt provided via token embeddings.

Source code in vllm/inputs/data.py

class EmbedsPrompt(_PromptOptions):
    """Schema for a prompt provided via token embeddings."""

    prompt_embeds: torch.Tensor
    """The embeddings of the prompt."""

    prompt: NotRequired[str]
    """The prompt text corresponding to the token embeddings, if available."""

prompt `instance-attribute` ¶

prompt: NotRequired[str]

The prompt text corresponding to the token embeddings, if available.

prompt_embeds `instance-attribute` ¶

prompt_embeds: Tensor

The embeddings of the prompt.

EncoderDecoderInputs ¶

Bases: TypedDict

A processed pair of encoder and decoder singleton prompts. InputPreprocessor which can be passed to InputProcessor for encoder-decoder models.

Source code in vllm/inputs/data.py

class EncoderDecoderInputs(TypedDict):
    """
    A processed pair of encoder and decoder singleton prompts.
    [`InputPreprocessor`][vllm.inputs.preprocess.InputPreprocessor]
    which can be passed to
    [`InputProcessor`][vllm.v1.engine.input_processor.InputProcessor]
    for encoder-decoder models.
    """

    encoder: EncoderInputs
    """The inputs for the encoder portion."""

    decoder: DecoderInputs
    """The inputs for the decoder portion."""

decoder `instance-attribute` ¶

decoder: DecoderInputs

The inputs for the decoder portion.

encoder `instance-attribute` ¶

encoder: EncoderInputs

The inputs for the encoder portion.

ExplicitEncoderDecoderPrompt ¶

Bases: TypedDict

Schema for a pair of encoder and decoder singleton prompts.

Note

This schema is not valid for decoder-only models.

Source code in vllm/inputs/data.py

class ExplicitEncoderDecoderPrompt(TypedDict):
    """
    Schema for a pair of encoder and decoder singleton prompts.

    Note:
        This schema is not valid for decoder-only models.
    """

    encoder_prompt: EncoderPrompt
    """The prompt for the encoder part of the model."""

    decoder_prompt: DecoderPrompt | None
    """
    The prompt for the decoder part of the model.

    Passing `None` will cause the prompt to be inferred automatically.
    """

decoder_prompt `instance-attribute` ¶

decoder_prompt: DecoderPrompt | None

The prompt for the decoder part of the model.

Passing None will cause the prompt to be inferred automatically.

encoder_prompt `instance-attribute` ¶

encoder_prompt: EncoderPrompt

The prompt for the encoder part of the model.

StreamingInput `dataclass` ¶

Input data for a streaming generation request.

This is used with generate() to support multi-turn streaming sessions where inputs are provided via an async generator.

Source code in vllm/inputs/data.py

@dataclass
class StreamingInput:
    """Input data for a streaming generation request.

    This is used with generate() to support multi-turn streaming sessions
    where inputs are provided via an async generator.
    """

    prompt: PromptType
    sampling_params: SamplingParams | None = None

TextPrompt ¶

Bases: _PromptOptions

Schema for a text prompt.

Source code in vllm/inputs/data.py

class TextPrompt(_PromptOptions):
    """Schema for a text prompt."""

    prompt: str
    """The input text to be tokenized before passing to the model."""

prompt `instance-attribute` ¶

prompt: str

The input text to be tokenized before passing to the model.

TokenInputs ¶

Bases: _InputOptions

Represents token-based inputs.

Source code in vllm/inputs/data.py

class TokenInputs(_InputOptions):
    """Represents token-based inputs."""

    type: Literal["token"]
    """The type of inputs."""

    prompt_token_ids: list[int]
    """The token IDs of the prompt."""

prompt_token_ids `instance-attribute` ¶

prompt_token_ids: list[int]

The token IDs of the prompt.

type `instance-attribute` ¶

type: Literal['token']

The type of inputs.

TokensPrompt ¶

Bases: _PromptOptions

Schema for a tokenized prompt.

Source code in vllm/inputs/data.py

class TokensPrompt(_PromptOptions):
    """Schema for a tokenized prompt."""

    prompt_token_ids: list[int]
    """A list of token IDs to pass to the model."""

    prompt: NotRequired[str]
    """The prompt text corresponding to the token IDs, if available."""

    token_type_ids: NotRequired[list[int]]
    """A list of token type IDs to pass to the cross encoder model."""

prompt `instance-attribute` ¶

prompt: NotRequired[str]

The prompt text corresponding to the token IDs, if available.

prompt_token_ids `instance-attribute` ¶

prompt_token_ids: list[int]

A list of token IDs to pass to the model.

token_type_ids `instance-attribute` ¶

token_type_ids: NotRequired[list[int]]

A list of token type IDs to pass to the cross encoder model.

_InputOptions ¶

Bases: TypedDict

Additional options available to all input types.

Source code in vllm/inputs/data.py

class _InputOptions(TypedDict):
    """
    Additional options available to all input types.
    """

    cache_salt: NotRequired[str]
    """Optional cache salt to be used for prefix caching."""

cache_salt `instance-attribute` ¶

cache_salt: NotRequired[str]

Optional cache salt to be used for prefix caching.

_PromptOptions ¶

Bases: TypedDict

Additional options available to all SingletonPrompt.

Source code in vllm/inputs/data.py

class _PromptOptions(TypedDict):
    """
    Additional options available to all
    [`SingletonPrompt`][vllm.inputs.data.SingletonPrompt].
    """

    multi_modal_data: NotRequired[MultiModalDataDict | None]
    """
    Optional multi-modal data to pass to the model,
    if the model supports it.
    """

    mm_processor_kwargs: NotRequired[dict[str, Any] | None]
    """
    Optional multi-modal processor kwargs to be forwarded to the
    multimodal input mapper & processor. Note that if multiple modalities
    have registered mappers etc for the model being considered, we attempt
    to pass the mm_processor_kwargs to each of them.
    """

    multi_modal_uuids: NotRequired[MultiModalUUIDDict]
    """
    Optional user-specified UUIDs for multimodal items, mapped by modality.
    Lists must match the number of items per modality and may contain `None`.
    For `None` entries, the hasher will compute IDs automatically; non-None
    entries override the default hashes for caching, and MUST be unique per
    multimodal item.
    """

    cache_salt: NotRequired[str]
    """
    Optional cache salt to be used for prefix caching.
    """

cache_salt `instance-attribute` ¶

cache_salt: NotRequired[str]

Optional cache salt to be used for prefix caching.

mm_processor_kwargs `instance-attribute` ¶

mm_processor_kwargs: NotRequired[dict[str, Any] | None]

Optional multi-modal processor kwargs to be forwarded to the multimodal input mapper & processor. Note that if multiple modalities have registered mappers etc for the model being considered, we attempt to pass the mm_processor_kwargs to each of them.

multi_modal_data `instance-attribute` ¶

multi_modal_data: NotRequired[MultiModalDataDict | None]

Optional multi-modal data to pass to the model, if the model supports it.

multi_modal_uuids `instance-attribute` ¶

multi_modal_uuids: NotRequired[MultiModalUUIDDict]

Optional user-specified UUIDs for multimodal items, mapped by modality. Lists must match the number of items per modality and may contain None. For None entries, the hasher will compute IDs automatically; non-None entries override the default hashes for caching, and MUST be unique per multimodal item.

embeds_inputs ¶

embeds_inputs(
    prompt_embeds: Tensor, cache_salt: str | None = None
) -> EmbedsInputs

Construct EmbedsInputs from optional values.

Source code in vllm/inputs/data.py

def embeds_inputs(
    prompt_embeds: torch.Tensor,
    cache_salt: str | None = None,
) -> EmbedsInputs:
    """Construct [`EmbedsInputs`][vllm.inputs.data.EmbedsInputs] from optional
    values."""
    inputs = EmbedsInputs(type="embeds", prompt_embeds=prompt_embeds)

    if cache_salt is not None:
        inputs["cache_salt"] = cache_salt

    return inputs

token_inputs ¶

token_inputs(
    prompt_token_ids: list[int],
    cache_salt: str | None = None,
) -> TokenInputs

Construct TokenInputs from optional values.

Source code in vllm/inputs/data.py

def token_inputs(
    prompt_token_ids: list[int],
    cache_salt: str | None = None,
) -> TokenInputs:
    """Construct [`TokenInputs`][vllm.inputs.data.TokenInputs] from optional
    values."""
    inputs = TokenInputs(type="token", prompt_token_ids=prompt_token_ids)

    if cache_salt is not None:
        inputs["cache_salt"] = cache_salt

    return inputs

vllm.inputs.data ¶

DecoderInputs module-attribute ¶

DecoderOnlyInputs module-attribute ¶

DecoderOnlyPrompt module-attribute ¶

DecoderPrompt module-attribute ¶

EncoderDecoderPrompt module-attribute ¶

EncoderInputs module-attribute ¶

EncoderPrompt module-attribute ¶

ProcessorInputs module-attribute ¶

PromptType module-attribute ¶

SingletonInputs module-attribute ¶

SingletonPrompt module-attribute ¶

DataPrompt ¶

data instance-attribute ¶

data_format instance-attribute ¶

EmbedsInputs ¶

prompt_embeds instance-attribute ¶

type instance-attribute ¶

EmbedsPrompt ¶

prompt instance-attribute ¶

prompt_embeds instance-attribute ¶

EncoderDecoderInputs ¶

decoder instance-attribute ¶

encoder instance-attribute ¶

ExplicitEncoderDecoderPrompt ¶

decoder_prompt instance-attribute ¶

encoder_prompt instance-attribute ¶

StreamingInput dataclass ¶

TextPrompt ¶

prompt instance-attribute ¶

TokenInputs ¶

prompt_token_ids instance-attribute ¶

type instance-attribute ¶

TokensPrompt ¶

prompt instance-attribute ¶

prompt_token_ids instance-attribute ¶

token_type_ids instance-attribute ¶

_InputOptions ¶

cache_salt instance-attribute ¶

_PromptOptions ¶

cache_salt instance-attribute ¶

mm_processor_kwargs instance-attribute ¶

multi_modal_data instance-attribute ¶

multi_modal_uuids instance-attribute ¶

embeds_inputs ¶

token_inputs ¶

DecoderInputs `module-attribute` ¶

DecoderOnlyInputs `module-attribute` ¶

DecoderOnlyPrompt `module-attribute` ¶

DecoderPrompt `module-attribute` ¶

EncoderDecoderPrompt `module-attribute` ¶

EncoderInputs `module-attribute` ¶

EncoderPrompt `module-attribute` ¶

ProcessorInputs `module-attribute` ¶

PromptType `module-attribute` ¶

SingletonInputs `module-attribute` ¶

SingletonPrompt `module-attribute` ¶

data `instance-attribute` ¶

data_format `instance-attribute` ¶

prompt_embeds `instance-attribute` ¶

type `instance-attribute` ¶

prompt `instance-attribute` ¶

prompt_embeds `instance-attribute` ¶

decoder `instance-attribute` ¶

encoder `instance-attribute` ¶

decoder_prompt `instance-attribute` ¶

encoder_prompt `instance-attribute` ¶

StreamingInput `dataclass` ¶

prompt `instance-attribute` ¶

prompt_token_ids `instance-attribute` ¶

type `instance-attribute` ¶

prompt `instance-attribute` ¶

prompt_token_ids `instance-attribute` ¶

token_type_ids `instance-attribute` ¶

cache_salt `instance-attribute` ¶

cache_salt `instance-attribute` ¶

mm_processor_kwargs `instance-attribute` ¶

multi_modal_data `instance-attribute` ¶

multi_modal_uuids `instance-attribute` ¶