vllm.model_executor.models.paligemma ¶

PaliGemmaImageEmbeddingInputs ¶

Bases: TensorSchema

Dimensions

bn: Batch size * number of images
ifs: Image feature size
hs: Hidden size (must match language model backbone)

Source code in vllm/model_executor/models/paligemma.py

class PaliGemmaImageEmbeddingInputs(TensorSchema):
    """
    Dimensions:
        - bn: Batch size * number of images
        - ifs: Image feature size
        - hs: Hidden size (must match language model backbone)
    """

    type: Literal["image_embeds"] = "image_embeds"
    data: Annotated[torch.Tensor, TensorShape("bn", "ifs", "hs")]

PaliGemmaImagePixelInputs ¶

Bases: TensorSchema

Dimensions

bn: Batch size * number of images
c: Number of channels (3)
h: Height
w: Width

Source code in vllm/model_executor/models/paligemma.py

class PaliGemmaImagePixelInputs(TensorSchema):
    """
    Dimensions:
        - bn: Batch size * number of images
        - c: Number of channels (3)
        - h: Height
        - w: Width
    """

    type: Literal["pixel_values"] = "pixel_values"
    data: Annotated[torch.Tensor, TensorShape("bn", 3, "h", "w")]