§
    ñ§g< ã                   ó
  — d Z ddlZddlZddlmZ ddlmZmZmZm	Z	 ddl
Z
ddlZ
ddl
mZ ddlmZ ddlmZmZ dd	lmZmZ dd
lmZ ddlmZmZmZmZmZmZ ddlmZm Z m!Z!  ej"        e#¦  «        Z$dZ%de
j&        de
j&        fd„Z'de
j&        de
j&        fd„Z(e G d„ de¦  «        ¦   «         Z)e G d„ de¦  «        ¦   «         Z*e G d„ de¦  «        ¦   «         Z+ G d„ dej,        ¦  «        Z- G d„ dej,        ¦  «        Z. G d„ dej,        ¦  «        Z/ G d „ d!ej,        ¦  «        Z0 G d"„ d#ej,        ¦  «        Z1 G d$„ d%e¦  «        Z2d&Z3d'Z4d(Z5d)Z6 G d*„ d+ej,        ¦  «        Z7 G d,„ d-ej,        ¦  «        Z8 G d.„ d/e2¦  «        Z9 G d0„ d1ej,        ¦  «        Z: G d2„ d3e2¦  «        Z; ee3¦  «         G d4„ d5e2¦  «        ¦   «         Z< G d6„ d7ej,        ¦  «        Z= G d8„ d9e2¦  «        Z> ed:e3¦  «         G d;„ d<e2¦  «        ¦   «         Z?dS )=zPyTorch CLIPSeg model.é    N)Ú	dataclass)ÚAnyÚOptionalÚTupleÚUnion)Únné   )ÚACT2FN)Ú _create_4d_causal_attention_maskÚ_prepare_4d_attention_mask)ÚBaseModelOutputÚBaseModelOutputWithPooling)ÚPreTrainedModel)ÚModelOutputÚadd_start_docstringsÚ%add_start_docstrings_to_model_forwardÚloggingÚreplace_return_docstringsÚ	torch_inté   )ÚCLIPSegConfigÚCLIPSegTextConfigÚCLIPSegVisionConfigzCIDAS/clipseg-rd64-refinedÚlogitsÚreturnc                 óŽ   — t           j                             | t          j        t          | ¦  «        | j        ¬¦  «        ¦  «        S )N©Údevice)r   Ú
functionalÚcross_entropyÚtorchÚarangeÚlenr   )r   s    úh/var/www/html/ai-engine/env/lib/python3.11/site-packages/transformers/models/clipseg/modeling_clipseg.pyÚcontrastive_lossr%   1   s3   € ÝŒ=×&Ò& v­u¬|½CÀ¹K¼KÐPVÔP]Ð/^Ñ/^Ô/^Ñ_Ô_Ð_ó    Ú
similarityc                 ór   — t          | ¦  «        }t          |                      ¦   «         ¦  «        }||z   dz  S )Ng       @)r%   Út)r'   Úcaption_lossÚ
image_losss      r$   Úclipseg_lossr,   6   s4   € Ý# JÑ/Ô/€LÝ! *§,¢,¡.¤.Ñ1Ô1€JØ˜:Ñ%¨Ñ,Ð,r&   c                   óÌ   — e Zd ZU dZdZeej                 ed<   dZ	ej        ed<   dZ
ej        ed<   dZej        ed<   dZej        ed<   dZeed<   dZeed	<   d
ee         fd„ZdS )ÚCLIPSegOutputaÿ  
    Args:
        loss (`torch.FloatTensor` of shape `(1,)`, *optional*, returned when `return_loss` is `True`):
            Contrastive loss for image-text similarity.
        logits_per_image (`torch.FloatTensor` of shape `(image_batch_size, text_batch_size)`):
            The scaled dot product scores between `image_embeds` and `text_embeds`. This represents the image-text
            similarity scores.
        logits_per_text (`torch.FloatTensor` of shape `(text_batch_size, image_batch_size)`):
            The scaled dot product scores between `text_embeds` and `image_embeds`. This represents the text-image
            similarity scores.
        text_embeds (`torch.FloatTensor` of shape `(batch_size, output_dim`):
            The text embeddings obtained by applying the projection layer to the pooled output of [`CLIPSegTextModel`].
        image_embeds (`torch.FloatTensor` of shape `(batch_size, output_dim`):
            The image embeddings obtained by applying the projection layer to the pooled output of [`CLIPSegVisionModel`].
        text_model_output (`BaseModelOutputWithPooling`):
            The output of the [`CLIPSegTextModel`].
        vision_model_output (`BaseModelOutputWithPooling`):
            The output of the [`CLIPSegVisionModel`].
    NÚlossÚlogits_per_imageÚlogits_per_textÚtext_embedsÚimage_embedsÚtext_model_outputÚvision_model_outputr   c                 ó^   ‡ — t          ˆ fd„‰                      ¦   «         D ¦   «         ¦  «        S )Nc              3   ót   •K  — | ]2}|d vr‰|         n!t          ‰|¦  «                             ¦   «         V — Œ3dS ))r4   r5   N©ÚgetattrÚto_tuple©Ú.0ÚkÚselfs     €r$   ú	<genexpr>z)CLIPSegOutput.to_tuple.<locals>.<genexpr>\   sc   øè è € ð 
ð 
àð Ð LÐLÐLˆDŒGˆGÕRYÐZ^Ð`aÑRbÔRb×RkÒRkÑRmÔRmð
ð 
ð 
ð 
ð 
ð 
r&   ©ÚtupleÚkeys©r>   s   `r$   r:   zCLIPSegOutput.to_tuple[   óC   ø€ Ýð 
ð 
ð 
ð 
à—Y’Y‘[”[ð
ñ 
ô 
ñ 
ô 
ð 	
r&   )Ú__name__Ú
__module__Ú__qualname__Ú__doc__r/   r   r!   ÚFloatTensorÚ__annotations__r0   r1   r2   r3   r4   r   r5   r   r   r:   © r&   r$   r.   r.   <   sÊ   € € € € € € ðð ð( )-€Dˆ(5Ô$Ô
%Ð,Ð,Ñ,Ø*.ÐeÔ'Ð.Ð.Ñ.Ø)-€OUÔ&Ð-Ð-Ñ-Ø%)€KÔ"Ð)Ð)Ñ)Ø&*€L%Ô#Ð*Ð*Ñ*Ø48ÐÐ1Ð8Ð8Ñ8Ø6:ÐÐ3Ð:Ð:Ñ:ð
˜% œ*ð 
ð 
ð 
ð 
ð 
ð 
r&   r.   c                   óŒ   — e Zd ZU dZdZej        ed<   dZe	e
ej                          ed<   dZe	e
ej                          ed<   dS )ÚCLIPSegDecoderOutputa¯  
    Args:
        logits (`torch.FloatTensor` of shape `(batch_size, height, width)`):
            Classification scores for each pixel.
        hidden_states (`tuple(torch.FloatTensor)`, *optional*, returned when `output_hidden_states=True` is passed or when `config.output_hidden_states=True`):
            Tuple of `torch.FloatTensor` (one for the output of the embeddings, if the model has an embedding layer, +
            one for the output of each layer) of shape `(batch_size, sequence_length, hidden_size)`.
        attentions (`tuple(torch.FloatTensor)`, *optional*, returned when `output_attentions=True` is passed or when `config.output_attentions=True`):
            Tuple of `torch.FloatTensor` (one for each layer) of shape `(batch_size, num_heads, sequence_length,
            sequence_length)`. Attentions weights after the attention softmax, used to compute the weighted average in
            the self-attention heads.
    Nr   Úhidden_statesÚ
attentions)rE   rF   rG   rH   r   r!   rI   rJ   rN   r   r   rO   rK   r&   r$   rM   rM   b   sk   € € € € € € ðð ð !%€FˆEÔÐ$Ð$Ñ$Ø8<€M8˜E %Ô"3Ô4Ô5Ð<Ð<Ñ<Ø59€J˜˜uÔ0Ô1Ô2Ð9Ð9Ñ9Ð9Ð9r&   rM   c                   ó´   — e Zd ZU dZdZeej                 ed<   dZ	ej        ed<   dZ
ej        ed<   dZej        ed<   dZeed<   dZeed<   d	ee         fd
„ZdS )ÚCLIPSegImageSegmentationOutputa,  
    Args:
        loss (`torch.FloatTensor` of shape `(1,)`, *optional*, returned when `return_loss` is `True`):
            Contrastive loss for image-text similarity.
        ...
        vision_model_output (`BaseModelOutputWithPooling`):
            The output of the [`CLIPSegVisionModel`].
    Nr/   r   Úconditional_embeddingsÚpooled_outputr5   Údecoder_outputr   c                 ó^   ‡ — t          ˆ fd„‰                      ¦   «         D ¦   «         ¦  «        S )Nc              3   ót   •K  — | ]2}|d vr‰|         n!t          ‰|¦  «                             ¦   «         V — Œ3dS ))r5   rT   Nr8   r;   s     €r$   r?   z:CLIPSegImageSegmentationOutput.to_tuple.<locals>.<genexpr>‰   sb   øè è € ð 
ð 
àð Ð IÐIÐIˆDŒGˆGÍwÐW[Ð]^ÑO_ÔO_×OhÒOhÑOjÔOjð
ð 
ð 
ð 
ð 
ð 
r&   r@   rC   s   `r$   r:   z'CLIPSegImageSegmentationOutput.to_tupleˆ   rD   r&   )rE   rF   rG   rH   r/   r   r!   rI   rJ   r   rR   rS   r5   r   rT   rM   r   r   r:   rK   r&   r$   rQ   rQ   v   s¶   € € € € € € ðð ð )-€Dˆ(5Ô$Ô
%Ð,Ð,Ñ,Ø $€FˆEÔÐ$Ð$Ñ$Ø04Ð˜EÔ-Ð4Ð4Ñ4Ø'+€M5Ô$Ð+Ð+Ñ+Ø6:ÐÐ3Ð:Ð:Ñ:Ø+/€NÐ(Ð/Ð/Ñ/ð
˜% œ*ð 
ð 
ð 
ð 
ð 
ð 
r&   rQ   c                   óv   ‡ — e Zd Zdefˆ fd„Zdej        dededej        fd„Zdd	ej	        dej        fd
„Z
ˆ xZS )ÚCLIPSegVisionEmbeddingsÚconfigc                 óz  •— t          ¦   «                              ¦   «          || _        |j        | _        |j        | _        |j        | _        t          j        t          j
        | j        ¦  «        ¦  «        | _        t          j        |j        | j        | j        | j        d¬¦  «        | _        | j        | j        z  dz  | _        | j        dz   | _        t          j        | j        | j        ¦  «        | _        |                      dt          j        | j        ¦  «                             d¦  «        d¬¦  «         d S )NF)Úin_channelsÚout_channelsÚkernel_sizeÚstrideÚbiasé   r   Úposition_ids©r   éÿÿÿÿ©Ú
persistent)ÚsuperÚ__init__rY   Úhidden_sizeÚ	embed_dimÚ
image_sizeÚ
patch_sizer   Ú	Parameterr!   ÚrandnÚclass_embeddingÚConv2dÚnum_channelsÚpatch_embeddingÚnum_patchesÚnum_positionsÚ	EmbeddingÚposition_embeddingÚregister_bufferr"   Úexpand©r>   rY   Ú	__class__s     €r$   rg   z CLIPSegVisionEmbeddings.__init__‘   s  ø€ Ý‰Œ×ÒÑÔÐØˆŒØÔ+ˆŒØ Ô+ˆŒØ Ô+ˆŒå!œ|­E¬K¸¼Ñ,GÔ,GÑHÔHˆÔå!œyØÔ+ØœØœØ”?Øð 
ñ  
ô  
ˆÔð !œO¨t¬Ñ>À1ÑDˆÔØ!Ô-°Ñ1ˆÔÝ"$¤,¨tÔ/AÀ4Ä>Ñ"RÔ"RˆÔØ×Ò˜^­U¬\¸$Ô:LÑ-MÔ-M×-TÒ-TÐU\Ñ-]Ô-]ÐjoÐÑpÔpÐpÐpÐpr&   Ú
embeddingsÚheightÚwidthr   c                 óÚ  — |j         d         dz
  }| j        j                             d¦  «        }|j         d         dz
  }t          j                             ¦   «         s&||k    r ||k    r|                      | j        ¦  «        S |dd…dd…f         }|dd…dd…f         }|j         d         }	|| j        z  }
|| j        z  }t          |dz  ¦  «        }| 
                    d|||	¦  «        }|                     dddd¦  «        }t          j                             ||
|fdd	¬
¦  «        }|                     dddd¦  «                             dd|	¦  «        }t	          j        ||fd¬¦  «        S )a   
        This method allows to interpolate the pre-trained position encodings, to be able to use the model on higher resolution
        images. This method is also adapted to support torch.jit tracing.

        Adapted from:
        - https://github.com/facebookresearch/dino/blob/de9ee3df6cf39fac952ab558447af1fa1365362a/vision_transformer.py#L174-L194, and
        - https://github.com/facebookresearch/dinov2/blob/e1277af2ba9496fbadf7aec6eba56e8d882d1e35/dinov2/models/vision_transformer.py#L179-L211
        r   r   Nrc   g      à?r	   r`   ÚbicubicF)ÚsizeÚmodeÚalign_corners©Údim)Úshaperu   ÚweightÚ	unsqueezer!   ÚjitÚ
is_tracingra   rk   r   ÚreshapeÚpermuter   r   ÚinterpolateÚviewÚcat)r>   rz   r{   r|   rr   ru   rs   Úclass_pos_embedÚpatch_pos_embedrƒ   Ú
new_heightÚ	new_widthÚsqrt_num_positionss                r$   Úinterpolate_pos_encodingz0CLIPSegVisionEmbeddings.interpolate_pos_encoding§   s‘  € ð !Ô& qÔ)¨AÑ-ˆØ!Ô4Ô;×EÒEÀaÑHÔHÐØ*Ô0°Ô3°aÑ7ˆõ Œy×#Ò#Ñ%Ô%ð 	>¨+¸Ò*FÐ*FÈ6ÐUZÊ?È?Ø×*Ò*¨4Ô+<Ñ=Ô=Ð=à,¨Q¨Q¨Q°°°¨UÔ3ˆØ,¨Q¨Q¨Q°°°¨UÔ3ˆàÔ˜rÔ"ˆà˜tœÑ.ˆ
Ø˜Tœ_Ñ,ˆ	å& }°cÑ'9Ñ:Ô:ÐØ)×1Ò1°!Ð5GÐI[Ð]`ÑaÔaˆØ)×1Ò1°!°Q¸¸1Ñ=Ô=ˆåœ-×3Ò3ØØ˜iÐ(ØØð	 4ñ 
ô 
ˆð *×1Ò1°!°Q¸¸1Ñ=Ô=×BÒBÀ1ÀbÈ#ÑNÔNˆåŒy˜/¨?Ð;ÀÐCÑCÔCÐCr&   FÚpixel_valuesc                 óò  — |j         \  }}}}|s<|| j        k    s|| j        k    r&t          d|› d|› d| j        › d| j        › d	¦  «        ‚|                      |¦  «        }|                     d¦  «                             dd¦  «        }| j                             |dd¦  «        }t          j	        ||gd¬¦  «        }	|r|	|  
                    |	||¦  «        z   }	n|	|                      | j        ¦  «        z   }	|	S )	NzInput image size (Ú*z) doesn't match model (ú).r`   r   rc   r‚   )r„   rj   Ú
ValueErrorrq   ÚflattenÚ	transposern   rw   r!   r   r“   ru   ra   )
r>   r”   r“   Ú
batch_sizeÚ_r{   r|   Úpatch_embedsÚclass_embedsrz   s
             r$   ÚforwardzCLIPSegVisionEmbeddings.forwardÐ   s*  € Ø'3Ô'9Ñ$ˆ
Av˜uØ'ð 	¨V°t´Ò-FÐ-FÈ%ÐSWÔSbÒJbÐJbÝØu VÐuÐu¨eÐuÐuÐPTÔP_ÐuÐuÐbfÔbqÐuÐuÐuñô ð ð ×+Ò+¨LÑ9Ô9ˆØ#×+Ò+¨AÑ.Ô.×8Ò8¸¸AÑ>Ô>ˆàÔ+×2Ò2°:¸qÀ"ÑEÔEˆÝ”Y ¨lÐ;ÀÐCÑCÔCˆ
Ø#ð 	QØ# d×&CÒ&CÀJÐPVÐX]Ñ&^Ô&^Ñ^ˆJˆJà# d×&=Ò&=¸dÔ>OÑ&PÔ&PÑPˆJØÐr&   ©F)rE   rF   rG   r   rg   r!   ÚTensorÚintr“   rI   rŸ   Ú__classcell__©ry   s   @r$   rX   rX      sº   ø€ € € € € ðqÐ2ð qð qð qð qð qð qð,'D°5´<ð 'DÈð 'DÐUXð 'DÐ]bÔ]ið 'Dð 'Dð 'Dð 'DðRð  EÔ$5ð ÐZ_ÔZfð ð ð ð ð ð ð ð r&   rX   c            	       ó   ‡ — e Zd Zdefˆ fd„Z	 	 	 d	deej                 deej                 deej                 dej	        fd„Z
ˆ xZS )
ÚCLIPSegTextEmbeddingsrY   c                 óV  •— t          ¦   «                              ¦   «          |j        }t          j        |j        |¦  «        | _        t          j        |j        |¦  «        | _        |  	                    dt          j        |j        ¦  «                             d¦  «        d¬¦  «         d S )Nra   rb   Frd   )rf   rg   rh   r   rt   Ú
vocab_sizeÚtoken_embeddingÚmax_position_embeddingsru   rv   r!   r"   rw   ©r>   rY   ri   ry   s      €r$   rg   zCLIPSegTextEmbeddings.__init__ä   sœ   ø€ Ý‰Œ×ÒÑÔÐØÔ&ˆ	å!œ|¨FÔ,=¸yÑIÔIˆÔÝ"$¤,¨vÔ/MÈyÑ"YÔ"YˆÔð 	×ÒØEœL¨Ô)GÑHÔH×OÒOÐPWÑXÔXÐejð 	ñ 	
ô 	
ð 	
ð 	
ð 	
r&   NÚ	input_idsra   Úinputs_embedsr   c                 óÊ   — ||j         d         n|j         d         }|€| j        d d …d |…f         }|€|                      |¦  «        }|                      |¦  «        }||z   }|S )Nrc   éþÿÿÿ)r„   ra   r©   ru   )r>   r¬   ra   r­   Ú
seq_lengthÚposition_embeddingsrz   s          r$   rŸ   zCLIPSegTextEmbeddings.forwardð   s€   € ð -6Ð,AY”_ RÔ(Ð(À}ÔGZÐ[]ÔG^ˆ
àÐØÔ,¨Q¨Q¨Q°°°¨^Ô<ˆLàÐ Ø ×0Ò0°Ñ;Ô;ˆMà"×5Ò5°lÑCÔCÐØ"Ð%8Ñ8ˆ
àÐr&   )NNN)rE   rF   rG   r   rg   r   r!   Ú
LongTensorrI   r¡   rŸ   r£   r¤   s   @r$   r¦   r¦   ã   s©   ø€ € € € € ð

Ð0ð 

ð 

ð 

ð 

ð 

ð 

ð 15Ø37Ø59ð	ð à˜EÔ,Ô-ðð ˜uÔ/Ô0ðð   Ô 1Ô2ð	ð
 
Œðð ð ð ð ð ð ð r&   r¦   c                   óÖ   ‡ — e Zd ZdZˆ fd„Zdej        dedefd„Z	 	 	 dd	ej        d
e	ej                 de	ej                 de	e
         deej        e	ej                 f         f
d„Zˆ xZS )ÚCLIPSegAttentionz=Multi-headed attention from 'Attention Is All You Need' paperc                 ót  •— t          ¦   «                              ¦   «          || _        |j        | _        |j        | _        | j        | j        z  | _        | j        | j        z  | j        k    r t          d| j        › d| j        › d¦  «        ‚| j        dz  | _	        |j
        | _        t          j        | j        | j        ¦  «        | _        t          j        | j        | j        ¦  «        | _        t          j        | j        | j        ¦  «        | _        t          j        | j        | j        ¦  «        | _        d S )Nz;embed_dim must be divisible by num_heads (got `embed_dim`: z and `num_heads`: r—   ç      à¿)rf   rg   rY   rh   ri   Únum_attention_headsÚ	num_headsÚhead_dimr˜   ÚscaleÚattention_dropoutÚdropoutr   ÚLinearÚk_projÚv_projÚq_projÚout_projrx   s     €r$   rg   zCLIPSegAttention.__init__  s  ø€ Ý‰Œ×ÒÑÔÐØˆŒØÔ+ˆŒØÔ3ˆŒØœ¨$¬.Ñ8ˆŒØŒ=˜4œ>Ñ)¨T¬^Ò;Ð;Ýð'ÈdÌnð 'ð 'Ø”Nð'ð 'ð 'ñô ð ð ”] DÑ(ˆŒ
ØÔ/ˆŒå”i ¤°´Ñ?Ô?ˆŒÝ”i ¤°´Ñ?Ô?ˆŒÝ”i ¤°´Ñ?Ô?ˆŒÝœ	 $¤.°$´.ÑAÔAˆŒˆˆr&   ÚtensorÚseq_lenÚbszc                 ó’   — |                      ||| j        | j        ¦  «                             dd¦  «                             ¦   «         S )Nr   r`   )rŒ   r¸   r¹   rš   Ú
contiguous)r>   rÂ   rÃ   rÄ   s       r$   Ú_shapezCLIPSegAttention._shape  s<   € Ø{Š{˜3 ¨¬¸¼ÑGÔG×QÒQÐRSÐUVÑWÔW×bÒbÑdÔdÐdr&   NFrN   Úattention_maskÚcausal_attention_maskÚoutput_attentionsr   c                 ó´  — |                      ¦   «         \  }}}|                      |¦  «        | j        z  }|                      |                      |¦  «        d|¦  «        }	|                      |                      |¦  «        d|¦  «        }
|| j        z  d| j        f} |                      |||¦  «        j        |Ž } |	j        |Ž }	 |
j        |Ž }
|	                      d¦  «        }t          j
        ||	                     dd¦  «        ¦  «        }|                      ¦   «         || j        z  ||fk    r2t          d|| j        z  ||f› d|                      ¦   «         › ¦  «        ‚|†|                      ¦   «         |d||fk    r+t          d|d||f› d|                      ¦   «         › ¦  «        ‚|                     || j        ||¦  «        |z   }|                     || j        z  ||¦  «        }|†|                      ¦   «         |d||fk    r+t          d|d||f› d|                      ¦   «         › ¦  «        ‚|                     || j        ||¦  «        |z   }|                     || j        z  ||¦  «        }t          j                             |d¬¦  «        }|r=|                     || j        ||¦  «        }|                     || j        z  ||¦  «        }nd}t          j                             || j        | j        ¬	¦  «        }t          j
        ||
¦  «        }|                      ¦   «         || j        z  || j        fk    r5t          d
|| j        || j        f› d|                      ¦   «         › ¦  «        ‚|                     || j        || j        ¦  «        }|                     dd¦  «        }|                     |||¦  «        }|                      |¦  «        }||fS )z#Input shape: Batch x Time x Channelrc   r   r`   z$Attention weights should be of size z	, but is Nz!Attention mask should be of size r‚   )ÚpÚtrainingz `attn_output` should be of size )r   rÀ   rº   rÇ   r¾   r¿   r¸   r¹   rŒ   r!   Úbmmrš   r˜   r   r   Úsoftmaxr¼   rÍ   r‰   rÁ   )r>   rN   rÈ   rÉ   rÊ   rÄ   Útgt_lenri   Úquery_statesÚ
key_statesÚvalue_statesÚ
proj_shapeÚsrc_lenÚattn_weightsÚattn_weights_reshapedÚ
attn_probsÚattn_outputs                    r$   rŸ   zCLIPSegAttention.forward  s0  € ð #0×"4Ò"4Ñ"6Ô"6ÑˆˆWið —{’{ =Ñ1Ô1°D´JÑ>ˆØ—[’[ §¢¨]Ñ!;Ô!;¸RÀÑEÔEˆ
Ø—{’{ 4§;¢;¨}Ñ#=Ô#=¸rÀ3ÑGÔGˆà˜DœNÑ*¨B°´Ð>ˆ
ØCt—{’{ <°¸#Ñ>Ô>ÔCÀZÐPˆØ$Z”_ jÐ1ˆ
Ø(|Ô(¨*Ð5ˆà—/’/ !Ñ$Ô$ˆÝ”y ¨z×/CÒ/CÀAÀqÑ/IÔ/IÑJÔJˆà×ÒÑÔ 3¨¬Ñ#7¸À'Ð"JÒJÐJÝð*¸¸d¼nÑ8LÈgÐW^Ð7_ð *ð *Ø ×%Ò%Ñ'Ô'ð*ð *ñô ð ð !Ð,Ø$×)Ò)Ñ+Ô+°°Q¸ÀÐ/IÒIÐIÝ ð7¸¸aÀÈ'Ð8Rð 7ð 7Ø-×2Ò2Ñ4Ô4ð7ð 7ñô ð ð (×,Ò,¨S°$´.À'È7ÑSÔSÐVkÑkˆLØ'×,Ò,¨S°4´>Ñ-AÀ7ÈGÑTÔTˆLàÐ%Ø×"Ò"Ñ$Ô$¨¨a°¸'Ð(BÒBÐBÝ Øt¸¸aÀÈ'Ð8RÐtÐtÐ]k×]pÒ]pÑ]rÔ]rÐtÐtñô ð ð (×,Ò,¨S°$´.À'È7ÑSÔSÐVdÑdˆLØ'×,Ò,¨S°4´>Ñ-AÀ7ÈGÑTÔTˆLå”}×,Ò,¨\¸rÐ,ÑBÔBˆàð 	)ð
 %1×$5Ò$5°c¸4¼>È7ÐT[Ñ$\Ô$\Ð!Ø0×5Ò5°c¸D¼NÑ6JÈGÐU\Ñ]Ô]ˆLˆLà$(Ð!å”]×*Ò*¨<¸4¼<ÐRVÔR_Ð*Ñ`Ô`ˆ
å”i 
¨LÑ9Ô9ˆà×ÒÑÔ #¨¬Ñ"6¸ÀÄÐ!OÒOÐOÝð)°C¸¼ÈÐRVÔR_Ð3`ð )ð )Ø×$Ò$Ñ&Ô&ð)ð )ñô ð ð
 "×&Ò& s¨D¬N¸GÀTÄ]ÑSÔSˆØ!×+Ò+¨A¨qÑ1Ô1ˆØ!×)Ò)¨#¨w¸	ÑBÔBˆà—m’m KÑ0Ô0ˆàÐ1Ð1Ð1r&   )NNF)rE   rF   rG   rH   rg   r!   r¡   r¢   rÇ   r   Úboolr   rŸ   r£   r¤   s   @r$   r´   r´     sþ   ø€ € € € € ØGÐGðBð Bð Bð Bð Bð&e˜Uœ\ð e°Cð e¸cð eð eð eð eð 26Ø8<Ø,1ðL2ð L2à”|ðL2ð ! ¤Ô.ðL2ð  (¨¬Ô5ð	L2ð
 $ Dœ>ðL2ð 
ˆuŒ|˜X e¤lÔ3Ð3Ô	4ðL2ð L2ð L2ð L2ð L2ð L2ð L2ð L2r&   r´   c                   óB   ‡ — e Zd Zˆ fd„Zdej        dej        fd„Zˆ xZS )Ú
CLIPSegMLPc                 ó  •— t          ¦   «                              ¦   «          || _        t          |j                 | _        t          j        |j        |j	        ¦  «        | _
        t          j        |j	        |j        ¦  «        | _        d S ©N)rf   rg   rY   r
   Ú
hidden_actÚactivation_fnr   r½   rh   Úintermediate_sizeÚfc1Úfc2rx   s     €r$   rg   zCLIPSegMLP.__init__o  sf   ø€ Ý‰Œ×ÒÑÔÐØˆŒÝ# FÔ$5Ô6ˆÔÝ”9˜VÔ/°Ô1IÑJÔJˆŒÝ”9˜VÔ5°vÔ7IÑJÔJˆŒˆˆr&   rN   r   c                 ó„   — |                       |¦  «        }|                      |¦  «        }|                      |¦  «        }|S rÞ   )râ   rà   rã   )r>   rN   s     r$   rŸ   zCLIPSegMLP.forwardv  s=   € ØŸš Ñ/Ô/ˆØ×*Ò*¨=Ñ9Ô9ˆØŸš Ñ/Ô/ˆØÐr&   )rE   rF   rG   rg   r!   r¡   rŸ   r£   r¤   s   @r$   rÜ   rÜ   n  sc   ø€ € € € € ðKð Kð Kð Kð Kð U¤\ð °e´lð ð ð ð ð ð ð ð r&   rÜ   c                   ó„   ‡ — e Zd Zdefˆ fd„Z	 d
dej        dej        dej        dee         de	ej
                 f
d	„Zˆ xZS )ÚCLIPSegEncoderLayerrY   c                 óD  •— t          ¦   «                              ¦   «          |j        | _        t	          |¦  «        | _        t          j        | j        |j        ¬¦  «        | _	        t          |¦  «        | _        t          j        | j        |j        ¬¦  «        | _        d S ©N)Úeps©rf   rg   rh   ri   r´   Ú	self_attnr   Ú	LayerNormÚlayer_norm_epsÚlayer_norm1rÜ   ÚmlpÚlayer_norm2rx   s     €r$   rg   zCLIPSegEncoderLayer.__init__  ó   ø€ Ý‰Œ×ÒÑÔÐØÔ+ˆŒÝ)¨&Ñ1Ô1ˆŒÝœ<¨¬¸FÔ<QÐRÑRÔRˆÔÝ˜fÑ%Ô%ˆŒÝœ<¨¬¸FÔ<QÐRÑRÔRˆÔÐÐr&   FrN   rÈ   rÉ   rÊ   r   c                 óî   — |}|                       |¦  «        }|                      ||||¬¦  «        \  }}||z   }|}|                      |¦  «        }|                      |¦  «        }||z   }|f}|r||fz  }|S ©aI  
        Args:
            hidden_states (`torch.FloatTensor`): input to the layer of shape `(batch, seq_len, embed_dim)`
            attention_mask (`torch.FloatTensor`): attention mask of size
                `(batch, 1, tgt_len, src_len)` where padding elements are indicated by very large negative values.
                `(config.encoder_attention_heads,)`.
            output_attentions (`bool`, *optional*):
                Whether or not to return the attentions tensors of all attention layers. See `attentions` under
                returned tensors for more detail.
        )rN   rÈ   rÉ   rÊ   )rî   rë   rð   rï   ©r>   rN   rÈ   rÉ   rÊ   ÚresidualrÖ   Úoutputss           r$   rŸ   zCLIPSegEncoderLayer.forward‡  s¥   € ð" !ˆà×(Ò(¨Ñ7Ô7ˆØ&*§n¢nØ'Ø)Ø"7Ø/ð	 '5ñ '
ô '
Ñ#ˆ|ð ! =Ñ0ˆà ˆØ×(Ò(¨Ñ7Ô7ˆØŸš Ñ/Ô/ˆØ  =Ñ0ˆà Ð"ˆàð 	'Ø˜Ñ&ˆGàˆr&   r    )rE   rF   rG   r   rg   r!   r¡   r   rÚ   r   rI   rŸ   r£   r¤   s   @r$   ræ   ræ   ~  s«   ø€ € € € € ðS˜}ð Sð Sð Sð Sð Sð Sð -2ð&ð &à”|ð&ð œð&ð  %œ|ð	&ð
 $ Dœ>ð&ð 
ˆuÔ Ô	!ð&ð &ð &ð &ð &ð &ð &ð &r&   ræ   c                   ó$   — e Zd ZdZeZdZdZd„ ZdS )ÚCLIPSegPreTrainedModelz†
    An abstract class to handle weights initialization and a simple interface for downloading and loading pretrained
    models.
    ÚclipTc                 ó4  — | j         j        }t          |t          ¦  «        rT|j        j        j                             d|dz  ¬¦  «         |j        j        j                             d|dz  ¬¦  «         nt          |t          ¦  «        r°| j         j        }t          j                             |j        d|j        dz  |z  ¬¦  «         t          j                             |j        j        |j         j        |z  ¬¦  «         t          j                             |j        j        |j         j        |z  ¬¦  «         nCt          |t           ¦  «        rç| j         j        }|j        dz  d|j         j        z  dz  z  |z  }|j        dz  |z  }t          j                             |j        j        |¬¦  «         t          j                             |j        j        |¬¦  «         t          j                             |j        j        |¬¦  «         t          j                             |j        j        |¬¦  «         nGt          |t,          ¦  «        r| j         j        }|j         j        dz  d|j         j        z  dz  z  |z  }d|j         j        z  dz  |z  }t          j                             |j        j        |¬¦  «         t          j                             |j        j        |¬¦  «         n•t          |t4          ¦  «        r€t          j                             |j        j        |j        dz  | j         j        z  ¬¦  «         t          j                             |j        j        |j        dz  | j         j        z  ¬¦  «         t          |t          j        ¦  «        r=|j         j         !                    ¦   «          |j        j         "                    d¦  «         t          |t          j#        ¦  «        r'|j         "|j         j         !                    ¦   «          dS dS dS )	zInitialize the weightsg        g{®Gáz”?)ÚmeanÚstdr¶   )rü   r`   g      ð?N)$rY   Úinitializer_factorÚ
isinstancer¦   r©   r…   ÚdataÚnormal_ru   rX   r   Úinitrn   ri   rq   Úinitializer_ranger´   Únum_hidden_layersrÀ   r¾   r¿   rÁ   rÜ   rh   râ   rã   ÚCLIPSegModelÚtext_projectionÚtext_embed_dimÚvisual_projectionÚvision_embed_dimrì   r_   Úzero_Úfill_r½   )r>   ÚmoduleÚfactorÚin_proj_stdÚout_proj_stdÚfc_stds         r$   Ú_init_weightsz$CLIPSegPreTrainedModel._init_weightsº  s  € à”Ô/ˆÝfÕ3Ñ4Ô4ð 	ØÔ"Ô)Ô.×6Ò6¸CÀVÈdÁ]Ð6ÑSÔSÐSØÔ%Ô,Ô1×9Ò9¸sÈÐQUÉÐ9ÑVÔVÐVÑVÝ˜Õ 7Ñ8Ô8ð 	Ø”[Ô3ˆFÝŒGOŠO˜FÔ2¸À&ÔBRÐTXÑBXÐ[aÑBaˆOÑbÔbÐbÝŒGOŠO˜FÔ2Ô9¸v¼}Ô?^ÐagÑ?gˆOÑhÔhÐhÝŒGOŠO˜FÔ5Ô<À&Ä-ÔBaÐdjÑBjˆOÑkÔkÐkÑkÝ˜Õ 0Ñ1Ô1ð 	Ø”[Ô3ˆFØ!Ô+¨TÑ1°q¸6¼=Ô;ZÑ7ZÐ_cÑ6cÑdÐgmÑmˆKØ"Ô,¨dÑ2°fÑ<ˆLÝŒGOŠO˜FœMÔ0°kˆOÑBÔBÐBÝŒGOŠO˜FœMÔ0°kˆOÑBÔBÐBÝŒGOŠO˜FœMÔ0°kˆOÑBÔBÐBÝŒGOŠO˜FœOÔ2¸ˆOÑEÔEÐEÑEÝ˜¥
Ñ+Ô+ð 	Ø”[Ô3ˆFØ!œ=Ô4°dÑ:ÀÀFÄMÔDcÑ@cÐhlÑ?lÑmÐpvÑvˆKØ˜&œ-Ô3Ñ3¸Ñ<¸vÑEˆFÝŒGOŠO˜FœJÔ-°6ˆOÑ:Ô:Ð:ÝŒGOŠO˜FœJÔ-°;ˆOÑ?Ô?Ð?Ð?Ý˜¥Ñ-Ô-ð 	ÝŒGOŠOØÔ&Ô-ØÔ)¨4Ñ/°$´+Ô2PÑPð ñ ô ð õ ŒGOŠOØÔ(Ô/ØÔ+¨TÑ1°D´KÔ4RÑRð ñ ô ð õ
 fbœlÑ+Ô+ð 	*ØŒKÔ×"Ò"Ñ$Ô$Ð$ØŒMÔ×$Ò$ SÑ)Ô)Ð)ÝfbœiÑ(Ô(ð 	%¨V¬[Ð-DØŒKÔ×"Ò"Ñ$Ô$Ð$Ð$Ð$ð	%ð 	%Ð-DÐ-Dr&   N)	rE   rF   rG   rH   r   Úconfig_classÚbase_model_prefixÚsupports_gradient_checkpointingr  rK   r&   r$   rø   rø   °  s@   € € € € € ðð ð
 !€LØÐØ&*Ð#ð'%ð '%ð '%ð '%ð '%r&   rø   aI  
    This model is a PyTorch [torch.nn.Module](https://pytorch.org/docs/stable/nn.html#torch.nn.Module) subclass. Use it
    as a regular PyTorch Module and refer to the PyTorch documentation for all matter related to general usage and
    behavior.

    Parameters:
        config ([`CLIPSegConfig`]): Model configuration class with all the parameters of the model.
            Initializing with a config file does not load the weights associated with the model, only the
            configuration. Check out the [`~PreTrainedModel.from_pretrained`] method to load the model weights.
aƒ  
    Args:
        input_ids (`torch.LongTensor` of shape `(batch_size, sequence_length)`):
            Indices of input sequence tokens in the vocabulary. Padding will be ignored by default should you provide
            it.

            Indices can be obtained using [`AutoTokenizer`]. See [`PreTrainedTokenizer.encode`] and
            [`PreTrainedTokenizer.__call__`] for details.

            [What are input IDs?](../glossary#input-ids)
        attention_mask (`torch.Tensor` of shape `(batch_size, sequence_length)`, *optional*):
            Mask to avoid performing attention on padding token indices. Mask values selected in `[0, 1]`:

            - 1 for tokens that are **not masked**,
            - 0 for tokens that are **masked**.

            [What are attention masks?](../glossary#attention-mask)
        position_ids (`torch.LongTensor` of shape `(batch_size, sequence_length)`, *optional*):
            Indices of positions of each input sequence tokens in the position embeddings. Selected in the range `[0,
            config.max_position_embeddings - 1]`.

            [What are position IDs?](../glossary#position-ids)
        output_attentions (`bool`, *optional*):
            Whether or not to return the attentions tensors of all attention layers. See `attentions` under returned
            tensors for more detail.
        output_hidden_states (`bool`, *optional*):
            Whether or not to return the hidden states of all layers. See `hidden_states` under returned tensors for
            more detail.
        return_dict (`bool`, *optional*):
            Whether or not to return a [`~utils.ModelOutput`] instead of a plain tuple.
aØ  
    Args:
        pixel_values (`torch.FloatTensor` of shape `(batch_size, num_channels, height, width)`):
            Pixel values. Padding will be ignored by default should you provide it. Pixel values can be obtained using
            [`AutoImageProcessor`]. See [`CLIPImageProcessor.__call__`] for details.
        output_attentions (`bool`, *optional*):
            Whether or not to return the attentions tensors of all attention layers. See `attentions` under returned
            tensors for more detail.
        output_hidden_states (`bool`, *optional*):
            Whether or not to return the hidden states of all layers. See `hidden_states` under returned tensors for
            more detail.
        interpolate_pos_encoding (`bool`, *optional*, defaults to `False`):
            Whether to interpolate the pre-trained position encodings.
        return_dict (`bool`, *optional*):
            Whether or not to return a [`~utils.ModelOutput`] instead of a plain tuple.
a¨  
    Args:
        input_ids (`torch.LongTensor` of shape `(batch_size, sequence_length)`):
            Indices of input sequence tokens in the vocabulary. Padding will be ignored by default should you provide
            it.

            Indices can be obtained using [`AutoTokenizer`]. See [`PreTrainedTokenizer.encode`] and
            [`PreTrainedTokenizer.__call__`] for details.

            [What are input IDs?](../glossary#input-ids)
        attention_mask (`torch.Tensor` of shape `(batch_size, sequence_length)`, *optional*):
            Mask to avoid performing attention on padding token indices. Mask values selected in `[0, 1]`:

            - 1 for tokens that are **not masked**,
            - 0 for tokens that are **masked**.

            [What are attention masks?](../glossary#attention-mask)
        position_ids (`torch.LongTensor` of shape `(batch_size, sequence_length)`, *optional*):
            Indices of positions of each input sequence tokens in the position embeddings. Selected in the range `[0,
            config.max_position_embeddings - 1]`.

            [What are position IDs?](../glossary#position-ids)
        pixel_values (`torch.FloatTensor` of shape `(batch_size, num_channels, height, width)`):
            Pixel values. Padding will be ignored by default should you provide it. Pixel values can be obtained using
            [`AutoImageProcessor`]. See [`CLIPImageProcessor.__call__`] for details.
        return_loss (`bool`, *optional*):
            Whether or not to return the contrastive loss.
        output_attentions (`bool`, *optional*):
            Whether or not to return the attentions tensors of all attention layers. See `attentions` under returned
            tensors for more detail.
        output_hidden_states (`bool`, *optional*):
            Whether or not to return the hidden states of all layers. See `hidden_states` under returned tensors for
            more detail.
        interpolate_pos_encoding (`bool`, *optional*, defaults to `False`):
            Whether to interpolate the pre-trained position encodings.
        return_dict (`bool`, *optional*):
            Whether or not to return a [`~utils.ModelOutput`] instead of a plain tuple.
c                   ó´   ‡ — e Zd ZdZdefˆ fd„Z	 	 	 	 	 ddeej                 deej                 dee	         dee	         d	ee	         d
e
eef         fd„Zˆ xZS )ÚCLIPSegEncoderz³
    Transformer encoder consisting of `config.num_hidden_layers` self attention layers. Each layer is a
    [`CLIPSegEncoderLayer`].

    Args:
        config: CLIPSegConfig
    rY   c                 óÔ   •‡— t          ¦   «                              ¦   «          ‰| _        t          j        ˆfd„t          ‰j        ¦  «        D ¦   «         ¦  «        | _        d| _        d S )Nc                 ó.   •— g | ]}t          ‰¦  «        ‘ŒS rK   )ræ   ©r<   rœ   rY   s     €r$   ú
<listcomp>z+CLIPSegEncoder.__init__.<locals>.<listcomp>U  s"   ø€ Ð$jÐ$jÐ$jÀQÕ%8¸Ñ%@Ô%@Ð$jÐ$jÐ$jr&   F)	rf   rg   rY   r   Ú
ModuleListÚranger  ÚlayersÚgradient_checkpointingrx   s    `€r$   rg   zCLIPSegEncoder.__init__R  sa   øø€ Ý‰Œ×ÒÑÔÐØˆŒÝ”mÐ$jÐ$jÐ$jÐ$jÍ%ÐPVÔPhÑJiÔJiÐ$jÑ$jÔ$jÑkÔkˆŒØ&+ˆÔ#Ð#Ð#r&   NrÈ   rÉ   rÊ   Úoutput_hidden_statesÚreturn_dictr   c                 óÖ  — ||n| j         j        }||n| j         j        }||n| j         j        }|rdnd}|rdnd}|}	t	          | j        ¦  «        D ]_\  }
}|r||	fz   }| j        r&| j        r|                      |j	        |	|||¦  «        }n ||	|||¬¦  «        }|d         }	|r||d         fz   }Œ`|r||	fz   }|st          d„ |	||fD ¦   «         ¦  «        S t          |	||¬¦  «        S )aÕ  
        Args:
            inputs_embeds (`torch.FloatTensor` of shape `(batch_size, sequence_length, hidden_size)`):
                Optionally, instead of passing `input_ids` you can choose to directly pass an embedded representation.
                This is useful if you want more control over how to convert `input_ids` indices into associated vectors
                than the model's internal embedding lookup matrix.
            attention_mask (`torch.Tensor` of shape `(batch_size, sequence_length)`, *optional*):
                Mask to avoid performing attention on padding token indices. Mask values selected in `[0, 1]`:

                - 1 for tokens that are **not masked**,
                - 0 for tokens that are **masked**.

                [What are attention masks?](../glossary#attention-mask)
            causal_attention_mask (`torch.Tensor` of shape `(batch_size, sequence_length)`, *optional*):
                Causal mask for the text model. Mask values selected in `[0, 1]`:

                - 1 for tokens that are **not masked**,
                - 0 for tokens that are **masked**.

                [What are attention masks?](../glossary#attention-mask)
            output_attentions (`bool`, *optional*):
                Whether or not to return the attentions tensors of all attention layers. See `attentions` under
                returned tensors for more detail.
            output_hidden_states (`bool`, *optional*):
                Whether or not to return the hidden states of all layers. See `hidden_states` under returned tensors
                for more detail.
            return_dict (`bool`, *optional*):
                Whether or not to return a [`~utils.ModelOutput`] instead of a plain tuple.
        NrK   )rÊ   r   r   c              3   ó   K  — | ]}|®|V — Œ	d S rÞ   rK   ©r<   Úvs     r$   r?   z)CLIPSegEncoder.forward.<locals>.<genexpr>¤  s(   è è € ÐeÐe˜qÐWXÐWd˜ÐWdÐWdÐWdÐWdÐeÐer&   )Úlast_hidden_staterN   rO   )rY   rÊ   r  Úuse_return_dictÚ	enumerater  r  rÍ   Ú_gradient_checkpointing_funcÚ__call__rA   r   )r>   r­   rÈ   rÉ   rÊ   r  r  Úencoder_statesÚall_attentionsrN   ÚidxÚencoder_layerÚlayer_outputss                r$   rŸ   zCLIPSegEncoder.forwardX  sŒ  € ðL 2CÐ1NÐ-Ð-ÐTXÔT_ÔTqÐà$8Ð$DÐ Ð È$Ì+ÔJjð 	ð &1Ð%<kkÀ$Ä+ÔB]ˆà3Ð=˜˜¸ˆØ0Ð:˜˜°dˆà%ˆÝ"+¨D¬KÑ"8Ô"8ð 	Fð 	FÑˆCØ#ð CØ!/°=Ð2BÑ!BØÔ*ð ¨t¬}ð Ø $× AÒ AØ!Ô*Ø!Ø"Ø)Ø%ñ!ô !ð !. Ø!Ø"Ø)Ø&7ð	!ñ !ô !ð *¨!Ô,ˆMà ð FØ!/°=ÀÔ3CÐ2EÑ!Eøàð 	?Ø+¨}Ð.>Ñ>ˆNàð 	fÝÐeÐe ]°NÀNÐ$SÐeÑeÔeÑeÔeÐeÝØ+¸>ÐVdð
ñ 
ô 
ð 	
r&   ©NNNNN)rE   rF   rG   rH   r   rg   r   r!   r¡   rÚ   r   r   r   rŸ   r£   r¤   s   @r$   r  r  I  sç   ø€ € € € € ðð ð,˜}ð ,ð ,ð ,ð ,ð ,ð ,ð 26Ø8<Ø,0Ø/3Ø&*ðO
ð O
ð ! ¤Ô.ðO
ð  (¨¬Ô5ð	O
ð
 $ Dœ>ðO
ð ' tœnðO
ð ˜d”^ðO
ð 
ˆuoÐ%Ô	&ðO
ð O
ð O
ð O
ð O
ð O
ð O
ð O
r&   r  c                   ó  ‡ — e Zd Zdefˆ fd„Z ee¦  «         eee¬¦  «        	 	 	 	 	 	 dde	e
j                 de	e
j                 de	e
j                 de	e         d	e	e         d
e	e         deeef         fd„¦   «         ¦   «         Zˆ xZS )ÚCLIPSegTextTransformerrY   c                 ó  •— t          ¦   «                              ¦   «          || _        |j        }t	          |¦  «        | _        t          |¦  «        | _        t          j	        ||j
        ¬¦  «        | _        |j        | _        d S rè   )rf   rg   rY   rh   r¦   rz   r  Úencoderr   rì   rí   Úfinal_layer_normÚeos_token_idr«   s      €r$   rg   zCLIPSegTextTransformer.__init__«  ss   ø€ Ý‰Œ×ÒÑÔÐØˆŒØÔ&ˆ	Ý/°Ñ7Ô7ˆŒÝ% fÑ-Ô-ˆŒÝ "¤¨Y¸FÔ<QÐ RÑ RÔ RˆÔð #Ô/ˆÔÐÐr&   ©Úoutput_typer  Nr¬   rÈ   ra   rÊ   r  r  r   c                 ó*  — ||n| j         j        }||n| j         j        }||n| j         j        }|€t	          d¦  «        ‚|                     ¦   «         }|                     d|d         ¦  «        }|                      ||¬¦  «        }t          ||j	        |j
        ¬¦  «        }	|t          ||j	        ¦  «        }|                      |||	|||¬¦  «        }
|
d         }|                      |¦  «        }| j        dk    rg|t          j        |j        d         |j
        ¬¦  «        |                     t          j        |j
        ¬	¦  «                             d¬
¦  «        f         }n|t          j        |j        d         |j
        ¬¦  «        |                     t          j        |j
        ¬	¦  «        | j        k                         ¦   «                              d¬
¦  «        f         }|s||f|
dd…         z   S t+          |||
j        |
j        ¬¦  «        S )ú
        Returns:

        NzYou have to specify input_idsrc   )r¬   ra   r   )r­   rÈ   rÉ   rÊ   r  r  r   r`   )Údtyper   r‚   r   ©r$  Úpooler_outputrN   rO   )rY   rÊ   r  r%  r˜   r   rŒ   rz   r   r9  r   r   r2  r3  r4  r!   r"   r„   Útor¢   Úargmaxr   rN   rO   )r>   r¬   rÈ   ra   rÊ   r  r  Úinput_shaperN   rÉ   Úencoder_outputsr$  rS   s                r$   rŸ   zCLIPSegTextTransformer.forward¶  sH  € ð  2CÐ1NÐ-Ð-ÐTXÔT_ÔTqÐà$8Ð$DÐ Ð È$Ì+ÔJjð 	ð &1Ð%<kkÀ$Ä+ÔB]ˆàÐÝÐ<Ñ=Ô=Ð=à—n’nÑ&Ô&ˆØ—N’N 2 {°2¤Ñ7Ô7ˆ	àŸš°)È,˜ÑWÔWˆõ !AØ˜Ô,°]Ô5Ið!
ñ !
ô !
Ðð Ð%å7¸ÈÔH[Ñ\Ô\ˆNàŸ,š,Ø'Ø)Ø"7Ø/Ø!5Ø#ð 'ñ 
ô 
ˆð ,¨AÔ.ÐØ ×1Ò1Ð2CÑDÔDÐàÔ Ò!Ð!ð .Ý”Ð.Ô4°QÔ7Ð@QÔ@XÐYÑYÔYØ—’¥5¤9Ð5FÔ5MÑNÔN×UÒUÐZ\ÐUÑ]Ô]ð_ôˆMˆMð .Ý”Ð.Ô4°QÔ7Ð@QÔ@XÐYÑYÔYð —’¥E¤IÐ6GÔ6NÑOÔOÐSWÔSdÒdß’‘”ß’˜B‘”ð!ôˆMð ð 	LØ% }Ð5¸ÈÈÈÔ8KÑKÐKå)Ø/Ø'Ø)Ô7Ø&Ô1ð	
ñ 
ô 
ð 	
r&   ©NNNNNN)rE   rF   rG   r   rg   r   ÚCLIPSEG_TEXT_INPUTS_DOCSTRINGr   r   r   r!   r¡   rÚ   r   r   rŸ   r£   r¤   s   @r$   r0  r0  ª  s*  ø€ € € € € ð	0Ð0ð 	0ð 	0ð 	0ð 	0ð 	0ð 	0ð +Ð*Ð+HÑIÔIØÐÐ+EÐTeÐfÑfÔfð -1Ø15Ø/3Ø,0Ø/3Ø&*ðO
ð O
à˜EœLÔ)ðO
ð ! ¤Ô.ðO
ð ˜uœ|Ô,ð	O
ð
 $ Dœ>ðO
ð ' tœnðO
ð ˜d”^ðO
ð 
ˆuÐ0Ð0Ô	1ðO
ð O
ð O
ñ gÔfñ JÔIðO
ð O
ð O
ð O
ð O
r&   r0  c                   ó<  ‡ — e Zd ZeZddgZdefˆ fd„Zdej        fd„Z	d„ Z
 ee¦  «         eee¬¦  «        	 	 	 	 	 	 dd
eej                 deej                 deej                 dee         dee         dee         deeef         fd„¦   «         ¦   «         Zˆ xZS )ÚCLIPSegTextModelr¦   ræ   rY   c                 óš   •— t          ¦   «                              |¦  «         t          |¦  «        | _        |                      ¦   «          d S rÞ   )rf   rg   r0  Ú
text_modelÚ	post_initrx   s     €r$   rg   zCLIPSegTextModel.__init__  s@   ø€ Ý‰Œ×Ò˜Ñ Ô Ð Ý0°Ñ8Ô8ˆŒàŠÑÔÐÐÐr&   r   c                 ó$   — | j         j        j        S rÞ   ©rE  rz   r©   rC   s    r$   Úget_input_embeddingsz%CLIPSegTextModel.get_input_embeddings  s   € ØŒÔ)Ô9Ð9r&   c                 ó(   — || j         j        _        d S rÞ   rH  )r>   Úvalues     r$   Úset_input_embeddingsz%CLIPSegTextModel.set_input_embeddings  s   € Ø5:ˆŒÔ"Ô2Ð2Ð2r&   r5  Nr¬   rÈ   ra   rÊ   r  r  c                 ó8   — |                       ||||||¬¦  «        S )aM  
        Returns:

        Examples:

        ```python
        >>> from transformers import AutoTokenizer, CLIPSegTextModel

        >>> tokenizer = AutoTokenizer.from_pretrained("CIDAS/clipseg-rd64-refined")
        >>> model = CLIPSegTextModel.from_pretrained("CIDAS/clipseg-rd64-refined")

        >>> inputs = tokenizer(["a photo of a cat", "a photo of a dog"], padding=True, return_tensors="pt")

        >>> outputs = model(**inputs)
        >>> last_hidden_state = outputs.last_hidden_state
        >>> pooled_output = outputs.pooler_output  # pooled (EOS token) states
        ```©r¬   rÈ   ra   rÊ   r  r  )rE  )r>   r¬   rÈ   ra   rÊ   r  r  s          r$   rŸ   zCLIPSegTextModel.forward  s1   € ð8 ŠØØ)Ø%Ø/Ø!5Ø#ð ñ 
ô 
ð 	
r&   r@  )rE   rF   rG   r   r  Ú_no_split_modulesrg   r   ÚModulerI  rL  r   rA  r   r   r   r!   r¡   rÚ   r   r   rŸ   r£   r¤   s   @r$   rC  rC    sW  ø€ € € € € Ø$€Là0Ð2GÐHÐðÐ0ð ð ð ð ð ð ð: b¤ið :ð :ð :ð :ð;ð ;ð ;ð +Ð*Ð+HÑIÔIØÐÐ+EÐTeÐfÑfÔfð -1Ø15Ø/3Ø,0Ø/3Ø&*ð!
ð !
à˜EœLÔ)ð!
ð ! ¤Ô.ð!
ð ˜uœ|Ô,ð	!
ð
 $ Dœ>ð!
ð ' tœnð!
ð ˜d”^ð!
ð 
ˆuÐ0Ð0Ô	1ð!
ð !
ð !
ñ gÔfñ JÔIð!
ð !
ð !
ð !
ð !
r&   rC  c                   óî   ‡ — e Zd Zdefˆ fd„Z ee¦  «         eee¬¦  «        	 	 	 	 	 dde	e
j                 de	e         de	e         d	e	e         d
e	e         deeef         fd„¦   «         ¦   «         Zˆ xZS )ÚCLIPSegVisionTransformerrY   c                 ó4  •— t          ¦   «                              ¦   «          || _        |j        }t	          |¦  «        | _        t          j        ||j        ¬¦  «        | _	        t          |¦  «        | _        t          j        ||j        ¬¦  «        | _        d S rè   )rf   rg   rY   rh   rX   rz   r   rì   rí   Úpre_layrnormr  r2  Úpost_layernormr«   s      €r$   rg   z!CLIPSegVisionTransformer.__init__D  s€   ø€ Ý‰Œ×ÒÑÔÐØˆŒØÔ&ˆ	å1°&Ñ9Ô9ˆŒÝœL¨¸Ô8MÐNÑNÔNˆÔÝ% fÑ-Ô-ˆŒÝ œl¨9¸&Ô:OÐPÑPÔPˆÔÐÐr&   r5  NFr”   rÊ   r  r  r“   r   c                 óÂ  — ||n| j         j        }||n| j         j        }||n| j         j        }|€t	          d¦  «        ‚|                      ||¬¦  «        }|                      |¦  «        }|                      ||||¬¦  «        }|d         }|dd…ddd…f         }	|                      |	¦  «        }	|s||	f|dd…         z   S t          ||	|j
        |j        ¬¦  «        S )r8  Nz You have to specify pixel_values)r“   )r­   rÊ   r  r  r   r   r:  )rY   rÊ   r  r%  r˜   rz   rT  r2  rU  r   rN   rO   )
r>   r”   rÊ   r  r  r“   rN   r?  r$  rS   s
             r$   rŸ   z CLIPSegVisionTransformer.forwardN  s/  € ð 2CÐ1NÐ-Ð-ÐTXÔT_ÔTqÐà$8Ð$DÐ Ð È$Ì+ÔJjð 	ð &1Ð%<kkÀ$Ä+ÔB]ˆàÐÝÐ?Ñ@Ô@Ð@àŸš¨ÐOg˜ÑhÔhˆØ×)Ò)¨-Ñ8Ô8ˆàŸ,š,Ø'Ø/Ø!5Ø#ð	 'ñ 
ô 
ˆð ,¨AÔ.ÐØ)¨!¨!¨!¨Q°°°¨'Ô2ˆØ×+Ò+¨MÑ:Ô:ˆàð 	LØ% }Ð5¸ÈÈÈÔ8KÑKÐKå)Ø/Ø'Ø)Ô7Ø&Ô1ð	
ñ 
ô 
ð 	
r&   )NNNNF)rE   rF   rG   r   rg   r   ÚCLIPSEG_VISION_INPUTS_DOCSTRINGr   r   r   r!   rI   rÚ   r   r   rŸ   r£   r¤   s   @r$   rR  rR  B  s  ø€ € € € € ðQÐ2ð Qð Qð Qð Qð Qð Qð +Ð*Ð+JÑKÔKØÐÐ+EÐTgÐhÑhÔhð 59Ø,0Ø/3Ø&*Ø38ð+
ð +
à˜uÔ0Ô1ð+
ð $ Dœ>ð+
ð ' tœnð	+
ð
 ˜d”^ð+
ð #+¨4¤.ð+
ð 
ˆuÐ0Ð0Ô	1ð+
ð +
ð +
ñ iÔhñ LÔKð+
ð +
ð +
ð +
ð +
r&   rR  c                   ó  ‡ — e Zd ZeZdZdefˆ fd„Zdej        fd„Z	 e
e¦  «         eee¬¦  «        	 	 	 	 	 ddeej                 d	ee         d
ee         dee         dee         deeef         fd„¦   «         ¦   «         Zˆ xZS )ÚCLIPSegVisionModelr”   rY   c                 óš   •— t          ¦   «                              |¦  «         t          |¦  «        | _        |                      ¦   «          d S rÞ   )rf   rg   rR  Úvision_modelrF  rx   s     €r$   rg   zCLIPSegVisionModel.__init__ƒ  sA   ø€ Ý‰Œ×Ò˜Ñ Ô Ð Ý4°VÑ<Ô<ˆÔàŠÑÔÐÐÐr&   r   c                 ó$   — | j         j        j        S rÞ   )r[  rz   rq   rC   s    r$   rI  z'CLIPSegVisionModel.get_input_embeddings‰  s   € ØÔ Ô+Ô;Ð;r&   r5  NFrÊ   r  r“   r  c                 ó6   — |                       |||||¬¦  «        S )aì  
        Returns:

        Examples:

        ```python
        >>> from PIL import Image
        >>> import requests
        >>> from transformers import AutoProcessor, CLIPSegVisionModel

        >>> processor = AutoProcessor.from_pretrained("CIDAS/clipseg-rd64-refined")
        >>> model = CLIPSegVisionModel.from_pretrained("CIDAS/clipseg-rd64-refined")

        >>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
        >>> image = Image.open(requests.get(url, stream=True).raw)

        >>> inputs = processor(images=image, return_tensors="pt")

        >>> outputs = model(**inputs)
        >>> last_hidden_state = outputs.last_hidden_state
        >>> pooled_output = outputs.pooler_output  # pooled CLS states
        ```©r”   rÊ   r  r“   r  )r[  )r>   r”   rÊ   r  r“   r  s         r$   rŸ   zCLIPSegVisionModel.forwardŒ  s1   € ð@ × Ò Ø%Ø/Ø!5Ø%=Ø#ð !ñ 
ô 
ð 	
r&   ©NNNFN)rE   rF   rG   r   r  Úmain_input_namerg   r   rP  rI  r   rW  r   r   r   r!   rI   rÚ   r   r   rŸ   r£   r¤   s   @r$   rY  rY    s+  ø€ € € € € Ø&€LØ$€OðÐ2ð ð ð ð ð ð ð< b¤ið <ð <ð <ð <ð +Ð*Ð+JÑKÔKØÐÐ+EÐTgÐhÑhÔhð 59Ø,0Ø/3Ø38Ø&*ð$
ð $
à˜uÔ0Ô1ð$
ð $ Dœ>ð$
ð ' tœnð	$
ð
 #+¨4¤.ð$
ð ˜d”^ð$
ð 
ˆuÐ0Ð0Ô	1ð$
ð $
ð $
ñ iÔhñ LÔKð$
ð $
ð $
ð $
ð $
r&   rY  c                   ó¢  ‡ — e Zd ZeZdefˆ fd„Z ee¦  «        	 	 	 	 	 	 ddee	j
                 dee	j
                 dee	j
                 dee         dee         d	ee         d
e	j        fd„¦   «         Z ee¦  «        	 	 	 	 	 ddee	j                 dee         dee         ded	ee         d
e	j        fd„¦   «         Z ee¦  «         eee¬¦  «        	 	 	 	 	 	 	 	 	 ddee	j                 dee	j                 dee	j
                 dee	j                 dee         dee         dee         ded	ee         d
eeef         fd„¦   «         ¦   «         Zˆ xZS )r  rY   c                 ó$  •— t          ¦   «                              |¦  «         t          |j        t          ¦  «        s%t          dt          |j        ¦  «        › d¦  «        ‚t          |j        t          ¦  «        s%t          dt          |j        ¦  «        › d¦  «        ‚|j        }|j        }|j	        | _	        |j
        | _        |j
        | _        t          |¦  «        | _        t          |¦  «        | _        t#          j        | j        | j	        d¬¦  «        | _        t#          j        | j        | j	        d¬¦  «        | _        t#          j        t-          j        | j        j        ¦  «        ¦  «        | _        |                      ¦   «          d S )NzNconfig.text_config is expected to be of type CLIPSegTextConfig but is of type ú.zRconfig.vision_config is expected to be of type CLIPSegVisionConfig but is of type F)r_   )rf   rg   rþ   Útext_configr   Ú	TypeErrorÚtypeÚvision_configr   Úprojection_dimrh   r  r  r0  rE  rR  r[  r   r½   r  r  rl   r!   rÂ   rY   Úlogit_scale_init_valueÚlogit_scalerF  )r>   rY   rd  rg  ry   s       €r$   rg   zCLIPSegModel.__init__¹  s|  ø€ Ý‰Œ×Ò˜Ñ Ô Ð å˜&Ô,Õ.?Ñ@Ô@ð 	Ýð0Ý˜Ô+Ñ,Ô,ð0ð 0ð 0ñô ð õ
 ˜&Ô.Õ0CÑDÔDð 	Ýð2Ý˜Ô-Ñ.Ô.ð2ð 2ð 2ñô ð ð
 Ô(ˆØÔ,ˆà$Ô3ˆÔØ)Ô5ˆÔØ -Ô 9ˆÔå0°Ñ=Ô=ˆŒÝ4°]ÑCÔCˆÔå!#¤¨4Ô+@À$ÔBUÐ\aÐ!bÑ!bÔ!bˆÔÝ!œy¨Ô)<¸dÔ>QÐX]Ð^Ñ^Ô^ˆÔÝœ<­¬°T´[Ô5WÑ(XÔ(XÑYÔYˆÔð 	ŠÑÔÐÐÐr&   Nr¬   rÈ   ra   rÊ   r  r  r   c                 óÖ   — ||n| j         j        }||n| j         j        }||n| j         j        }|                      ||||||¬¦  «        }|d         }|                      |¦  «        }	|	S )aŸ  
        Returns:
            text_features (`torch.FloatTensor` of shape `(batch_size, output_dim`): The text embeddings obtained by
            applying the projection layer to the pooled output of [`CLIPSegTextModel`].

        Examples:

        ```python
        >>> from transformers import AutoTokenizer, CLIPSegModel

        >>> tokenizer = AutoTokenizer.from_pretrained("CIDAS/clipseg-rd64-refined")
        >>> model = CLIPSegModel.from_pretrained("CIDAS/clipseg-rd64-refined")

        >>> inputs = tokenizer(["a photo of a cat", "a photo of a dog"], padding=True, return_tensors="pt")
        >>> text_features = model.get_text_features(**inputs)
        ```NrN  r   )rY   rÊ   r  r%  rE  r  )
r>   r¬   rÈ   ra   rÊ   r  r  Útext_outputsrS   Útext_featuress
             r$   Úget_text_featureszCLIPSegModel.get_text_featuresÙ  s˜   € ð6 2CÐ1NÐ-Ð-ÐTXÔT_ÔTqÐà$8Ð$DÐ Ð È$Ì+ÔJjð 	ð &1Ð%<kkÀ$Ä+ÔB]ˆà—’ØØ)Ø%Ø/Ø!5Ø#ð 'ñ 
ô 
ˆð % QœˆØ×,Ò,¨]Ñ;Ô;ˆàÐr&   Fr”   r“   c                 óÔ   — ||n| j         j        }||n| j         j        }||n| j         j        }|                      |||||¬¦  «        }|d         }|                      |¦  «        }|S )aI  
        Returns:
            image_features (`torch.FloatTensor` of shape `(batch_size, output_dim`): The image embeddings obtained by
            applying the projection layer to the pooled output of [`CLIPSegVisionModel`].

        Examples:

        ```python
        >>> from PIL import Image
        >>> import requests
        >>> from transformers import AutoProcessor, CLIPSegModel

        >>> processor = AutoProcessor.from_pretrained("CIDAS/clipseg-rd64-refined")
        >>> model = CLIPSegModel.from_pretrained("CIDAS/clipseg-rd64-refined")

        >>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
        >>> image = Image.open(requests.get(url, stream=True).raw)

        >>> inputs = processor(images=image, return_tensors="pt")

        >>> image_features = model.get_image_features(**inputs)
        ```Nr^  r   )rY   rÊ   r  r%  r[  r  )	r>   r”   rÊ   r  r“   r  Úvision_outputsrS   Úimage_featuress	            r$   Úget_image_featureszCLIPSegModel.get_image_features  s™   € ð@ 2CÐ1NÐ-Ð-ÐTXÔT_ÔTqÐà$8Ð$DÐ Ð È$Ì+ÔJjð 	ð &1Ð%<kkÀ$Ä+ÔB]ˆà×*Ò*Ø%Ø/Ø!5Ø%=Ø#ð +ñ 
ô 
ˆð ' qÔ)ˆØ×/Ò/°Ñ>Ô>ˆàÐr&   r5  Úreturn_lossc
           	      óÔ  — ||n| j         j        }||n| j         j        }|	|	n| j         j        }	|                      |||||	¬¦  «        }
|                      ||||||	¬¦  «        }|
d         }|                      |¦  «        }|d         }|                      |¦  «        }||                     ddd¬¦  «        z  }||                     ddd¬¦  «        z  }| j	         
                    ¦   «         }t          j        ||                     ¦   «         ¦  «        |z  }|                     ¦   «         }d}|rt          |¦  «        }|	s||||||
f}||f|z   n|S t          |||||||
¬	¦  «        S )
a‹  
        Returns:

        Examples:

        ```python
        >>> from PIL import Image
        >>> import requests
        >>> from transformers import AutoProcessor, CLIPSegModel

        >>> processor = AutoProcessor.from_pretrained("CIDAS/clipseg-rd64-refined")
        >>> model = CLIPSegModel.from_pretrained("CIDAS/clipseg-rd64-refined")

        >>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
        >>> image = Image.open(requests.get(url, stream=True).raw)

        >>> inputs = processor(
        ...     text=["a photo of a cat", "a photo of a dog"], images=image, return_tensors="pt", padding=True
        ... )

        >>> outputs = model(**inputs)
        >>> logits_per_image = outputs.logits_per_image  # this is the image-text similarity score
        >>> probs = logits_per_image.softmax(dim=1)  # we can take the softmax to get the label probabilities
        ```Nr^  rN  r   r`   rc   T)rÌ   rƒ   Úkeepdim)r/   r0   r1   r2   r3   r4   r5   )rY   rÊ   r  r%  r[  rE  r  r  Únormrj  Úexpr!   Úmatmulr)   r,   r.   )r>   r¬   r”   rÈ   ra   rs  rÊ   r  r“   r  rp  rl  r3   r2   rj  r1   r0   r/   Úoutputs                      r$   rŸ   zCLIPSegModel.forward;  sÝ  € ðN 2CÐ1NÐ-Ð-ÐTXÔT_ÔTqÐà$8Ð$DÐ Ð È$Ì+ÔJjð 	ð &1Ð%<kkÀ$Ä+ÔB]ˆà×*Ò*Ø%Ø/Ø!5Ø%=Ø#ð +ñ 
ô 
ˆð —’ØØ)Ø%Ø/Ø!5Ø#ð 'ñ 
ô 
ˆð & aÔ(ˆØ×-Ò-¨lÑ;Ô;ˆà" 1”oˆØ×*Ò*¨;Ñ7Ô7ˆð $ l×&7Ò&7¸!ÀÈTÐ&7Ñ&RÔ&RÑRˆØ! K×$4Ò$4°q¸bÈ$Ð$4Ñ$OÔ$OÑOˆð Ô&×*Ò*Ñ,Ô,ˆÝœ, {°L·N²NÑ4DÔ4DÑEÔEÈÑSˆØ*×,Ò,Ñ.Ô.ÐàˆØð 	1Ý Ñ0Ô0ˆDàð 	FØ&¨¸ÀlÐT`ÐbpÐqˆFØ)-Ð)9TG˜fÑ$Ð$¸vÐEåØØ-Ø+Ø#Ø%Ø*Ø .ð
ñ 
ô 
ð 	
r&   r@  r_  )	NNNNNNNFN)rE   rF   rG   r   r  rg   r   rA  r   r!   r¡   rÚ   rI   rn  rW  rr  ÚCLIPSEG_INPUTS_DOCSTRINGr   r.   r²   r   r   rŸ   r£   r¤   s   @r$   r  r  µ  sª  ø€ € € € € à €Lð˜}ð ð ð ð ð ð ð@ +Ð*Ð+HÑIÔIð -1Ø15Ø/3Ø,0Ø/3Ø&*ð,ð ,à˜EœLÔ)ð,ð ! ¤Ô.ð,ð ˜uœ|Ô,ð	,ð
 $ Dœ>ð,ð ' tœnð,ð ˜d”^ð,ð 
Ô	ð,ð ,ð ,ñ JÔIð,ð\ +Ð*Ð+JÑKÔKð 59Ø,0Ø/3Ø).Ø&*ð0ð 0à˜uÔ0Ô1ð0ð $ Dœ>ð0ð ' tœnð	0ð
 #'ð0ð ˜d”^ð0ð 
Ô	ð0ð 0ð 0ñ LÔKð0ðd +Ð*Ð+CÑDÔDØÐ¨=À}ÐUÑUÔUð 15Ø48Ø15Ø37Ø&*Ø,0Ø/3Ø).Ø&*ð[
ð [
à˜EÔ,Ô-ð[
ð ˜uÔ0Ô1ð[
ð ! ¤Ô.ð	[
ð
 ˜uÔ/Ô0ð[
ð ˜d”^ð[
ð $ Dœ>ð[
ð ' tœnð[
ð #'ð[
ð ˜d”^ð[
ð 
ˆumÐ#Ô	$ð[
ð [
ð [
ñ VÔUñ EÔDð[
ð [
ð [
ð [
ð [
r&   r  c                   óˆ   ‡ — e Zd ZdZdefˆ fd„Z	 ddej        dej        dej        dee	         d	e
ej                 f
d
„Zˆ xZS )ÚCLIPSegDecoderLayerz¤
    CLIPSeg decoder layer, which is identical to `CLIPSegEncoderLayer`, except that normalization is applied after
    self-attention/MLP, rather than before.
    rY   c                 óD  •— t          ¦   «                              ¦   «          |j        | _        t	          |¦  «        | _        t          j        | j        |j        ¬¦  «        | _	        t          |¦  «        | _        t          j        | j        |j        ¬¦  «        | _        d S rè   rê   rx   s     €r$   rg   zCLIPSegDecoderLayer.__init__¢  rñ   r&   FrN   rÈ   rÉ   rÊ   r   c                 óî   — |}|                       ||||¬¦  «        \  }}||z   }|                      |¦  «        }|}|                      |¦  «        }||z   }|                      |¦  «        }|f}|r||fz  }|S ró   )rë   rî   rï   rð   rô   s           r$   rŸ   zCLIPSegDecoderLayer.forwardª  s¥   € ð" !ˆà&*§n¢nØ'Ø)Ø"7Ø/ð	 '5ñ '
ô '
Ñ#ˆ|ð ! =Ñ0ˆØ×(Ò(¨Ñ7Ô7ˆà ˆØŸš Ñ/Ô/ˆØ  =Ñ0ˆØ×(Ò(¨Ñ7Ô7ˆà Ð"ˆàð 	'Ø˜Ñ&ˆGàˆr&   r    )rE   rF   rG   rH   r   rg   r!   r¡   r   rÚ   r   rI   rŸ   r£   r¤   s   @r$   r|  r|  ›  sµ   ø€ € € € € ðð ðS˜}ð Sð Sð Sð Sð Sð Sð -2ð'ð 'à”|ð'ð œð'ð  %œ|ð	'ð
 $ Dœ>ð'ð 
ˆuÔ Ô	!ð'ð 'ð 'ð 'ð 'ð 'ð 'ð 'r&   r|  c                   óŒ   ‡ — e Zd Zdefˆ fd„Z	 	 	 ddeej                 dej        dee	         dee	         d	ee	         f
d
„Z
ˆ xZS )ÚCLIPSegDecoderrY   c                 óº  •‡‡— t          ¦   «                              ‰¦  «         ‰j        | _        t          j        ‰j        ‰j        ¦  «        | _        t          j        ‰j        ‰j        ¦  «        | _        ‰j	        r×‰j
        j        dz  ‰j
        j        dz  f}t          j        t          j        ‰j        ‰j        dd¬¦  «        t          j        ¦   «         t          j        ‰j        ‰j        dz  |d         |d         ¬¦  «        t          j        ¦   «         t          j        ‰j        dz  d|d         |d         ¬¦  «        ¦  «        | _        n6t          j        ‰j        d‰j
        j        ‰j
        j        ¬¦  «        | _        t#          ‰j        ¦  «        }t          j        ˆfd	„t)          |¦  «        D ¦   «         ¦  «        | _        t-          j        ‰j
        ¦  «        Š‰j        ‰_        ‰j        ‰_        ‰j        ‰_        d
‰_        t          j        ˆfd„t)          t#          ‰j        ¦  «        ¦  «        D ¦   «         ¦  «        | _        d S )Né   r	   r   )r]   Úpaddingr`   r   )r]   r^   )r^   c                 óX   •— g | ]&}t          j        ‰j        j        ‰j        ¦  «        ‘Œ'S rK   )r   r½   rg  rh   Ú
reduce_dimr  s     €r$   r  z+CLIPSegDecoder.__init__.<locals>.<listcomp>õ  s/   ø€ ÐbÐbÐbÐPQRŒYvÔ+Ô7¸Ô9JÑKÔKÐbÐbÐbr&   Úreluc                 ó.   •— g | ]}t          ‰¦  «        ‘ŒS rK   )r|  )r<   rœ   Údecoder_configs     €r$   r  z+CLIPSegDecoder.__init__.<locals>.<listcomp>ý  s"   ø€ Ð$tÐ$tÐ$tÈQÕ%8¸Ñ%HÔ%HÐ$tÐ$tÐ$tr&   )rf   rg   Úconditional_layerr   r½   rh  r…  Úfilm_mulÚfilm_addÚ"use_complex_transposed_convolutionrg  rk   Ú
Sequentialro   ÚReLUÚConvTranspose2dÚtransposed_convolutionr#   Úextract_layersr  r  ÚreducesÚcopyÚdeepcopyrh   Údecoder_num_attention_headsr·   Údecoder_intermediate_sizerá   rß   r  )r>   rY   Útransposed_kernelsÚdepthrˆ  ry   s    `  @€r$   rg   zCLIPSegDecoder.__init__Õ  s/  øøø€ Ý‰Œ×Ò˜Ñ Ô Ð à!'Ô!9ˆÔåœ	 &Ô"7¸Ô9JÑKÔKˆŒÝœ	 &Ô"7¸Ô9JÑKÔKˆŒàÔ4ð 	Ø"(Ô"6Ô"AÀQÑ"FÈÔH\ÔHgÐklÑHlÐ!mÐå*,¬-Ý”	˜&Ô+¨VÔ->ÈAÐWXÐYÑYÔYÝ”‘	”	ÝÔ"ØÔ%ØÔ%¨Ñ*Ø 2°1Ô 5Ø-¨aÔ0ð	ñ ô õ ”‘	”	ÝÔ"ØÔ%¨Ñ*¨AÐ;MÈaÔ;PÐYkÐlmÔYnðñ ô ñ+ô +ˆDÔ'Ð'õ +-Ô*<ØÔ! 1 fÔ&:Ô&EÈfÔNbÔNmð+ñ +ô +ˆDÔ'õ FÔ)Ñ*Ô*ˆÝ”}ØbÐbÐbÐbÕUZÐ[`ÑUaÔUaÐbÑbÔbñ
ô 
ˆŒõ œ vÔ';Ñ<Ô<ˆØ%+Ô%6ˆÔ"Ø-3Ô-OˆÔ*Ø+1Ô+KˆÔ(Ø$*ˆÔ!Ý”mÐ$tÐ$tÐ$tÐ$tÕRWÕX[Ð\bÔ\qÑXrÔXrÑRsÔRsÐ$tÑ$tÔ$tÑuÔuˆŒˆˆr&   NTrN   rR   rÊ   r  r  c                 ó¨  — |rdnd }|rdnd }|d d d…         }d }	t          t          || j        | j        ¦  «        ¦  «        D ]·\  }
\  }}}|	 ||¦  «        |	z   }	n ||¦  «        }	|
| j        k    rZ|                      |¦  «        |	                     ddd¦  «        z  |                      |¦  «        z   }	|	                     ddd¦  «        }	 ||	d d |¬¦  «        }|d         }	|r||	fz  }|r||d         fz  }Œ¸|	d d …dd …d d …f                              ddd¦  «        }	t          t          j
        |	j        d         ¦  «        ¦  «        }|j        d         }|	                     ||	j        d         ||¦  «        }	|                      |	¦  «                             d¦  «        }|st          d„ |||fD ¦   «         ¦  «        S t!          |||¬¦  «        S )	NrK   rc   r   r   r`   )rÈ   rÉ   rÊ   c              3   ó   K  — | ]}|®|V — Œ	d S rÞ   rK   r"  s     r$   r?   z)CLIPSegDecoder.forward.<locals>.<genexpr>/  s(   è è € ÐaÐa˜qÐSTÐS`˜ÐS`ÐS`ÐS`ÐS`ÐaÐar&   )r   rN   rO   )r&  Úzipr  r’  r‰  rŠ  rŠ   r‹  r¢   ÚmathÚsqrtr„   rŒ   r  ÚsqueezerA   rM   )r>   rN   rR   rÊ   r  r  Úall_hidden_statesr*  Úactivationsry  ÚiÚ
activationÚlayerÚreducer-  r   r›   r   s                     r$   rŸ   zCLIPSegDecoder.forwardÿ  sB  € ð #7Ð@˜B˜B¸DÐØ0Ð:˜˜°dˆà# D D b DÔ)ˆàˆÝ.7½¸KÈÌÐVZÔVbÑ8cÔ8cÑ.dÔ.dð 	6ð 	6Ñ*ˆAÑ*
˜E 6ØÐ!Ø˜ 
Ñ+Ô+¨fÑ4à˜ 
Ñ+Ô+àDÔ*Ò*Ð*ØŸšÐ'=Ñ>Ô>ÀÇÂÐPQÐSTÐVWÑAXÔAXÑXÐ[_×[hÒ[hØ*ñ\ô \ñ ð  Ÿš¨¨1¨aÑ0Ô0à!˜EØ tÀ4Ð[lðñ ô ˆMð # 1Ô%ˆFà#ð /Ø! f YÑ.Ð!à ð 6Ø =°Ô#3Ð"5Ñ5øà˜˜˜˜1˜2˜2˜q˜q˜q˜Ô!×)Ò)¨!¨Q°Ñ2Ô2ˆå•4”9˜Vœ\¨!œ_Ñ-Ô-Ñ.Ô.ˆà+Ô1°!Ô4ˆ
Ø—’˜Z¨¬°a¬¸$ÀÑEÔEˆà×,Ò,¨VÑ4Ô4×<Ò<¸QÑ?Ô?ˆàð 	bÝÐaÐa VÐ->ÀÐ$OÐaÑaÔaÑaÔaÐaå#ØØ+Ø%ð
ñ 
ô 
ð 	
r&   )NNT)rE   rF   rG   r   rg   r   r!   r¡   r   rÚ   rŸ   r£   r¤   s   @r$   r€  r€  Ô  sµ   ø€ € € € € ð(v˜}ð (vð (vð (vð (vð (vð (vð\ -1Ø/3Ø&*ð6
ð 6
à˜Uœ\Ô*ð6
ð !&¤ð6
ð $ Dœ>ð	6
ð
 ' tœnð6
ð ˜d”^ð6
ð 6
ð 6
ð 6
ð 6
ð 6
ð 6
ð 6
r&   r€  zn
    CLIPSeg model with a Transformer-based decoder on top for zero-shot and one-shot image segmentation.
    c                   ó  ‡ — e Zd ZeZdefˆ fd„Z	 	 	 	 	 ddedeej	                 deej	                 deej	                 deej	                 f
d	„Z
 ee¦  «         eee¬
¦  «        	 	 	 	 	 	 	 	 	 	 	 ddeej                 deej                 deej                 deej                 deej	                 deej                 deej                 dee         dee         dedee         deeef         fd„¦   «         ¦   «         Zˆ xZS )ÚCLIPSegForImageSegmentationrY   c                 óè   •— t          ¦   «                              |¦  «         || _        t          |¦  «        | _        |j        | _        t          |¦  «        | _        |                      ¦   «          d S rÞ   )	rf   rg   rY   r  rù   r‘  r€  ÚdecoderrF  rx   s     €r$   rg   z$CLIPSegForImageSegmentation.__init__A  sc   ø€ Ý‰Œ×Ò˜Ñ Ô Ð àˆŒå  Ñ(Ô(ˆŒ	Ø$Ô3ˆÔå% fÑ-Ô-ˆŒð 	ŠÑÔÐÐÐr&   Nr›   r¬   rÈ   ra   Úconditional_pixel_valuesc                 óÒ  — |kt          |¦  «        |k    rt          d¦  «        ‚t          j        ¦   «         5  | j                             |||¬¦  «        }d d d ¦  «         n# 1 swxY w Y   ny|ht          |¦  «        |k    rt          d¦  «        ‚t          j        ¦   «         5  | j                             |¦  «        }d d d ¦  «         n# 1 swxY w Y   nt          d¦  «        ‚|S )Nz@Make sure to pass as many prompt texts as there are query images)rÈ   ra   zAMake sure to pass as many prompt images as there are query imagesz[Invalid conditional, should be either provided as `input_ids` or `conditional_pixel_values`)r#   r˜   r!   Úno_gradrù   rn  rr  )r>   r›   r¬   rÈ   ra   r©  rR   s          r$   Úget_conditional_embeddingsz6CLIPSegForImageSegmentation.get_conditional_embeddingsN  s…  € ð Ð å9‰~Œ~ Ò+Ð+Ý Ð!cÑdÔdÐdÝ”‘”ð ð Ø)-¬×)DÒ)DØ¨nÈ<ð *Eñ *ô *Ð&ðð ð ñ ô ð ð ð ð ð ð øøøð ð ð ð øð &Ð1åÐ+Ñ,Ô,°
Ò:Ð:Ý Ð!dÑeÔeÐeÝ”‘”ð `ð `Ø)-¬×)EÒ)EÐF^Ñ)_Ô)_Ð&ð`ð `ð `ñ `ô `ð `ð `ð `ð `ð `ð `øøøð `ð `ð `ð `øõ Ømñô ð ð &Ð%s#   ¸A"Á"A&Á)A&Â%CÃCÃCr5  Fr”   rR   ÚlabelsrÊ   r  r“   r  r   c                 óè  ‡— ||n| j         j        }t          j        ¦   «         5  | j                             ||d|
|¬¦  «        }| j                             |d         ¦  «        }|r|j        n|d         Šˆfd„| j        D ¦   «         }|r,t          |j
        |j        |	r|j        nd|j        ¬¦  «        }n|	s|dd…         |dd…         z   n|}ddd¦  «         n# 1 swxY w Y   |€&|                      |j        d	         ||||¬
¦  «        }nU|j        d	         |j        d	         k    rt          d¦  «        ‚|j        d         | j         j        k    rt          d¦  «        ‚|                      ||||	|¬¦  «        }|r|j        n|d	         }d}|9|                     |j        ¦  «        }t+          j        ¦   «         } |||¦  «        }|s|||||f}||f|z   n|S t/          ||||||¬¦  «        S )aÈ  
        labels (`torch.LongTensor` of shape `(batch_size,)`, *optional*):
            Labels for computing the sequence classification/regression loss. Indices should be in `[0, ...,
            config.num_labels - 1]`. If `config.num_labels == 1` a regression loss is computed (Mean-Square loss), If
            `config.num_labels > 1` a classification loss is computed (Cross-Entropy).

        Returns:

        Examples:

        ```python
        >>> from transformers import AutoProcessor, CLIPSegForImageSegmentation
        >>> from PIL import Image
        >>> import requests

        >>> processor = AutoProcessor.from_pretrained("CIDAS/clipseg-rd64-refined")
        >>> model = CLIPSegForImageSegmentation.from_pretrained("CIDAS/clipseg-rd64-refined")

        >>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
        >>> image = Image.open(requests.get(url, stream=True).raw)
        >>> texts = ["a cat", "a remote", "a blanket"]
        >>> inputs = processor(text=texts, images=[image] * len(texts), padding=True, return_tensors="pt")

        >>> outputs = model(**inputs)

        >>> logits = outputs.logits
        >>> print(logits.shape)
        torch.Size([3, 352, 352])
        ```NTr^  r   r`   c                 ó&   •— g | ]}‰|d z            ‘ŒS )r   rK   )r<   r¡  rN   s     €r$   r  z7CLIPSegForImageSegmentation.forward.<locals>.<listcomp>§  s"   ø€ ÐMÐMÐM°A˜=¨¨Q©Ô/ÐMÐMÐMr&   r:  r	   r   )r›   r¬   rÈ   ra   r©  zWMake sure to pass as many conditional embeddings as there are query images in the batchzcMake sure that the feature dimension of the conditional embeddings matches `config.projection_dim`.)rÊ   r  r  )r/   r   rR   rS   r5   rT   )rY   r%  r!   r«  rù   r[  r  rN   r‘  r   r$  r;  rO   r¬  r„   r˜   rh  r¨  r   r<  r   r   ÚBCEWithLogitsLossrQ   )r>   r¬   r”   r©  rR   rÈ   ra   r­  rÊ   r  r“   r  rp  rS   r   Údecoder_outputsr   r/   Úloss_fnry  rN   s                       @r$   rŸ   z#CLIPSegForImageSegmentation.forwardk  sã  ø€ ðZ &1Ð%<kkÀ$Ä+ÔB]ˆõ Œ]‰_Œ_ð 	ð 	Ø!œY×3Ò3Ø)Ø"3Ø%)Ø)AØ'ð 4ñ ô ˆNð !œI×7Ò7¸ÀqÔ8IÑJÔJˆMà<GÐ^˜NÔ8Ð8È^Ð\]ÔM^ˆMàMÐMÐMÐM¸Ô9LÐMÑMÔMˆKð ð 
Ý!;Ø&4Ô&FØ"0Ô">ØBVÐ"` .Ô">Ð">Ð\`Ø-Ô8ð	"ñ "ô "ð DXÐkN 2 A 2Ô&¨¸¸¸Ô);Ñ;Ð;Ð]kð ð/	ð 	ð 	ñ 	ô 	ð 	ð 	ð 	ð 	ð 	ð 	øøøð 	ð 	ð 	ð 	ð8 "Ð)Ø%)×%DÒ%DØ'Ô-¨aÔ0Ø#Ø-Ø)Ø)Að &Eñ &ô &Ð"Ð"ð &Ô+¨AÔ.°,Ô2DÀQÔ2GÒGÐGÝ Ømñô ð ð &Ô+¨AÔ.°$´+Ô2LÒLÐLÝ ð0ñô ð ð Ÿ,š,ØØ"Ø/Ø!5Ø#ð 'ñ 
ô 
ˆð ,7ÐNÔ'Ð'¸OÈAÔ<NˆàˆØÐà—Y’Y˜vœ}Ñ-Ô-ˆFÝÔ*Ñ,Ô,ˆGØ7˜6 6Ñ*Ô*ˆDàð 	FØÐ4°mÀ^ÐUdÐeˆFØ)-Ð)9TG˜fÑ$Ð$¸vÐEå-ØØØ#9Ø'Ø .Ø*ð
ñ 
ô 
ð 	
s   ¥B+CÃC Ã#C r.  )NNNNNNNNNFN)rE   rF   rG   r   r  rg   r¢   r   r!   r¡   r¬  r   rz  r   rQ   r   rI   r²   rÚ   r   r   r.   rŸ   r£   r¤   s   @r$   r¦  r¦  8  s  ø€ € € € € ð !€Lð˜}ð ð ð ð ð ð ð Ø,0Ø15Ø/3Ø;?ð&ð &àð&ð ˜EœLÔ)ð&ð ! ¤Ô.ð	&ð
 ˜uœ|Ô,ð&ð #+¨5¬<Ô"8ð&ð &ð &ð &ð: +Ð*Ð+CÑDÔDØÐÐ+IÐXiÐjÑjÔjð 26Ø48Ø@DØ>BØ15Ø37Ø-1Ø,0Ø/3Ø).Ø&*ðy
ð y
à˜EÔ-Ô.ðy
ð ˜uÔ0Ô1ðy
ð #+¨5Ô+<Ô"=ð	y
ð
 !)¨Ô):Ô ;ðy
ð ! ¤Ô.ðy
ð ˜uÔ/Ô0ðy
ð ˜Ô)Ô*ðy
ð $ Dœ>ðy
ð ' tœnðy
ð #'ðy
ð ˜d”^ðy
ð 
ˆumÐ#Ô	$ðy
ð y
ð y
ñ kÔjñ EÔDðy
ð y
ð y
ð y
ð y
r&   r¦  )@rH   r“  rœ  Údataclassesr   Útypingr   r   r   r   r!   Útorch.utils.checkpointr   r   r
   Úmodeling_attn_mask_utilsr   r   Úmodeling_outputsr   r   Úmodeling_utilsr   Úutilsr   r   r   r   r   r   Úconfiguration_clipsegr   r   r   Ú
get_loggerrE   ÚloggerÚ_CHECKPOINT_FOR_DOCr¡   r%   r,   r.   rM   rQ   rP  rX   r¦   r´   rÜ   ræ   rø   ÚCLIPSEG_START_DOCSTRINGrA  rW  rz  r  r0  rC  rR  rY  r  r|  r€  r¦  rK   r&   r$   ú<module>r¿     s‘  ðð Ð à €€€Ø €€€Ø !Ð !Ð !Ð !Ð !Ð !Ø .Ð .Ð .Ð .Ð .Ð .Ð .Ð .Ð .Ð .Ð .Ð .à €€€Ø Ð Ð Ð Ø Ð Ð Ð Ð Ð à !Ð !Ð !Ð !Ð !Ð !Ø dÐ dÐ dÐ dÐ dÐ dÐ dÐ dØ KÐ KÐ KÐ KÐ KÐ KÐ KÐ KØ -Ð -Ð -Ð -Ð -Ð -ðð ð ð ð ð ð ð ð ð ð ð ð ð ð ð ð YÐ XÐ XÐ XÐ XÐ XÐ XÐ XÐ XÐ Xð 
ˆÔ	˜HÑ	%Ô	%€ð 3Ð ð
`˜Uœ\ð `¨e¬lð `ð `ð `ð `ð
-˜Uœ\ð -¨e¬lð -ð -ð -ð -ð ð!
ð !
ð !
ð !
ð !
Kñ !
ô !
ñ „ð!
ðH ð:ð :ð :ð :ð :˜;ñ :ô :ñ „ð:ð& ð
ð 
ð 
ð 
ð 
 [ñ 
ô 
ñ „ð
ð0Pð Pð Pð Pð P˜bœiñ Pô Pð Pðhð ð ð ð ˜BœIñ ô ð ðDe2ð e2ð e2ð e2ð e2r”yñ e2ô e2ð e2ðRð ð ð ð ”ñ ô ð ð /ð /ð /ð /ð /˜"œ)ñ /ô /ð /ðd1%ð 1%ð 1%ð 1%ð 1%˜_ñ 1%ô 1%ð 1%ðh	Ð ð!Ð ð@#Ð ð"%Ð ðR^
ð ^
ð ^
ð ^
ð ^
R”Yñ ^
ô ^
ð ^
ðB^
ð ^
ð ^
ð ^
ð ^
˜RœYñ ^
ô ^
ð ^
ðB4
ð 4
ð 4
ð 4
ð 4
Ð-ñ 4
ô 4
ð 4
ðn:
ð :
ð :
ð :
ð :
˜rœyñ :
ô :
ð :
ðz3
ð 3
ð 3
ð 3
ð 3
Ð/ñ 3
ô 3
ð 3
ðl ÐÐ-Ñ.Ô.ðb
ð b
ð b
ð b
ð b
Ð)ñ b
ô b
ñ /Ô.ðb
ðJ6ð 6ð 6ð 6ð 6˜"œ)ñ 6ô 6ð 6ðra
ð a
ð a
ð a
ð a
Ð+ñ a
ô a
ð a
ðH Ððð ñ	ô ðh
ð h
ð h
ð h
ð h
Ð"8ñ h
ô h
ñô ðh
ð h
ð h
r&   