o S"ågÁ ã@sJddlmZddlZddlZddlmZddlmZGdd„dejƒZdS)é)ÚannotationsN)ÚImage)Únncs’eZdZUdZded<d$d%‡fd d„ Zd&dd „Zed'dd„ƒZej d(dd„ƒZd)dd„Z d*d+dd„Zed,dd„ƒZd-dd „Z ed.d"d#„ƒZ‡ZS)/Ú CLIPModelTÚboolÚsave_in_rootúopenai/clip-vit-base-patch32NÚ model_nameÚstrÚreturnÚNonecs6tƒ ¡|dur|}tj |¡|_tj |¡|_dS©N)ÚsuperÚ__init__ÚtransformersrÚfrom_pretrainedÚmodelÚ CLIPProcessorÚ processor)Úselfr Úprocessor_name©Ú __class__©úh/mnt/skqttb/ctump_chatbot/chatbot/lib/python3.10/site-packages/sentence_transformers/models/CLIPModel.pyrs zCLIPModel.__init__cCsdS)NzCLIPModel()r©rrrrÚ__repr__szCLIPModel.__repr__ÚintcCs |jjjSr ©rÚ tokenizerÚmodel_max_lengthrrrrÚmax_seq_lengthó zCLIPModel.max_seq_lengthÚvaluecCs||jj_dSr r)rr#rrrr!sÚfeaturesúdict[str, torch.Tensor]c Csìg}g}d|vr|jj|dd}|j |d¡}d|vrC|jj| d¡| dd¡| dd¡| dd¡| dd¡d }|j |d¡}g}t|ƒ}t|ƒ}t|d ƒD]\} } | dkrc| t |ƒ¡qS| t |ƒ¡qSt |¡ ¡|d<|S) NÚpixel_values)r&éÚ input_idsÚattention_maskÚposition_idsÚoutput_attentionsÚoutput_hidden_states)r(r)r*r+r,Úimage_text_inforÚsentence_embedding) rÚvision_modelÚvisual_projectionÚ text_modelÚgetÚtext_projectionÚiterÚ enumerateÚappendÚnextÚtorchÚstackÚfloat)rr$Úimage_embedsÚtext_embedsÚvision_outputsÚtext_outputsr.Úimage_featuresÚ text_featuresÚidxÚ input_typerrrÚforward s. ûzCLIPModel.forwardÚpaddingú str | boolc Cs¦g}g}g}t|ƒD]\}}t|tjƒr| |¡| d¡q | |¡| d¡q i}t|ƒr:|jj||ddd}t|ƒrK|jj|dd} | j|d<||d<t |ƒS) Nrr'TÚpt)rDÚ truncationÚreturn_tensors)rHr&r-) r5Ú isinstancerr6ÚlenrrÚimage_processorr&Údict) rÚtextsrDÚimagesÚtexts_valuesr-rAÚdataÚencodingr?rrrÚtokenize@s" zCLIPModel.tokenizeútransformers.CLIPProcessorcCs|jSr )rrrrrrXszCLIPModel.tokenizerÚoutput_pathcCs|j |¡|j |¡dSr )rÚsave_pretrainedr)rrTrrrÚsave\szCLIPModel.saveÚ input_pathcCs t|dS)N)r )r)rWrrrÚload`r"zCLIPModel.load)rN)r r rr)rr )rr)r#rrr)r$r%rr%)T)rDrErr%)rrS)rTr rr)rWr rr)Ú__name__Ú __module__Ú__qualname__rÚ__annotations__rrÚpropertyr!ÚsetterrCrRrrVÚstaticmethodrXÚ __classcell__rrrrr s r) Ú __future__rr8rÚPILrrÚModulerrrrrÚs