§ ñ§g¥<ãóÄ—dZddlZddlZddlZddlmZddlmZmZm Z m Z mZddlm Z mZddlmZeje¦«Zdd iZGd „d¦«ZGd„d e¦«ZdS)z"Tokenization class for model MyT5.éN)Údefaultdict)ÚDictÚListÚOptionalÚTupleÚUnioné)Ú AddedTokenÚPreTrainedTokenizer)ÚloggingÚ vocab_filezbyte_maps.jsonc ó0—eZdZdZdZdeeeeefffd„Zdeeee e effdedefd„Zdeeefd eeee e efffd „Zde ed ede effd „Z dde ed e efd„ZdS)ÚByteRewriteraZ Byte rewriter class for MyT5 tokenizer. This class is used to rewrite bytes using a hash tree. The hash tree is constructed from a set of rewriting rules. Args: rewriting_rules (`str` or `Dict[str, str]`): A path to a json file containing the rewriting rules or a dictionary containing the rewriting rules. z[LEAF]Úrewriting_rulescó¶—t|t¦«r=t|d¦«5}tj|¦«}ddd¦«n#1swxYwYn4t|t ¦«st dt|¦«›¦«‚| |¦«|_ d„| ¦«D¦«}| |¦«|_dS)NÚrzDrewriting_rules should be either a path to json file or a dict, got có—i|]\}}||“Œ S©r)Ú.0ÚkÚvs úf/var/www/html/ai-engine/env/lib/python3.11/site-packages/transformers/models/myt5/tokenization_myt5.pyú z)ByteRewriter.__init__..8s€Ð"LÐ"LÐ"L©D¨A¨q 1 aÐ"LÐ"LÐ"Ló)Ú isinstanceÚstrÚopenÚjsonÚloadÚdictÚ ValueErrorÚtypeÚconstruct_hash_treeÚ hash_treeÚitemsÚreverse_hash_tree)ÚselfrÚfÚreverse_rewriting_ruless rÚ__init__zByteRewriter.__init__.s€Ýo¥sÑ+Ô+ð Ýo sÑ+Ô+ð /¨qÝ"&¤)¨A¡,¤,ð /ð /ð /ñ /ô /ð /ð /ð /ð /ð /ð /øøøð /ð /ð /ð /øå˜OTÑ2Ô2ð ÝØnÕW[Ð\kÑWlÔWlÐnÐnñôð ð×1Ò1°/ÑBÔBˆŒØ"LÐ"L°O×4IÒ4IÑ4KÔ4KÐ"LÑ"LÔ"LÐØ!%×!9Ò!9Ð:QÑ!RÔ!RˆÔÐÐs¦AÁAÁAr$Úbyte_in_sequenceÚbyte_out_sequencecóž—| d¦«}| d¦«}|}|D]}||vri||<||}Œ|||j<dS)zL Add a leaf with the output byte sequence to the hash tree. ú N)ÚsplitÚLEAF)r'r$r+r,Úbyte_in_listÚ byte_out_listÚtree_pointerÚbs rÚadd_leafzByteRewriter.add_leaf;so€ð(×-Ò-¨cÑ2Ô2ˆØ)×/Ò/°Ñ4Ô4ˆ à ˆØð +ð +ˆAØ˜Ð$Ð$Ø"$˜Q‘Ø'¨œ?ˆLˆLà"/ˆT”YÑÐÐrÚreturncóê—tt¦«}d„td¦«D¦«D]}|g|||j<Œ| ¦«D]\}}| |||¦«Œ|S)zE Construct a hash tree for rewritten byte sequences. c3óK—|]}|d›V—Œ dS)Ú02xNr)rÚxs rú z3ByteRewriter.construct_hash_tree..Os&èè€Ð1Ð1 Q**Ð1Ð1Ð1Ð1Ð1Ð1ré)rr Úranger0r%r5)r'rr$r4Úin_sequenceÚout_sequences rr#z ByteRewriter.construct_hash_treeJsŠ€õ ¥Ñ%Ô%ˆ Ø1Ð1¥e¨C¡j¤jÐ1Ñ1Ô1ð *ð *ˆAØ'( cˆIaŒL˜œÑ#Ð#à)8×)>Ò)>Ñ)@Ô)@ð @ð @Ñ%ˆK˜ØMŠM˜) [°,Ñ?Ô?Ð?Ð?àÐrÚ byte_sequenceNcóR—|j}|D]}||vr ||}ŒdS||jS)zW Search the hash tree and return the rewritten byte sequence if found. N)r$r0)r'r@r3r4s rÚsearch_hash_treezByteRewriter.search_hash_treeWsD€ð”~ˆØð ð ˆAØLÐ Ð Ø+¨Aœàttà˜DœIÔ&Ð&rFÚin_bytescój—g}d}d}|t|¦«kr™|s|jn|j}t|t|¦«¦«D]>}||}||vr ||}n||kr|g} |}nn|j|vr||j} |}Œ?| | ¦«|dz}|t|¦«k°™|S)a6 Rewrite a sequence of bytes using the hash tree. Args: in_bytes (`List[str]`): A list of bytes to be rewritten. reverse (`bool`): If True, decoding is performed with the reverse hash tree. Returns: `List[str]`: The rewritten byte sequence. ré)Úlenr$r&r=r0Úextend) r'rCÚreverseÚ out_bytesÚb_startÚb_endr3Újr4Úcur_leafs rÚ rewrite_byteszByteRewriter.rewrite_bytesdsë€ðˆ ØˆØˆà˜H™ œ Ò%Ð%Ø18ÐT˜4œ>˜>¸dÔ>TˆLÝ˜7¥C¨¡M¤MÑ2Ô2ð ð Ø˜Q”KØ˜Ð$Ð$Ø#/°¤?LLØ˜'’\\Ø !˜sHØEØEàEØ”9 Ð,Ð,Ø+¨D¬IÔ6HØEøØ×Ò˜XÑ&Ô&Ð&Ø˜a‘iˆGð!˜H™ œ Ò%Ð%ð$Ðr)F)Ú__name__Ú __module__Ú__qualname__Ú__doc__r0rrrr*r rr5r#rBrNrrrrr!sB€€€€€ððð€DðS¨¨c°4¸¸S¸´>Ð.AÔ(BðSðSðSðSð 0 $ s¨E°$¸¸S¼ °/Ô,BÐ'BÔ"Cð 0ÐWZð 0Ðorð 0ð 0ð 0ð 0ð°4¸¸S¸´>ðÀdÈ3ÐPUÐVZÐ\`ÐadÔ\eÐVeÔPfÐKfÔFgððððð'¨d°3¬ið'¸EÀ$ÈÈSÌ À/Ô"`): The end of sequence token. unk_token (`str`, *optional*, defaults to `""`): The unknown token. A token that is not in the vocabulary cannot be converted to an ID and is set to be this token instead. pad_token (`str`, *optional*, defaults to `""`): The token used for padding, for example when batching sequences of different lengths. extra_ids (`int`, *optional*, defaults to 125): Add a number of extra ids added to the end of the vocabulary for use as sentinels. These tokens are accessible as "" where "{%d}" is a number between 0 and extra_ids-1. Extra tokens are indexed from the end of the vocabulary up to beginning ("" is the last token in the vocabulary like in ByT5 preprocessing see [here](https://github.com/google-research/text-to-text-transfer-transformer/blob/9fd7b14a769417be33bc6c850f9598764913c833/t5/data/preprocessors.py#L2117)). additional_special_tokens (`List[str]`, *optional*): Additional special tokens used by the tokenizer. Ú input_idsÚattention_maskúúúé}Nr6c ód•—|dkr|€d„t|¦«D¦«}nb|dkr\|Zt|¦«dkrGtttd„|¦«¦«¦«}||krt d|›d|›d¦«‚t|t¦«rt|dd¬¦«n|}t|t¦«rt|dd¬¦«n|}t|t¦«rt|dd¬¦«n|}|||d œ|_t|j¦«|_ d |_ tjt|d¦«¦«|_t|jd¦«|_t|jd ¦«|_t%¦«jd|||d|dœ|¤ŽdS)Nrcó—g|]}d|›d‘Œ S)z r©rÚis rú z*MyT5Tokenizer.__init__..±s$€Ð(UÐ(UÐ(U¸qÐ):°aÐ):Ð):Ð):Ð(UÐ(UÐ(Urcó>—tdt|¦«v¦«S)NÚextra_id)Úboolr)r:s rúz(MyT5Tokenizer.__init__..´s€µD¸ÅsÈ1ÁvÄvÐ9MÑ4NÔ4N€rzBoth extra_ids (z!) and additional_special_tokens (zm) are provided to MyT5Tokenizer. In this case the additional_special_tokens must include the extra_ids tokensT)ÚlstripÚrstrip)rrEér<rÚ decompose_mapÚ merge_map)Ú eos_tokenÚ unk_tokenÚ pad_tokenÚ extra_idsÚadditional_special_tokensr)r=rFÚsetÚfilterr!rrr Ú_added_tokens_decoderÚoffsetÚ_utf_vocab_sizerrrÚ byte_mapsrÚdecompose_rewriterÚmerge_rewriterÚsuperr*) r'r rjrkrlrmrnÚkwargsÚextra_tokensÚ __class__s €rr*zMyT5Tokenizer.__init__¥sþø€ðqŠ=ˆ=Ð6Ð>Ø(UÐ(UÅEÈ)ÑDTÔDTÐ(UÑ(UÔ(UÐ%Ð%Ø ˜Š]ˆ]Ð8ÐDÍÐMfÑIgÔIgÐjkÒIkÐIkås¥6Ð*NÐ*NÐPiÑ#jÔ#jÑkÔkÑlÔlˆLØ˜yÒ(Ð(Ý ð( yð(ð(ÐSlð(ð(ð(ñôðõHRÐR[Õ]`ÑGaÔGaÐp•J˜y°¸dÐCÑCÔCÐCÐgpˆ ÝGQÐR[Õ]`ÑGaÔGaÐp•J˜y°¸dÐCÑCÔCÐCÐgpˆ ÝGQÐR[Õ]`ÑGaÔGaÐp•J˜y°¸dÐCÑCÔCÐCÐgpˆ à)2°yÀYÐ%OÐ%OˆÔ"Ý˜$Ô4Ñ5Ô5ˆŒØ#ˆÔõœ¥4¨ °CÑ#8Ô#8Ñ9Ô9ˆŒå".¨t¬~¸oÔ/NÑ"OÔ"OˆÔÝ*¨4¬>¸+Ô+FÑGÔGˆÔà‰ŒÔð ØØØØØ&?ð ð ðð ð ð ð ð rcó—|jS©N)rs)r's rÚ vocab_sizezMyT5Tokenizer.vocab_sizeÓs€àÔ#Ð#rcóŒ‡—ˆfd„t‰j‰jz¦«D¦«}| ‰j¦«|S)Ncó<•—i|]}‰ |¦«|“ŒSr)Úconvert_ids_to_tokens)rr_r's €rrz+MyT5Tokenizer.get_vocab..Ùs)ø€Ð`Ð`Ð`°a×+Ò+¨AÑ.Ô.°Ð`Ð`Ð`r)r=r}rrÚupdateÚadded_tokens_encoder)r'Úvocabs` rÚ get_vocabzMyT5Tokenizer.get_vocabØsIø€Ø`Ð`Ð`Ð`½5ÀÄÐSWÔS^ÑA^Ñ;_Ô;_Ð`Ñ`Ô`ˆØ ŠTÔ.Ñ/Ô/Ð/ØˆrFÚtoken_ids_0Útoken_ids_1Úalready_has_special_tokenscóà•—|r$t¦« ||d¬¦«S|€dgt|¦«zdgzSdgt|¦«zdgzdgt|¦«zzdgzS)aÄ Retrieve sequence ids from a token list that has no special tokens added. This method is called when adding special tokens using the tokenizer `prepare_for_model` method. Args: token_ids_0 (`List[int]`): List of IDs. token_ids_1 (`List[int]`, *optional*): Optional second list of IDs for sequence pairs. already_has_special_tokens (`bool`, *optional*, defaults to `False`): Whether or not the token list is already formatted with special tokens for the model. Returns: `List[int]`: A list of integers in the range [0, 1]: 1 for a special token, 0 for a sequence token. T)r…r†r‡NrrE)rwÚget_special_tokens_maskrF)r'r…r†r‡rzs €rr‰z%MyT5Tokenizer.get_special_tokens_maskÞs‘ø€ð$&ð Ý‘7”7×2Ò2Ø'°[Ð]að3ñôð ð ÐØC#˜kÑ*Ô*Ñ*¨q¨cÑ1Ð1Ø•c˜+Ñ&Ô&Ñ&¨1¨#Ñ-°!°µs¸;Ñ7GÔ7GÑ1GÑHÈAÈ3ÑNÐNrÚ token_idscóž—t|¦«dkr0|d|jkrtjd|j›d¦«|S||jgzS)z.Do not add eos again if user already added it.réÿÿÿÿzThis sequence already has zQ. In future versions this behavior may lead to duplicated eos tokens being added.)rFÚeos_token_idÚwarningsÚwarnrj)r'rŠs rÚ_add_eos_if_not_presentz%MyT5Tokenizer._add_eos_if_not_presentúsi€åˆy‰>Œ>˜AÒÐ )¨B¤-°4Ô3DÒ"DÐ"DÝŒMð+¨T¬^ð+ð+ð+ñ ô ð ðÐà Ô 1Ð2Ñ2Ð2rcóz—|jg}|€t||z¦«dgzSt||z|z|z¦«dgzS)aÉ Create a mask from the two sequences passed to be used in a sequence-pair classification task. MyT5 does not make use of token type ids, therefore a list of zeros is returned. Args: token_ids_0 (`List[int]`): List of IDs. token_ids_1 (`List[int]`, *optional*): Optional second list of IDs for sequence pairs. Returns: `List[int]`: List of zeros. Nr)rrF)r'r…r†Úeoss rÚ$create_token_type_ids_from_sequencesz2MyT5Tokenizer.create_token_type_ids_from_sequencessS€ð Ô Ð!ˆàÐÝ{ SÑ(Ñ)Ô)¨Q¨CÑ/Ð/Ý; Ñ$ {Ñ2°SÑ8Ñ9Ô9¸Q¸CÑ?Ð?rcóh—| |¦«}|€|S| |¦«}||zS)a‚ Build model inputs from a sequence or a pair of sequence for sequence classification tasks by concatenating and adding special tokens. A sequence has the following format: - single sequence: `X ` - pair of sequences: `A B ` Args: token_ids_0 (`List[int]`): List of IDs to which the special tokens will be added. token_ids_1 (`List[int]`, *optional*): Optional second list of IDs for sequence pairs. Returns: `List[int]`: List of [input IDs](../glossary#input-ids) with the appropriate special tokens. )r)r'r…r†s rÚ build_inputs_with_special_tokensz.MyT5Tokenizer.build_inputs_with_special_tokenssA€ð&×2Ò2°;Ñ?Ô?ˆØÐØÐà×6Ò6°{ÑCÔCˆKØ Ñ,Ð,rÚtextcón—d„| d¦«D¦«}| |¦«}|S)z‡Take as input a string and return a list of strings (tokens) for words/sub-words. Represents tokens in two character hex formatcó—g|]}|d›‘ŒS)r9rr^s rr`z+MyT5Tokenizer._tokenize..:s€Ð;Ð;Ð; Q**Ð;Ð;Ð;rúutf-8)ÚencodeÚmorphological_encode)r'r–rxÚtokenss rÚ _tokenizezMyT5Tokenizer._tokenize6s;€ð<Ð; d§k¢k°'Ñ&:Ô&:Ð;Ñ;Ô;ˆØ×*Ò*¨6Ñ2Ô2ˆØˆ rcób—t|¦«dkrd}nt|d¦«|jz}|S)z0Converts a token (str) in an id using the vocab.rgNé)rFÚintrr)r'ÚtokenÚtoken_ids rÚ_convert_token_to_idz"MyT5Tokenizer._convert_token_to_id>s3€õˆu‰:Œ:˜Š?ˆ?ØˆHˆHå˜5 "‘~”~¨¬Ñ3ˆHàˆrcó—||jz d›}|S)z=Converts an index (integer) in a token (str) using the vocab.r9)rr)r'Úindexr¡s rÚ_convert_id_to_tokenz"MyT5Tokenizer._convert_id_to_tokenHs€à˜4œ;Ñ&Ð,Ð,ˆØˆrÚindicescóv—|j |d¬¦«}|j |d¬¦«}|S)NF©rH)rurNrv©r'r§s rr›z"MyT5Tokenizer.morphological_encodeMs=€àÔ)×7Ò7¸ÈÐ7ÑOÔOˆØÔ%×3Ò3°GÀUÐ3ÑKÔKˆØˆrcóv—|j |d¬¦«}|j |d¬¦«}|S)NTr©)rvrNrurªs rÚmorphological_decodez"MyT5Tokenizer.morphological_decodeSs=€àÔ%×3Ò3°GÀTÐ3ÑJÔJˆØÔ)×7Ò7¸ÈÐ7ÑNÔNˆØˆrcó—d}g}|D]`}||jvr!| |j|¦«Œ,||jvr| |¦«ŒK| |¦«Œa| |¦«}t |j ¦«¦«t |j¦«z}|D]7}||vr|t |d¦«z }Œ|t |¦«z }Œ8| dd¬¦«}|S)z:Converts a sequence of tokens (string) in a single string.rr™Úignore)Úerrors) Úadded_tokens_decoderÚappendr‚r¬roÚvaluesÚbytesÚfromhexÚdecode)r'rœÚbstringÚ out_tokensr¡Ú _added_tokensÚstrings rÚconvert_tokens_to_stringz&MyT5Tokenizer.convert_tokens_to_stringYs%€àˆàˆ Øð )ð )ˆEØ˜Ô1Ð1Ð1Ø×!Ò! $Ô";¸EÔ"BÑCÔCÐCÐCØ˜$Ô3Ð3Ð3Ø×!Ò! %Ñ(Ô(Ð(Ð(à×!Ò! %Ñ(Ô(Ð(Ð(à×.Ò.¨zÑ:Ô:ˆ Ý˜DÔ5×<Ò<Ñ>Ô>Ñ?Ô?Å#ÀdÔF_ÑB`ÔB`Ñ`ˆ Øð 0ð 0ˆEØ˜ Ð%Ð%Ø5 ¨Ñ0Ô0Ñ0à5Ÿ=š=¨Ñ/Ô/Ñ/Ø—’ °Ñ9Ô9ˆØˆ rÚsave_directoryÚfilename_prefixcó|—tj |¦«r6tj ||r|dzndtdz¦«}n|r|dznd|z}t|dd¬¦«5}| tj|j dd¬ ¦«¦«ddd¦«n#1swxYwY|fS) Nú-Úr Úwr™)ÚencodingrgF)ÚindentÚensure_ascii) ÚosÚpathÚisdirÚjoinÚVOCAB_FILES_NAMESrÚwriterÚdumpsrt)r'r»r¼r Úwriters rÚsave_vocabularyzMyT5Tokenizer.save_vocabularyps€Ý Œ7=Š=˜Ñ(Ô(ð ]ÝœŸšØ¸/Ð!Q °3Ñ!6Ð!6ÈrÕUfÐgsÔUtÑ tñôˆJˆJð4CÐJ˜/¨CÑ/Ð/ÈÈnÑ\ˆJÝ *˜c¨GÐ 4Ñ 4Ô 4ð S¸ØLŠLœ D¤N¸1È5ÐQÑQÔQÑRÔRÐRð Sð Sð Sñ Sô Sð Sð Sð Sð Sð Sð Søøøð Sð Sð Sð Sàˆ}ÐsÁ40B0Â0B4Â7B4)rWrXrYrZN)r6N)NFr|)rOrPrQrRÚmodel_input_namesrÈÚvocab_files_namesr*Úpropertyr}r„rr rrcr‰rr“r•rrr£r¦r›r¬rºrrÌÚ __classcell__)rzs@rrTrT‡s«ø€€€€€ððð4%Ð&6Ð7ÐØ)Ðð ØØØØ"&ð, ð ð, ð, ð, ð, ð, ð, ð\ð$ð$ñ„Xð$ððððsxðOðOØ œ9ðOØ3;¸DÀ¼IÔ3FðOØkoðOà ˆcŒðOðOðOðOðOðOð8 3°°c´ð 3¸tÀC¼yð 3ð 3ð 3ð 3ðJNð@ð@Ø œ9ð@Ø3;¸DÀ¼IÔ3Fð@à ˆcŒð@ð@ð@ð@ð0JNð-ð-Ø œ9ð-Ø3;¸DÀ¼IÔ3Fð-à ˆcŒð-ð-ð-ð-ð4˜cð°°S´ ððððððððððð ¨D°¬Ið¸$¸s¼)ððððð¨D°¬Ið¸$¸s¼)ðððððððð. ð ¨cð ÀHÈSÄMð Ð]bÐcfÔ]gð ð ð ð ð ð ð ð rrT)rRrrÄrŽÚcollectionsrÚtypingrrrrrÚtokenization_utilsr rÚutilsrÚ get_loggerrOÚloggerrÈrrTrrrúr×s ðð)Ð(à€€€Ø € € € Ø€€€Ø#Ð#Ð#Ð#Ð#Ð#Ø5Ð5Ð5Ð5Ð5Ð5Ð5Ð5Ð5Ð5Ð5Ð5Ð5Ð5àAÐAÐAÐAÐAÐAÐAÐAØÐÐÐÐÐð ˆÔ ˜HÑ %Ô %€ð"Ð#3Ð4ÐðcðcðcðcðcñcôcðcðLrðrðrðrðrÐ'ñrôrðrðrðrr