§ ×§gÑ6ãó—UddlZddlZddlmZddlmZmZmZmZm Z m Z mZmZm Z ddlZddlmZddlmZddlmZddlmZgZe eed<eje¦«ZGd„d ej¦«Zd e edefd„ZdS) éN)Údeepcopy) ÚAnyÚCallableÚ CollectionÚDictÚListÚMappingÚOptionalÚoverloadÚUnion)Úoptim)Ú ShardedTensor)ÚFullyShardedDataParallelÚ__all__có—eZdZdZ ddeeeeje ffde jdee eeefdeejddf d„Zd „Zdeeeffd „Zeddd „¦«Zedegefdefd„¦«Zddeegefdeefd„Zedeejeffd„¦«Zdeeefddfd„Zdeeefddfd„Zdd„Zdeeeffd„Zdeeeffd„ZdS)Ú_NamedOptimizeraì ``_NamedOptimizer`` takes a dict of parameters and exposes ``state_dict`` by parameter key. We replace the original key (number) in an optim to the fully qualified name (FQN) string. User can initialize the optim as they initialize a PyTorch optim, the only difference is that they also need to pass in the FQN of each parameters. Args: named_parameters (Mapping[str, Union[torch.Tensor, ShardedTensor]]): Mapping from FQN to parameter. optimizer_class (optim.Optimizer): The class of optimizer to instantiate. param_groups (Collection[Mapping[str, Any]]): `param_groups` to pass to optimizer if specified. The key of the inner map needs to be FQNs. Default: None module (nn.Module): the module whose parameters to updated by the optimizer. args: arguments to pass to the optimizer constructor. kwargs: arguments to pass to the optimizer constructor. Example:: >>> # xdoctest: +SKIP("distributed") >>> from torch import optim >>> from torch.distributed.optim import _NamedOptimizer >>> >>> # Define the named optimizer. >>> m = Model(...) >>> named_optim = _NamedOptimizer(m.named_parameters(), optim.SGD) >>> # Forward pass + backward pass. >>> named_optim.step() >>> ... >>> # Call state_dict for the named optimizer returns a FQN state_dict. >>> named_optim.state_dict() Warning: This API is still in development and subject to change. TODO: Add tutorial for _NamedOptimizer. TODO: Add documentation in the docstring for the public attributes like self.param_groups and self.named_parameters. NÚnamed_parametersÚoptimizer_classÚparam_groupsÚmoduleÚreturncóŽ—tj d¦«||_| ¦«t|¦«|_|€|j ¦«n|}||g|¢Ri|¤Ž|_||_ |€,t|j ¦«¦«|_n‚tjd¦«d„|j ¦«D¦«}g} |D]?} | dD]4}||vrt!d|›d¦«‚| ||¦«Œ5Œ@| |_|jj|_dS)Nz'torch.distributed.optim._NamedOptimizerzvSince we pass in param_groups, we will use param_groups to initialize the optimizer, not all parameters of the module.có—i|]\}}||“Œ S©r©Ú.0ÚkeyÚparams úc/var/www/html/ai-engine/env/lib/python3.11/site-packages/torch/distributed/optim/named_optimizer.pyú z,_NamedOptimizer.__init__..fs€ÐWÐWÐW©:¨3°˜E 3ÐWÐWÐWóÚparamszExpect param name z% found in param group but is missing.)ÚtorchÚ_CÚ_log_api_usage_oncerÚ_param_groups_checkÚdictrÚvaluesÚ _optimizerrÚlistÚkeysÚordered_param_keysÚwarningsÚwarnÚitemsÚ ValueErrorÚappend)ÚselfrrrrÚargsÚkwargsÚparams_for_optimizerÚparam_to_keyr,Úgrouprs rÚ__init__z_NamedOptimizer.__init__Is£€õ Œ×$Ò$Ð%NÑOÔOÐOØ;GˆÔØ× Ò Ñ"Ô"Ð"Ý $Ð%5Ñ 6Ô 6ˆÔà.:Ð.BˆDÔ!×(Ò(Ñ*Ô*Ð*Èð ð*˜/Ø ð à ð ð ð ðð ð ˆŒð ˆŒØÐÝ&*¨4Ô+@×+EÒ+EÑ+GÔ+GÑ&HÔ&HˆDÔ#Ð#åŒMðNñ ô ð ðXÐW¸Ô9N×9TÒ9TÑ9VÔ9VÐWÑWÔWˆLØ!#ÐØ%ð Cð CØ" 8œ_ðCðCEØ LÐ0Ð0Ý(Ø]°Ð]Ð]Ð]ñôðð'×-Ò-¨l¸5Ô.AÑBÔBÐBÐBðCð'9ˆDÔ#à œOÔ8ˆÔÐÐr!có~—|j³|jD]}t|t¦«s Jd¦«‚d|vs Jd¦«‚|d}t|tj¦«r|g}t|¦«}|D]@}t|tj¦«s$t dtj|¦«z¦«‚ŒA||d<Œ¬dSdS)Núparam group must be a dictr"z#param group must contain key paramsz>optimizer can only optimize Tensors, but one of the params is )rÚ isinstancer'r#ÚTensorr*Ú TypeErrorÚtypename)r2Úparam_groupr"rs rr&z#_NamedOptimizer._param_groups_checkssù€ØÔÐ(Ø#Ô0ð /ð /Ý! +tÑ4Ô4ÐRÐRÐ6RÑRÔRÐRØ ;Ð.Ð.Ð.Ð0UÑ.Ô.Ð.Ø$ XÔ.Ý˜f¥e¤lÑ3Ô3ð&Ø$˜XFÝ˜f™œØ#ððEÝ% eU¬\Ñ:Ô:ðÝ'ð8Ý:?¼.ÈÑ:OÔ:OñPñôððð )/˜HÑ%Ð%ð)Ð(ð /ð /r!cóÚ‡—‰j ¦«}|d}ˆfd„|d ¦«D¦«}g}|D]‡}g}|dD]"}| ‰j|¦«Œ#dt|¦«i}| ¦«D]\} } | dkrt | ¦«|| <Œ| |¦«Œˆ‰ ||dœ¦«S)zµ Return the ``state_dict`` of the optimizer. Instead of using number to index parameters, we will use module fully qualified name (FQN) as the key. rcó2•—i|]\}}‰j||“ŒSr)r,)rÚst_keyÚ state_valr2s €rr z._NamedOptimizer.state_dict..Žs7ø€ð ð ð á!˜ ð Ô# FÔ+¨Yð ð ð r!Ústater")rDr)r)Ú state_dictr/r1r,ÚsortedrÚ_post_state_dict)r2rErÚ ret_stateÚ ret_groupsr7Ú param_keysrÚ ret_groupÚkÚvs` rrEz_NamedOptimizer.state_dict„s#ø€ð”_×/Ò/Ñ1Ô1ˆ Ø! .Ô1ˆð ð ð ð à%/°Ô%8×%>Ò%>Ñ%@Ô%@ð ñ ô ˆ ð ˆ Ø!ð )ð )ˆEØˆJØ˜xœð Bð BØ×!Ò! $Ô"9¸%Ô"@ÑAÔAÐAÐAØ!¥6¨*Ñ#5Ô#5Ð6ˆIØŸš™ œ ð /ð /‘1Ø˜’==Ý#+¨A¡;¤;I˜a‘LøØ×Ò˜iÑ(Ô(Ð(Ð(à×$Ò$¨yÈ*Ð%UÐ%UÑVÔVÐVr!.Úclosurecó—dS©Nr©r2rNs rÚstepz_NamedOptimizer.step ó€àˆr!có—dSrPrrQs rrRz_NamedOptimizer.step¤rSr!có8—|j |¬¦«S)z’ Perform a single optimization step. This will call :meth:`torch.optim.Optimizer.step` on the wrapped optimizer. ©rN)r)rRrQs rrRz_NamedOptimizer.step¨s€ðŒ×#Ò#¨GÐ#Ñ4Ô4Ð4r!có—|jjSrP)r)rD)r2s rrDz_NamedOptimizer.state±s €àŒÔ$Ð$r!rEcó0—|j ¦«}| |¦«}|d}|d}t|¦«dkrt d¦«‚t|j¦«D]J\}}|| ¦«vrŒt||¦«t||¦«kr>t dt||¦«›d|›dt||¦«›¦«‚|| ¦«D]§\}}|||vrt d|›d|›d¦«‚|||} t|t¦«rçt| t¦«sJ‚t| ¦«¦«} t| ¦«¦«}| |krt d |›d | ›d|›d|›¦«‚t| ¦«| ¦«¦«D]6\}} |j ¦« | j ¦«Œ7Œ0t|t j¦«rEt| t j¦«sJ‚| ¦« | ¦«Œt%| ¦«|||<Œ©ŒL|d }|d }i}|D])}t'|d¦«}||t)|¦«<Œ*i}|D]A}g}|dD]"}| |j|¦«Œ#||t)|¦«<ŒB| ¦«D]¢\}}||vrŒ ||}t|¦«t|¦«kr3t dt|¦«›d|›d t|¦«›d¦«‚|D]:}||vrt d|›d|›d¦«‚|dkrt%||¦«||<Œ;Œ£|j |¦«dS)aè Define the default behavior to load a state_dict for ``_NamedOptimizer``. Sample Code ``` my_model = MyModule() optimizer = _NamedOptimizer(my_model.named_parameters(), Adagrad) ... optim_state_dict = optimizer.state_dict() ... ... optimizer.load_state_dict(optim_state_dict) ... ``` Args: state_dict (Dict[str, Any]) : A ``state_dict`` to load into the optimizer. Note that this state dict update is performed in place. .. note:: PyTorch is using lazy init to initialize the optim states. So it is possible that there is no optim state when user call ``load_state_dict`` and for ``_NamedOptimizer`` we make it stricter that users can only call ``load_state_dict`` after the state is initialized. By doing this, we can validate the optim ``state_dict`` to be loaded. rDrzJExpects the optim to be initialized before load but found not initialized.zExpects equal length as z for parameter z but found: zExpects state z but not found.z"Expects equal number of shards as z but found z for ú/rr"z"Expects equal param_group size as z for group ú.zExpects group key z to be in group z in `state_dict` but is missing.N)r)rEÚ_pre_load_state_dictÚlenr0Ú enumerater,r+r/r;rÚlocal_shardsÚzipÚtensorÚdetachÚcopy_r#r<rr*Ú_gen_param_group_keyr1Úload_state_dict)r2rEÚnew_state_dictrDÚ new_stateÚidxÚ param_keyÚ state_keyrCÚ src_state_valÚ num_shardsÚnum_new_shardsÚshardÚ src_shardÚsrc_param_groupsÚnew_param_groupsÚ src_group_mapr7rJÚ new_group_mapÚ new_groupÚ group_keyÚ src_grouprLs rrdz_NamedOptimizer.load_state_dictµs€ð6œ×3Ò3Ñ5Ô5ˆØ×.Ò.¨zÑ:Ô:ˆ Ø˜7Ô#ˆØ" 7Ô+ˆ Ýˆy‰>Œ>˜QÒÐÝØ\ñôð õ(¨Ô(?Ñ@Ô@ð Hñ H‰NˆCà § ¢ ¡¤Ð,Ð,ØÝ5˜Ô#Ñ$Ô$¨I°c¬NÑ(;Ô(;Ò;Ð;Ý ðBs°9¸S´>Ñ/BÔ/BðBðBÐS\ðBðBÕjmÐnsÐt}Ôn~ÑjÔjðBðBñôðð)2°#¬×(<Ò(<Ñ(>Ô(>ð Hñ HÑ$ ˜9Ø E¨)Ô$4Ð4Ð4Ý$Ø]¨Ð]Ð]À9Ð]Ð]Ð]ñôðð!& iÔ 0°Ô ; Ý˜iÑ7Ô7ðHÝ% mµ]ÑCÔCÐCÐCÐCÝ!$ Y×%;Ò%;Ñ%=Ô%=Ñ!>Ô!>JÝ%(¨×)CÒ)CÑ)EÔ)EÑ%FÔ%FNØ! ^Ò3Ð3Ý(ðEÀðEðEÐ\fðEðEÐmvðEðEðzCðEðEñôðõ-0Ø!×.Ò.Ñ0Ô0°-×2LÒ2LÑ2NÔ2Nñ-ô-ðFðFÑ(˜˜yðœ×+Ò+Ñ-Ô-×3Ò3°IÔ4DÑEÔEÐEÐEñFõ 5¬<Ñ8Ô8ðHÝ% mµU´\ÑBÔBÐBÐBÐBØ×$Ò$Ñ&Ô&×,Ò,¨]Ñ;Ô;Ð;Ñ;å08¸Ñ0GÔ0GI˜c”N 9Ñ-Ñ-ñ/ Hð4& nÔ5ÐØ)¨.Ô9Ðàˆ Ø%ð Dð DˆEÝ˜e HœoÑ.Ô.ˆJØ>CˆMÕ.¨zÑ:Ô:Ñ;Ð;Øˆ Ø)ð Hð HˆIØˆJØ& xÔ0ð Fð F Ø×!Ò! $Ô"9¸)Ô"DÑEÔEÐEÐEØ>GˆMÕ.¨zÑ:Ô:Ñ;Ð;Ø$1×$7Ò$7Ñ$9Ô$9ð :ð :Ñ ˆIyð Ð-Ð-ØØ% iÔ0ˆIÝ9‰~Œ~¥ Y¡¤Ò/Ð/Ý Ø{½¸Y¹¼Ð{Ð{ÐT]Ð{Ð{ÕjmÐnwÑjxÔjxÐ{Ð{Ð{ñôððð :ð :Ø˜IÐ%Ð%Ý$Øk¨QÐkÐkÀ ÐkÐkÐkñôðð˜’==Ý#+¨I°a¬LÑ#9Ô#9I˜a‘Løð :ð Œ×'Ò'¨Ñ7Ô7Ð7Ð7Ð7r!r?cóÒ—t|t¦«s Jd¦«‚|d}t|tj¦«r|g|d<nt |¦«|d<d„|j ¦«D¦«}|dD]5}||vrtd¦«‚|j ||¦«Œ6|j |¦«|j j|_dS)zŸ Add a param group to the :class:`_NamedOptimizer` s `param_groups`. Warning: This API is still in development and subject to change. r:r"có—i|]\}}||“Œ Srrrs rr z3_NamedOptimizer.add_param_group..+s€ÐSÐSÐS¡z s¨E˜˜sÐSÐSÐSr!z%some parameters are not in the moduleN) r;r'r#r<r*rr/r0r,r1r)Úadd_param_groupr)r2r?r"r6rs rrxz_NamedOptimizer.add_param_groupsú€õ˜+¥tÑ,Ô,ÐJÐJÐ.JÑJÔJÐJà˜XÔ&ˆÝfeœlÑ+Ô+ð 1Ø%+ HˆK˜Ñ!Ð!å$(¨¡L¤LˆK˜Ñ!àSÐS°TÔ5J×5PÒ5PÑ5RÔ5RÐSÑSÔSˆØ Ô*ð @ð @ˆEØ˜LÐ(Ð(Ý Ð!HÑIÔIÐIØÔ#×*Ò*¨<¸Ô+>Ñ?Ô?Ð?Ð?àŒ×'Ò'¨Ñ4Ô4Ð4à œOÔ8ˆÔÐÐr!cóè—|j ¦«D]A}|jr8tj|¦«}tj |¦«|_ŒB| d¬¦«dS)z× Run a dummy optimizer step, which allows to initialize optimizer state because we do lazy init for most optimizers. This allows doing in-place loading of optimizer state from a checkpoint. NrV) rr(Ú requires_gradr#Ú zeros_likeÚautogradÚVariableÚgradrR)r2rÚts rÚ init_statez_NamedOptimizer.init_state5so€ðÔ*×1Ò1Ñ3Ô3ð 8ð 8ˆEØÔ"ð 8ÝÔ$ UÑ+Ô+Ý"œ^×4Ò4°QÑ7Ô7” øà Š ˜$ˆ ÑÔÐÐÐr!có~—t|jt¦«r"tj|j|j|d¬¦«S|S)NT)Úis_named_optimizer)r;rÚFSDPÚoptim_state_dict_to_loadr)©r2rEs rr[z$_NamedOptimizer._pre_load_state_dictBsG€õd”k¥4Ñ(Ô(ð ÝÔ0Ø”˜Tœ_¨jÈTðñôð ðÐr!cóz—t|jt¦«r tj|j|j|¦«|SrP)r;rrƒÚoptim_state_dictr)r…s rrGz _NamedOptimizer._post_state_dictKs8€õd”k¥4Ñ(Ô(ð LÝÔ! $¤+¨t¬À ÑKÔKÐKØÐr!)NN).)rNNrNrP)rN) Ú__name__Ú __module__Ú__qualname__Ú__doc__r Ústrrr#r<rr Ú Optimizerr rrÚnnÚModuler8r&rrErrRrÚfloatÚpropertyrDrdrxr€r[rGrr!rrrs[€€€€€ð)ð)ð^AEØ&*ð(9ð(9à! # u¨U¬\¸=Ð-HÔ'IÐ"IÔJð(9ðœð(9ð˜z¨'°#°s°(Ô*;Ô<Ô=ð (9ð ˜œÔ#ð(9ð ð(9ð(9ð(9ð(9ðT/ð/ð/ð"W˜D c œNðWðWðWðWð8ððððñ„Xððð˜H R¨ YÔ/ð°Eðððñ„Xðð5ð5˜H X¨b°%¨iÔ%8Ô9ð5ÀXÈeÄ_ð5ð5ð5ð5ðð%w˜uœ|¨SÐ0Ô1ð%ð%ð%ñ„Xð%ðf8¨'°#°s°(Ô*;ðf8Àðf8ðf8ðf8ðf8ðP9¨7°3¸°8Ô+<ð9Àð9ð9ð9ð9ð0 ð ð ð ð°$°s¸C°x´.ððððð¨d°3¸°8¬nððððððr!rrJrcóF—d t|¦«¦«S)zGConcatenate all param keys as a unique indentifier for one param group.rY)ÚjoinrF)rJs rrcrcSs€à8Š8•F˜:Ñ&Ô&Ñ'Ô'Ð'r!) Úloggingr-ÚcopyrÚtypingrrrrrr r rrr#Útorch.nnrŽr Ú'torch.distributed._shard.sharded_tensorrÚtorch.distributed.fsdprrƒrrŒÚ__annotations__Ú getLoggerrˆÚloggerrrrcrr!rúrsyðà€€€€Ø€€€ØÐÐÐÐÐð ð ð ð ð ð ð ð ð ð ð ð ð ð ð ð ð ð ð ð ð ð ð €€€ØÐÐÐÐÐØÐÐÐÐÐØAÐAÐAÐAÐAÐAØCÐCÐCÐCÐCÐCð€ˆˆcŒÐÐÑà ˆÔ ˜8Ñ $Ô $€ðsðsðsðsðse”oñsôsðsðl ( T¨#¤Yð(°3ð(ð(ð(ð(ð(ð(r!