No GPUs found in distributed mode

I have use accelerate config to set multi-GPU distributed environment, as below:

- `Accelerate` version: 0.16.0
- Platform: Linux-5.15.0-58-generic-x86_64-with-glibc2.31
- Python version: 3.9.13
- Numpy version: 1.21.5
- PyTorch version (GPU?): 1.13.0+cu116 (True)
- `Accelerate` default config:
        - compute_environment: LOCAL_MACHINE
        - distributed_type: MULTI_GPU
        - mixed_precision: fp16
        - use_cpu: False
        - dynamo_backend: NO
        - num_processes: 2
        - machine_rank: 0
        - num_machines: 1
        - gpu_ids: [0,1]
        - rdzv_backend: static
        - same_network: True
        - main_training_function: main
        - deepspeed_config: {}
        - fsdp_config: {}
        - megatron_lm_config: {}
        - downcast_bf16: no

But when I use accelerate test to check it out, I found accelerate cannot find GPUs. I am sure that there are many GPUs in my machine.

Running:  accelerate-launch --config_file=None /home/chenzhixuan/anaconda3/lib/python3.9/site-packages/accelerate/test_utils/scripts/test_script.py
stderr: โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ
stderr: โ”‚ /home/chenzhixuan/anaconda3/lib/python3.9/site-packages/accelerate/test_utils/scripts/test_scrip โ”‚
stderr: โ”‚ t.py:336 in <module>                                                                             โ”‚
stderr: โ”‚                                                                                                  โ”‚
stderr: โ”‚   333                                                                                            โ”‚
stderr: โ”‚   334                                                                                            โ”‚
stderr: โ”‚   335 if __name__ == "__main__":                                                                 โ”‚
stderr: โ”‚ โฑ 336 โ”‚   main()                                                                                 โ”‚
stderr: โ”‚   337                                                                                            โ”‚
stderr: โ”‚                                                                                                  โ”‚
stderr: โ”‚ /home/chenzhixuan/anaconda3/lib/python3.9/site-packages/accelerate/test_utils/scripts/test_scrip โ”‚
stderr: โ”‚ t.py:305 in main                                                                                 โ”‚
stderr: โ”‚                                                                                                  โ”‚
stderr: โ”‚   302                                                                                            โ”‚
stderr: โ”‚   303                                                                                            โ”‚
stderr: โ”‚   304 def main():                                                                                โ”‚
stderr: โ”‚ โฑ 305 โ”‚   accelerator = Accelerator()                                                            โ”‚
stderr: โ”‚   306 โ”‚   state = accelerator.state                                                              โ”‚
stderr: โ”‚   307 โ”‚   if state.local_process_index == 0:                                                     โ”‚
stderr: โ”‚   308 โ”‚   โ”‚   print("**Initialization**")                                                        โ”‚
stderr: โ”‚                                                                                                  โ”‚
stderr: โ”‚ /home/chenzhixuan/anaconda3/lib/python3.9/site-packages/accelerate/accelerator.py:323 in         โ”‚
stderr: โ”‚ __init__                                                                                         โ”‚
stderr: โ”‚                                                                                                  โ”‚
stderr: โ”‚    320 โ”‚   โ”‚   โ”‚   โ”‚   โ”‚   โ”‚   self.init_handler = handler                                       โ”‚
stderr: โ”‚    321 โ”‚   โ”‚                                                                                     โ”‚
stderr: โ”‚    322 โ”‚   โ”‚   kwargs = self.init_handler.to_kwargs() if self.init_handler is not None else {}   โ”‚
stderr: โ”‚ โฑ  323 โ”‚   โ”‚   self.state = AcceleratorState(                                                    โ”‚
stderr: โ”‚    324 โ”‚   โ”‚   โ”‚   mixed_precision=mixed_precision,                                              โ”‚
stderr: โ”‚    325 โ”‚   โ”‚   โ”‚   cpu=cpu,                                                                      โ”‚
stderr: โ”‚    326 โ”‚   โ”‚   โ”‚   dynamo_backend=dynamo_backend,                                                โ”‚
stderr: โ”‚                                                                                                  โ”‚
stderr: โ”‚ /home/chenzhixuan/anaconda3/lib/python3.9/site-packages/accelerate/state.py:162 in __init__      โ”‚
stderr: โ”‚                                                                                                  โ”‚
stderr: โ”‚   159 โ”‚   โ”‚   โ”‚   elif int(os.environ.get("LOCAL_RANK", -1)) != -1 and not cpu:                  โ”‚
stderr: โ”‚   160 โ”‚   โ”‚   โ”‚   โ”‚   self.distributed_type = DistributedType.MULTI_GPU                          โ”‚
stderr: โ”‚   161 โ”‚   โ”‚   โ”‚   โ”‚   if not torch.distributed.is_initialized():                                 โ”‚
stderr: โ”‚ โฑ 162 โ”‚   โ”‚   โ”‚   โ”‚   โ”‚   torch.distributed.init_process_group(backend="nccl", **kwargs)         โ”‚
stderr: โ”‚   163 โ”‚   โ”‚   โ”‚   โ”‚   โ”‚   self.backend = "nccl"                                                  โ”‚
stderr: โ”‚   164 โ”‚   โ”‚   โ”‚   โ”‚   self.num_processes = torch.distributed.get_world_size()                    โ”‚
stderr: โ”‚   165 โ”‚   โ”‚   โ”‚   โ”‚   self.process_index = torch.distributed.get_rank()                          โ”‚
stderr: โ”‚                                                                                                  โ”‚
stderr: โ”‚ /home/chenzhixuan/anaconda3/lib/python3.9/site-packages/torch/distributed/distributed_c10d.py:76 โ”‚
stderr: โ”‚ 1 in init_process_group                                                                          โ”‚
stderr: โ”‚                                                                                                  โ”‚
stderr: โ”‚    758 โ”‚   โ”‚   โ”‚   # different systems (e.g. RPC) in case the store is multi-tenant.             โ”‚
stderr: โ”‚    759 โ”‚   โ”‚   โ”‚   store = PrefixStore("default_pg", store)                                      โ”‚
stderr: โ”‚    760 โ”‚   โ”‚                                                                                     โ”‚
stderr: โ”‚ โฑ  761 โ”‚   โ”‚   default_pg = _new_process_group_helper(                                           โ”‚
stderr: โ”‚    762 โ”‚   โ”‚   โ”‚   world_size,                                                                   โ”‚
stderr: โ”‚    763 โ”‚   โ”‚   โ”‚   rank,                                                                         โ”‚
stderr: โ”‚    764 โ”‚   โ”‚   โ”‚   [],                                                                           โ”‚
stderr: โ”‚                                                                                                  โ”‚
stderr: โ”‚ /home/chenzhixuan/anaconda3/lib/python3.9/site-packages/torch/distributed/distributed_c10d.py:89 โ”‚
stderr: โ”‚ 7 in _new_process_group_helper                                                                   โ”‚
stderr: โ”‚                                                                                                  โ”‚
stderr: โ”‚    894 โ”‚   โ”‚   โ”‚   โ”‚   pg_options.is_high_priority_stream = False                                โ”‚
stderr: โ”‚    895 โ”‚   โ”‚   โ”‚   โ”‚   pg_options._timeout = timeout                                             โ”‚
stderr: โ”‚    896 โ”‚   โ”‚   โ”‚                                                                                 โ”‚
stderr: โ”‚ โฑ  897 โ”‚   โ”‚   โ”‚   pg = ProcessGroupNCCL(prefix_store, group_rank, group_size, pg_options)       โ”‚
stderr: โ”‚    898 โ”‚   โ”‚   โ”‚   # In debug mode and if GLOO is available, wrap in a wrapper PG that           โ”‚
stderr: โ”‚    899 โ”‚   โ”‚   โ”‚   # enables enhanced collective checking for debugability.                      โ”‚
stderr: โ”‚    900 โ”‚   โ”‚   โ”‚   if get_debug_level() == DebugLevel.DETAIL:                                    โ”‚
stderr: โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ
stderr: RuntimeError: ProcessGroupNCCL is only supported with GPUs, no GPUs found!
stderr: โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ
stderr: โ”‚ /home/chenzhixuan/anaconda3/lib/python3.9/site-packages/accelerate/test_utils/scripts/test_scrip โ”‚
stderr: โ”‚ t.py:336 in <module>                                                                             โ”‚
stderr: โ”‚                                                                                                  โ”‚
stderr: โ”‚   333                                                                                            โ”‚
stderr: โ”‚   334                                                                                            โ”‚
stderr: โ”‚   335 if __name__ == "__main__":                                                                 โ”‚
stderr: โ”‚ โฑ 336 โ”‚   main()                                                                                 โ”‚
stderr: โ”‚   337                                                                                            โ”‚
stderr: โ”‚                                                                                                  โ”‚
stderr: โ”‚ /home/chenzhixuan/anaconda3/lib/python3.9/site-packages/accelerate/test_utils/scripts/test_scrip โ”‚
stderr: โ”‚ t.py:305 in main                                                                                 โ”‚
stderr: โ”‚                                                                                                  โ”‚
stderr: โ”‚   302                                                                                            โ”‚
stderr: โ”‚   303                                                                                            โ”‚
stderr: โ”‚   304 def main():                                                                                โ”‚
stderr: โ”‚ โฑ 305 โ”‚   accelerator = Accelerator()                                                            โ”‚
stderr: โ”‚   306 โ”‚   state = accelerator.state                                                              โ”‚
stderr: โ”‚   307 โ”‚   if state.local_process_index == 0:                                                     โ”‚
stderr: โ”‚   308 โ”‚   โ”‚   print("**Initialization**")                                                        โ”‚
stderr: โ”‚                                                                                                  โ”‚
stderr: โ”‚ /home/chenzhixuan/anaconda3/lib/python3.9/site-packages/accelerate/accelerator.py:323 in         โ”‚
stderr: โ”‚ __init__                                                                                         โ”‚
stderr: โ”‚                                                                                                  โ”‚
stderr: โ”‚    320 โ”‚   โ”‚   โ”‚   โ”‚   โ”‚   โ”‚   self.init_handler = handler                                       โ”‚
stderr: โ”‚    321 โ”‚   โ”‚                                                                                     โ”‚
stderr: โ”‚    322 โ”‚   โ”‚   kwargs = self.init_handler.to_kwargs() if self.init_handler is not None else {}   โ”‚
stderr: โ”‚ โฑ  323 โ”‚   โ”‚   self.state = AcceleratorState(                                                    โ”‚
stderr: โ”‚    324 โ”‚   โ”‚   โ”‚   mixed_precision=mixed_precision,                                              โ”‚
stderr: โ”‚    325 โ”‚   โ”‚   โ”‚   cpu=cpu,                                                                      โ”‚
stderr: โ”‚    326 โ”‚   โ”‚   โ”‚   dynamo_backend=dynamo_backend,                                                โ”‚
stderr: โ”‚                                                                                                  โ”‚
stderr: โ”‚ /home/chenzhixuan/anaconda3/lib/python3.9/site-packages/accelerate/state.py:162 in __init__      โ”‚
stderr: โ”‚                                                                                                  โ”‚
stderr: โ”‚   159 โ”‚   โ”‚   โ”‚   elif int(os.environ.get("LOCAL_RANK", -1)) != -1 and not cpu:                  โ”‚
stderr: โ”‚   160 โ”‚   โ”‚   โ”‚   โ”‚   self.distributed_type = DistributedType.MULTI_GPU                          โ”‚
stderr: โ”‚   161 โ”‚   โ”‚   โ”‚   โ”‚   if not torch.distributed.is_initialized():                                 โ”‚
stderr: โ”‚ โฑ 162 โ”‚   โ”‚   โ”‚   โ”‚   โ”‚   torch.distributed.init_process_group(backend="nccl", **kwargs)         โ”‚
stderr: โ”‚   163 โ”‚   โ”‚   โ”‚   โ”‚   โ”‚   self.backend = "nccl"                                                  โ”‚
stderr: โ”‚   164 โ”‚   โ”‚   โ”‚   โ”‚   self.num_processes = torch.distributed.get_world_size()                    โ”‚
stderr: โ”‚   165 โ”‚   โ”‚   โ”‚   โ”‚   self.process_index = torch.distributed.get_rank()                          โ”‚
stderr: โ”‚                                                                                                  โ”‚
stderr: โ”‚ /home/chenzhixuan/anaconda3/lib/python3.9/site-packages/torch/distributed/distributed_c10d.py:76 โ”‚
stderr: โ”‚ 1 in init_process_group                                                                          โ”‚
stderr: โ”‚                                                                                                  โ”‚
stderr: โ”‚    758 โ”‚   โ”‚   โ”‚   # different systems (e.g. RPC) in case the store is multi-tenant.             โ”‚
stderr: โ”‚    759 โ”‚   โ”‚   โ”‚   store = PrefixStore("default_pg", store)                                      โ”‚
stderr: โ”‚    760 โ”‚   โ”‚                                                                                     โ”‚
stderr: โ”‚ โฑ  761 โ”‚   โ”‚   default_pg = _new_process_group_helper(                                           โ”‚
stderr: โ”‚    762 โ”‚   โ”‚   โ”‚   world_size,                                                                   โ”‚
stderr: โ”‚    763 โ”‚   โ”‚   โ”‚   rank,                                                                         โ”‚
stderr: โ”‚    764 โ”‚   โ”‚   โ”‚   [],                                                                           โ”‚
stderr: โ”‚                                                                                                  โ”‚
stderr: โ”‚ /home/chenzhixuan/anaconda3/lib/python3.9/site-packages/torch/distributed/distributed_c10d.py:89 โ”‚
stderr: โ”‚ 7 in _new_process_group_helper                                                                   โ”‚
stderr: โ”‚                                                                                                  โ”‚
stderr: โ”‚    894 โ”‚   โ”‚   โ”‚   โ”‚   pg_options.is_high_priority_stream = False                                โ”‚
stderr: โ”‚    895 โ”‚   โ”‚   โ”‚   โ”‚   pg_options._timeout = timeout                                             โ”‚
stderr: โ”‚    896 โ”‚   โ”‚   โ”‚                                                                                 โ”‚
stderr: โ”‚ โฑ  897 โ”‚   โ”‚   โ”‚   pg = ProcessGroupNCCL(prefix_store, group_rank, group_size, pg_options)       โ”‚
stderr: โ”‚    898 โ”‚   โ”‚   โ”‚   # In debug mode and if GLOO is available, wrap in a wrapper PG that           โ”‚
stderr: โ”‚    899 โ”‚   โ”‚   โ”‚   # enables enhanced collective checking for debugability.                      โ”‚
stderr: โ”‚    900 โ”‚   โ”‚   โ”‚   if get_debug_level() == DebugLevel.DETAIL:                                    โ”‚
stderr: โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ
stderr: RuntimeError: ProcessGroupNCCL is only supported with GPUs, no GPUs found!