Spaces:

FunAudioLLM
/

Fun-ASR-Nano

Running

App Files Files Community

FFomy commited on 5 days ago

Commit

6a92f7e

verified ·

1 Parent(s): 7572ee0

Update app.py

Browse files

Files changed (1) hide show

app.py +2 -13

app.py CHANGED Viewed

@@ -478,7 +478,6 @@ def transcribe_audio(audio_input, audio_url, proxy_url, proxy_username, proxy_pa
         # Model caching
         model_key = (pipeline_type, model_id)
-        model = None
         if model_key in loaded_models:
             model = loaded_models[model_key]
             logging.info("Loaded model from cache")
@@ -490,7 +489,7 @@ def transcribe_audio(audio_input, audio_url, proxy_url, proxy_username, proxy_pa
                     remote_code=f"./Fun-ASR/model.py",
                     vad_model="fsmn-vad",
                     vad_kwargs={"max_single_segment_time": 30000},
-                    device='cpu', # 初始化在cpu，然后推理的时候移到GPU，保证利用好zeroGPU？
                     disable_update=True,
                     hub='ms',
                 )
@@ -500,7 +499,7 @@ def transcribe_audio(audio_input, audio_url, proxy_url, proxy_username, proxy_pa
                     trust_remote_code=False,
                     vad_model="fsmn-vad",
                     vad_kwargs={"max_single_segment_time": 30000},
-                    device='cpu',
                     disable_update=True,
                     hub='ms',
                 )
@@ -510,14 +509,6 @@ def transcribe_audio(audio_input, audio_url, proxy_url, proxy_username, proxy_pa
                 yield verbose_messages + error_msg, "", None
                 return
             loaded_models[model_key] = model
-        try:
-            model.to(device)
-            logging.info(f"Model moved to device: {device}")
-        except Exception as e:
-            logging.error(f"Error moving model to device: {str(e)}")
-            yield verbose_messages + f"Error moving model to device: {str(e)}", "", None
-            return
         # Perform the transcription
         start_time_perf = time.time()
@@ -545,8 +536,6 @@ def transcribe_audio(audio_input, audio_url, proxy_url, proxy_username, proxy_pa
                 merge_vad=True,
                 merge_length_s=15,
             )
-        model.to('cpu')  # Move model back to CPU after inference to free GPU memory
         transcription = rich_transcription_postprocess(res[0]["text"])
         end_time_perf = time.time()

         # Model caching
         model_key = (pipeline_type, model_id)
         if model_key in loaded_models:
             model = loaded_models[model_key]
             logging.info("Loaded model from cache")
                     remote_code=f"./Fun-ASR/model.py",
                     vad_model="fsmn-vad",
                     vad_kwargs={"max_single_segment_time": 30000},
+                    device=device,
                     disable_update=True,
                     hub='ms',
                 )
                     trust_remote_code=False,
                     vad_model="fsmn-vad",
                     vad_kwargs={"max_single_segment_time": 30000},
+                    device=device,
                     disable_update=True,
                     hub='ms',
                 )
                 yield verbose_messages + error_msg, "", None
                 return
             loaded_models[model_key] = model
         # Perform the transcription
         start_time_perf = time.time()
                 merge_vad=True,
                 merge_length_s=15,
             )
         transcription = rich_transcription_postprocess(res[0]["text"])
         end_time_perf = time.time()