This is the Linux app named SVoice (Speech Voice Separation) whose latest release can be downloaded as svoicesourcecode.tar.gz. It can be run online in the free hosting provider OnWorks for workstations.
Laden Sie diese App namens SVoice (Speech Voice Separation) mit OnWorks kostenlos herunter und führen Sie sie online aus.
Befolgen Sie diese Anweisungen, um diese App auszuführen:
- 1. Diese Anwendung auf Ihren PC heruntergeladen.
- 2. Geben Sie in unserem Dateimanager https://www.onworks.net/myfiles.php?username=XXXXX den gewünschten Benutzernamen ein.
- 3. Laden Sie diese Anwendung in einem solchen Dateimanager hoch.
- 4. Starten Sie den OnWorks Linux-Online- oder Windows-Online-Emulator oder den MACOS-Online-Emulator von dieser Website.
- 5. Rufen Sie vom gerade gestarteten OnWorks Linux-Betriebssystem aus unseren Dateimanager https://www.onworks.net/myfiles.php?username=XXXXX mit dem gewünschten Benutzernamen auf.
- 6. Laden Sie die Anwendung herunter, installieren Sie sie und führen Sie sie aus.
SCREENSHOTS
Ad
SVoice (Sprach-Stimm-Trennung)
BESCHREIBUNG
SVoice ist eine PyTorch-basierte Implementierung der Studie von Facebook Research zur Sprecher-Stimmtrennung, wie sie im Artikel „Voice Separation with an Unknown Number of Multiple Speakers“ beschrieben wird. Dieses Projekt präsentiert ein Deep-Learning-Framework, das gemischte Audiosequenzen, in denen mehrere Personen gleichzeitig sprechen, trennen kann, ohne dass die Anzahl der Sprecher bekannt ist. Das Modell verwendet Gated Neural Networks mit rekurrenten Verarbeitungsblöcken, die Stimmen über mehrere Rechenschritte hinweg entwirren und gleichzeitig die Sprecherkonsistenz über alle Ausgabekanäle hinweg aufrechterhalten. Separate Modelle werden für unterschiedliche Sprecherzahlen trainiert, und das Modell mit der größten Kapazität ermittelt dynamisch die tatsächliche Anzahl der Sprecher in einer Mischung. Das Repository enthält alle notwendigen Skripte für Training, Datensatzvorbereitung, verteiltes Training, Auswertung und Audiotrennung.
Eigenschaften
- End-to-End-PyTorch-Implementierung zur Sprachtrennung bei unbekannter Sprecheranzahl
- Verwendet Gated-RNN-Blöcke und Faltungsencoder für eine robuste Mehrsprechermodellierung
- Konfigurierbar über Hydra mit automatischem Checkpointing und Experimentmanagement
- Unterstützt verteiltes Multi-GPU-Training und einfache Datensatzkonfiguration
- Enthält Tools zur Datensatzgenerierung für laute und hallende synthetische Mischungen
- Integrierte Auswertungs- und Inferenztools zum Trennen und Bewerten von Sprachproben
Programmiersprache
Python, Unix-Shell
Kategorien
Diese Anwendung kann auch von https://sourceforge.net/projects/svoice.mirror/ heruntergeladen werden. Sie wurde in OnWorks gehostet, um sie auf einfachste Weise online von einem unserer kostenlosen Betriebssysteme aus ausführen zu können.