Stimme isolieren

Moin,

ich verwende WinXP und habe diverse Programme zur Sounbearbeitung (Audacity, Magix Music Cleaner, Audio-Restaurator Pro).
Nun versuche ich, eine Stimme, die einen Text in ein Musikstück hineinspricht zu isolieren, so dass nur noch die Stimme zu hören ist. Wie gehe ich hier vor, bzw. wie könnte die entsprechende Funktion in einem Soundbearbeitungsprogramm heissen?

Danke und Gruß,

Florian

Hallo Florian!

Was macht Dich so sicher, dass das geht?

LG

Florian

Hallo Florian!

Was macht Dich so sicher, dass das geht?

…die Hoffnung stirbt zuletzt…

Gruß,

Florian

R.I.P.
Aber Florian!

Auf Deiner HP steht doch, dass Du Dich mit dem Themenkomplex bereits befasst hast! Dann solltest Du das doch wissen/ Dir denken können!

Es gibt Vocal Remover (zB von analogX.com und in WaveLab war auch mal einer) aber funktionieren kann das prinzipbedingt NICHT, dass ist viel zu komplex!

LG

Florian

Hallo,

Es gibt Vocal Remover (zB von analogX.com und in WaveLab war
auch mal einer) aber funktionieren kann das prinzipbedingt
NICHT, dass ist viel zu komplex!

Komplex ist das Thema sicher, aber daß es prinzipiell nicht
geht, kann man nicht so absolut sagen.
Unter der Voraussetzung, daß die Pegelverhältnisse einigermaßen
passen und die anderen Geräusche/Musik unter der Stimme
gewisse Randbedingungen erfüllen, kann man sowas wohl tatsächlich
recht gut wegrechnen.
Gruß Uwi

Hallo,

und wie groß ist die Chance daß Du mal solche „idealen“ Verhältnisse bei einem fertigem Musiktitel hast? Ich glaube nicht daß der Titel den Florian Dehne isolieren will,rein zufällig diese Vorraussetzungen erfüllt.

Da ist ein 6er im Lotto wahrscheinlicher.

Gruß,Jak

[Bei dieser Antwort wurde das Vollzitat nachträglich automatisiert entfernt]

1 Like

Lieber Uwi

Komplex ist das Thema sicher,

Nein! Das Audiomaterial ist komplex!

aber daß es prinzipiell nicht
geht, kann man nicht so absolut sagen.
Unter der Voraussetzung, […]
tatsächlich
recht gut wegrechnen.

Das ist selbstverständlich Unfug! Mit Pegelverhältnissen hat das nichts zu tun, das geht über Phasendrehungen (usw.). Ich habe Seinerzeit damit mal ein paar Versuche gemacht. Es gibt ein paar Effekte, die das „irgenwie“ hinbekommen, aber auch nur Irgendwie! Da ein Programmcode nie wissen kann WAS Musik/Geräusch ist und WAS Stimme/Gesang sind die Ergebnisse immer so; dass man nicht von Erfolg sprechen kann. Streng genommen gibt es nur folgende Szenarien, die es erlauben die Stimme:

1.) Stimme ist exakt Mittig gemischt, sonst ist NICHTS Mittig gemischt. Weg: L - R (mittels Phasendrehung) Resultat: Stimme verschwindet (genaugenommen ALLES was in der Mitte liegt)

2.) Stimme ist exakt Mittig gemischt und die Musik/Geräusche/Rest ist MONO, aber Links zu 180° in der Phase gedreht. Weg: L + R (monosumme bilden) Resultat: Stimme bleibt übrig (Sollte aber sonst noch was auf beiden Kanälen gleich phasig sein, geht der Weg ins Leere)

Alle anderen Szenarien können nur als Zwischenlösung betrachtet werden.

Klar: „Irgenwie“ bekommt man die Stimme weg, aber wie wird das resultierende Playback klingen? Ich habe keine zufriedenstellenden Resultate bekommen; außerdem wird vorausgesetzt, dass die Stimme Mittig gemischt ist, sonst geht das garnicht! Sind mehrere Stimme Stereo mäßig angeordnet isses ganz aus. Frequenzspielereien sind gänzlich zwecklos, da damit auch die Stimme beschnitten wird!

Übrigens: Wenn ich das richtig verstanden hatte wollte der Frager die Stimme einzeln haben, getrennt vom Rest; dass ist noch schwerer --> noch „umöglicher“!

Bitte lassen wirs dabei

Florian

Hi,

also ohne Referenzdatei sehr schwierig denke ich.

Gruß bonsai

Hallo,

Komplex ist das Thema sicher,

Nein! Das Audiomaterial ist komplex!

aber daß es prinzipiell nicht
geht, kann man nicht so absolut sagen.
Unter der Voraussetzung, […]
tatsächlich recht gut wegrechnen.

Das ist selbstverständlich Unfug! Mit Pegelverhältnissen hat
das nichts zu tun, das geht über Phasendrehungen (usw.). Ich
habe Seinerzeit damit mal ein paar Versuche gemacht. Es gibt
ein paar Effekte, die das „irgenwie“ hinbekommen, aber auch
nur Irgendwie! Da ein Programmcode nie wissen kann WAS
Musik/Geräusch ist und WAS Stimme/Gesang sind die Ergebnisse
immer so;

Wir reden da aneinander vorbei.

Mit analogen Mitteln, so wie du es vorschlägst, wird es natürlich
nicht funktionieren.

Ich meine einen ganz anderen Ansatz, der aus Richtung der
Signaltheorie kommt und natürlich nur digital mit viel Mathematik
und erheblichen Hardwareaufwand funktioniert und deshalb
derzeit natürlich nicht als Freewarelösung über’s Internet
verscherbelt wird.

Jede Signalquelle hat mehr oder weniger ganz spezielle Parameter,
die man gezielt nutzen kann, um die Quellen zu separieren.
Natürlich kann es nicht Ziel sein, damit HiFi-Qualität zu
erzeugen.

Als prinzipielle Begründung nenne ich mal die Möglicheiten
des menschlichen Ohres, bzw. noch genauer des Gehirns, welche
sehr wohl Stimmen aus einen Wirrwahr von Klängen und Geräuschen
herauszufiltern kann, obwohl das Nutzsignal von den
Störgeräuschen um ein Vielfaches überdeckt wird.

Techn. ist sowas noch lange nicht zufriedenstellen gelöst,
andernfalls hätte man auch nicht so große Probleme mit
Stimmerkennung und Spracheingabe. Auf diesem Gebiet wird aber
intensiv geforscht und entwickelt, so daß über kurz oder lang
auch techn. Systeme ähnlichen Eigenschaften haben werden,
die biol. Systeme schon lange haben.

In einfachen Fällen, z.B. Eine Flöte und eine Stimme,
kann man das sicher schon recht gut auseinander nehmen,
weil zumindest von der Flöte ein sehr gutes mathematisches Modell
generiert werden kann.

Gruß Uwi

Hallo!

Wir reden da aneinander vorbei.

Auch hier liegst Du wieder falsch, sofern Du darin den Grund meinter Ablehnung siehst!

Mit analogen Mitteln, so wie du es vorschlägst, wird es
natürlich nicht funktionieren.

Davon sprach keiner!

Jede Signalquelle hat mehr oder weniger ganz spezielle
Parameter,

Das ist mir bis zum Abwinken vertraut!

Als prinzipielle Begründung nenne ich mal die Möglicheiten
des menschlichen Ohres, bzw. noch genauer des Gehirns, welche
sehr wohl Stimmen aus einen Wirrwahr von Klängen und
Geräuschen
herauszufiltern kann, obwohl das Nutzsignal von den
Störgeräuschen um ein Vielfaches überdeckt wird.

Hier bist Du Audio-Technisch einfach nicht im Bilde!

Spracherkennung und Sprach/Stimmseparation ist eine völlig andere Kiste, hier parallelen zu ziehen ist schlicht falsch!

Es gibt durchaus Filter-Systeme aus dem Audio-Forensischen Sektor, die ansatzweise solche Dinge können. Allerdings dienen die nur zur Hebung der Sprachqualität; nicht mehr! Der Output ist oft nichtmal Telefonqualität - ich habe Fachvorträge zum Thema besucht!

Wir halten also fest: Das angeforderte Feature ist (so) nicht verfügbar; Punkt!

Grüßle

Florian

Moin moin,

also ohne Referenzdatei sehr schwierig denke ich.

Wobei jetzt auch noch zu klären wäre, was DU unter Referenzdatei verstehst!

LG

Florian

Moin moin,

Wobei jetzt auch noch zu klären wäre, was DU unter
Referenzdatei verstehst!

LG

Florian

Hi,

die Musik oder die Vocals, jeweils trocken.

Gruß bonsai

Hi

die Musik oder die Vocals, jeweils trocken.

OK, wenn man das nur hätte :smile: Das sind ja schon Einzelspuren und nicht nur „Referenzen“ :wink:

LG

Florian

OK, wenn man das nur hätte :smile: Das sind ja schon Einzelspuren
und nicht nur „Referenzen“ :wink:

Hallo,

na gut, vielleicht sehe ich das zu einfach, aber warum nicht im Titel selbst nach Referenzen suchen?
Mal angenommen, der Titel besteht aus Phrasen, die sich thematisch gleichen. In einer der Phrasen ist die zu isolierende Stimme, so kann man doch die Phrase ohne Stimme von der mit Stimme phasenverkehrt abziehen? Übrig bleibt die Stimme, Prinzip A-B?
Oder irre ich da?

Gruß bonsai

Hi

Oder irre ich da?

Ja und Nein!

In der Theorie: Nein, in der Praxis: Ja

Warum?

Die angesprochenen Sequencen müssten 100%ig exakt gleich sein, wo gibts das? Wenn irgendwo im Produktionsvorgang mal ein analoger Träger beteiligt war (Mehrspurband, Masterband…) ist es schon aus! Wenn die instrumentalen Passagen ein wenig anders gemischt sind (wovon Du bei amtlichen Produktionen oft ausgehen kannst), schauts düster aus.
Und: Wer will Musik hören, bei der die einzige Abwechslung im Arrangement die Stimme ist die ab und an vorkommt? Das ist ja deutlich unter Trash-Techno-Niveau! Ich halte das für praktisch nicht durchführbar. Ich lasse mich gerne überzeugen :smile:

LG

Florian

Hallo,

tja, schade, war ja nur eine Überlegung/Ansatz, eine direkte Lösung habe ich nicht parat.

Gruß bonsai