Transcript: Auphonic

25. Februar 2025 · Back to episode

Full episode transcript. Timestamps refer to the audio playback.

Hallo liebe Hörerinnen und Hörer, willkommen im Python-Podcast, Episode 61.

Wirklich 61.

Wir haben eben noch ein bisschen über...

Heute zum Aufhören gehen.

Hallo Jochen.

Hallo Dominik, herzlich willkommen und herzlich willkommen Johannes, auch wieder mit dabei.

Hallo zusammen.

Wir haben ja schon ein paar mal hier gehabt, glaube ich, ihr kennt ihn.

Genau, ja.

Und wir haben auch einen besonderen Gast heute wieder.

Hallo Georg.

Hallo, danke für die Einladung.

Ja, mein Herzliches.

Eine Vorstellung machen wir vielleicht bestimmt noch später, wenn wir zu Wort kommen.

Vielleicht fangen wir mit unserer klassischen Struktur an.

Wir haben ja immer besonders viel Struktur im Podcast, habe ich gehört, Jochen.

Vielleicht als erstes News, für alle, die es noch nicht mitbekommen haben, wir planen

ein HörerInnen-Treffen.

Ja, wir hatten ja letztes Mal da aufgerufen, sich zu melden.

In der Region Rheinland.

Es haben sich tatsächlich einige Leute schon gemeldet.

Genau, wir haben gesagt, ihr solltet uns auf jeden Fall immer noch eine Mail schreiben,

damit wir das dann ordentlich zählen können.

Und genau eine hat uns eine Mail geschrieben.

Ja, die anderen Leute haben das über alle Kanäle gelesen.

Manche haben sich auf LinkedIn gemeldet.

Manche haben sich über Discord gemeldet.

Manche haben sich einfach nur persönlich gemeldet.

Aber wir kriegen das auch immer wieder.

Also, wenn ihr Lust habt, dann auf jeden Fall Bescheid.

Wir würden uns freuen.

Und ich habe gehört, dass die Stuttgart-Fraktion, die Süddeutschland-Fraktion, die ist gerade

stark in Führung.

Macht ihr eine Frage?

Meint das richtig?

Nein, leider nicht.

Das sind, diese Gerüchte kann ich nicht bestätigen.

Also, auf LinkedIn hat einer gesagt, er würde gerne das lieber in Stuttgart haben als in

Düsseldorf.

Aber ansonsten, zum Beispiel auf Spotify wollten vier Düsseldorf und keiner Stuttgart.

Ja, und bei uns im Discord auch.

Ja, also, tut mir leid, du musst leider anreisen.

Aber wir müssen uns halt noch überlegen, wie wir das machen wollen und wo.

Also, ist jetzt aber letzte Chance für die Süddeutschland-Hörer.

Ja, okay, wenn man jetzt wirklich will, dass es in Stuttgart stattfindet, könnte man nochmal.

Ihr habt noch die Chance.

Stimmen Sie jetzt ab.

Die Telefonleitungen sind geschaltet.

Die Spuren sind scharf gestellt am Mischpult, mit dem wir nie Probleme haben.

Das war es auch schon wieder.

Dann bleibt uns gewogen.

Hallo, bei Python Podcast.

Das konnte eh.

Haben wir Picks?

Wir wollten News machen, glaube ich, noch.

Okay, gut.

Ich habe, ehrlich gesagt, fast gar nichts.

Also, es gibt eine neue Rails-Version, die ein bisschen mehr Deployment dazu kann, aber

keine.

Okay, wir waren, glaube ich, erst vor zwei Wochen News gemacht und in den letzten zwei

Wochen ist nicht so wahnsinnig viel passiert.

Ja, und es ist nicht so wirklich viel passiert.

Keine Ahnung warum.

Dann skippen wir heute die News.

Oder hast du mit News mitgebracht?

Oder hat jemand von euch irgendwas Interessantes, was in der Python-Welt passiert ist?

Ich habe nichts.

Dann lassen wir einfach den Georg sich selbst vorstellen und ein bisschen was.

Dann machen wir hier.

Hey, das ist nicht eine tolle Idee.

Obwohl, wir könnten auch einmal noch kurz Werbung machen für uns selber.

Das ist eine gute Idee.

Wir können Werbung machen.

Bitte?

Willst du für uns selber Werbung machen?

Ja, okay.

Ja, ganz kurz vielleicht.

Miet mich, miet mich, miet mich.

Jetzt hier.

Ja, wie war das?

Ja, man kann uns auch mieten.

Und ich habe gehört, das muss man wiederholen.

Sonst merken sich die Leute das nicht.

Deswegen.

Wir haben das ja schon einmal gemacht.

Aber einmal ist zu wenig.

Und deswegen sagen wir das einfach nochmal.

Also, wenn ihr interessante Projekte habt oder so.

Die meisten von uns sind irgendwie.

Und auch im Prinzip.

Für schöne Projekte buchbar.

Und ich wiederhole das jetzt mal in meiner Stimme.

Auch nochmal.

Auch ich bin mietbar.

Und immer für interessante Projekte zu haben.

Ja, wunderbar.

Und Georg, wie ist das bei dir?

Bist du auch mietbar oder bist du irgendwo angestellt?

Wir sind alle mietbar irgendwie, oder?

Ja, gut.

Also, ihr wisst ja schon, dass ihr alle für die Werbung im Podcast eine Rechnung bekommt.

Von mir.

Das zählt.

Also, Dominik, das war jetzt deine Überleitung, damit du den Georg vorstellen kannst.

Ja, gut dann.

Entschuldigung, Georg.

Bitte.

Ja, ich bin der Georg.

Hallo.

Und ja, wenn man mich mieten will, ich bin aus Österreich an der slowenischen Grenze ganz im Süden.

Da in der Nähe von Graz.

Und warum bin ich da?

Also, wir haben so ein Projekt.

Afonik nennen sie das.

Da geht es um Audioverbesserung.

Vielleicht noch einmal.

Wenn ich da ganz kurz einhaken darf.

Afonik habt ihr auf jeden Fall schon mal gehört.

Also, zumindest, wenn ihr unseren Podcast schon mal gehört habt, habt ihr auf jeden Fall Afonik gehört.

Also, den Effekt zumindest.

Weil wir von Anfang an alle unsere Episoden durch Afonik jagen.

Aha, so gehört.

Nicht schlecht.

Zuerst mal zu mir.

Also, ich habe bei uns da in Graz Toningenieur studiert.

Das ist eine interessante Studie.

Da machen wir so Audiosachen und Informatik und Elektrotechnik Sachen.

In Kombination quasi halt.

Also, du hättest das Audioproblem hier, was wir am Anfang der Episode hatten, heute sehr viel schneller in den Griff bekommen.

Deswegen habe ich gesagt, warum verwendet ihr einen Mischpuls?

Dann hat man keine Probleme.

Dann hat man keines verwendet.

Na, wie auch immer.

Und, ja, dann mehr so in die Richtung Informatik.

Also, alles ein bisschen so kombiniert.

Also, Audio und Informatik und Machine Learning und so weiter.

Und dadurch war auch sehr viel Podcast.

Ich höre auch immer.

Und dadurch bin ich dann irgendwie zu Afonik gekommen, wo es eben um die Verbesserung von Audi gegangen ist.

Und was am Anfang auch noch ganz wichtig war, ist, verschiedene Dateien zu erstellen.

Sei es MP3, AAC.

Da hat es ja alle möglichen Formate damals noch gegeben.

Und die Metadaten korrekt zu haben und so weiter und so fort.

Und so ist das ganze Projekt sozusagen entstanden.

Warum jetzt in beiden Podcasts, wenn Sie einige fragen.

Also, bei uns ist ja alles mit, oder fast alles mit.

Wir haben es mit beiden gemacht.

Weil, allein schon von der ganzen Algorithmen-Seite ist das alles mit beiden.

Hat das immer, war das immer schon auf beiden.

Dann das ganze Websystem haben wir auch mit beiden gemacht.

Da erzählen wir bitte gerne gleich noch ein bisschen ausführlicher drüber.

Das interessiert uns natürlich sehr.

Glaube ich.

Vielleicht.

Ja, das klingt auch gut.

Und, genau.

Ich weiß nicht, wie kommt denn dann.

Also, ich habe immer schon.

Also, ich höre ja.

Ich habe schon ganz lange immer Podcasts gehört.

Und, gefühlt war so auch schon relativ früh mit dabei.

Wie, war ein Podcast speziell irgendwie?

Auch so eine Motivation dafür, irgendwie das zu machen?

Oder ist das halt irgendwie später dazu gekommen, dass das Podcast funktioniert vielleicht?

Ja, also zuerst.

Das erste System war quasi explizit für Podcasts.

Das war der Tim damals, der Tim Pritzlaff, der immer gestöhnt hat, dass alles so kompliziert ist.

Und, da denkt man sich dann natürlich, na okay, da braucht man halt immer so ein Tool.

Und, das hat dann eben so angefangen.

Zuerst mit dem Leveling, dass man eben verschiedene Lautstärken von verschiedenen Sprechern auf gleiche Levels bringt und so weiter.

Und, dann eben so ein Websystem, also so ein Webinterface dazu.

Und, von dort weg ist es dann halt weiter gewachsen.

In andere Bereiche.

Der Tim hat das dann eben auch angekündigt auf seinem Podcast damals.

Und, so sind halt viele andere Podcaster auch dazukommen.

Und, dann hat sich das immer sehr schön langsam weiter verbreitet.

Ja, ich glaube, ich habe es auch daher immer gehört, denke ich wahrscheinlich, ja.

Genau, ja.

Ja, ja.

Ja, das ist ja auch interessant.

Und, ich habe auch den Eindruck, dass ihr da am Anfang relativ viel so Scikit-Learn,

irgendwie verwendet habt zumindest für irgendwie diese ganzen Anpassungen.

Ja, also wir ganz am Anfang so viel mit NumPy, Scikit-Learn, ja, SciPy,

also diese ganzen Signalfarbedocs und Machine Learning Packages, was es eben damals so gegeben hat.

Und, das war eh...

Vielleicht kannst du kurz sagen, wann damals war?

Damals, also gestartet sind wir 2013, wenn ich das richtig im Kopf habe.

Also, das ist von bald das zwölfte Jahr.

Schon ein bisschen was sehr Gutes.

Ja, das waren so die frühen 2010er Jahre quasi, wo die erste Version entstanden ist.

Und, ja, ich schätze mal, eure Hörer kennen eh diese ganzen Packages, gell.

Also, NumPy, so Array Processing und SciPy setzt eben drauf auf.

Hat ein paar zusätzliche Algorithmen.

Vor allem im Signalfarbedungsbereich.

Und, Scikit-Learn, ja, da waren halt früher hauptsächlich alle möglichen Klassifikations- und Clustering-Algorithmen,

auf denen wir dann halt auch aufgebaut haben.

Und, ja, vielleicht mal ein Beispiel, was wir damals so machen konnten.

Oder geht natürlich jetzt auch noch, aber jetzt gibt es halt andere Techniken auch.

Wir haben halt damals versucht, früher hat es ja eigentlich nur so Audio-Plugins gegeben,

was halt Signalfarbedungsalgorithmen waren, die halt irgendwie...

abgelaufen sind und man hat da ein paar Rahmen da dann eingestellt.

Und im Prinzip war das immer noch sehr schwer zu bedienen, wie man es am Mischpult sieht.

Und das Ganze haben wir versucht eigentlich einmal zu automatisieren.

Das heißt, wir haben halt nicht nur diese DSP-Algorithmen gehabt, die man aufs Audio irgendwie anwendet,

sondern eben versucht, mit Klassifikatoren gewisse Sachen im Audio zu erkennen.

Also, wo zum Beispiel verschiedene Sprecher sind oder wo Musikteile sind, wo jetzt nur Rausch-Teile sind.

Oder eben nur Hintergrundgeräusche oder Hintergrundmusik, Vordergrundmusik und lauter solche Sachen.

Und mit diesen Ergebnissen, die wir eben von den Klassifikatoren dann bekommen haben,

dafür haben wir zum Beispiel im Scikit-Learn Sachen verwendet, wie jetzt SVNs oder irgendeine Decision Trees mit Feature Extraction vorher.

Und aufgrund von diesen Analysedaten haben wir dann eben die Parameter der ganzen DSP-Algorithmen automatisch gesetzt.

Also zum Beispiel, wenn man einen D-Noiser hat, haben wir das Audio mal segmentiert in verschiedene Abschnitte, wo verschiedene Noise-Profile sind.

Also zum Beispiel, wir reden jetzt hier in einem Raum, dann geht man raus, dann hat man natürlich ein anderes Noise-Profil.

Da haben wir so ein Clustering gemacht, das das Audio segmentiert.

Und dann in den einzelnen Segmenten haben wir geschaut, wo jetzt Sprecher sind oder Musikteile.

Und in den stillen Teilen, wo eben keiner spricht, also wo nur der Noise-Floor sozusagen unten überbläst,

bleibt, diese haben wir dann so zusammengestitcht und daraus Noise-Profile extrahiert

und diesen Noise dann quasi vom Gesamtsignal abgezogen.

Und wiederum entschieden, ob das überhaupt Sinn macht, dass man das macht, oder ob das nicht Musik ist.

Und da wollen wir das vielleicht nicht abziehen.

Also die Grundidee ist halt, dass man so verschiedene Klassifikatoren hat und mit denen dann die Algorithmen steuert.

Und für das hat das ganz gut funktioniert.

Aber diese Algorithmen sind dann quasi noch so wie klassische.

Und ich weiß jetzt nicht, ich habe jetzt so im Hinterkopf, da gibt es irgendwie so Audio-Workstations und irgendwelche Plugins und so.

Und da kann man dann wahrscheinlich die Parameter einstellen.

Aber sozusagen, die sind dann halt übernommen.

Aber wie man die einstellt, ist automatisiert über halt irgendwie...

Übernommen, also die haben wir natürlich schon selber entwickelt.

Aber vom Prinzip her ähnlich natürlich.

Also man hat halt bestimmte Filter oder Kompressoren, Limiter und was gibt es noch?

Alles eben so FFT-basierte Prozesse, so wie dieses Denoising zum Beispiel.

Und auf diese Weise steuert man dann diese klassischen DSB-Algorithmen quasi.

Aber genau gibt es da nicht irgendwie, wenn man jetzt zum Beispiel...

Das ist ja auch ein spezieller Anwendungsfall eigentlich, dass man halt so ein fertiges Audio hat, was man dann post-processen will.

Kann man da nicht auch noch irgendwie vielleicht irgendwie Informationen, mehr Informationen verwerten,

wenn man halt das ganze Audio...

Normalerweise diese Audio-Work-Sessions sind ja immer mehr so drauf ausgelegt, dass man halt irgendwie einen Mix so live erzeugt.

Und da hat man ja gar nicht so viele Informationen.

Genau. Das ist eben der Unterschied von unserem System gewesen zu den anderen Sachen oder zu den meisten anderen Sachen.

Also dieses Konzept, wie es im Computer meistens funktioniert.

Also in Audio-Plugins ist es halt eigentlich ein Realtime-Konzept.

Also...

Ein Plugin sieht ja nur einen kleinen Buffer an Audio, den er prozessiert.

Und den muss er jetzt auch so schnell wie möglich prozessieren und dann spuckt er ihn wieder aus,

weil das System ja auf Realtime ausgelegt ist.

Und es hat zumindest damals sehr wenig Programme gegeben, die jetzt ja wirklich so Offline-Audio-Berechnung gemacht haben.

Und das war damals eben der Levelator, den es da gegeben hat.

Das war auch so ein Programm, das einfach die Levels quasi gleichgeregelt...

... von Aufnahmen.

Ziemlich Brute-Force.

Also der hat nicht geschaut, ob da irgendwie Musik ist.

Das hat er vollkommen zerstört, aber halt einfach versucht, alles irgendwie gleich laut zu machen.

Und...

Dieses Programm hat mich damals ein bisschen fasziniert, weil ich doch aus der Audio-Bubble-Saison gekommen bin.

Und das haben mir die Podcaster damals gezeigt.

Und ich habe mir gedacht, warum habe ich noch nie von dem gehört?

Das ist ja eigentlich ganz praktisch.

Weil in der ganzen professionellen Audio-Welt dieses Konzept einfach nicht existente ist.

Und das war also wirklich...

Also...

Weil es da halt natürlich die super speziellen Plugins geben, die von den namhaften Herstellern und so weiter.

Aber dieses Konzept haben wir dann auch versucht ähnlich zu machen.

Also weg von dem Plugin-Konzept und eben einfach das gesamte Audio analysiert.

Das heißt, man hat vorher schon mal schauen können, wo was passiert.

Und danach eben die Algorithmen dann darauf anpassen.

Zusätzlich ist es natürlich praktisch.

Das kann man dann als Webservice anbieten.

Weil da kann man dann das ganze Pfeil hinterholen.

Und dann kann man dann auch die Algorithmen dann auch anpassen.

Und das wird dann halt einfach sozusagen im Hintergrund prozessiert.

Und dann bieten sie natürlich auch andere Sachen an, dass man das Pfeil dann gleich mal hindistributiert.

Also auf YouTube und auf Soundcloud war damals man ziemlich populär.

Und alle möglichen anderen Tages auf den eigenen Server.

Oder verschiedene andere Publikations- und Encoding-Steps dann dazu tun.

Darf ich noch so ein paar Fragen stellen?

Vielleicht zu diesem Audio-Ding.

Das würde mich so ein bisschen mehr interessieren.

Also du hast das aus der Tontechnik-Welt quasi gedacht, ja?

Und wenn du sagst, okay, du möchtest die Sachen auspegeln irgendwie,

dann guckst du darauf, dass das so ein bisschen harmonisch ist.

Und du guckst, dass das so ein bisschen Raum gibt.

Und du versuchst dann mit den Filtern, die durch das Machine Learning trainiert sind,

zu erkennen, was jetzt ein Störgeräusch ist und nicht zur Stimme gehört.

Und ja, also so.

Ich versuch's so ein bisschen.

Einfach darzustellen, ja?

Weil ich möchte gerne diesen Prozess aus dieser Audio-Perspektive so ein bisschen eher verstehen.

Naja, ich rede jetzt immer noch aus der Perspektive, wie das quasi früher war.

Aber nehmen wir vielleicht mal dieses Leveling-Beispiel.

Was muss man da machen?

Also wenn man jetzt verschiedene Sprecher hat,

zum Beispiel wie wir da.

Einer ist halt viel lauter, einer ist viel leiser.

Und das wechselt sich dann ab.

Und wo war er jetzt?

Ja genau, dann hat man irgendwelche anderen Sachen noch dabei.

Also Intro-Musik zum Beispiel.

Oder dann ist wieder mal Pause und dann hört man irgendwelche anderen Geräusche.

Dann nennt sich das so Voice-Activity-Detection.

Also man detektiert eben, wo jetzt wirklich die Sprache aktiv ist und wo jetzt Pausen sind.

Dann detektiert man zum Beispiel, wo jetzt Musiksegmente sind.

Und dann wo jetzt irgendwas...

Anderes ist, also irgendeine Störgeräusche, die jetzt weder Sprache noch Musik sind sozusagen.

Und dann, wenn man jetzt die verschiedenen Sprachsegmente hat,

und da sind große Level-Unterschiede,

dann versucht man die so schnell wie möglich nachzuregeln,

dass sie möglichst ähnlich laut klingen.

Also relativ schnell zu faden.

Bei Musik muss man das jetzt wieder anders machen,

weil wenn man in der Musik jetzt so schnell nachregelt,

dann würde man die ganze innere Dynamik der Musik zerstören,

weil Musik braucht ja viel mehr.

Mehr Dynamik natürlich, sind ja alles ziemlich erwurscht.

Wurscht in dem Sinn, dass alles gleich laut ist und dann nicht mehr gut klingt.

Das heißt, bei Musik muss man das natürlich wiederum anders machen,

deswegen muss man das vorher klassifizieren.

Dann hat man wieder irgendwelche anderen Geräusche,

die jetzt weder Musik noch Sprache sind.

Die wird man wahrscheinlich nicht raufregeln wollen.

Also das kennt man von so alten Automatic-Gain-Control-Algorithmen

bei diversen Recording-Systemen.

Wenn man das einstellt und dann stehen lässt

und dann mal der Zeit lang nichts sagt,

dann wird auf einmal der Noise-Begel komplett hochgezogen vom Hintergrund

und dann fängt wieder irgendwer zum Sprechen an,

dann regelt der Begel wieder runter

und dann ist der Noise wieder unten und die Sprache kommt wieder.

Also genau solche Pumping-Artefakte,

dass irgendwas hochgezogen wird, was man nicht will,

will man natürlich nicht haben.

Und das kann man natürlich viel besser machen,

wenn man das ganze Pfeil vorher klassifiziert,

wo welche Events passieren, die relevant sind für diesen Algorithmus jetzt.

Und dann weiß man schon,

das ist da und das ist da

und dann kann man dieses Nachregeln natürlich ein bisschen besser machen, ganz einfach.

Ich hoffe, das war jetzt deine Frage.

Ja, ich versuche mir noch vorzustellen, wie das genau aussieht.

Also wenn du sagst, die Musik braucht jetzt ein bisschen mehr Dynamik, hast du gesagt,

dann lässt den Filter ein bisschen mehr auf

und du regelst halt nicht die einzelnen Frequenzen alle auf laut,

sondern willst dir ein bisschen auch Raum geben vielleicht.

Ich versuche das so ein bisschen visuell zu verstehen.

Was bei Musik vielleicht nicht ganz so einfach zu erklären ist.

Ja, aber ist Musik eigentlich überhaupt jemals sozusagen auch das Ziel gewesen,

dass man das halt verbessern kann?

Oder ist das auch vor allem nicht eher schon immer irgendwie Sprache rein Sprache gewesen?

Ja, aber du musst ja mit der Musik auch irgendwie klar kommen.

Das Problem ist ja, du kannst ja nicht einfach nichts machen,

weil wenn du die Sprache irgendwie großartig nachregelst

und dann ist die Musik wieder ganz woanders,

dann passt das ja erst wieder nicht zusammen.

Also wir versuchen natürlich die Musik so wenig wie möglich zu verändern,

sag ich mal, also künstlerisch zu verändern,

sondern einfach so anzupassen, dass sie zum Rest von der Produktion passt.

Also dass halt die Lautstärkenverhältnisse zu den Sprechern und der Musik einigermaßen passt,

dass die Lautstärkenverhältnisse in der Musik nicht so viel verändert werden.

Also natürlich werden sie ein bisschen verändert, aber nicht zu extrem.

Und spektral wird die Musik jetzt eigentlich auch nicht verändert.

Also zumindest bis jetzt nicht.

Vielleicht machen wir das in Zukunft nochmal.

Also, weil wir gehen natürlich davon aus,

meistens hat man so einen Einspieler oder sonst irgendwas,

das ist schon vorproduziert,

das ist künstlerisch meistens so gewollt

und da will man jetzt nicht großartig was ändern dabei.

Außer vielleicht ein bisschen Neues weglöschen oder eben die Begel anpassen,

dass sie zum Rest passen.

Was man natürlich auch sehr oft zu unseren Musikmixes,

da macht es sich um die Musikmixer,

da macht es sich um die Musikmixer.

Also wenn man jetzt ein Stück hat, das sehr laut ist und sehr leise,

das passen wir schon an, dass das dann wieder zusammenpasst.

Aber jetzt nicht den spektralen Content in der Musik.

Aber genau, ist das denn...

Aber inzwischen hat sich ja auch im Machine Learning Bereich so einiges getan,

so in den letzten zehn Jahren.

Ich meine, 2013 hat das mit dem Deep Learning und so gerade erst angefangen.

Gibt es da inzwischen auch Geschichten,

wo man das so mehr so richtig End-to-End macht?

Ohne dass man dann noch irgendwelche Blöcke dazwischen hat,

die man konfiguriert, sondern einfach quasi,

man könnte ja auch das alles irgendwie insgesamt lernen

und dann halt Audio rein auf der einen Seite in irgendwie ein neuronales Netz

und dann wieder Audio auch wieder raus.

Hat sich das da eigentlich in die Richtung schon entwickelt?

Weil ich habe da ehrlich gesagt gar keine Ahnung von.

Ja, so funktioniert es im Moment eigentlich.

Also wie gesagt, wenn man jetzt von der Geschichte her kommt,

mit von NumPy, SciPy und...

CKitLearn und so weiter,

sind immer weitere Algorithmen gekommen.

Also ich habe zum Beispiel meine Blumenarbeit damals

auch schon mit so neuronalen Netzen gemacht.

Das war 2007 oder 2008.

Da war das noch ganz am Anfang,

vor allem im Audio-Bereich.

Und am Anfang von der Phonik haben wir das jetzt noch nicht gehabt,

weil es ja einfach nur zu aufwendig war zum Rechnen.

Aber dann sind wir eh gleich in diese Richtung,

wenn man ganz...

Also wenn wir jetzt schon in beiden Podcasts sind,

können wir von den Tools ein bisschen reden.

Zuerst war dann das TensorFlow sehr, sehr beliebt am Anfang.

Vor allem mit diesem Keras, dieser Keras-Library.

Das war damals so ein Wrapper für TensorFlow im Prinzip,

einfach mit einer einfacheren API, also einfacher zu verwenden.

Ja, inzwischen ist es, glaube ich, die offizielle API-Aufwand.

Ja, die haben es, glaube ich, irgendwie...

Oder der Typ bei Keras ist dann, glaube ich, irgendwann zu Google.

Und dann haben sie das gleich dazu einbaut.

Wie auch immer, zuerst haben wir viel mit Keras eben gemacht.

Und dann irgendwann sind wir dann eh so wie alle auch auf PyTorch.

Mittlerweile machen wir eigentlich alles mit PyTorch.

Also eh schon lang.

Aber zu den Algorithmen, wie funktioniert das jetzt?

Also eigentlich ziemlich anders.

Also wie du gesagt hast,

mittlerweile kommt eigentlich einfach nur mehr Audio rein und Audio raus dann.

Also es ist viel mehr Blackbox als vorher.

Und wie funktioniert das?

Das heißt, man ist jetzt natürlich hauptsächlich damit beschäftigt,

oder mit vielen Sachen beschäftigt,

aber ein großer Punkt ist natürlich,

dass man jetzt die ganzen Datensätze eben zusammenstellt.

Nehmen wir nochmal den Beispiel mit denoising,

also Störgeräusche weglöschen.

Dazu braucht man natürlich ganz viele Audiosprachfiles,

die, wenn wir jetzt nur Sprache betrachten,

braucht man ganz viele Sprachfiles, die gut klingen.

Also...

Ganz viele Sprecher, verschiedene Sprachen,

verschiedene Geschlechter natürlich, verschiedene Ausdrucksweisen,

verschiedene Sprachstile, emotionale Sprache, Fadesprache,

was auch immer man sich flüstern, was auch immer man sich denken kann.

Also alles mögliche, was es dazu gibt.

Das natürlich in einer guten Qualität, ohne viel Rauschen.

Dann braucht man natürlich ganz große Datensätze von verschiedenen Noise-Daten,

also statisches Rauschen, dann ein Auto, das hinten vorbeifährt oder

irgendwer.

Klopfgeräusche am Computer und so weiter.

Alles, was man sich irgendwie vorstellen kann.

Musik natürlich auch, falls man Musik auch wegrechnen will.

Baby schreien, Hunde bellen.

Und dann mischt man diese Daten eben zusammen,

also dass man aus diesen schönen Daten eben das Rauschen dazurechnet.

Das ist dann quasi das schlechte Signal, das ist das Input von dem Netzwerk

und als Target hat man dann einfach das schöne Signal

und dann trainiert man.

Man nimmt eben dieses Model, das Netzwerk an.

Also ihr kennt das wahrscheinlich alle.

Und dann hat es einen bestimmten Lernalgorithmus,

das die Gewichte in diesem neuronalen Netzwerk updatet

und dadurch versucht es eben zu lernen.

Wenn man das reinschickt, kommt das raus

und versucht eben zu generalisieren für alle möglichen anderen Sachen,

die dazwischen sind, die man eben nicht explizit gelernt hat.

Zusätzlich zu diesen Daten und Modeln,

gibt es ja noch so Transformationen.

Also das Audio wird nicht nur durch Zumischen von Neu schlechter gemacht,

sondern man kann auch noch alles mögliche andere machen.

Man kann Filter-Artefakte draufrechnen,

die das Netzwerk dann wegrechnen soll

oder das Audio klicken zum Beispiel

und das versucht es wieder wegzurechnen

oder irgendwelche Kompressoren am Target oder am Input drauflegen.

Also alles, was man früher so eigentlich an Signalbearbeitungsalgorithmen gehabt hat

und direkt dann wieder wegrechnet,

dann wird das auch wieder wegrechnet.

Das ist jetzt für den End-User quasi weg,

aber die ganzen Algorithmen braucht man trotzdem immer noch,

weil man damit im Endeffekt jetzt die ganzen Transformationen von den Daten macht,

damit man sie so zusammenbasteln kann,

damit sie eben möglichst variantenreich sind

und damit man alle möglichen Sachen abbilden kann,

die das Model dann eben machen soll.

Aber man wendet die Algorithmen nicht mehr direkt auf die Daten an,

sondern einfach auf den Trainingsdaten

und damit modelliert man sozusagen die Daten,

die Trainingsdaten,

so wie es dann eben fürs Model sein soll.

Ja, interessant.

Ich hätte mir schon mal überlegt,

irgendwie, keine Ahnung,

ob man nicht sowas machen könnte,

wie wenn man jetzt,

angenommen man hätte irgendwie ganz viel hochqualitatives Audio irgendwo her,

keine Ahnung,

hat ein Archiv von einem Radiosender gefunden

oder irgendwelchen Medien

und man spielt das jetzt irgendwie in einem Raum ab

und legt dann irgendwie ein Handy in die Mitte oder sowas

und nimmt das dann auf,

dann könnte man ja eigentlich sozusagen,

kann man dann nicht ein gutes Audio

aus irgendwie einer Handy-Mikrofonaufnahme generieren,

könnte man nicht ein neuronales Netz trainieren,

das halt irgendwie quasi dann halt auch,

wenn ich dann selber wieder das Handy nehme oder reinspreche,

dann quasi da einen guten Klang draus mache.

Das ist, glaube ich, das, was Georg versucht, diese Folge.

Genau das.

Aber da lebst du doch nur einen Filter, oder?

Genau.

Im Prinzip gibt es genauso Datensätze von,

du meinst jetzt zum Beispiel Impuls-Responses,

also Impuls-Antworten von Räumen zum Beispiel,

wo eben, keine Ahnung,

100.000 Impuls-Responses von verschiedenen Geometrien,

von Räumen,

das heißt in dem Fall,

in dem Fall hättest du ein Handy halt immer an einem anderen Punkt,

in einem anderen Raum liegen.

Das sind eben genau diese Transformations,

in dem Fall rechnet man dann so eine Impuls-Response drauf

auf das Input-Signal

und am Target soll das dann eben wieder weggerechnet werden.

Dann, in deinem Fall,

hättest du noch so nicht-lineare Verzerrungen drinnen

vom Handy,

vom Handy-Mikrofon zum Beispiel,

das kann man natürlich auch mit so nicht-linearen Verzerrungen

ganz einfach simulieren.

Zusätzlich hast du noch Rauschen dabei,

also man kann da noch ein neues dazu mischen.

Und mit diesen ganzen Dingen,

dann hast du vielleicht noch spektrale Effekte drinnen,

also man kann noch so EQ-Dinger auf dein Input drauflegen.

Und wenn man diese ganzen Effekte zusammen mischt,

dann kommt halt irgendein schlechtes Audio sozusagen raus,

das man dann verwenden kann.

Ja, und das kann man natürlich dann deutlich flexibler machen,

als wenn man das jetzt irgendwie tatsächlich physisch irgendwie machen müsste.

Ja, dann,

man braucht ja auch viele Daten irgendwie wahrscheinlich.

Nehm ich mal an.

Was heißt denn,

was heißt denn viele Daten?

Wie viele Daten braucht man denn?

Braucht man da 10 Stunden oder 100 Stunden oder 1000 Stunden

oder 100.000 Stunden?

Naja, mehr wie 1000.

Also es kommt drauf an,

wie gut das soll oder welcher Algorithmus jetzt

und wie gut das funktionieren soll.

Also für so,

für so neues Redaktionsachen brauchst du schon,

so einige 1000 Stunden an Audio-Material, sage ich mal.

Okay, also so ein,

sag ich mal,

Podcast-Archiv aus 150 Stunden Audio kommt nicht weit.

Naja, vor allem,

wenn du jetzt ein Podcast-Archiv hast,

das ist halt sehr einseitig.

Also du bist natürlich

Ja, okay, das ist zugleich für mich.

verschiedenste Podcast-Archive von verschiedenen Ländern,

von verschiedenen Ausdrucksweisen.

Dann kommt natürlich noch die Qualität vom Audio dazu.

Also ist ja nicht so,

so leicht,

wirklich gute Sprache zum Beispiel zu finden,

wo jetzt kein Rauschen drin ist,

weil sonst trainierst du ja auch erst wieder an,

dass du Rauschen dabei hast.

Ja, klar.

Also wir machen das meistens ein bisschen rekursiv.

Also man hat natürlich einmal ein Modell,

dann findet man wieder neue Daten,

die ein bisschen verrauscht sind,

die neuest man mit dem alten Modell,

damit trainiert man dann das neue Modell und so weiter,

damit man die Daten ein bisschen besser aufbereiten kann.

Weil, was ja ganz interessant ist,

welche Effekte,

wie man kann,

also wenn man natürlich schon mal Daten gehabt hat,

mit denen man ein Modell trainiert hat,

und da will man dann danach noch einmal die Neues

mit dem gleichen Modell,

dann funktioniert das natürlich nicht,

weil das Modell hat ja schon gelernt,

dass in den Daten Neues drinnen ist

und das reproduziert das Neues ganz einfach wieder.

Also irgendwie ist das wirklich drinnen gespeichert dann.

Na gut, aber was bei uns auch noch so ein Ding ist,

ist, dass wir,

weil wir ja vorher von der klassischen DSB-Welt,

Machine Learning Welt gekommen sind,

also der Vorteil dort ist natürlich,

dass man Parameter zur Kontrolle hat,

was oft ein Vorteil, oft ein Nachteil ist,

weil es komplizierter werden kann.

Ein Vorteil, weil man verschiedene Use Cases damit abbilden kann.

Und dieses Prinzip wollten wir jetzt halt auch nicht ganz aufgeben

in der ganzen neuen Deep Learning Welt sozusagen.

Ja, weil man kann natürlich auch so ein Modell machen,

das jetzt alle diese Transformationen und was auch immer drinnen hat

und da kommt dann irgendwas raus

und mit dem kann man dann leben oder nicht,

aber oft will man halt auch mehr Kontrolle haben,

was genau man mit dem Audio machen will.

Man will zum Beispiel nur gewisse Störgeräusche rausrechnen

oder man will Musik auch rausrechnen

oder Atmer wegrechnen oder gewisse Sachen wegschneiden

oder Lautstärken labeln, Lautstärken nicht labeln,

Filtering anwenden oder nicht.

Also insofern ist es unser Weg,

dass wir eben verschiedene Stemmodels haben,

die wir dann kombinieren.

Also zum Beispiel haben wir so ein Modell,

das im Filtering macht,

das ist der Auto-EQ-Model,

wo es auf das Filtering spezialisiert ist

und dann haben wir verschiedene Denoising-Models,

die verschiedene Teile von Audio weglöschen können

oder überlassen können,

damit man dann die so kombinieren kann,

um noch ein bisschen Kontrolle darüber zu haben,

um auch verschiedene Use Cases,

was ist das zum Beispiel,

also in einem Radio-Play,

also in einem Hörspiel im Radio,

will man natürlich alle möglichen Sound-Effekte hinten haben,

also in einem Wasserfall, der plätschert

oder der Knall, wenn die Tür aufgeht

oder in einem Yoga-Video will man natürlich

das ganze Atmen im Hintergrund haben und nicht rauslöschen.

Jetzt in einem reinen Sprach-Podcast

will man viel mehr natürlich rauslöschen,

also alles, was tippen ist

oder das Plätschern von Bach,

das ist ein sehr guter Weg,

das kann man auch im Hintergrund

oder der Vögel oder Atmen von mir,

das kann man auch rauslöschen

oder Pausen rauslöschen,

wenn man es ganz extrem machen will.

Insofern.

Also es ist quasi sehr kontextabhängig,

also sehr auch davon abhängig,

also man kann nicht ein Modell

für alle Sachen verwenden

oder das Modell muss man halt selber erkennen,

was jetzt,

eigentlich müsste man dem das ja sagen,

das kann der jetzt ja gar nicht wissen,

ob der jetzt das,

oder schwierig wahrscheinlich,

ob das Atmen jetzt erwünscht ist oder nicht.

Ja, klar.

Ja, das Multitrack-Interface,

ich meine, das ist ja auch schön,

dass das alles geht, genau,

aber es ist nicht so ganz einfach einzustellen,

das stimmt.

Ja, Multitrack ist nochmal besonders komplex,

vor allem vom Interface,

weil für jede Track kannst du alle Settings halt einstellen

und dann wird das halt natürlich

gleich einmal viel.

Ja, gar nicht so einfach.

Oder ich glaube,

wir sind so ein bisschen überfahren, oder,

von diesen ganzen Möglichkeiten,

die es da gibt

und von den ganz coolen Sachen,

die ihr da macht.

Und als Außenstehender,

also so ich als,

sag ich mal,

Feldwald und Wiesen-Informatiker,

mir fehlt da so ein bisschen der Bezug dazu.

Also für mich ist so ein bisschen so,

ja, ich habe hier eine Audiodatei

und da gibt es irgendwelche magischen Tools,

die irgendwelche magischen Sachen machen

und hinterher hört es sich besser an.

Ja, aber es ist ja auch okay, oder?

Als User willst du eh nicht mehr wissen,

im Endeffekt.

Ich habe die Handlung für den User degradiert.

Idealerweise möchte ich nicht,

nicht mehr wissen.

Das stimmt natürlich.

Aber wir wollen ja da schon gerne

einen Blick reinwerfen.

Und das ist irgendwie so eine ganz eigene Welt,

diese Audiosachen.

Ich meine, da gibt es spezielle Hardware

und dann sehen die Knöpfe alle anders aus

und dann sind die Interfaces so kompliziert,

dass wir nicht damit klarkommen.

Und ich finde es total faszinierend,

wie tief das so ist,

weil das so auf der Ebene,

die der User damit interagiert,

Das ist ja wirklich so.

Ich habe eine Datei

und die soll besser klingen

und jetzt ist es so.

Das war natürlich auch der Punkt,

warum wir angefangen haben

mit Afonik überhaupt.

Weil Audio-Technik einfach

vor 10, 15 Jahren

sehr kryptisch war.

Das ist ja heute schon total anders.

Früher hast du echt wissen müssen,

immer was ein Kompressor ist,

was ein Limiter ist,

wie du den einstellst,

wie du die ganzen Filterparameter einstellst,

wo man,

wenn man eigentlich nicht wirklich Ahnung davon hat,

vielleicht,

vielleicht viel mehr schlecht machen kann,

als gut machen kann.

Und das war eigentlich der Ausgangspunkt

von uns,

weil wir halt gedacht haben,

oder ich damals gedacht habe,

dass man kann einfach einem normalen Menschen

unter Anführungszeichen sowas

einfach nicht zumuten.

Der, wie du sagst, nur ein besseres Audio haben will.

Das war einfach alles viel zu kompliziert.

Ja, ganz oft

ist es ja auch so, dass

gerade in dieser Audio-Welt,

dass man als normaler Benutzer,

viele Dinge gar nicht,

gar nicht hört oder gar nicht versteht.

Das ist schon mal,

man hat ja da gelegentlich Kontakt dazu.

Und wenn man dann so sieht,

ja, da sitzt einer hier an seinem Mischpult

und dann dreht er an irgendwelchen Reglern

und es passiert eigentlich gar nichts.

So, erster Eindruck.

Aber dann am Ende hört es sich doch irgendwie

wesentlich besser an,

als es sich vorher angehört hat.

Und diese Intransparenz ist so für mich als Benutzer,

ja, ich zähle mich dadurch aus zu den Benutzern,

super interessant.

Weil ich verstehe überhaupt gar nicht,

was es da für, ich verstehe noch nicht mal,

was es für Parameter gibt.

Und dann gibt es aber Experten, die gucken sich das an

und sagen, ja, nee, so kannst du es nicht machen.

Und hier musst du diesen das hochdrehen und das runterdrehen.

Und dann am Ende denkst du,

das ist verrückt.

Und ich habe einmal so eine Erfahrung gemacht.

Da haben wir

bei einem ehemaligen Arbeitgeber,

wir haben ein Marketing-Video gedreht.

Das war ein großer Spaß für einen Programmiertwettbewerb.

Und der war auch so ein Audio-Fan.

Da hat er sich selber

in seinem Wohnzimmer ein kleines Studio reingebaut.

Auch mit so Schallschutzwänden

und so Zeugs.

Und da hat er dann seine Band,

was man halt so macht.

Und dann hat er da so ein Stück Audio von mir aufgenommen.

Und ich meine, jeder, der schon mal Audio von sich selber gehört hat,

der weiß, dass das ganz schrecklich ist, wenn man sich das anhört,

weil die eigene Stimme ist,

die hört sich gruselig an.

Und dann hat er das da so reingetan und hat so ein paar Knöpfe gedreht

und auf einmal habe ich mich angehört wie ein Radiomoderator.

So eine richtig sonore

Stimme mit Volumen,

mit Volumen drin.

Und er hat das Reverb aufgedreht.

Ja, und vielleicht auch

ein bisschen die Bässe hochgedreht

und, keine Ahnung, einen Kompressor reingemacht.

Weiß ich, was das bedeutet.

Jedenfalls einige magische Regler

und auf einmal war es viel, viel, viel besser.

Und ich finde das super faszinierend,

dass es so eine Welt gibt,

die eigentlich so intransparent ist,

aber die doch irgendwie jeder hört.

Weil man hört ja schon, ob sich Audio gut anhört oder nicht.

Wer meinst du jetzt,

wenn du das Audio auf dem Telefon,

als Podcaster hörst oder wenn du das bei deiner

Serie anhörst oder im Auto oder

wenn ich das in meinen

Bluetooth-Lautsprechern 10 Meter von meinem Handy

anhöre mit so...

Entschuldigung, ich wollte gerade, weil ich finde,

dass die Sachen alle auf unterschiedlichen Geräten immer ganz anders klingen.

Ja, das wäre natürlich so.

Aber ich meine,

so die ganz alten Sachen waren ja alle für Radio

und auch da hat es sich sehr gut angehört.

Also besser als ohne.

Ja, wobei ich glaube,

das muss man auch so ein bisschen lernen.

Also ich habe jedenfalls irgendwie

zum Beispiel bei den ersten,

Podcast-Episoden jetzt hier,

dachte ich, ach, das klingt ja eigentlich ganz gut.

Und wenn ich mir die heute anhöre, denke ich mir so,

ah, das klingt aber eigentlich ganz schön schlecht.

Das war auch so ein Lernprozess.

Das ging nicht von Anfang an.

Dann hat er ja auch ein ganz großes Mischpult gekauft,

das wir immer noch nicht ordentlich bedienen können.

Damit ist es viel besser geworden.

Ja, nee, viel einfacher.

Aber ich höre jetzt auch...

Was die Hörer nicht wissen, ist ja, dass wir vorher eine Dreiviertelstunde gebraucht haben,

um die Aufnahme zu starten.

Das war tatsächlich das Nächste zum Vorbereiten,

das wir selber hatten.

Ja, Matrix.

Aber es ist auch irgendwie so ein gewisserweise

gebührender Einstieg.

In die Audio-Effekte.

Dass man dann schon mal so

nicht denkt, dass es zu einfach wäre.

Ich finde es auch sehr schön, Georg,

dass du gleich als Profi gesagt hast,

wisst ihr was, diese ganze Audio-Technik,

alles weg, einfach nur

ein Mikrofon, ein Kabel.

Ja, sicher.

Aber nochmal zu deinem Punkt mit

dass es besser geklungen hat.

Weil der hat ein paar Regler gedreht,

dass es besser geklungen hat.

Das stimmt natürlich.

Aber man muss

ja immer vor, in dem Fall

vor Ohren führen,

dass das natürlich sehr

subjektiv ist und

eigentlich von deiner Wahrnehmung vom Radio her

geprägt ist. Da gibt es natürlich ganz

unterschiedliche Stile in unterschiedlichen

Ländern, auch wie man das handhabt.

Also du bist jetzt einem bestimmten

Radiosound vielleicht gewohnt, was

deine Radiosender da bei dir in Deutschland

jetzt haben. In Amerika,

das ist meistens ganz anders oder in anderen

Ländern. Das heißt,

wenn jetzt irgendwer deine Stimme

so regelt, dass er möglichst ähnlich an

deiner Referenz sozusagen

ist, was du als guten Sound

verstehst oder gewohnt bist zu hören,

ganz einfach, dann klingt das für

dich gut. Wenn der jetzt zum Beispiel

das etwa Südamerikaner

gemacht hätte und die haben eine andere Referenz,

dann hätte es vielleicht für dich gar

nicht so gut geklungen. Also das ist

sehr subjektiv und auch

vom Kontext oder vom

der Herkunft

vor allem abhängig. Da gibt es

große Unterschiede, wie Länder das handhaben.

Also manche haben so diese richtige

Radiostimme, wo alles

total eng ist,

sehr basslastig und

tot komprimiert, also wie man es

auf dem Radio hört. Das andere

wieder andere Sender, wie zum Beispiel

BBC oder was auch immer,

viel offener, freier,

also ohne sehr wenig

Komprimierung, nicht so dieser

Nahbesprechungseffekt, wo du so überhöhte,

tiefe Frequenzen hast,

wo es einfach viel normaler klingt.

Also das ist sehr

subjektiv natürlich.

Das kommt immer auf die Referenz drauf an.

Diese Bilder, wenn man

das zwar über Ton spricht, aber vom Klangbild auch

redet, schon

auch ein bisschen einordnen, oder?

Es gibt schönere Bilder

von besseren Künstlern und es gibt

ärztlichere Bilder.

Selbst wenn sie unterschiedlich sind und wenn

es verschiedene Stilrichtungen

gibt, kann man schon, glaube ich,

eine Qualität

eines Stückes hören.

Es ist auch ein bisschen bei Musik, ja, also ich

höre relativ einseitige

Musik, obwohl ich auch von vielen

Genres durchaus anerkennen kann, wenn

es da gute Musik gibt, die man gut hören kann,

die man nicht so gut hören kann. Und ich höre auch, ob eine

Musik einfacher produziert ist oder komplexer,

unabhängig jetzt von meinem Geschmack vielleicht

dafür, wenn ihr wisst, was ich meine, ja.

Und ich finde, dass das auch bei Audio so

und insbesondere halt

bei dem, was du gesagt hast, wie du dieses Signal

bearbeitest, was halt der Tontechnik

der, also ich weiß nicht, ist, kann man

das so sagen, ist Haphonic ein virtuelles

Tontechnik-Instrument?

Ist das so?

Virtueller Tontechniker, ja.

Und ja, was er dann tut, was er

machen kann, um

ich weiß nicht,

in der Bildsprache bleiben, den Pinsel zu führen, ja, also

tatsächlich diesen Ton zu skypen

und ja,

also klar, gibt es da vielleicht verschiedene Meinungen

oder ich weiß nicht, ob du sowas hast wie

Presets, die du sagen kannst, Haphonic,

hey, das ist jetzt Taste,

du hast eben Südamerika erwähnt

und das ist Taste Europe oder

so, oder das ist Taste Radio

und das ist Taste Big Cinema.

Kann ja sein, dass du das auch machen kannst,

aber der Trick wäre ja, genau

das auch bauen zu können, als

Tontechniker, sich quasi dieses Zielbild

oder diesem Stil anzupassen

und das dann halt auf einen

gewissen Qualitätsgrad zu bringen.

Und das aus Algorithmen zu denken, finde ich spannend, weil ich

versuche auch, also überhaupt erstmal zu verstehen,

wie das überhaupt geht, weil dieses

Klang zu,

also visualisieren ist halt da wieder auch

der falsche Begriff, ja, aber sich das so

vorstellen zu können, wie man einen Klang

überhaupt schafft, das ist irgendwie, also eine der

großen Herausforderungen, die ich jetzt persönlich habe, wenn ich

jetzt an Musik denke, auch

was ich höre, überhaupt umzusetzen,

dafür muss ich relativ viel üben

oder so, ja, dass ich

das hinkriege oder halt auch in die Musikschule

gehen und Theorie lernen und so und

das ist durchaus, glaube ich, die

spannende Sache dahinter vielleicht.

Und warum es einem Nutzer wie dir, Johannes,

dann vielleicht schwerfällt, weil du sonst nicht so

viel mit Ton machst.

Ich habe da

überhaupt gar keinen Connector zu.

Ich habe da, glaube ich, eine sehr visuelle Ansicht.

Sobald man mir eine

FFT zeigt, dann

komme ich damit klar, aber solange nur

die Geräusche da sind oder die Wellenformen,

dann bin ich

völlig verloren.

Ja, ich weiß es nicht genau.

Ich habe mal irgendwann auch

ein Podcast-Episode gehört mit

Rick Rubin und der meinte

so, ach, das mit dem

irgendwie produzieren und so.

Eigentlich kann man es immer nur kaputt machen

und wenn man das nicht kaputt macht, dann ist das

schon sehr, sehr, dann ist das schon sehr, sehr gut.

Ich weiß gar nicht, ob man tatsächlich so viel

an, ähm,

an Mastering

kann man damit tatsächlich prägen?

Ja, ja.

Also ich bin jetzt ja totaler Amateur,

was so Musik auch angeht und so, aber wenn ich

jetzt mit einem Kumpel jetzt Musik mache

und ich schaffe es halt schon, bestimmte

Sachen da rauszuholen oder bestimmte

Töne an der richtigen Stelle leiser oder lauter zu machen,

oder halt Raum zu schaffen für, ne,

den Bass oder so, irgendeinen Ducking hinzukriegen,

das ist ja schon, das sind ja eher so Basics, ja,

aber das, ähm, bei, also ich kann

das überhaupt nicht vorstellen mit Sprache, weil ich damit überhaupt

gar keine Erfahrung habe, ja, mit Podcast

oder sowas, also, wir machen jetzt Vereine,

aber als Hohntechniker jetzt, würde ich sagen, würde ich mich

jetzt auch nicht bezeichnen und das ist halt, äh,

schon nochmal eine andere Herausforderung.

Und wenn man gerade diese Klangbilder vor

Ohren hat, ja,

da kommt man vielleicht so ein bisschen

näher dran. Also das ist das, was Johannes meinte.

Er hat genauso geklungen, wie er, also dachte er es im Radio,

steht und wenn ich jetzt, okay, ähm,

ich möchte das Audio-Klangbild

haben, wie, ähm,

dass sie mal so im Radio steht, dann weiß ich vielleicht

in welche, vielleicht wenn ich das Klang

habe, das richtige Wort dafür, ich weiß

nicht, ich das Ganze bringen möchte,

ob ich jetzt, ne, welche Frequenzen

ich bewege. Und das, was

ich jetzt spannend finde, ist, was kann ich denn noch machen

eigentlich als Audio-Tontechniker

außer Frequenzen

bewegen und, äh, Lautstärke

mit, was ist das, Envelopes,

äh, modifizieren?

Äh, wie ausleveln?

Ja, das ist ja, der Envelope ist ja,

im Endeffekt ist alles

Frequenzen und Lautstärken, mehr gibt's ja nicht.

Ja, genau, aber ja.

Ja, gut, aber...

Wie man diese, wie man diese, wie man diese Regeln

Ja, aber ist auch das...

Grafiks sind auch nur ein paar Pixel, das ist jetzt,

äh, ist, äh, Zukunftsschau.

Ja, ein paar Farben

an die richtige Stelle getan.

Na, na, du meinst jetzt, welche,

welche Algorithmen es jetzt sozusagen

noch gibt, oder was?

Können wir vielleicht gleich nochmal auf eingeben?

Ich find's gar nicht so unverständlich.

Ich glaube, Dominik möchte einfach in dem komplizierten, äh,

Interface noch ein paar mehr Knöpfe

haben, wo er dann sagen kann, jetzt lieber

irgendwie Radio-Style

oder lieber...

Er möchte wissen, welche Knöpfe mehr er drehen muss

um den Radio-Style. Ja, also ich würde tatsächlich,

also ich würde gerne, wenn ich jetzt so ein

perfektes Tonstudio-Ding

mir vorstelle, wo es diese ganzen

einzelnen Regelungen gibt, ja, dann möchte ich gerne wissen,

welche Regelungen ich denn überhaupt machen muss.

Ja, aber das ist jetzt halt

ein neuronales Netz mit einer Milliarde,

Knöpfe, die du drehen kannst.

Die kannst du gar nicht mehr selber drehen, da musst du was

vorher machen. Naja, aber ich, ich, ich, ungefähr

zu wissen, welche Richtung ich da möchte, ist vielleicht

ja schon mal der erste

Schritt.

Also ich kann, das ist schon klar, dass ich...

Habt ihr euch selber neuronale Netze trainiert,

Georg?

Wie meinst du, ob wir unsere Netze selber

trainieren? Ja.

Ja, das ist ja... Da benutzt ihr irgendwas Vorgefertigtes und, äh...

Nein, nein, bei uns ist, bei uns

ist alles selber gemacht.

Alles selber gemacht?

Alles natürlich nicht, aber die Algorithmen...

Ja, PsiPi und Nampi.

Und wie viele, wie viele Parameter

habt ihr da drin?

Wie viel, über welche Größe sprechen wir da?

Also ich meine, das ist ja eine dieser Kenngrößen,

wie man so sagt, hier, GPT-X hat

eine Milliarde Parameter.

Ja, äh,

das kann ich dir so gar nicht sagen,

weil, also, also diese

Netze im Audi-Bereich

funktionieren ein bisschen anders, weil

ich meine,

im Prinzip,

hat schon ähnliche Elemente, also man hat halt

meistens, äh,

irgendwelche rekursiven Elemente

oder Transformers drinnen, also

bei uns meistens

LSDMs oder Transformer

eben, oder beides meistens und dann noch

so Convolution Layer natürlich

und alle

die Elemente sind eh ähnlich, aber

es gehen einfach viel mehr

Daten rein und raus natürlich, weil

Audi eine viel höhere Sampling Rate

hat und viel in einer kürzeren Zeit

viel mehr Daten,

rein und raus müssen,

aber auf was fällt jetzt eigentlich raus?

Anzahl Parameter, Größe, also

wir haben natürlich verschiedene Models,

also von manche

Gigabyte bis zu

paar hundert Megabyte,

also in der Größenordnung,

das ist nicht so riesige Model

wie irgendeine Sprachmodelle,

aber doch schon ein bisschen was

ja, die Herausforderung ist natürlich auch,

wie man die alle trainiert,

weil es, weil es natürlich,

natürlich viel Rechenleistung braucht,

insofern, wir bauen uns halt hauptsächlich

unsere eigenen

Trainingserver auf, beziehungsweise

mieten teilweise eben an,

was aber leider halt sehr teuer ist,

wenn man da versucht auf Amazon oder sonst

irgendwo anzumieten.

Bei den eigenen Rechnern ist

wieder die Herausforderung, dass man die Kühlung halt

hinbekommt, dass man

im Büro das irgendwie

aushaltet oder sonst wo

die entsprechende Kühlung schafft

und natürlich die Kosten von

der Anschaffung, weil

die GPUs sind natürlich

heiß begehrt im Moment und

jeder will die kaufen,

aber ja, das ist natürlich

andere, zusätzlich zu den

Daten eben, dass man

gute Daten bekommt und

vor allem im Audi-Bereich sind

die Daten ja auch sehr subjektiv,

wie wir vorher schon geredet haben und das muss man

irgendwie einordnen

trotzdem und das ist nicht immer so ganz klar,

also man kann das, man kann

dieses Data Labeling jetzt nicht einfach nach Indien

auslagern und da gibt es jetzt ein paar

Clickworker, die das einfach

kategorisieren, sondern da muss man

wirklich ein gutes Gehör haben dafür

und zusätzlich eben

die ganze Computer-Hardware

ist eine Herausforderung,

dass man diese eben beschafft.

Okay, aber

trotzdem betreibt ihr ja ein System,

wo ich als Endkunde

eine Audiodatei hochladen kann

und die wird in 10-facher

Geschwindigkeit verarbeitet.

Das allein

das ist ja schon eine massive Leistung,

dass ihr da einen Service

hinstellt, der einfach so funktioniert

und dann auch noch ungeheuer schnell ist.

Also ich meine, wenn man sich

die Leistung von solchen Systemen

vor 5 oder vor 10 Jahren anschaut, würde man

erwarten, dass es 10-mal so lange dauert, wie das Audio ist.

Aber jetzt ist es gerade umgekehrt,

es ist 10-mal so schnell,

wie das Audio ist. Wie kriegt ihr das hin?

Georg, ich habe mir das vorhin auf eurer Webseite durchgeschaut

und habe mir gedacht, wie kriegt ihr das hin?

Naja, also

du redest jetzt natürlich nicht vom Training,

sondern von der Influenz, also das, was

deine Anwendung ist.

Ja, aber trotzdem.

Ja, trotzdem. Es gibt halt mittlerweile

gute GPUs, um das kurz zu fassen.

Ihr habt einfach horizontal

skaliert. Dicke Rechner.

Naja, geht halt in dem Fall

leider nicht anders, weil

du musst die Models halt auf GPUs ausführen,

weil GPUs sind halt einfach

zu langsam. Bei uns,

wir sind in einer glücklichen Lage, dass wir nicht so

riesige Modelle haben, wie die ganzen

Language Models. Also wir können das auch noch auf einzelne

GPUs ausführen und brauchen da nicht

GPU-Cluster für ein Modell.

Das ist schon mal viel einfacher.

Aber das Schwierige ist

natürlich die Rechenleistung beim Training, weil du halt

da wochenlang

das System rechnen lassen musst

und ja, da brauchst du halt einfach

viel mehr Rechenleistung. Die Influenz

ist jetzt eh okay. Also es gibt

die Standard-Anbieter

wie Hetzner und so weiter, die bieten

eh GPU-Server auch an mittlerweile

und da kann man sich einfach einmieten.

Und das war's dann im Endeffekt.

Wie viel musst du mieten bei Hetzner für dein Modelltrainieren?

Ist das einfach den einen? Kostet das 200 Euro oder was?

Für das Trainieren haben wir nichts bei Hetzner.

Das wäre zu teuer.

Nur für die Inference

oder so.

Da haben wir keine Ahnung.

So, zwischen 10 und 20

herum.

Ja, das ist schon eine ganz schön ordentliche Operation, was ihr da betreibt.

Ist auch vom Betrieb her

eine gewisse Herausforderung.

Da werden dann doch die Datenmengen auch,

also ich meine, Audio ist jetzt nicht so schlimm wie Video,

aber trotzdem kriegst du ja doch

Dateien, die eine gewisse Megabyte-Größe

haben und die du dann verarbeiten musst

auch, soll ich mal,

richtig verarbeiten musst.

Genau.

Höchster Respekt hier.

Vor allem, man braucht halt natürlich auch Rechenleistung.

Es kostet halt auch.

Das ist dann der Punkt im Endeffekt.

Das war halt früher schon viel günstiger.

Also da haben wir das nur auf TPUs

sozusagen laufen gehabt.

Hat natürlich auch ähnlich lange

gedauert, weil die Algorithmen

halt auch für damalige Verhältnisse

relativ aufwendig waren.

Aber war halt um einiges günstiger.

Ja, das ist so ein bisschen die Kehrseite,

oder, von dieser ganzen

neuronale Netze-Geschichte.

Auf der einen Seite muss man

wesentlich weniger

manuelle Arbeit reinstecken,

wobei das vielleicht auch gar nicht stimmt.

Aber auf der anderen Seite

zahlt man es halt mit Rechenzyklen.

Ach, dazu fällt mir ein,

genau, da war ich jetzt überrascht.

Ich habe jetzt letztens irgendwie so ein bisschen

mit Transkripten Dinge gemacht.

Genau, wir waren ja

beide auf der Subscribe,

aber da habe ich dann auch mit

anderen Leuten

so geredet, wie die das mit Transkripten

machen, in Podcast-Housing-

Software.

Ja, und ich habe mich dann mal so ein bisschen,

ein bisschen vorgedrückt, weil ich dachte so,

oh, das ist aber so viel Arbeit, da weiß ich nicht genau,

ob ich das wirklich machen will.

Und dann meinten aber alle anderen,

ach so, ja, das war jetzt auch nicht so schlimm,

das ging schon. Und dann bin ich da rausgegangen

mit, okay, ich muss es wohl doch mal machen.

Und habe dann jetzt auch mal angefangen.

Und dabei...

Das ist ganz gut geworden, ne?

Ja, also tatsächlich irgendwie mit

Whisper hat man jetzt ein Modell, das tatsächlich

wirklich ganz gut

sozusagen, ja...

Also beim Python-Stand hast du da,

so ein paar Sachen ja gezeigt.

Ja, auf dem Herbst.

Genau, hast du ja CLI-Interface, du hast sogar

einen Blog-Eintrag dazu geschrieben.

Und man kann es in der CLI benutzen, um Transkripte zu machen

für Audio.

Genau, aber das,

weswegen ich das jetzt gerade erwähnt habe, ist,

wenn man das lokal laufen lässt,

dann wird auch das Laptop heiß

und der Akku wird alle und das funktioniert

alles nur sehr langsam und dann,

es macht keinen Spaß.

Aber es gibt da

einen Dienstleister

ich weiß gar nicht, wie man die ausspricht,

und die machen ja, die haben sich irgendwie

auf Inferenz spezialisiert und machen das irgendwie

schnell. Die haben auch, sagen sie jedenfalls,

ich habe keine Ahnung, was sie wirklich machen,

aber dass sie da halt eigene Hardware

haben, die da

irgendwie,

wo man dann Modelle halt

für Inferenz drauflaufen lassen kann,

die dann halt noch schneller ist als, weiß ich nicht,

GPUs oder so. Und da

war es tatsächlich, also irgendwie Whisper V3

Large, also was halt

auf meinem Laptop echt

fies langsam ist, da geht halt so

zwei Stunden Episode, geht da halt so in

einer Minute ungefähr durch und ist fertig.

Und das hat mich schon so,

oh krass, also

das ging mir gut.

Naja, es gibt ja jetzt diese schnellere

Whisper Model, das Whisper Turbo.

Ja, genau, das habe ich auch

probiert, das geht schon ganz gut, aber

Drog, die machen wohl das wirklich

das große Whisper V3

Large.

Wir haben ja auch das V3

Large.

Ja, das haben wir ja

auf den GPUs ganz einfach

kaufen.

Ja, genau.

Das ist super, ja.

Ich habe auch die so ein bisschen verglichen,

versus V3 und tatsächlich für Deutsch

macht es, bei Englisch macht es gar nicht so einen Riesenunterschied,

oder dachte ich jedenfalls jetzt so, aber bei Deutsch

macht es halt noch schon einen Unterschied, also

V3 ist nochmal ein gutes Stückchen besser.

Also bei Namen oder auch

bei Python oder auch

das geht eigentlich,

da, da,

oft das V2

versteht es halt nicht so richtig

und V3 meistens dann schon,

es sind auch immer noch Fehler drin, aber

also merkbarer Unterschied für mich.

Ja, ich weiß jetzt nicht mehr,

welche Version, aber auf irgendeiner Version

ist dann auf einmal immer

Afonik richtig erkannt worden.

Ja, auch.

Weil wir haben immer so ein Test-Files

und Afonik war zuerst immer falsch

und dann auf einmal hat es funktioniert.

Dann werden sich wohl die Daten geändert haben.

Ja, ich meine, ihr seid einfach

so bekannt,

dass ihr jetzt in den Referenzdaten vorkommt.

Ja, genau.

Ich finde das auch total komisch,

dass man dem

Street-to-Text-Model, dem kann man ja dann auch ein Prompt geben,

dass man dem sagen kann,

was es tun soll und wie Leute heißen

und das funktioniert dann plötzlich.

Das fand ich auch sehr eigenartig.

Ich weiß jetzt auch noch nicht, dass man das wirklich einstellen kann,

aber ich verwende jetzt immer das gleiche Prompt oder muss es halt umkonfigurieren,

aber das geht ja auch

und das ist auch ganz eigenartig.

Also, ja,

das ist irgendwie anders als früher.

Ja, das hat beim Whisper leider

Seiteneffekte.

Das fördert Halluzinationen.

Ja, das kann natürlich sein.

Deswegen verwenden wir die Prompt im Moment eigentlich nicht.

Ah, okay.

Ja, ich habe mir auch die Transkripte nicht so komplett durchgelesen.

Wer weiß, was da jetzt so komische Sachen sind.

Der weiß, was wir jetzt auf einmal für Dinge erzählen.

Das auf die Portrait-Seite noch schreiben.

Es gilt das gesprochene Wort.

Lieber Helmut,

ich bin zuhörer.

Schauen Sie jetzt die Untertitel an.

Ja, gehört auch so an.

Das ist vielleicht nicht so.

Müssen wir ein paar exotische Wörter sagen,

um deine Transkriptionen zu verwirren.

Nein, es ist gar nicht so bei Wörtern.

Es ist meistens eben,

wenn nicht gesprochen wird

oder wenn Pausen sind,

dass sich dann irgendeine Halluzinationen bilden

und dann Wörter für Wörter abgespult werden,

sozusagen.

Das hört sich so ein bisschen an, als ob das Modell Neuronen,

der nicht so erotisch wäre.

Dann machen wir jetzt eine kurze Schweigeminute für...

Eine Schweigeminute für Whisper V3.

Bis wir auch mal

genau das Mikrofon hier

jetzt mal schauen,

was da so rauskommt,

wenn man das einfach mal so vor sich hin

generieren lässt.

Schon interessant.

Ja, ich befürchte aber, Jochen,

dass wir die nächste Episode einfach eine komplette Episode machen müssen,

wo wir die ganzen Abkürzungen erklären,

die wir heute...

Abkürzungen, haben wir gehört.

Wir können auch einfach die ganze Zeit schweigen

in der nächsten Episode und dann lassen wir es bei den Texten.

Ja, das geht auch.

Und dann den Text wieder viel dedizieren.

Genau.

Und das ein paar Mal den Kreis

und dann schauen wir mal, was rauskommt.

Ja, ansonsten...

Ich weiß nicht, haben wir...

Jetzt haben wir schon eine ganze Weile über so

Modelle und Dinge.

Der Rest der Infrastruktur ist ja vielleicht auch ganz interessant.

Also was so Webgeschichten

zu machen angeht.

Django, ja, natürlich.

Machen wir auch.

Nein, wir machen Django wirklich.

Ja, wie gesagt, wir verwenden Django.

Das ist schon seit 2013,

aber dann, wenn das halt gestartet ist.

Und was verwendet man dann oft dabei?

Also Frontend-mäßig.

Ein paar Sachen haben wir mit Vue gemacht.

Das ist ein Audio-Inspektor,

nenne ich das, oder Transcript-Editor.

Das ist mit Vue gemacht.

Dann, prinzipiell,

fängt man so HTMX und

solche Sachen mittlerweile

für so einfachere Interface-Elemente.

Also für alles, was jetzt nicht

der Audio-Editor ist.

Und am Frontend verwenden wir noch

Tailwind-CSS.

Was gibt's noch?

Ja, Alpine-Nachteilweise

für so kleine Schaubas.

Das hört sich genau nach dem an, was wir auch machen.

Machen jetzt alle, gell?

Ja, machen wir auch alles.

Aber es ist auch...

Was heißt das?

Ja, weil man sich halt nicht

sicher auf den Frameworks einhandeln will.

Ja, natürlich.

Gut, was gibt's noch zum Erzählen?

Dann Backend-mäßig

verwenden wir eben

so eine Task-Queue,

die diese ganzen Audit-Protesting- und

Encoding-Tasks verteilt.

Dafür verwenden wir Celery.

Und die Celery läuft dann eben

auf verschiedene Server verteilt.

Das sind unsere

Worker-Rechner.

Wir haben einen Hauptrechner, wo das

Websystem läuft und der verteilt

die ganzen Jobs dann auf die Worker-Rechner.

Und magst du Celery? Funktioniert's gut?

Mögen.

Mögen ist übertrieben, aber

es funktioniert seit 13 Jahren.

Aber mittlerweile gibt's ja auch...

Ja, hab ich auch gehört.

Mittlerweile gibt's sicher

modernere Tools, schätze ich mal.

Wir hoffen, dass Django, das Native,

ich weiß nicht, ob das mit dem Distributed...

Ja, da kommt jetzt was.

Aber das kann nicht so viel

wie Celery.

Wenn man halt wirklich da Last hat

und da viele Dinge macht, dann ist es

wahrscheinlich... Wenn für einen Celery

funktioniert, dann sollte man das wahrscheinlich so lassen.

Aber ich glaube auch,

es gibt sonst nicht viel Konkurrenz da.

Das ist irgendwie für komplexere

Geschichten in Celery immer noch...

Inzwischen gibt's ja schon einige Task-Queues.

Ja, auch mit Django-Integration.

Aber Celery ist halt so der

bekannte...

Der alte Platzisch.

Ja, aber

es ist auch schwer zu benutzen.

Das ist so ein bisschen wie das Mischpult hier.

Das ist nicht so in der Natur der Sache.

Wenn man nicht hinguckt, geht's nicht

immer so mit dem Lauf Richtung Fuß.

Ja, okay.

Ja, da braucht man doch noch eine Ausrede.

Dass es die Kinder waren oder jemand anders.

Genau.

Vielleicht, das kann schon sein.

Eigentlich musste man ja klicken

in deiner...

in deiner DAW.

Ich weiß nicht.

Das hat gar nichts mit dem Mischpult zu tun.

Na ja.

Task-Queues sind kompliziert.

Wir haben dann auch verschiedene Task-Queues.

Das macht es mal komplizierter.

Also einerseits diese ganzen CPU-Server,

die funktionieren eben über Celery.

Dann haben wir eben noch GPU-Server.

Die funktionieren dann wiederum...

Die werden dann wiederum von den CPU-Servern

angesprochen mit den ganzen

Audio-Abschnitten.

Wie macht ihr das?

Die...

Die haben so...

Das nennt sich so ein NVIDIA Triton.

Das ist ein NVIDIA-System,

wo man eben so Models hosten kann am GPU.

Der verteilt das relativ effizient im Speicher.

Weil...

Der hat wiederum eine eigene Task-Queue

integriert, wie so kleine

GPU-Jobs verteilt werden.

Weil das Problem bei den Models ist,

dass man kann jetzt nicht

für jeden Request das Model...

Oder es wäre nicht sehr effizient,

wenn man für jeden Request das Model jetzt neu

ladet in den Speicher, also in den GPU-Run.

Weil das Laden an sich von so ein paar

Gigabyte-Models dann

schon mal ziemlich lang dauert.

Deswegen gibt es

zum Beispiel das NVIDIA Triton.

Der versucht es möglichst effizient

zu managen,

dass die Models halt immer

im V-Rahmen sind,

beziehungsweise nur wenn notwendig

halt ein anderes Laden

und so weiter.

Und das ist dann sozusagen die zweite Task-Queue

hinter der ersten Task-Queue.

Und dann kommt es

von den GPU-Servern wieder zurück

zur Celery-Task-Queue auf den CPU-Servern

und dort gibt es dann

verschiedene Files.

Also wenn das Audit-Processing fertig ist,

gibt es dann File-Encoding-Tasks

und dann Speech-Recognition-Tasks.

Dann wird es wiederum zum GPU-Server

zum anderen geschickt.

Dann, was gibt es noch?

Dann eben so ein Verteiltask, der das auf verschiedene Server

dann schickt, also Network-Tasks oder auf YouTube

oder was auch immer.

Und so sichert das von Task zu Task dahin.

Im Celery und im

Nvidia Triton.

Und den Status erfasst du irgendwie in einem

Dango-Modell.

Genau, ja.

Die Tasks rufen sich dann eben so

seriell auf. Also es gibt ja bei

Celery also Chord-Tasks,

nennen sie das. Also da kann man verschieden,

wenn jetzt zum Beispiel ein

Audit-Processing fertig ist und man will

daraus fünf verschiedene File-Formate

erstellen, dann kann man so ein Chord-Task machen.

Der macht dann diese fünf

File-Formate parallel.

Und dann sagt man, okay, wenn jetzt alle von diesen Fünfe fertig sind,

dann ruft er den nächsten Task

auf. Also das ist zum Beispiel dann der

Finish-Task.

Der wird dann aufgerufen, wenn diese ganzen

Tasks fertig sind. Oder der Distribution-Task.

Und so kann man

so Ketten bauen,

die sich dann also quasi

parallel verbreiten und dann wieder

irgendwann zusammenführen, hoffentlich.

Ja. Bis das irgendwann fertig ist.

Ja, man hat dann so ganze

Task-Grafen oft irgendwie.

Ist dann manchmal so ein bisschen

schwierig, wenn man es testen will. Und manchmal

hat man so komische Probleme,

wenn das unerwartet

auf der Stelle schief geht. Aber ja, man kann

damit viel machen.

Aber testen ist auch nicht so schlimm. Also man kann

natürlich die Tasks einzeln

testen. Mit Unit-Test

ganz einfach.

Das Gesamtsystem ist wieder ein bisschen komplexer

zum Testen, ja.

Ich meine, das Hauptproblem, was ich mal hatte,

das war irgendwie aufzuräumen, wenn da irgendwas kaputt gegangen ist

und dass da irgendwelche Geister-Taskungen waren,

weil irgendwie noch irgendwas geklickt hat

und dann nicht genau klar war, wo jetzt

welcher Task in welchem Status hing oder so.

Ja, klar.

Und dabei ist das ganze Ding

schwierig zu verstehen und dann

irgendwo noch so Reste drum hängen,

wo die dann prozessiert werden wollen.

Aber ich glaube, wenn man so ein

stabiles System hat, vielleicht raucht das ja gar nicht so oft ab.

Dann, ja.

Nein, das ist eigentlich relativ stabil.

Außer, wir machen

wieder irgendwas komisches oder so, was ja manchmal

passiert. Diverse Updates,

oder Features.

Aber prinzipiell

läuft das eigentlich sehr stabil.

Das läuft bei uns jetzt natürlich

auch sehr lang. Also wir haben alle möglichen

Dinge drinnen.

Wir haben das Feld-Checking und so weiter.

Aber das funktioniert

ganz gut.

Ja, ich glaube, das ist einfach auch so ein Thema,

was man lernen muss. Das ist halt einfach noch eine weitere

von dieser Async-Sache.

Ja, es sind immer noch

so viele Ebenen inzwischen.

Dann hast du Async, dann hast du Threads, dann hast du

Multiprocessing und oben drüber.

Wir verwenden es gar nicht Async, wir verwenden das

wirklich Multiprocessing.

Also du kannst das mit Multiprocessing auch verwenden.

Ja, klar. Das ist halt

über mehrere Rechner verteilt.

Das ist die nächsthöhere Ebene

von diesen ganzen

Parallel-Compute-Sachen.

Und die sind alle kompliziert und dann kann man

eigentlich irgendwie nicht erwarten,

dass das auf der Ebene auf einmal simpel wird.

Aber, ja gut.

Es ist halt was, was man lernen muss.

Oder was man lernen kann.

Ich habe da eigentlich

ganz gute Erfahrungen gemacht.

Aber es hängt auch von der Systemart ab.

Es hängt auch davon ab,

wie man die Bauteile benutzt.

Die Bauteile an sich sind ja sehr

stabil. Wenn man jetzt ein Redis oder

was ihr verwendet,

RabbitMQ oder ZeroMQ

oder was auch immer.

Die sind ja extrem stabil.

Bei einem anderen Kundenprojekt

haben wir einen RabbitMQ-Server.

Der läuft seit

acht Jahren unterbrechungsfrei.

Die Bauteile an sich

sind schon stabil.

Wie wir das alle wissen,

ich kann in jeder Programmiersprache

schlechte Programme schreiben und

ich kann auch schlechte verteilte Programme

schreiben, wenn es sein muss.

Auf alle Fälle, ja.

Ja, vielleicht.

Genau.

Wie ist das eigentlich mit Benutzerfeedback?

Im Grunde, wenn man jetzt irgendwie Dinge verbessern will,

dann ist man ja darauf angewiesen,

dann können diese ganzen subjektiven

Geschichten, die wir eben auch schon

da angesprochen hatten, die spielen ja auch

eine große Rolle.

Jetzt weiß man aber vielleicht gar nicht so genau,

wenn jetzt aus

quasi Leute Feedback geben,

weil sie das anders gewohnt sind oder so,

wie man das unterscheidet von, da hat

irgendwas nicht richtig funktioniert oder so.

Da muss man ja wahrscheinlich, ich weiß auch gar nicht,

in welchen Märkten oder wo

auf alle Fälle überall benutzt wird, das ist ja dann

wahrscheinlich auch unterschiedlich.

Auch je nach Kontext nochmal unterschiedlich.

Das ist wahrscheinlich gar nicht so einfach, das

dann wieder einfließen zu lassen.

Ja, bei

solchen Sachen ist es natürlich schwierig, aber

deswegen versuchen wir eigentlich natürlich

möglichst wenig

subjektive oder

künstlerische Sachen zu machen.

Auch wenn das natürlich nicht wirklich geht.

Aber gewisses

Feedback ist natürlich leicht zu verstehen,

wenn der sagt, okay, da ist da

ein neues nicht rausgelöscht worden oder da ist

irgendwas falsch rausgelöscht worden, dann kann man

das natürlich leicht nachvollziehen.

Dass irgendwer

subjektiv ein anderes EQing

haben will, das

kann es immer geben, da werden wir auch

nie was dagegen machen können. Wahrscheinlich, man kann

nur gewisse Anzahl an Varianten

anbieten und irgendwann ist halt einmal

Schluss. Dann muss es halt selber

filtern und das geht ja bei uns auch, dass

wir halt einfach das neue, das filtering

deaktiviert und man hat halt selber das gefiltert,

wie man sagen will. Aber

das kommt jetzt auch nicht so

extrem oft vor, muss ich sagen.

Also es ist schon eher eindeutig, dann quasi

wenn Leute, ja, okay.

Und aus dem Feedback,

das ist für uns natürlich extrem wichtig,

also da lernen wir halt extrem viel.

Wenn wir Fehler haben, dann

führt man das wieder zu den Trainingsdaten dazu und so weiter.

Können die Klassifikatoren

wieder damit trainieren.

Warum hat der das noch nicht live

im Einsatz eigentlich?

War es live im Einsatz?

Also jetzt beispielsweise auch von mir als Plugin in meiner DAW.

So, den Weg können wir auch gehen, ja.

Ja, weil

wir eigentlich vom Offline-Konzept

her kommen.

Und unsere Algorithmen halt alle

drauf aufgebaut sind,

dass es offline funktioniert.

Bei Live bräuchtest du natürlich eine viel kleinere

Latenz.

Wäre mit einigen Algorithmen

eh möglich. Also zum Beispiel

denoising oder solche Sachen.

Oder Filtering natürlich.

Aber, ja,

aber das können wir auch nicht machen.

Das Problem ist eigentlich,

dass du halt spezielle Hardware dafür brauchst.

Wenn du es jetzt live machen willst,

kannst du jetzt entweder einen Webservice

anbieten, der das live macht, was wahrscheinlich

nicht so interessant ist.

Das heißt, wir müssen da eine Standalone-Lösung

haben.

Die muss dementsprechend gut funktionieren

jetzt auf allen Systemen.

Mit der

beschränkten Hardware, die man dort hat.

Oder man hat spezielle Systeme mit GPUs

oder M3-Chips, was auch immer.

Wo das sicher ein bisschen besser geht.

Aber es ist halt

vor allem in der momentanen Phase noch ein bisschen schwierig.

Also im Moment entwickeln sich die Modelle ja so schnell

weiter. Also man braucht so viel Hardware

dafür. Das wird in ein paar Jahren

sicher wieder anders ausschauen.

Weil dann wird sich das so ein bisschen eingependelt

haben. Dann wird da mehr Hardware dafür

verfügbar sein auf normalen

Standrechnen.

Dann wird sicher irgendwann wieder die Welle kommen,

wo diese ganzen Modelle

dann auf den Personal Computer

wieder überschwemmen.

Oder überschwappen.

Aber im Moment ist es halt noch ein bisschen schwierig.

Ja, also was ich schon gerne hätte,

wäre sozusagen in AirPods.

Da gibt es ja auch so einen Transparenzmodus.

Da jetzt

statt einfach nur, dass das ein bisschen lauter

oder leiser wird, wenn es Nebengeräusche gibt,

dass das dann so richtig schön klar wird.

Das wäre natürlich toll.

Man könnte ja auf dem Handy das auch...

Ja, genau.

Da kann man natürlich auch die Modelle laufen lassen.

Aber ja gut, wahrscheinlich ist das alles nicht so ganz einfach.

Da tauscht man bestimmt auch für Nose Cancelling

auch wieder, wenn du es halt dann einfach umdrehst.

Ja, Hörgeräte,

die sind alle in dieser Entwicklung dabei.

Die machen eh das.

Aber halt, ich meine, da ist

halt die Arbeit, dass du

die Modelle, die es gibt, meistens

so effizient wie möglich hinkriegst.

Also da geht es halt

eher mehr um

Effizienztuning für bestimmte

Plattformen. Dann im Endeffekt für den Chip,

was er in seinem Hörgerät hat.

Und natürlich

Akkuschonen und so weiter, weil das ist natürlich

wichtig für Hörgeräte.

Aber ja, im Moment sind wir halt mehr so in einer Phase,

dass wir gerade noch dabei sind.

Also jetzt nicht nur wir persönlich, sondern generell

schätze ich halt,

dass man mehr dabei ist, die Modelle weiter

zu entwickeln. Irgendwann wird es eh saturieren,

weil dann werden ja alle einmal gut genug sein

für die meisten Tasks, sage ich mal.

Und dann wird sicher wieder die andere

Welle kommen, wo das

wieder zurückgeht, glaube ich.

Aber wir werden sehen.

So, Explore!

Exploration versus Exploitation.

Und momentan sind wir im Exploration-Modus,

wo wir versuchen herauszufinden, was man überhaupt alles

denn noch damit machen kann.

Und wenn es dann einmal gut genug ist,

wird es abgespeckt,

dass es auf allen möglichen

Plattformen läuft wahrscheinlich.

Ja, also ich bin so ein bisschen

erschlagen von diesem ganzen Thema.

Da gibt es irgendwie

so viele Sachen, wo man in die Tiefe gehen könnte,

wo ich aber jetzt gar nicht

weiß, wie man

da in die Tiefe gehen könnte, weil es mir

sich nicht erschließen.

Und ich finde es super spannend, dass das

einfach so ein

ganzes Riesenfeld ist,

was es gibt und was

man braucht und wo es auch viele Leute gibt,

die da dran arbeiten.

Und auch viele Profis gibt, die da dran arbeiten.

Ich habe selbst

mein Cousin

hat eine Konzertagentur, also die machen da

auch ganz viel im

Live-Bereich und im

Analog-Bereich, sage ich mal.

Und ich habe da überhaupt,

keine Ahnung,

so wenig Ahnung davon, dass ich keine sinnvollen

Fragen stellen kann.

Und ich glaube, an dem Punkt sind wir jetzt irgendwie so, oder?

Dass wir die grobe Form

abgetastet haben von diesem System

und dann haben wir uns schon mal mit der Task-View beschäftigt,

weil wir da alle was dazu sagen können.

so die richtigen Fragen kann man gar nicht mehr stellen.

So geht es mir jetzt gerade. Ich weiß nicht, wie es euch geht.

Ja, also genau.

Ich würde dann eher so etwas fragen,

wie vielleicht, was würdest du denn denken,

sind die interessanten Entwicklungen in diesem ganzen

Audio-Bereich,

in welche Richtung könnte es da gehen, oder gibt es

irgendwelche, wird es jetzt erstmal noch

eine Weile quasi

mehr Modelle

geben?

Ja, ich weiß nicht genau.

Oder wird das

irgendwann

sowieso alles,

naja, also

keine Ahnung. Ich weiß gar nicht, welche Frage ich stellen wollte.

Na, gerne. Also

ja, tschau, es gibt jetzt natürlich viele

alle möglichen neuen Modelle

von vielen Firmen.

Was natürlich ein großes

Thema ist, was wir jetzt gar nicht

angegangen sind bis jetzt,

oder wahrscheinlich auch nicht werden,

ist eben Audiosynthese, die ihr sicher alle wisst.

Ja. Eleven Labs und so weiter.

Oh ja. Also

funktioniert das schon echt extrem gut.

ja, wird sicher viel, viel

Content über solche Wege

produziert werden.

ein anderes großes Thema ist

natürlich

Musik. Da gibt es

relativ wenig im Moment. Also im Moment

stürzen sich alle auf die Sprachanwendungen.

Bei Musik gibt es echt

sehr wenig.

Was es gibt, sind so

Stem-Separation-Musikmodelle, also

wo man verschiedene Instrumente von

einem Mix extrahiert. Funktioniert

meistens auch nur gut, wenn man so

vier Instrumente extrahiert, oder

vielleicht ein bisschen mehr, also Bass, Schlagzeug,

Gesang,

Klavier oder Gitarre halt.

Die klassischen

Setups.

Dann auch gibt es noch sehr wenig

in der Richtung von Musik-Restoration

oder Musik-Aufbereitung.

Es gibt so Online-Mastering-Services schon

sehr lang. Einige, die machen natürlich

ein bisschen was in diese Richtung.

Aber jetzt so spezialisiertere Sachen,

also im Prinzip das, was wir

dabei erforderlich machen, wirklich auf Musik

umgelegt, gibt es

eigentlich noch nicht so wirklich.

Vielleicht gehen wir auch mal ein bisschen mehr in die Richtung. Mal schauen.

bei Musik,

was auch komisch ist, was

nicht so wirklich noch gibt,

ist wiederum

bei Sprache ist ja Transkription natürlich

das heiße Thema.

Es ist jetzt sehr viel weitergegangen in den letzten Jahren.

Analog dazu für Musik.

Transkription gibt es wiederum

sehr wenig.

Also Notanzeigen.

Genau.

Macht ja nicht einer, der

ursprünglich

Entwickler von Django.

Nee, nee, der

Adrian Holowaty.

Ah, der Adrian.

Der macht OCR, glaube ich, für Noten.

Ja, OCR ist wieder ein anderes Thema.

Ist nochmal ein anderes Thema. Aber möglicherweise auch

Noten aus Musik. Das weiß ich aber

gar nicht, ob sie das auch machen.

Ich glaube nicht. Ich glaube, das ist nur OCR.

Ah, okay.

Ich habe es nur so quer gelesen,

aber ich glaube, es ist hauptsächlich OCR.

Also eben das jetzt ist wieder mal

getestet, weil

einfach nur Band, Privat und so weiter

habe ich gedacht, mal ein bisschen was transkribieren

lassen. Aber

da habe ich irgendwie nichts Gescheites gefunden.

Obwohl es ja ähnliche...

Packt der Jochen diesen Link in die Shownotes?

Ja. Ja, das macht er sowieso.

Ja, ich meine,

genau, ich brauche mir ja nur

irgendwie Eingabe, Ausgabe und ein bisschen

Ah, Jochen,

das kann das sein.

von Django

irgendwie, Boost Your Django Developer

Experience von Adam Johnson.

E-Mail habe ich auch gekriegt.

Und jetzt, wenn man sich

quasi da denkt,

irgendwie, vielleicht mal kurze Zeit nochmal,

das lohnt sich, weil da ist doch einiges dazu gekommen.

Also es war ein großes Update.

Es ist jetzt auch so viel mit Debugging drin und so.

Und ja, das Buch fand ich

Und der verkauft auch gerade,

gibt es das Sonderangebot noch,

wo irgendwie drei solche

Pakete zusammen hat?

Ja, stand in dieser E-Mail drin.

Keine Ahnung, aber wenn man die

hört, dann ist es wahrscheinlich nicht mehr.

Ja gut, wenn es das

noch für die schnellen Hörer,

das ist jetzt ein Anreiz, unsere Episoden immer sofort zu hören.

Immer sofort.

Wir werden diesen Link finden,

sofern es ihn noch gibt.

Vielen Dank, Georg, für deine Einblicke auf Phonic.

War großartig. Vielen Dank, Georg.

Vielen Dank für die Einladung.

Alles klar.

Bleibt uns gewogen.

Hallo at peisenpodcast.de für alles Feedback.

Und kommt zu unseren Treffen.

Ja, wo wir noch ein bisschen rausfinden, wann und wo wir das machen.

Bleibt hier bei uns im Rheinland.

Tut mir leid.

Mach ein Anreisen.

Eine gute Gelegenheit.

Aufruf an alle Hörer.

Jetzt sofort abstimmen.

Ja, ihr könnt eine

Fahrgemeinschaft bilden.

Ich kann gerade sagen.

Okay, dann kommen wir auch direkt

an die Adria.

Viel Spaß.

Bis bald.

Tschüss.