WEBVTT

00:00:00.000 --> 00:00:03.740
Hallo liebe Hörerinnen und Hörer, willkommen im Python-Podcast, Episode 61.

00:00:04.660 --> 00:00:05.380
Wirklich 61.

00:00:05.540 --> 00:00:05.960
Wirklich 61.

00:00:06.220 --> 00:00:07.880
Wir haben eben noch ein bisschen über...

00:00:07.880 --> 00:00:10.600
Heute zum Aufhören gehen.

00:00:11.180 --> 00:00:11.640
Hallo Jochen.

00:00:12.220 --> 00:00:16.020
Hallo Dominik, herzlich willkommen und herzlich willkommen Johannes, auch wieder mit dabei.

00:00:16.540 --> 00:00:17.100
Hallo zusammen.

00:00:17.500 --> 00:00:19.260
Wir haben ja schon ein paar mal hier gehabt, glaube ich, ihr kennt ihn.

00:00:19.500 --> 00:00:20.120
Genau, ja.

00:00:20.280 --> 00:00:22.120
Und wir haben auch einen besonderen Gast heute wieder.

00:00:22.760 --> 00:00:23.220
Hallo Georg.

00:00:24.120 --> 00:00:25.700
Hallo, danke für die Einladung.

00:00:26.680 --> 00:00:27.280
Ja, mein Herzliches.

00:00:27.280 --> 00:00:31.800
Eine Vorstellung machen wir vielleicht bestimmt noch später, wenn wir zu Wort kommen.

00:00:31.900 --> 00:00:33.540
Vielleicht fangen wir mit unserer klassischen Struktur an.

00:00:33.580 --> 00:00:35.660
Wir haben ja immer besonders viel Struktur im Podcast, habe ich gehört, Jochen.

00:00:36.120 --> 00:00:36.300
Ja?

00:00:36.660 --> 00:00:36.800
Ja.

00:00:37.280 --> 00:00:37.560
Okay.

00:00:37.660 --> 00:00:40.360
Vielleicht als erstes News, für alle, die es noch nicht mitbekommen haben, wir planen

00:00:40.360 --> 00:00:41.860
ein HörerInnen-Treffen.

00:00:42.000 --> 00:00:44.740
Ja, wir hatten ja letztes Mal da aufgerufen, sich zu melden.

00:00:44.840 --> 00:00:45.640
In der Region Rheinland.

00:00:45.860 --> 00:00:47.320
Es haben sich tatsächlich einige Leute schon gemeldet.

00:00:47.360 --> 00:00:51.400
Genau, wir haben gesagt, ihr solltet uns auf jeden Fall immer noch eine Mail schreiben,

00:00:51.400 --> 00:00:52.740
damit wir das dann ordentlich zählen können.

00:00:52.920 --> 00:00:54.480
Und genau eine hat uns eine Mail geschrieben.

00:00:54.560 --> 00:00:56.140
Ja, die anderen Leute haben das über alle Kanäle gelesen.

00:00:56.160 --> 00:00:57.260
Manche haben sich auf LinkedIn gemeldet.

00:00:57.280 --> 00:00:59.460
Manche haben sich über Discord gemeldet.

00:00:59.560 --> 00:01:01.260
Manche haben sich einfach nur persönlich gemeldet.

00:01:02.820 --> 00:01:03.720
Aber wir kriegen das auch immer wieder.

00:01:03.720 --> 00:01:05.020
Also, wenn ihr Lust habt, dann auf jeden Fall Bescheid.

00:01:05.140 --> 00:01:05.500
Wir würden uns freuen.

00:01:05.500 --> 00:01:10.380
Und ich habe gehört, dass die Stuttgart-Fraktion, die Süddeutschland-Fraktion, die ist gerade

00:01:10.380 --> 00:01:11.500
stark in Führung.

00:01:11.560 --> 00:01:12.380
Macht ihr eine Frage?

00:01:12.540 --> 00:01:12.960
Meint das richtig?

00:01:13.240 --> 00:01:13.920
Nein, leider nicht.

00:01:14.000 --> 00:01:16.780
Das sind, diese Gerüchte kann ich nicht bestätigen.

00:01:17.320 --> 00:01:21.400
Also, auf LinkedIn hat einer gesagt, er würde gerne das lieber in Stuttgart haben als in

00:01:21.400 --> 00:01:21.820
Düsseldorf.

00:01:22.260 --> 00:01:27.100
Aber ansonsten, zum Beispiel auf Spotify wollten vier Düsseldorf und keiner Stuttgart.

00:01:27.280 --> 00:01:29.560
Ja, und bei uns im Discord auch.

00:01:29.900 --> 00:01:32.920
Ja, also, tut mir leid, du musst leider anreisen.

00:01:32.960 --> 00:01:36.220
Aber wir müssen uns halt noch überlegen, wie wir das machen wollen und wo.

00:01:36.540 --> 00:01:40.600
Also, ist jetzt aber letzte Chance für die Süddeutschland-Hörer.

00:01:40.680 --> 00:01:43.660
Ja, okay, wenn man jetzt wirklich will, dass es in Stuttgart stattfindet, könnte man nochmal.

00:01:44.160 --> 00:01:45.120
Ihr habt noch die Chance.

00:01:45.380 --> 00:01:45.540
Ja.

00:01:46.280 --> 00:01:47.060
Stimmen Sie jetzt ab.

00:01:47.600 --> 00:01:49.080
Die Telefonleitungen sind geschaltet.

00:01:49.960 --> 00:01:54.080
Die Spuren sind scharf gestellt am Mischpult, mit dem wir nie Probleme haben.

00:01:54.080 --> 00:01:54.880
Das war es auch schon wieder.

00:01:55.060 --> 00:01:55.800
Dann bleibt uns gewogen.

00:01:55.900 --> 00:01:56.840
Hallo, bei Python Podcast.

00:01:56.840 --> 00:01:57.400
Das konnte eh.

00:01:57.460 --> 00:01:57.960
Haben wir Picks?

00:01:58.280 --> 00:01:58.460
Nein.

00:01:59.660 --> 00:02:01.360
Wir wollten News machen, glaube ich, noch.

00:02:01.600 --> 00:02:02.080
Okay, gut.

00:02:02.580 --> 00:02:05.660
Ich habe, ehrlich gesagt, fast gar nichts.

00:02:05.800 --> 00:02:09.920
Also, es gibt eine neue Rails-Version, die ein bisschen mehr Deployment dazu kann, aber

00:02:09.920 --> 00:02:10.020
keine.

00:02:10.020 --> 00:02:12.660
Okay, wir waren, glaube ich, erst vor zwei Wochen News gemacht und in den letzten zwei

00:02:12.660 --> 00:02:13.480
Wochen ist nicht so wahnsinnig viel passiert.

00:02:13.480 --> 00:02:14.720
Ja, und es ist nicht so wirklich viel passiert.

00:02:14.800 --> 00:02:15.300
Keine Ahnung warum.

00:02:15.800 --> 00:02:16.840
Dann skippen wir heute die News.

00:02:17.020 --> 00:02:18.080
Oder hast du mit News mitgebracht?

00:02:18.080 --> 00:02:21.120
Oder hat jemand von euch irgendwas Interessantes, was in der Python-Welt passiert ist?

00:02:21.940 --> 00:02:22.100
Nein.

00:02:22.260 --> 00:02:22.420
Nein.

00:02:22.420 --> 00:02:23.160
Ich habe nichts.

00:02:24.060 --> 00:02:26.760
Dann lassen wir einfach den Georg sich selbst vorstellen und ein bisschen was.

00:02:26.840 --> 00:02:27.220
Dann machen wir hier.

00:02:27.240 --> 00:02:27.880
Hey, das ist nicht eine tolle Idee.

00:02:28.420 --> 00:02:30.620
Obwohl, wir könnten auch einmal noch kurz Werbung machen für uns selber.

00:02:31.420 --> 00:02:32.240
Das ist eine gute Idee.

00:02:32.480 --> 00:02:32.660
Wir können Werbung machen.

00:02:33.040 --> 00:02:33.200
Bitte?

00:02:33.460 --> 00:02:34.380
Willst du für uns selber Werbung machen?

00:02:34.400 --> 00:02:34.700
Ja, okay.

00:02:34.760 --> 00:02:36.020
Ja, ganz kurz vielleicht.

00:02:36.620 --> 00:02:38.340
Miet mich, miet mich, miet mich.

00:02:38.780 --> 00:02:39.380
Jetzt hier.

00:02:39.820 --> 00:02:40.620
Ja, wie war das?

00:02:40.980 --> 00:02:43.040
Ja, man kann uns auch mieten.

00:02:43.620 --> 00:02:46.520
Und ich habe gehört, das muss man wiederholen.

00:02:46.760 --> 00:02:48.060
Sonst merken sich die Leute das nicht.

00:02:48.180 --> 00:02:48.460
Deswegen.

00:02:48.700 --> 00:02:49.720
Wir haben das ja schon einmal gemacht.

00:02:50.060 --> 00:02:50.940
Aber einmal ist zu wenig.

00:02:51.560 --> 00:02:53.080
Und deswegen sagen wir das einfach nochmal.

00:02:53.440 --> 00:02:54.920
Also, wenn ihr interessante Projekte habt oder so.

00:02:55.600 --> 00:02:56.660
Die meisten von uns sind irgendwie.

00:02:56.840 --> 00:03:00.240
Und auch im Prinzip.

00:03:00.980 --> 00:03:02.260
Für schöne Projekte buchbar.

00:03:02.760 --> 00:03:05.020
Und ich wiederhole das jetzt mal in meiner Stimme.

00:03:05.560 --> 00:03:05.860
Auch nochmal.

00:03:06.540 --> 00:03:07.820
Auch ich bin mietbar.

00:03:08.580 --> 00:03:10.460
Und immer für interessante Projekte zu haben.

00:03:11.020 --> 00:03:11.420
Ja, wunderbar.

00:03:11.660 --> 00:03:13.000
Und Georg, wie ist das bei dir?

00:03:13.080 --> 00:03:15.120
Bist du auch mietbar oder bist du irgendwo angestellt?

00:03:15.880 --> 00:03:17.620
Wir sind alle mietbar irgendwie, oder?

00:03:17.740 --> 00:03:18.600
Ja, gut.

00:03:18.720 --> 00:03:21.660
Also, ihr wisst ja schon, dass ihr alle für die Werbung im Podcast eine Rechnung bekommt.

00:03:22.500 --> 00:03:22.960
Von mir.

00:03:24.680 --> 00:03:25.280
Das zählt.

00:03:25.280 --> 00:03:25.600
So.

00:03:25.600 --> 00:03:29.700
Also, Dominik, das war jetzt deine Überleitung, damit du den Georg vorstellen kannst.

00:03:30.040 --> 00:03:30.160
Ja.

00:03:30.240 --> 00:03:30.780
Ja, gut dann.

00:03:32.400 --> 00:03:32.600
Okay.

00:03:32.860 --> 00:03:33.540
Entschuldigung, Georg.

00:03:34.120 --> 00:03:34.380
Bitte.

00:03:35.200 --> 00:03:37.340
Ja, ich bin der Georg.

00:03:37.460 --> 00:03:37.640
Hallo.

00:03:38.740 --> 00:03:45.940
Und ja, wenn man mich mieten will, ich bin aus Österreich an der slowenischen Grenze ganz im Süden.

00:03:46.300 --> 00:03:47.380
Da in der Nähe von Graz.

00:03:48.300 --> 00:03:49.440
Und warum bin ich da?

00:03:49.580 --> 00:03:50.580
Also, wir haben so ein Projekt.

00:03:50.860 --> 00:03:51.960
Afonik nennen sie das.

00:03:52.700 --> 00:03:53.600
Da geht es um Audioverbesserung.

00:03:54.520 --> 00:03:55.460
Vielleicht noch einmal.

00:03:55.460 --> 00:03:56.480
Wenn ich da ganz kurz einhaken darf.

00:03:56.780 --> 00:03:58.520
Afonik habt ihr auf jeden Fall schon mal gehört.

00:03:59.400 --> 00:04:03.100
Also, zumindest, wenn ihr unseren Podcast schon mal gehört habt, habt ihr auf jeden Fall Afonik gehört.

00:04:03.100 --> 00:04:03.980
Also, den Effekt zumindest.

00:04:04.040 --> 00:04:08.680
Weil wir von Anfang an alle unsere Episoden durch Afonik jagen.

00:04:08.720 --> 00:04:08.860
Ja.

00:04:09.520 --> 00:04:10.480
Aha, so gehört.

00:04:10.700 --> 00:04:11.440
Nicht schlecht.

00:04:11.540 --> 00:04:11.700
Ja.

00:04:12.800 --> 00:04:13.040
Ja.

00:04:14.240 --> 00:04:16.760
Zuerst mal zu mir.

00:04:16.900 --> 00:04:19.980
Also, ich habe bei uns da in Graz Toningenieur studiert.

00:04:19.980 --> 00:04:21.100
Das ist eine interessante Studie.

00:04:21.180 --> 00:04:25.000
Da machen wir so Audiosachen und Informatik und Elektrotechnik Sachen.

00:04:25.000 --> 00:04:26.580
In Kombination quasi halt.

00:04:26.800 --> 00:04:31.600
Also, du hättest das Audioproblem hier, was wir am Anfang der Episode hatten, heute sehr viel schneller in den Griff bekommen.

00:04:32.040 --> 00:04:34.420
Deswegen habe ich gesagt, warum verwendet ihr einen Mischpuls?

00:04:34.860 --> 00:04:36.000
Dann hat man keine Probleme.

00:04:36.960 --> 00:04:38.140
Dann hat man keines verwendet.

00:04:38.520 --> 00:04:39.420
Na, wie auch immer.

00:04:40.240 --> 00:04:44.000
Und, ja, dann mehr so in die Richtung Informatik.

00:04:44.800 --> 00:04:46.100
Also, alles ein bisschen so kombiniert.

00:04:46.240 --> 00:04:49.840
Also, Audio und Informatik und Machine Learning und so weiter.

00:04:51.520 --> 00:04:54.920
Und dadurch war auch sehr viel Podcast.

00:04:55.000 --> 00:04:55.600
Ich höre auch immer.

00:04:55.820 --> 00:05:02.400
Und dadurch bin ich dann irgendwie zu Afonik gekommen, wo es eben um die Verbesserung von Audi gegangen ist.

00:05:02.400 --> 00:05:06.880
Und was am Anfang auch noch ganz wichtig war, ist, verschiedene Dateien zu erstellen.

00:05:07.120 --> 00:05:09.800
Sei es MP3, AAC.

00:05:10.040 --> 00:05:11.980
Da hat es ja alle möglichen Formate damals noch gegeben.

00:05:12.080 --> 00:05:14.540
Und die Metadaten korrekt zu haben und so weiter und so fort.

00:05:15.180 --> 00:05:18.360
Und so ist das ganze Projekt sozusagen entstanden.

00:05:19.080 --> 00:05:21.500
Warum jetzt in beiden Podcasts, wenn Sie einige fragen.

00:05:21.740 --> 00:05:24.800
Also, bei uns ist ja alles mit, oder fast alles mit.

00:05:24.800 --> 00:05:25.700
Wir haben es mit beiden gemacht.

00:05:26.740 --> 00:05:30.960
Weil, allein schon von der ganzen Algorithmen-Seite ist das alles mit beiden.

00:05:31.360 --> 00:05:33.460
Hat das immer, war das immer schon auf beiden.

00:05:33.580 --> 00:05:35.860
Dann das ganze Websystem haben wir auch mit beiden gemacht.

00:05:36.060 --> 00:05:38.700
Da erzählen wir bitte gerne gleich noch ein bisschen ausführlicher drüber.

00:05:38.780 --> 00:05:41.200
Das interessiert uns natürlich sehr.

00:05:41.800 --> 00:05:42.400
Glaube ich.

00:05:42.980 --> 00:05:43.260
Vielleicht.

00:05:44.360 --> 00:05:44.540
Ja.

00:05:45.080 --> 00:05:45.520
Okay.

00:05:46.060 --> 00:05:47.740
Ja, das klingt auch gut.

00:05:48.140 --> 00:05:50.140
Und, genau.

00:05:50.480 --> 00:05:51.840
Ich weiß nicht, wie kommt denn dann.

00:05:51.840 --> 00:05:52.860
Also, ich habe immer schon.

00:05:53.140 --> 00:05:53.800
Also, ich höre ja.

00:05:53.800 --> 00:05:55.580
Ich habe schon ganz lange immer Podcasts gehört.

00:05:56.060 --> 00:05:59.760
Und, gefühlt war so auch schon relativ früh mit dabei.

00:06:00.460 --> 00:06:03.700
Wie, war ein Podcast speziell irgendwie?

00:06:05.060 --> 00:06:09.380
Auch so eine Motivation dafür, irgendwie das zu machen?

00:06:09.620 --> 00:06:15.440
Oder ist das halt irgendwie später dazu gekommen, dass das Podcast funktioniert vielleicht?

00:06:16.300 --> 00:06:16.400
Ja.

00:06:17.400 --> 00:06:18.860
Ja, also zuerst.

00:06:19.660 --> 00:06:22.700
Das erste System war quasi explizit für Podcasts.

00:06:22.700 --> 00:06:22.820
Ja.

00:06:23.360 --> 00:06:28.980
Das war der Tim damals, der Tim Pritzlaff, der immer gestöhnt hat, dass alles so kompliziert ist.

00:06:29.860 --> 00:06:34.080
Und, da denkt man sich dann natürlich, na okay, da braucht man halt immer so ein Tool.

00:06:34.720 --> 00:06:36.100
Und, das hat dann eben so angefangen.

00:06:37.120 --> 00:06:43.960
Zuerst mit dem Leveling, dass man eben verschiedene Lautstärken von verschiedenen Sprechern auf gleiche Levels bringt und so weiter.

00:06:44.860 --> 00:06:47.920
Und, dann eben so ein Websystem, also so ein Webinterface dazu.

00:06:48.560 --> 00:06:52.420
Und, von dort weg ist es dann halt weiter gewachsen.

00:06:52.700 --> 00:06:54.480
In andere Bereiche.

00:06:55.440 --> 00:06:58.560
Der Tim hat das dann eben auch angekündigt auf seinem Podcast damals.

00:06:59.680 --> 00:07:03.120
Und, so sind halt viele andere Podcaster auch dazukommen.

00:07:03.640 --> 00:07:03.780
Ja.

00:07:03.780 --> 00:07:06.380
Und, dann hat sich das immer sehr schön langsam weiter verbreitet.

00:07:07.040 --> 00:07:11.060
Ja, ich glaube, ich habe es auch daher immer gehört, denke ich wahrscheinlich, ja.

00:07:12.060 --> 00:07:12.660
Genau, ja.

00:07:12.700 --> 00:07:13.060
Ja, ja.

00:07:14.800 --> 00:07:17.060
Ja, das ist ja auch interessant.

00:07:17.060 --> 00:07:22.680
Und, ich habe auch den Eindruck, dass ihr da am Anfang relativ viel so Scikit-Learn,

00:07:22.700 --> 00:07:28.640
irgendwie verwendet habt zumindest für irgendwie diese ganzen Anpassungen.

00:07:29.820 --> 00:07:35.580
Ja, also wir ganz am Anfang so viel mit NumPy, Scikit-Learn, ja, SciPy,

00:07:35.740 --> 00:07:41.800
also diese ganzen Signalfarbedocs und Machine Learning Packages, was es eben damals so gegeben hat.

00:07:43.060 --> 00:07:44.700
Und, das war eh...

00:07:44.700 --> 00:07:46.100
Vielleicht kannst du kurz sagen, wann damals war?

00:07:47.240 --> 00:07:52.680
Damals, also gestartet sind wir 2013, wenn ich das richtig im Kopf habe.

00:07:52.700 --> 00:07:54.780
Also, das ist von bald das zwölfte Jahr.

00:07:55.260 --> 00:07:56.300
Schon ein bisschen was sehr Gutes.

00:07:56.440 --> 00:08:03.220
Ja, das waren so die frühen 2010er Jahre quasi, wo die erste Version entstanden ist.

00:08:04.220 --> 00:08:10.320
Und, ja, ich schätze mal, eure Hörer kennen eh diese ganzen Packages, gell.

00:08:10.400 --> 00:08:16.940
Also, NumPy, so Array Processing und SciPy setzt eben drauf auf.

00:08:16.940 --> 00:08:19.620
Hat ein paar zusätzliche Algorithmen.

00:08:20.300 --> 00:08:21.940
Vor allem im Signalfarbedungsbereich.

00:08:22.700 --> 00:08:30.360
Und, Scikit-Learn, ja, da waren halt früher hauptsächlich alle möglichen Klassifikations- und Clustering-Algorithmen,

00:08:31.040 --> 00:08:33.420
auf denen wir dann halt auch aufgebaut haben.

00:08:34.340 --> 00:08:38.960
Und, ja, vielleicht mal ein Beispiel, was wir damals so machen konnten.

00:08:40.060 --> 00:08:43.360
Oder geht natürlich jetzt auch noch, aber jetzt gibt es halt andere Techniken auch.

00:08:44.140 --> 00:08:49.140
Wir haben halt damals versucht, früher hat es ja eigentlich nur so Audio-Plugins gegeben,

00:08:49.140 --> 00:08:52.140
was halt Signalfarbedungsalgorithmen waren, die halt irgendwie...

00:08:52.700 --> 00:08:55.500
abgelaufen sind und man hat da ein paar Rahmen da dann eingestellt.

00:08:55.980 --> 00:09:00.880
Und im Prinzip war das immer noch sehr schwer zu bedienen, wie man es am Mischpult sieht.

00:09:02.000 --> 00:09:07.380
Und das Ganze haben wir versucht eigentlich einmal zu automatisieren.

00:09:07.500 --> 00:09:12.280
Das heißt, wir haben halt nicht nur diese DSP-Algorithmen gehabt, die man aufs Audio irgendwie anwendet,

00:09:12.360 --> 00:09:16.340
sondern eben versucht, mit Klassifikatoren gewisse Sachen im Audio zu erkennen.

00:09:16.340 --> 00:09:22.280
Also, wo zum Beispiel verschiedene Sprecher sind oder wo Musikteile sind, wo jetzt nur Rausch-Teile sind.

00:09:22.700 --> 00:09:27.300
Oder eben nur Hintergrundgeräusche oder Hintergrundmusik, Vordergrundmusik und lauter solche Sachen.

00:09:28.020 --> 00:09:34.100
Und mit diesen Ergebnissen, die wir eben von den Klassifikatoren dann bekommen haben,

00:09:34.300 --> 00:09:44.940
dafür haben wir zum Beispiel im Scikit-Learn Sachen verwendet, wie jetzt SVNs oder irgendeine Decision Trees mit Feature Extraction vorher.

00:09:45.260 --> 00:09:52.680
Und aufgrund von diesen Analysedaten haben wir dann eben die Parameter der ganzen DSP-Algorithmen automatisch gesetzt.

00:09:52.700 --> 00:10:01.520
Also zum Beispiel, wenn man einen D-Noiser hat, haben wir das Audio mal segmentiert in verschiedene Abschnitte, wo verschiedene Noise-Profile sind.

00:10:01.840 --> 00:10:06.520
Also zum Beispiel, wir reden jetzt hier in einem Raum, dann geht man raus, dann hat man natürlich ein anderes Noise-Profil.

00:10:07.000 --> 00:10:09.760
Da haben wir so ein Clustering gemacht, das das Audio segmentiert.

00:10:10.320 --> 00:10:16.420
Und dann in den einzelnen Segmenten haben wir geschaut, wo jetzt Sprecher sind oder Musikteile.

00:10:16.420 --> 00:10:22.420
Und in den stillen Teilen, wo eben keiner spricht, also wo nur der Noise-Floor sozusagen unten überbläst,

00:10:22.700 --> 00:10:27.500
bleibt, diese haben wir dann so zusammengestitcht und daraus Noise-Profile extrahiert

00:10:27.500 --> 00:10:33.320
und diesen Noise dann quasi vom Gesamtsignal abgezogen.

00:10:34.000 --> 00:10:38.820
Und wiederum entschieden, ob das überhaupt Sinn macht, dass man das macht, oder ob das nicht Musik ist.

00:10:38.920 --> 00:10:40.220
Und da wollen wir das vielleicht nicht abziehen.

00:10:40.800 --> 00:10:46.800
Also die Grundidee ist halt, dass man so verschiedene Klassifikatoren hat und mit denen dann die Algorithmen steuert.

00:10:47.560 --> 00:10:49.780
Und für das hat das ganz gut funktioniert.

00:10:49.920 --> 00:10:52.300
Aber diese Algorithmen sind dann quasi noch so wie klassische.

00:10:52.300 --> 00:10:58.600
Und ich weiß jetzt nicht, ich habe jetzt so im Hinterkopf, da gibt es irgendwie so Audio-Workstations und irgendwelche Plugins und so.

00:10:58.800 --> 00:11:00.700
Und da kann man dann wahrscheinlich die Parameter einstellen.

00:11:00.700 --> 00:11:03.060
Aber sozusagen, die sind dann halt übernommen.

00:11:03.340 --> 00:11:07.160
Aber wie man die einstellt, ist automatisiert über halt irgendwie...

00:11:07.160 --> 00:11:09.400
Übernommen, also die haben wir natürlich schon selber entwickelt.

00:11:09.680 --> 00:11:12.200
Aber vom Prinzip her ähnlich natürlich.

00:11:12.540 --> 00:11:18.360
Also man hat halt bestimmte Filter oder Kompressoren, Limiter und was gibt es noch?

00:11:18.480 --> 00:11:22.280
Alles eben so FFT-basierte Prozesse, so wie dieses Denoising zum Beispiel.

00:11:22.300 --> 00:11:22.820
Ja.

00:11:23.560 --> 00:11:30.480
Und auf diese Weise steuert man dann diese klassischen DSB-Algorithmen quasi.

00:11:31.460 --> 00:11:31.640
Ja.

00:11:32.420 --> 00:11:36.780
Aber genau gibt es da nicht irgendwie, wenn man jetzt zum Beispiel...

00:11:36.780 --> 00:11:43.220
Das ist ja auch ein spezieller Anwendungsfall eigentlich, dass man halt so ein fertiges Audio hat, was man dann post-processen will.

00:11:44.280 --> 00:11:50.440
Kann man da nicht auch noch irgendwie vielleicht irgendwie Informationen, mehr Informationen verwerten,

00:11:50.440 --> 00:11:51.940
wenn man halt das ganze Audio...

00:11:52.300 --> 00:11:59.200
Normalerweise diese Audio-Work-Sessions sind ja immer mehr so drauf ausgelegt, dass man halt irgendwie einen Mix so live erzeugt.

00:11:59.520 --> 00:12:02.120
Und da hat man ja gar nicht so viele Informationen.

00:12:02.840 --> 00:12:11.240
Genau. Das ist eben der Unterschied von unserem System gewesen zu den anderen Sachen oder zu den meisten anderen Sachen.

00:12:12.060 --> 00:12:16.660
Also dieses Konzept, wie es im Computer meistens funktioniert.

00:12:17.340 --> 00:12:21.940
Also in Audio-Plugins ist es halt eigentlich ein Realtime-Konzept.

00:12:22.180 --> 00:12:22.260
Also...

00:12:22.260 --> 00:12:22.280
Ja.

00:12:22.300 --> 00:12:26.440
Ein Plugin sieht ja nur einen kleinen Buffer an Audio, den er prozessiert.

00:12:27.020 --> 00:12:30.740
Und den muss er jetzt auch so schnell wie möglich prozessieren und dann spuckt er ihn wieder aus,

00:12:31.260 --> 00:12:34.080
weil das System ja auf Realtime ausgelegt ist.

00:12:34.760 --> 00:12:43.400
Und es hat zumindest damals sehr wenig Programme gegeben, die jetzt ja wirklich so Offline-Audio-Berechnung gemacht haben.

00:12:44.220 --> 00:12:48.860
Und das war damals eben der Levelator, den es da gegeben hat.

00:12:48.860 --> 00:12:51.860
Das war auch so ein Programm, das einfach die Levels quasi gleichgeregelt...

00:12:52.300 --> 00:12:54.600
... von Aufnahmen.

00:12:55.160 --> 00:12:57.080
Ziemlich Brute-Force.

00:12:57.180 --> 00:12:58.860
Also der hat nicht geschaut, ob da irgendwie Musik ist.

00:12:58.940 --> 00:13:02.400
Das hat er vollkommen zerstört, aber halt einfach versucht, alles irgendwie gleich laut zu machen.

00:13:04.580 --> 00:13:04.940
Und...

00:13:04.940 --> 00:13:10.680
Dieses Programm hat mich damals ein bisschen fasziniert, weil ich doch aus der Audio-Bubble-Saison gekommen bin.

00:13:10.800 --> 00:13:12.660
Und das haben mir die Podcaster damals gezeigt.

00:13:13.140 --> 00:13:14.980
Und ich habe mir gedacht, warum habe ich noch nie von dem gehört?

00:13:15.060 --> 00:13:16.180
Das ist ja eigentlich ganz praktisch.

00:13:16.840 --> 00:13:22.180
Weil in der ganzen professionellen Audio-Welt dieses Konzept einfach nicht existente ist.

00:13:22.300 --> 00:13:23.580
Und das war also wirklich...

00:13:23.580 --> 00:13:24.360
Also...

00:13:24.360 --> 00:13:31.120
Weil es da halt natürlich die super speziellen Plugins geben, die von den namhaften Herstellern und so weiter.

00:13:31.860 --> 00:13:35.120
Aber dieses Konzept haben wir dann auch versucht ähnlich zu machen.

00:13:35.240 --> 00:13:39.480
Also weg von dem Plugin-Konzept und eben einfach das gesamte Audio analysiert.

00:13:39.660 --> 00:13:41.940
Das heißt, man hat vorher schon mal schauen können, wo was passiert.

00:13:42.060 --> 00:13:44.320
Und danach eben die Algorithmen dann darauf anpassen.

00:13:46.240 --> 00:13:47.820
Zusätzlich ist es natürlich praktisch.

00:13:47.900 --> 00:13:49.760
Das kann man dann als Webservice anbieten.

00:13:50.100 --> 00:13:52.220
Weil da kann man dann das ganze Pfeil hinterholen.

00:13:52.220 --> 00:13:52.280
Und dann kann man dann auch die Algorithmen dann auch anpassen.

00:13:52.280 --> 00:13:52.280


00:13:52.280 --> 00:13:52.280


00:13:52.280 --> 00:13:52.280


00:13:52.280 --> 00:13:56.280
Und das wird dann halt einfach sozusagen im Hintergrund prozessiert.

00:13:57.180 --> 00:14:02.400
Und dann bieten sie natürlich auch andere Sachen an, dass man das Pfeil dann gleich mal hindistributiert.

00:14:02.560 --> 00:14:05.520
Also auf YouTube und auf Soundcloud war damals man ziemlich populär.

00:14:05.740 --> 00:14:08.720
Und alle möglichen anderen Tages auf den eigenen Server.

00:14:09.540 --> 00:14:16.580
Oder verschiedene andere Publikations- und Encoding-Steps dann dazu tun.

00:14:17.380 --> 00:14:18.740
Darf ich noch so ein paar Fragen stellen?

00:14:18.740 --> 00:14:19.860
Vielleicht zu diesem Audio-Ding.

00:14:19.980 --> 00:14:22.120
Das würde mich so ein bisschen mehr interessieren.

00:14:22.120 --> 00:14:25.500
Also du hast das aus der Tontechnik-Welt quasi gedacht, ja?

00:14:26.120 --> 00:14:29.520
Und wenn du sagst, okay, du möchtest die Sachen auspegeln irgendwie,

00:14:29.660 --> 00:14:33.380
dann guckst du darauf, dass das so ein bisschen harmonisch ist.

00:14:33.500 --> 00:14:35.840
Und du guckst, dass das so ein bisschen Raum gibt.

00:14:36.160 --> 00:14:42.100
Und du versuchst dann mit den Filtern, die durch das Machine Learning trainiert sind,

00:14:42.180 --> 00:14:46.020
zu erkennen, was jetzt ein Störgeräusch ist und nicht zur Stimme gehört.

00:14:48.360 --> 00:14:50.980
Und ja, also so.

00:14:51.500 --> 00:14:52.100
Ich versuch's so ein bisschen.

00:14:52.100 --> 00:14:52.980
Einfach darzustellen, ja?

00:14:53.060 --> 00:14:57.280
Weil ich möchte gerne diesen Prozess aus dieser Audio-Perspektive so ein bisschen eher verstehen.

00:14:58.420 --> 00:14:58.700
Ja.

00:15:00.040 --> 00:15:04.660
Naja, ich rede jetzt immer noch aus der Perspektive, wie das quasi früher war.

00:15:05.940 --> 00:15:10.460
Aber nehmen wir vielleicht mal dieses Leveling-Beispiel.

00:15:10.640 --> 00:15:11.740
Was muss man da machen?

00:15:11.900 --> 00:15:13.620
Also wenn man jetzt verschiedene Sprecher hat,

00:15:14.500 --> 00:15:17.080
zum Beispiel wie wir da.

00:15:17.240 --> 00:15:19.400
Einer ist halt viel lauter, einer ist viel leiser.

00:15:19.400 --> 00:15:21.840
Und das wechselt sich dann ab.

00:15:22.100 --> 00:15:25.640
Und wo war er jetzt?

00:15:25.800 --> 00:15:28.300
Ja genau, dann hat man irgendwelche anderen Sachen noch dabei.

00:15:28.540 --> 00:15:30.180
Also Intro-Musik zum Beispiel.

00:15:30.520 --> 00:15:35.400
Oder dann ist wieder mal Pause und dann hört man irgendwelche anderen Geräusche.

00:15:36.320 --> 00:15:41.000
Dann nennt sich das so Voice-Activity-Detection.

00:15:41.160 --> 00:15:46.300
Also man detektiert eben, wo jetzt wirklich die Sprache aktiv ist und wo jetzt Pausen sind.

00:15:46.940 --> 00:15:50.100
Dann detektiert man zum Beispiel, wo jetzt Musiksegmente sind.

00:15:50.100 --> 00:15:51.100
Und dann wo jetzt irgendwas...

00:15:52.100 --> 00:15:57.640
Anderes ist, also irgendeine Störgeräusche, die jetzt weder Sprache noch Musik sind sozusagen.

00:15:58.340 --> 00:16:02.220
Und dann, wenn man jetzt die verschiedenen Sprachsegmente hat,

00:16:02.280 --> 00:16:04.720
und da sind große Level-Unterschiede,

00:16:04.800 --> 00:16:07.380
dann versucht man die so schnell wie möglich nachzuregeln,

00:16:07.540 --> 00:16:09.360
dass sie möglichst ähnlich laut klingen.

00:16:09.620 --> 00:16:12.800
Also relativ schnell zu faden.

00:16:13.500 --> 00:16:15.260
Bei Musik muss man das jetzt wieder anders machen,

00:16:15.320 --> 00:16:17.140
weil wenn man in der Musik jetzt so schnell nachregelt,

00:16:17.140 --> 00:16:21.040
dann würde man die ganze innere Dynamik der Musik zerstören,

00:16:21.120 --> 00:16:22.080
weil Musik braucht ja viel mehr.

00:16:22.080 --> 00:16:26.200
Mehr Dynamik natürlich, sind ja alles ziemlich erwurscht.

00:16:27.020 --> 00:16:30.040
Wurscht in dem Sinn, dass alles gleich laut ist und dann nicht mehr gut klingt.

00:16:30.620 --> 00:16:32.780
Das heißt, bei Musik muss man das natürlich wiederum anders machen,

00:16:32.880 --> 00:16:34.380
deswegen muss man das vorher klassifizieren.

00:16:34.460 --> 00:16:36.400
Dann hat man wieder irgendwelche anderen Geräusche,

00:16:36.460 --> 00:16:38.420
die jetzt weder Musik noch Sprache sind.

00:16:38.500 --> 00:16:41.080
Die wird man wahrscheinlich nicht raufregeln wollen.

00:16:41.800 --> 00:16:46.000
Also das kennt man von so alten Automatic-Gain-Control-Algorithmen

00:16:46.000 --> 00:16:48.640
bei diversen Recording-Systemen.

00:16:48.680 --> 00:16:50.400
Wenn man das einstellt und dann stehen lässt

00:16:50.400 --> 00:16:51.740
und dann mal der Zeit lang nichts sagt,

00:16:51.740 --> 00:16:55.140
dann wird auf einmal der Noise-Begel komplett hochgezogen vom Hintergrund

00:16:55.140 --> 00:16:57.500
und dann fängt wieder irgendwer zum Sprechen an,

00:16:57.500 --> 00:17:00.060
dann regelt der Begel wieder runter

00:17:00.060 --> 00:17:02.620
und dann ist der Noise wieder unten und die Sprache kommt wieder.

00:17:02.620 --> 00:17:05.980
Also genau solche Pumping-Artefakte,

00:17:05.980 --> 00:17:07.980
dass irgendwas hochgezogen wird, was man nicht will,

00:17:07.980 --> 00:17:09.980
will man natürlich nicht haben.

00:17:09.980 --> 00:17:12.380
Und das kann man natürlich viel besser machen,

00:17:12.380 --> 00:17:14.740
wenn man das ganze Pfeil vorher klassifiziert,

00:17:14.740 --> 00:17:19.900
wo welche Events passieren, die relevant sind für diesen Algorithmus jetzt.

00:17:19.900 --> 00:17:21.580
Und dann weiß man schon,

00:17:21.580 --> 00:17:22.820
das ist da und das ist da

00:17:22.820 --> 00:17:29.060
und dann kann man dieses Nachregeln natürlich ein bisschen besser machen, ganz einfach.

00:17:29.640 --> 00:17:30.900
Ich hoffe, das war jetzt deine Frage.

00:17:31.160 --> 00:17:35.080
Ja, ich versuche mir noch vorzustellen, wie das genau aussieht.

00:17:35.200 --> 00:17:38.500
Also wenn du sagst, die Musik braucht jetzt ein bisschen mehr Dynamik, hast du gesagt,

00:17:39.600 --> 00:17:41.740
dann lässt den Filter ein bisschen mehr auf

00:17:41.740 --> 00:17:44.740
und du regelst halt nicht die einzelnen Frequenzen alle auf laut,

00:17:44.880 --> 00:17:46.660
sondern willst dir ein bisschen auch Raum geben vielleicht.

00:17:46.660 --> 00:17:51.000
Ich versuche das so ein bisschen visuell zu verstehen.

00:17:51.580 --> 00:17:54.220
Was bei Musik vielleicht nicht ganz so einfach zu erklären ist.

00:17:55.880 --> 00:17:59.480
Ja, aber ist Musik eigentlich überhaupt jemals sozusagen auch das Ziel gewesen,

00:17:59.580 --> 00:18:00.900
dass man das halt verbessern kann?

00:18:00.900 --> 00:18:07.680
Oder ist das auch vor allem nicht eher schon immer irgendwie Sprache rein Sprache gewesen?

00:18:08.380 --> 00:18:11.660
Ja, aber du musst ja mit der Musik auch irgendwie klar kommen.

00:18:12.080 --> 00:18:14.620
Das Problem ist ja, du kannst ja nicht einfach nichts machen,

00:18:14.720 --> 00:18:17.260
weil wenn du die Sprache irgendwie großartig nachregelst

00:18:17.260 --> 00:18:18.860
und dann ist die Musik wieder ganz woanders,

00:18:19.000 --> 00:18:20.780
dann passt das ja erst wieder nicht zusammen.

00:18:21.460 --> 00:18:21.560
Ja.

00:18:21.580 --> 00:18:26.960
Also wir versuchen natürlich die Musik so wenig wie möglich zu verändern,

00:18:27.120 --> 00:18:30.400
sag ich mal, also künstlerisch zu verändern,

00:18:30.840 --> 00:18:35.860
sondern einfach so anzupassen, dass sie zum Rest von der Produktion passt.

00:18:35.860 --> 00:18:42.380
Also dass halt die Lautstärkenverhältnisse zu den Sprechern und der Musik einigermaßen passt,

00:18:43.260 --> 00:18:47.200
dass die Lautstärkenverhältnisse in der Musik nicht so viel verändert werden.

00:18:47.500 --> 00:18:50.560
Also natürlich werden sie ein bisschen verändert, aber nicht zu extrem.

00:18:50.560 --> 00:18:54.380
Und spektral wird die Musik jetzt eigentlich auch nicht verändert.

00:18:54.900 --> 00:18:56.920
Also zumindest bis jetzt nicht.

00:18:57.380 --> 00:18:58.620
Vielleicht machen wir das in Zukunft nochmal.

00:18:59.280 --> 00:19:01.340
Also, weil wir gehen natürlich davon aus,

00:19:01.980 --> 00:19:04.080
meistens hat man so einen Einspieler oder sonst irgendwas,

00:19:04.200 --> 00:19:05.660
das ist schon vorproduziert,

00:19:06.240 --> 00:19:08.320
das ist künstlerisch meistens so gewollt

00:19:08.320 --> 00:19:10.820
und da will man jetzt nicht großartig was ändern dabei.

00:19:11.760 --> 00:19:15.760
Außer vielleicht ein bisschen Neues weglöschen oder eben die Begel anpassen,

00:19:15.880 --> 00:19:16.880
dass sie zum Rest passen.

00:19:17.580 --> 00:19:19.840
Was man natürlich auch sehr oft zu unseren Musikmixes,

00:19:19.840 --> 00:19:20.440
da macht es sich um die Musikmixer,

00:19:20.440 --> 00:19:20.760
da macht es sich um die Musikmixer.

00:19:20.760 --> 00:19:23.760
Also wenn man jetzt ein Stück hat, das sehr laut ist und sehr leise,

00:19:23.880 --> 00:19:26.640
das passen wir schon an, dass das dann wieder zusammenpasst.

00:19:26.660 --> 00:19:28.880
Aber jetzt nicht den spektralen Content in der Musik.

00:19:29.940 --> 00:19:30.120
Ja.

00:19:31.400 --> 00:19:33.440
Aber genau, ist das denn...

00:19:34.000 --> 00:19:38.760
Aber inzwischen hat sich ja auch im Machine Learning Bereich so einiges getan,

00:19:39.340 --> 00:19:40.840
so in den letzten zehn Jahren.

00:19:41.760 --> 00:19:44.320
Ich meine, 2013 hat das mit dem Deep Learning und so gerade erst angefangen.

00:19:45.340 --> 00:19:45.520
Ja.

00:19:45.580 --> 00:19:48.200
Gibt es da inzwischen auch Geschichten,

00:19:48.200 --> 00:19:50.200
wo man das so mehr so richtig End-to-End macht?

00:19:50.440 --> 00:19:53.260
Ohne dass man dann noch irgendwelche Blöcke dazwischen hat,

00:19:53.360 --> 00:19:55.300
die man konfiguriert, sondern einfach quasi,

00:19:55.340 --> 00:19:57.680
man könnte ja auch das alles irgendwie insgesamt lernen

00:19:57.680 --> 00:20:01.780
und dann halt Audio rein auf der einen Seite in irgendwie ein neuronales Netz

00:20:01.780 --> 00:20:02.980
und dann wieder Audio auch wieder raus.

00:20:04.500 --> 00:20:06.760
Hat sich das da eigentlich in die Richtung schon entwickelt?

00:20:07.860 --> 00:20:09.160
Weil ich habe da ehrlich gesagt gar keine Ahnung von.

00:20:10.220 --> 00:20:13.460
Ja, so funktioniert es im Moment eigentlich.

00:20:13.900 --> 00:20:18.040
Also wie gesagt, wenn man jetzt von der Geschichte her kommt,

00:20:18.040 --> 00:20:20.040
mit von NumPy, SciPy und...

00:20:20.440 --> 00:20:22.160
CKitLearn und so weiter,

00:20:23.600 --> 00:20:26.740
sind immer weitere Algorithmen gekommen.

00:20:26.920 --> 00:20:29.220
Also ich habe zum Beispiel meine Blumenarbeit damals

00:20:29.220 --> 00:20:31.720
auch schon mit so neuronalen Netzen gemacht.

00:20:31.820 --> 00:20:34.240
Das war 2007 oder 2008.

00:20:34.760 --> 00:20:36.700
Da war das noch ganz am Anfang,

00:20:37.120 --> 00:20:38.100
vor allem im Audio-Bereich.

00:20:39.180 --> 00:20:42.200
Und am Anfang von der Phonik haben wir das jetzt noch nicht gehabt,

00:20:42.960 --> 00:20:45.260
weil es ja einfach nur zu aufwendig war zum Rechnen.

00:20:45.980 --> 00:20:50.000
Aber dann sind wir eh gleich in diese Richtung,

00:20:50.080 --> 00:20:50.260
wenn man ganz...

00:20:50.440 --> 00:20:53.640
Also wenn wir jetzt schon in beiden Podcasts sind,

00:20:53.720 --> 00:20:55.200
können wir von den Tools ein bisschen reden.

00:20:55.340 --> 00:20:59.140
Zuerst war dann das TensorFlow sehr, sehr beliebt am Anfang.

00:21:00.400 --> 00:21:04.160
Vor allem mit diesem Keras, dieser Keras-Library.

00:21:04.340 --> 00:21:06.960
Das war damals so ein Wrapper für TensorFlow im Prinzip,

00:21:07.140 --> 00:21:12.360
einfach mit einer einfacheren API, also einfacher zu verwenden.

00:21:12.600 --> 00:21:14.540
Ja, inzwischen ist es, glaube ich, die offizielle API-Aufwand.

00:21:15.320 --> 00:21:16.960
Ja, die haben es, glaube ich, irgendwie...

00:21:16.960 --> 00:21:19.700
Oder der Typ bei Keras ist dann, glaube ich, irgendwann zu Google.

00:21:19.700 --> 00:21:21.620
Und dann haben sie das gleich dazu einbaut.

00:21:22.620 --> 00:21:25.700
Wie auch immer, zuerst haben wir viel mit Keras eben gemacht.

00:21:25.920 --> 00:21:29.880
Und dann irgendwann sind wir dann eh so wie alle auch auf PyTorch.

00:21:30.620 --> 00:21:32.680
Mittlerweile machen wir eigentlich alles mit PyTorch.

00:21:32.800 --> 00:21:33.340
Also eh schon lang.

00:21:34.280 --> 00:21:36.600
Aber zu den Algorithmen, wie funktioniert das jetzt?

00:21:36.880 --> 00:21:39.940
Also eigentlich ziemlich anders.

00:21:40.300 --> 00:21:41.720
Also wie du gesagt hast,

00:21:42.020 --> 00:21:46.800
mittlerweile kommt eigentlich einfach nur mehr Audio rein und Audio raus dann.

00:21:46.800 --> 00:21:48.900
Also es ist viel mehr Blackbox als vorher.

00:21:49.700 --> 00:21:50.200
Mhm.

00:21:50.500 --> 00:21:53.220
Und wie funktioniert das?

00:21:53.420 --> 00:21:57.660
Das heißt, man ist jetzt natürlich hauptsächlich damit beschäftigt,

00:21:57.760 --> 00:21:59.160
oder mit vielen Sachen beschäftigt,

00:21:59.220 --> 00:22:00.540
aber ein großer Punkt ist natürlich,

00:22:00.680 --> 00:22:04.100
dass man jetzt die ganzen Datensätze eben zusammenstellt.

00:22:04.860 --> 00:22:06.840
Nehmen wir nochmal den Beispiel mit denoising,

00:22:06.960 --> 00:22:09.080
also Störgeräusche weglöschen.

00:22:09.680 --> 00:22:13.980
Dazu braucht man natürlich ganz viele Audiosprachfiles,

00:22:13.980 --> 00:22:15.920
die, wenn wir jetzt nur Sprache betrachten,

00:22:16.320 --> 00:22:18.500
braucht man ganz viele Sprachfiles, die gut klingen.

00:22:18.820 --> 00:22:19.020
Also...

00:22:19.020 --> 00:22:21.940
Ganz viele Sprecher, verschiedene Sprachen,

00:22:21.940 --> 00:22:24.980
verschiedene Geschlechter natürlich, verschiedene Ausdrucksweisen,

00:22:25.540 --> 00:22:29.660
verschiedene Sprachstile, emotionale Sprache, Fadesprache,

00:22:29.660 --> 00:22:33.220
was auch immer man sich flüstern, was auch immer man sich denken kann.

00:22:33.220 --> 00:22:34.900
Also alles mögliche, was es dazu gibt.

00:22:35.620 --> 00:22:38.060
Das natürlich in einer guten Qualität, ohne viel Rauschen.

00:22:38.620 --> 00:22:44.060
Dann braucht man natürlich ganz große Datensätze von verschiedenen Noise-Daten,

00:22:44.060 --> 00:22:47.740
also statisches Rauschen, dann ein Auto, das hinten vorbeifährt oder

00:22:48.440 --> 00:22:48.820
irgendwer.

00:22:48.820 --> 00:22:52.480
Klopfgeräusche am Computer und so weiter.

00:22:52.600 --> 00:22:54.040
Alles, was man sich irgendwie vorstellen kann.

00:22:54.700 --> 00:22:56.880
Musik natürlich auch, falls man Musik auch wegrechnen will.

00:22:57.560 --> 00:22:59.740
Baby schreien, Hunde bellen.

00:23:01.900 --> 00:23:05.340
Und dann mischt man diese Daten eben zusammen,

00:23:05.560 --> 00:23:09.280
also dass man aus diesen schönen Daten eben das Rauschen dazurechnet.

00:23:10.000 --> 00:23:14.240
Das ist dann quasi das schlechte Signal, das ist das Input von dem Netzwerk

00:23:14.240 --> 00:23:16.960
und als Target hat man dann einfach das schöne Signal

00:23:16.960 --> 00:23:18.800
und dann trainiert man.

00:23:18.820 --> 00:23:20.860
Man nimmt eben dieses Model, das Netzwerk an.

00:23:21.580 --> 00:23:22.780
Also ihr kennt das wahrscheinlich alle.

00:23:24.140 --> 00:23:28.980
Und dann hat es einen bestimmten Lernalgorithmus,

00:23:28.980 --> 00:23:31.980
das die Gewichte in diesem neuronalen Netzwerk updatet

00:23:32.640 --> 00:23:35.240
und dadurch versucht es eben zu lernen.

00:23:35.560 --> 00:23:37.280
Wenn man das reinschickt, kommt das raus

00:23:37.280 --> 00:23:41.860
und versucht eben zu generalisieren für alle möglichen anderen Sachen,

00:23:41.960 --> 00:23:44.720
die dazwischen sind, die man eben nicht explizit gelernt hat.

00:23:45.800 --> 00:23:48.800
Zusätzlich zu diesen Daten und Modeln,

00:23:48.820 --> 00:23:51.720
gibt es ja noch so Transformationen.

00:23:51.880 --> 00:23:56.220
Also das Audio wird nicht nur durch Zumischen von Neu schlechter gemacht,

00:23:56.320 --> 00:23:58.280
sondern man kann auch noch alles mögliche andere machen.

00:23:58.760 --> 00:24:01.900
Man kann Filter-Artefakte draufrechnen,

00:24:02.000 --> 00:24:04.400
die das Netzwerk dann wegrechnen soll

00:24:04.400 --> 00:24:06.720
oder das Audio klicken zum Beispiel

00:24:06.720 --> 00:24:09.020
und das versucht es wieder wegzurechnen

00:24:09.020 --> 00:24:12.640
oder irgendwelche Kompressoren am Target oder am Input drauflegen.

00:24:13.400 --> 00:24:18.280
Also alles, was man früher so eigentlich an Signalbearbeitungsalgorithmen gehabt hat

00:24:18.280 --> 00:24:18.620
und direkt dann wieder wegrechnet,

00:24:18.620 --> 00:24:18.680
dann wird das auch wieder wegrechnet.

00:24:18.680 --> 00:24:22.480
Das ist jetzt für den End-User quasi weg,

00:24:22.700 --> 00:24:25.540
aber die ganzen Algorithmen braucht man trotzdem immer noch,

00:24:25.620 --> 00:24:30.760
weil man damit im Endeffekt jetzt die ganzen Transformationen von den Daten macht,

00:24:31.300 --> 00:24:33.100
damit man sie so zusammenbasteln kann,

00:24:33.240 --> 00:24:35.400
damit sie eben möglichst variantenreich sind

00:24:35.400 --> 00:24:37.840
und damit man alle möglichen Sachen abbilden kann,

00:24:38.260 --> 00:24:40.360
die das Model dann eben machen soll.

00:24:41.360 --> 00:24:44.900
Aber man wendet die Algorithmen nicht mehr direkt auf die Daten an,

00:24:44.960 --> 00:24:46.780
sondern einfach auf den Trainingsdaten

00:24:46.780 --> 00:24:48.480
und damit modelliert man sozusagen die Daten,

00:24:48.480 --> 00:24:49.180
die Trainingsdaten,

00:24:49.320 --> 00:24:51.380
so wie es dann eben fürs Model sein soll.

00:24:53.940 --> 00:24:54.620
Ja, interessant.

00:24:54.740 --> 00:24:55.580
Ich hätte mir schon mal überlegt,

00:24:55.720 --> 00:24:56.780
irgendwie, keine Ahnung,

00:24:57.060 --> 00:24:58.860
ob man nicht sowas machen könnte,

00:24:59.020 --> 00:24:59.940
wie wenn man jetzt,

00:25:00.960 --> 00:25:04.600
angenommen man hätte irgendwie ganz viel hochqualitatives Audio irgendwo her,

00:25:05.100 --> 00:25:05.560
keine Ahnung,

00:25:05.560 --> 00:25:08.200
hat ein Archiv von einem Radiosender gefunden

00:25:08.200 --> 00:25:09.940
oder irgendwelchen Medien

00:25:09.940 --> 00:25:13.880
und man spielt das jetzt irgendwie in einem Raum ab

00:25:13.880 --> 00:25:16.620
und legt dann irgendwie ein Handy in die Mitte oder sowas

00:25:16.620 --> 00:25:18.080
und nimmt das dann auf,

00:25:18.080 --> 00:25:19.640
dann könnte man ja eigentlich sozusagen,

00:25:19.840 --> 00:25:21.340
kann man dann nicht ein gutes Audio

00:25:21.340 --> 00:25:23.620
aus irgendwie einer Handy-Mikrofonaufnahme generieren,

00:25:23.880 --> 00:25:25.600
könnte man nicht ein neuronales Netz trainieren,

00:25:25.680 --> 00:25:27.880
das halt irgendwie quasi dann halt auch,

00:25:27.940 --> 00:25:29.720
wenn ich dann selber wieder das Handy nehme oder reinspreche,

00:25:30.080 --> 00:25:31.840
dann quasi da einen guten Klang draus mache.

00:25:31.900 --> 00:25:33.920
Das ist, glaube ich, das, was Georg versucht, diese Folge.

00:25:34.120 --> 00:25:34.760
Genau das.

00:25:36.180 --> 00:25:37.760
Aber da lebst du doch nur einen Filter, oder?

00:25:38.700 --> 00:25:38.960
Genau.

00:25:39.080 --> 00:25:42.120
Im Prinzip gibt es genauso Datensätze von,

00:25:42.260 --> 00:25:44.240
du meinst jetzt zum Beispiel Impuls-Responses,

00:25:44.340 --> 00:25:46.920
also Impuls-Antworten von Räumen zum Beispiel,

00:25:46.920 --> 00:25:49.880
wo eben, keine Ahnung,

00:25:49.980 --> 00:25:54.140
100.000 Impuls-Responses von verschiedenen Geometrien,

00:25:54.260 --> 00:25:54.920
von Räumen,

00:25:55.080 --> 00:25:55.880
das heißt in dem Fall,

00:25:56.400 --> 00:25:58.800
in dem Fall hättest du ein Handy halt immer an einem anderen Punkt,

00:25:58.940 --> 00:26:00.420
in einem anderen Raum liegen.

00:26:01.260 --> 00:26:03.920
Das sind eben genau diese Transformations,

00:26:04.560 --> 00:26:07.260
in dem Fall rechnet man dann so eine Impuls-Response drauf

00:26:07.260 --> 00:26:09.280
auf das Input-Signal

00:26:09.280 --> 00:26:12.260
und am Target soll das dann eben wieder weggerechnet werden.

00:26:13.140 --> 00:26:14.060
Dann, in deinem Fall,

00:26:14.120 --> 00:26:16.220
hättest du noch so nicht-lineare Verzerrungen drinnen

00:26:16.220 --> 00:26:16.840
vom Handy,

00:26:16.840 --> 00:26:16.900
vom Handy,

00:26:16.920 --> 00:26:18.100
vom Handy-Mikrofon zum Beispiel,

00:26:18.280 --> 00:26:20.920
das kann man natürlich auch mit so nicht-linearen Verzerrungen

00:26:21.580 --> 00:26:22.920
ganz einfach simulieren.

00:26:23.400 --> 00:26:24.820
Zusätzlich hast du noch Rauschen dabei,

00:26:25.080 --> 00:26:27.260
also man kann da noch ein neues dazu mischen.

00:26:28.000 --> 00:26:29.140
Und mit diesen ganzen Dingen,

00:26:29.220 --> 00:26:31.700
dann hast du vielleicht noch spektrale Effekte drinnen,

00:26:31.940 --> 00:26:36.160
also man kann noch so EQ-Dinger auf dein Input drauflegen.

00:26:36.560 --> 00:26:38.620
Und wenn man diese ganzen Effekte zusammen mischt,

00:26:39.220 --> 00:26:43.000
dann kommt halt irgendein schlechtes Audio sozusagen raus,

00:26:43.440 --> 00:26:44.460
das man dann verwenden kann.

00:26:45.480 --> 00:26:45.700
Ja.

00:26:45.700 --> 00:26:48.840
Ja, und das kann man natürlich dann deutlich flexibler machen,

00:26:49.060 --> 00:26:51.280
als wenn man das jetzt irgendwie tatsächlich physisch irgendwie machen müsste.

00:26:51.560 --> 00:26:51.900
Ja, dann,

00:26:52.460 --> 00:26:54.340
man braucht ja auch viele Daten irgendwie wahrscheinlich.

00:26:54.740 --> 00:26:55.220
Nehm ich mal an.

00:26:55.240 --> 00:26:55.780
Was heißt denn,

00:26:56.060 --> 00:26:57.300
was heißt denn viele Daten?

00:26:57.400 --> 00:26:59.700
Wie viele Daten braucht man denn?

00:26:59.780 --> 00:27:03.340
Braucht man da 10 Stunden oder 100 Stunden oder 1000 Stunden

00:27:03.340 --> 00:27:04.980
oder 100.000 Stunden?

00:27:06.200 --> 00:27:07.180
Naja, mehr wie 1000.

00:27:07.620 --> 00:27:08.440
Also es kommt drauf an,

00:27:08.500 --> 00:27:10.820
wie gut das soll oder welcher Algorithmus jetzt

00:27:10.820 --> 00:27:12.140
und wie gut das funktionieren soll.

00:27:12.840 --> 00:27:13.400
Also für so,

00:27:13.400 --> 00:27:15.620
für so neues Redaktionsachen brauchst du schon,

00:27:15.700 --> 00:27:20.380
so einige 1000 Stunden an Audio-Material, sage ich mal.

00:27:20.580 --> 00:27:21.460
Okay, also so ein,

00:27:21.460 --> 00:27:22.420
sag ich mal,

00:27:22.660 --> 00:27:26.760
Podcast-Archiv aus 150 Stunden Audio kommt nicht weit.

00:27:27.680 --> 00:27:28.260
Naja, vor allem,

00:27:28.840 --> 00:27:30.600
wenn du jetzt ein Podcast-Archiv hast,

00:27:31.460 --> 00:27:33.200
das ist halt sehr einseitig.

00:27:33.360 --> 00:27:33.820
Also du bist natürlich

00:27:33.820 --> 00:27:34.940
Ja, okay, das ist zugleich für mich.

00:27:35.260 --> 00:27:38.840
verschiedenste Podcast-Archive von verschiedenen Ländern,

00:27:39.100 --> 00:27:40.740
von verschiedenen Ausdrucksweisen.

00:27:41.220 --> 00:27:44.100
Dann kommt natürlich noch die Qualität vom Audio dazu.

00:27:44.100 --> 00:27:45.620
Also ist ja nicht so,

00:27:45.620 --> 00:27:46.100
so leicht,

00:27:46.760 --> 00:27:49.080
wirklich gute Sprache zum Beispiel zu finden,

00:27:49.200 --> 00:27:50.220
wo jetzt kein Rauschen drin ist,

00:27:50.300 --> 00:27:51.860
weil sonst trainierst du ja auch erst wieder an,

00:27:51.940 --> 00:27:54.060
dass du Rauschen dabei hast.

00:27:54.160 --> 00:27:54.320
Ja, klar.

00:27:55.240 --> 00:27:57.420
Also wir machen das meistens ein bisschen rekursiv.

00:27:57.960 --> 00:27:59.920
Also man hat natürlich einmal ein Modell,

00:28:00.020 --> 00:28:01.240
dann findet man wieder neue Daten,

00:28:01.360 --> 00:28:03.120
die ein bisschen verrauscht sind,

00:28:03.520 --> 00:28:05.700
die neuest man mit dem alten Modell,

00:28:05.800 --> 00:28:07.980
damit trainiert man dann das neue Modell und so weiter,

00:28:08.520 --> 00:28:11.480
damit man die Daten ein bisschen besser aufbereiten kann.

00:28:12.400 --> 00:28:14.000
Weil, was ja ganz interessant ist,

00:28:14.540 --> 00:28:15.300
welche Effekte,

00:28:15.300 --> 00:28:15.600
wie man kann,

00:28:15.620 --> 00:28:19.480
also wenn man natürlich schon mal Daten gehabt hat,

00:28:19.920 --> 00:28:21.800
mit denen man ein Modell trainiert hat,

00:28:22.220 --> 00:28:24.860
und da will man dann danach noch einmal die Neues

00:28:24.860 --> 00:28:25.820
mit dem gleichen Modell,

00:28:25.860 --> 00:28:27.360
dann funktioniert das natürlich nicht,

00:28:27.480 --> 00:28:28.760
weil das Modell hat ja schon gelernt,

00:28:28.880 --> 00:28:30.920
dass in den Daten Neues drinnen ist

00:28:30.920 --> 00:28:33.960
und das reproduziert das Neues ganz einfach wieder.

00:28:35.040 --> 00:28:37.420
Also irgendwie ist das wirklich drinnen gespeichert dann.

00:28:39.300 --> 00:28:44.360
Na gut, aber was bei uns auch noch so ein Ding ist,

00:28:45.460 --> 00:28:45.600
ist, dass wir,

00:28:45.620 --> 00:28:50.080
weil wir ja vorher von der klassischen DSB-Welt,

00:28:50.180 --> 00:28:51.760
Machine Learning Welt gekommen sind,

00:28:52.380 --> 00:28:54.340
also der Vorteil dort ist natürlich,

00:28:54.540 --> 00:28:56.960
dass man Parameter zur Kontrolle hat,

00:28:57.240 --> 00:28:59.540
was oft ein Vorteil, oft ein Nachteil ist,

00:28:59.600 --> 00:29:00.600
weil es komplizierter werden kann.

00:29:01.240 --> 00:29:04.540
Ein Vorteil, weil man verschiedene Use Cases damit abbilden kann.

00:29:05.900 --> 00:29:10.380
Und dieses Prinzip wollten wir jetzt halt auch nicht ganz aufgeben

00:29:10.380 --> 00:29:14.800
in der ganzen neuen Deep Learning Welt sozusagen.

00:29:14.800 --> 00:29:18.920
Ja, weil man kann natürlich auch so ein Modell machen,

00:29:19.140 --> 00:29:22.540
das jetzt alle diese Transformationen und was auch immer drinnen hat

00:29:22.540 --> 00:29:24.040
und da kommt dann irgendwas raus

00:29:24.040 --> 00:29:26.540
und mit dem kann man dann leben oder nicht,

00:29:26.660 --> 00:29:28.700
aber oft will man halt auch mehr Kontrolle haben,

00:29:28.700 --> 00:29:30.720
was genau man mit dem Audio machen will.

00:29:31.060 --> 00:29:33.700
Man will zum Beispiel nur gewisse Störgeräusche rausrechnen

00:29:34.320 --> 00:29:36.060
oder man will Musik auch rausrechnen

00:29:36.060 --> 00:29:39.580
oder Atmer wegrechnen oder gewisse Sachen wegschneiden

00:29:39.580 --> 00:29:42.920
oder Lautstärken labeln, Lautstärken nicht labeln,

00:29:43.000 --> 00:29:44.620
Filtering anwenden oder nicht.

00:29:44.800 --> 00:29:49.340
Also insofern ist es unser Weg,

00:29:49.440 --> 00:29:52.060
dass wir eben verschiedene Stemmodels haben,

00:29:52.380 --> 00:29:53.740
die wir dann kombinieren.

00:29:54.000 --> 00:29:55.460
Also zum Beispiel haben wir so ein Modell,

00:29:55.600 --> 00:29:56.620
das im Filtering macht,

00:29:56.780 --> 00:29:58.480
das ist der Auto-EQ-Model,

00:29:59.140 --> 00:30:01.720
wo es auf das Filtering spezialisiert ist

00:30:01.720 --> 00:30:03.480
und dann haben wir verschiedene Denoising-Models,

00:30:03.620 --> 00:30:05.960
die verschiedene Teile von Audio weglöschen können

00:30:05.960 --> 00:30:07.140
oder überlassen können,

00:30:07.600 --> 00:30:11.280
damit man dann die so kombinieren kann,

00:30:11.280 --> 00:30:14.500
um noch ein bisschen Kontrolle darüber zu haben,

00:30:14.800 --> 00:30:16.660
um auch verschiedene Use Cases,

00:30:16.940 --> 00:30:17.780
was ist das zum Beispiel,

00:30:17.900 --> 00:30:20.820
also in einem Radio-Play,

00:30:20.920 --> 00:30:22.200
also in einem Hörspiel im Radio,

00:30:22.300 --> 00:30:24.720
will man natürlich alle möglichen Sound-Effekte hinten haben,

00:30:25.080 --> 00:30:26.760
also in einem Wasserfall, der plätschert

00:30:26.760 --> 00:30:29.260
oder der Knall, wenn die Tür aufgeht

00:30:29.260 --> 00:30:31.600
oder in einem Yoga-Video will man natürlich

00:30:31.600 --> 00:30:35.220
das ganze Atmen im Hintergrund haben und nicht rauslöschen.

00:30:35.880 --> 00:30:38.000
Jetzt in einem reinen Sprach-Podcast

00:30:38.000 --> 00:30:40.560
will man viel mehr natürlich rauslöschen,

00:30:40.700 --> 00:30:42.380
also alles, was tippen ist

00:30:42.380 --> 00:30:44.660
oder das Plätschern von Bach,

00:30:44.660 --> 00:30:44.780
das ist ein sehr guter Weg,

00:30:44.780 --> 00:30:45.360
das kann man auch im Hintergrund

00:30:45.360 --> 00:30:48.360
oder der Vögel oder Atmen von mir,

00:30:48.500 --> 00:30:50.080
das kann man auch rauslöschen

00:30:50.080 --> 00:30:51.140
oder Pausen rauslöschen,

00:30:51.220 --> 00:30:53.320
wenn man es ganz extrem machen will.

00:30:54.580 --> 00:30:55.020
Insofern.

00:30:56.500 --> 00:30:58.300
Also es ist quasi sehr kontextabhängig,

00:30:58.380 --> 00:30:59.560
also sehr auch davon abhängig,

00:31:00.140 --> 00:31:01.780
also man kann nicht ein Modell

00:31:01.780 --> 00:31:03.660
für alle Sachen verwenden

00:31:03.660 --> 00:31:05.220
oder das Modell muss man halt selber erkennen,

00:31:05.380 --> 00:31:05.700
was jetzt,

00:31:06.220 --> 00:31:07.540
eigentlich müsste man dem das ja sagen,

00:31:07.640 --> 00:31:09.340
das kann der jetzt ja gar nicht wissen,

00:31:09.540 --> 00:31:10.200
ob der jetzt das,

00:31:10.460 --> 00:31:11.840
oder schwierig wahrscheinlich,

00:31:12.340 --> 00:31:14.460
ob das Atmen jetzt erwünscht ist oder nicht.

00:31:14.780 --> 00:31:16.740
Ja, klar.

00:31:17.880 --> 00:31:19.800
Ja, das Multitrack-Interface,

00:31:20.040 --> 00:31:22.260
ich meine, das ist ja auch schön,

00:31:22.340 --> 00:31:23.100
dass das alles geht, genau,

00:31:23.240 --> 00:31:24.880
aber es ist nicht so ganz einfach einzustellen,

00:31:24.960 --> 00:31:25.120
das stimmt.

00:31:25.960 --> 00:31:28.400
Ja, Multitrack ist nochmal besonders komplex,

00:31:28.640 --> 00:31:29.440
vor allem vom Interface,

00:31:29.660 --> 00:31:32.800
weil für jede Track kannst du alle Settings halt einstellen

00:31:32.800 --> 00:31:34.740
und dann wird das halt natürlich

00:31:34.740 --> 00:31:35.600
gleich einmal viel.

00:31:36.240 --> 00:31:38.780
Ja, gar nicht so einfach.

00:31:39.600 --> 00:31:40.220
Oder ich glaube,

00:31:40.260 --> 00:31:41.780
wir sind so ein bisschen überfahren, oder,

00:31:41.780 --> 00:31:43.780
von diesen ganzen Möglichkeiten,

00:31:44.780 --> 00:31:45.520
die es da gibt

00:31:45.520 --> 00:31:46.640
und von den ganz coolen Sachen,

00:31:46.800 --> 00:31:47.200
die ihr da macht.

00:31:49.140 --> 00:31:50.600
Und als Außenstehender,

00:31:50.740 --> 00:31:51.540
also so ich als,

00:31:51.620 --> 00:31:52.040
sag ich mal,

00:31:52.140 --> 00:31:53.680
Feldwald und Wiesen-Informatiker,

00:31:54.560 --> 00:31:56.540
mir fehlt da so ein bisschen der Bezug dazu.

00:31:56.760 --> 00:31:58.100
Also für mich ist so ein bisschen so,

00:31:58.180 --> 00:31:59.420
ja, ich habe hier eine Audiodatei

00:31:59.420 --> 00:32:02.040
und da gibt es irgendwelche magischen Tools,

00:32:02.140 --> 00:32:03.360
die irgendwelche magischen Sachen machen

00:32:03.360 --> 00:32:04.620
und hinterher hört es sich besser an.

00:32:06.040 --> 00:32:07.480
Ja, aber es ist ja auch okay, oder?

00:32:07.540 --> 00:32:09.040
Als User willst du eh nicht mehr wissen,

00:32:09.100 --> 00:32:09.620
im Endeffekt.

00:32:10.460 --> 00:32:10.480
Klar.

00:32:10.480 --> 00:32:12.440
Ich habe die Handlung für den User degradiert.

00:32:13.660 --> 00:32:14.720
Idealerweise möchte ich nicht,

00:32:14.720 --> 00:32:15.100
nicht mehr wissen.

00:32:15.200 --> 00:32:15.840
Das stimmt natürlich.

00:32:17.440 --> 00:32:19.140
Aber wir wollen ja da schon gerne

00:32:19.140 --> 00:32:20.060
einen Blick reinwerfen.

00:32:20.480 --> 00:32:23.060
Und das ist irgendwie so eine ganz eigene Welt,

00:32:23.300 --> 00:32:24.540
diese Audiosachen.

00:32:24.980 --> 00:32:27.360
Ich meine, da gibt es spezielle Hardware

00:32:27.360 --> 00:32:29.040
und dann sehen die Knöpfe alle anders aus

00:32:29.040 --> 00:32:30.640
und dann sind die Interfaces so kompliziert,

00:32:30.740 --> 00:32:31.660
dass wir nicht damit klarkommen.

00:32:32.460 --> 00:32:36.500
Und ich finde es total faszinierend,

00:32:36.760 --> 00:32:38.300
wie tief das so ist,

00:32:38.400 --> 00:32:41.240
weil das so auf der Ebene,

00:32:42.500 --> 00:32:44.480
die der User damit interagiert,

00:32:44.480 --> 00:32:44.640
ist.

00:32:44.720 --> 00:32:45.140
Das ist ja wirklich so.

00:32:45.280 --> 00:32:46.020
Ich habe eine Datei

00:32:46.020 --> 00:32:46.760
und die soll besser klingen

00:32:46.760 --> 00:32:48.880
und jetzt ist es so.

00:32:49.940 --> 00:32:51.440
Das war natürlich auch der Punkt,

00:32:51.940 --> 00:32:53.860
warum wir angefangen haben

00:32:53.860 --> 00:32:55.100
mit Afonik überhaupt.

00:32:55.860 --> 00:32:57.820
Weil Audio-Technik einfach

00:32:57.820 --> 00:33:00.140
vor 10, 15 Jahren

00:33:00.140 --> 00:33:01.700
sehr kryptisch war.

00:33:01.860 --> 00:33:03.320
Das ist ja heute schon total anders.

00:33:04.260 --> 00:33:05.740
Früher hast du echt wissen müssen,

00:33:05.900 --> 00:33:07.100
immer was ein Kompressor ist,

00:33:07.140 --> 00:33:07.920
was ein Limiter ist,

00:33:08.000 --> 00:33:08.980
wie du den einstellst,

00:33:09.060 --> 00:33:11.140
wie du die ganzen Filterparameter einstellst,

00:33:11.700 --> 00:33:12.000
wo man,

00:33:12.360 --> 00:33:14.340
wenn man eigentlich nicht wirklich Ahnung davon hat,

00:33:14.340 --> 00:33:14.680
vielleicht,

00:33:14.720 --> 00:33:16.160
vielleicht viel mehr schlecht machen kann,

00:33:16.240 --> 00:33:17.140
als gut machen kann.

00:33:18.220 --> 00:33:20.720
Und das war eigentlich der Ausgangspunkt

00:33:21.680 --> 00:33:22.460
von uns,

00:33:23.540 --> 00:33:24.740
weil wir halt gedacht haben,

00:33:24.860 --> 00:33:26.260
oder ich damals gedacht habe,

00:33:26.460 --> 00:33:29.040
dass man kann einfach einem normalen Menschen

00:33:29.040 --> 00:33:30.360
unter Anführungszeichen sowas

00:33:30.360 --> 00:33:31.440
einfach nicht zumuten.

00:33:31.880 --> 00:33:34.280
Der, wie du sagst, nur ein besseres Audio haben will.

00:33:35.280 --> 00:33:36.880
Das war einfach alles viel zu kompliziert.

00:33:37.960 --> 00:33:38.940
Ja, ganz oft

00:33:38.940 --> 00:33:40.080
ist es ja auch so, dass

00:33:40.080 --> 00:33:42.120
gerade in dieser Audio-Welt,

00:33:42.680 --> 00:33:44.320
dass man als normaler Benutzer,

00:33:44.720 --> 00:33:45.960
viele Dinge gar nicht,

00:33:46.260 --> 00:33:48.360
gar nicht hört oder gar nicht versteht.

00:33:49.180 --> 00:33:50.920
Das ist schon mal,

00:33:52.000 --> 00:33:53.400
man hat ja da gelegentlich Kontakt dazu.

00:33:53.500 --> 00:33:54.120
Und wenn man dann so sieht,

00:33:54.220 --> 00:33:55.560
ja, da sitzt einer hier an seinem Mischpult

00:33:55.560 --> 00:33:58.080
und dann dreht er an irgendwelchen Reglern

00:33:58.080 --> 00:33:59.660
und es passiert eigentlich gar nichts.

00:34:00.380 --> 00:34:01.720
So, erster Eindruck.

00:34:01.860 --> 00:34:03.320
Aber dann am Ende hört es sich doch irgendwie

00:34:03.320 --> 00:34:04.760
wesentlich besser an,

00:34:04.840 --> 00:34:05.980
als es sich vorher angehört hat.

00:34:06.840 --> 00:34:10.320
Und diese Intransparenz ist so für mich als Benutzer,

00:34:10.520 --> 00:34:13.040
ja, ich zähle mich dadurch aus zu den Benutzern,

00:34:14.140 --> 00:34:14.700
super interessant.

00:34:14.720 --> 00:34:16.400
Weil ich verstehe überhaupt gar nicht,

00:34:16.660 --> 00:34:18.500
was es da für, ich verstehe noch nicht mal,

00:34:18.580 --> 00:34:19.440
was es für Parameter gibt.

00:34:20.820 --> 00:34:22.720
Und dann gibt es aber Experten, die gucken sich das an

00:34:22.720 --> 00:34:24.440
und sagen, ja, nee, so kannst du es nicht machen.

00:34:24.540 --> 00:34:26.440
Und hier musst du diesen das hochdrehen und das runterdrehen.

00:34:27.500 --> 00:34:28.540
Und dann am Ende denkst du,

00:34:28.960 --> 00:34:30.040
das ist verrückt.

00:34:30.620 --> 00:34:32.420
Und ich habe einmal so eine Erfahrung gemacht.

00:34:33.020 --> 00:34:34.260
Da haben wir

00:34:34.260 --> 00:34:36.300
bei einem ehemaligen Arbeitgeber,

00:34:36.340 --> 00:34:37.920
wir haben ein Marketing-Video gedreht.

00:34:37.980 --> 00:34:40.100
Das war ein großer Spaß für einen Programmiertwettbewerb.

00:34:40.840 --> 00:34:43.940
Und der war auch so ein Audio-Fan.

00:34:43.940 --> 00:34:45.140
Da hat er sich selber

00:34:45.140 --> 00:34:48.000
in seinem Wohnzimmer ein kleines Studio reingebaut.

00:34:48.100 --> 00:34:49.940
Auch mit so Schallschutzwänden

00:34:50.520 --> 00:34:51.180
und so Zeugs.

00:34:51.300 --> 00:34:52.260
Und da hat er dann seine Band,

00:34:52.880 --> 00:34:54.060
was man halt so macht.

00:34:55.180 --> 00:34:56.920
Und dann hat er da so ein Stück Audio von mir aufgenommen.

00:34:57.060 --> 00:34:59.460
Und ich meine, jeder, der schon mal Audio von sich selber gehört hat,

00:34:59.540 --> 00:35:01.600
der weiß, dass das ganz schrecklich ist, wenn man sich das anhört,

00:35:01.680 --> 00:35:02.680
weil die eigene Stimme ist,

00:35:03.680 --> 00:35:04.680
die hört sich gruselig an.

00:35:05.000 --> 00:35:07.300
Und dann hat er das da so reingetan und hat so ein paar Knöpfe gedreht

00:35:07.300 --> 00:35:10.020
und auf einmal habe ich mich angehört wie ein Radiomoderator.

00:35:10.200 --> 00:35:11.960
So eine richtig sonore

00:35:12.760 --> 00:35:13.920
Stimme mit Volumen,

00:35:13.940 --> 00:35:14.520
mit Volumen drin.

00:35:15.400 --> 00:35:17.820
Und er hat das Reverb aufgedreht.

00:35:18.700 --> 00:35:19.920
Ja, und vielleicht auch

00:35:19.920 --> 00:35:21.480
ein bisschen die Bässe hochgedreht

00:35:21.480 --> 00:35:23.580
und, keine Ahnung, einen Kompressor reingemacht.

00:35:23.800 --> 00:35:24.840
Weiß ich, was das bedeutet.

00:35:26.300 --> 00:35:27.820
Jedenfalls einige magische Regler

00:35:27.820 --> 00:35:29.340
und auf einmal war es viel, viel, viel besser.

00:35:30.140 --> 00:35:31.360
Und ich finde das super faszinierend,

00:35:31.440 --> 00:35:32.380
dass es so eine Welt gibt,

00:35:32.640 --> 00:35:35.520
die eigentlich so intransparent ist,

00:35:35.620 --> 00:35:37.020
aber die doch irgendwie jeder hört.

00:35:37.120 --> 00:35:39.640
Weil man hört ja schon, ob sich Audio gut anhört oder nicht.

00:35:40.600 --> 00:35:41.520
Wer meinst du jetzt,

00:35:41.520 --> 00:35:43.920
wenn du das Audio auf dem Telefon,

00:35:43.940 --> 00:35:45.600
als Podcaster hörst oder wenn du das bei deiner

00:35:45.600 --> 00:35:47.320
Serie anhörst oder im Auto oder

00:35:47.320 --> 00:35:49.760
wenn ich das in meinen

00:35:49.760 --> 00:35:52.100
Bluetooth-Lautsprechern 10 Meter von meinem Handy

00:35:52.100 --> 00:35:53.400
anhöre mit so...

00:35:53.400 --> 00:35:54.500
Entschuldigung, ich wollte gerade, weil ich finde,

00:35:54.620 --> 00:35:57.540
dass die Sachen alle auf unterschiedlichen Geräten immer ganz anders klingen.

00:35:58.400 --> 00:35:59.660
Ja, das wäre natürlich so.

00:36:00.420 --> 00:36:01.040
Aber ich meine,

00:36:01.880 --> 00:36:03.860
so die ganz alten Sachen waren ja alle für Radio

00:36:03.860 --> 00:36:05.400
und auch da hat es sich sehr gut angehört.

00:36:05.520 --> 00:36:06.380
Also besser als ohne.

00:36:07.460 --> 00:36:09.240
Ja, wobei ich glaube,

00:36:09.340 --> 00:36:10.620
das muss man auch so ein bisschen lernen.

00:36:10.620 --> 00:36:12.400
Also ich habe jedenfalls irgendwie

00:36:12.400 --> 00:36:13.700
zum Beispiel bei den ersten,

00:36:13.940 --> 00:36:15.920
Podcast-Episoden jetzt hier,

00:36:16.440 --> 00:36:18.120
dachte ich, ach, das klingt ja eigentlich ganz gut.

00:36:18.200 --> 00:36:19.420
Und wenn ich mir die heute anhöre, denke ich mir so,

00:36:19.460 --> 00:36:21.140
ah, das klingt aber eigentlich ganz schön schlecht.

00:36:21.960 --> 00:36:23.400
Das war auch so ein Lernprozess.

00:36:23.600 --> 00:36:25.240
Das ging nicht von Anfang an.

00:36:25.560 --> 00:36:27.480
Dann hat er ja auch ein ganz großes Mischpult gekauft,

00:36:27.560 --> 00:36:29.020
das wir immer noch nicht ordentlich bedienen können.

00:36:29.380 --> 00:36:30.460
Damit ist es viel besser geworden.

00:36:30.960 --> 00:36:32.500
Ja, nee, viel einfacher.

00:36:33.480 --> 00:36:34.580
Aber ich höre jetzt auch...

00:36:34.580 --> 00:36:38.020
Was die Hörer nicht wissen, ist ja, dass wir vorher eine Dreiviertelstunde gebraucht haben,

00:36:38.020 --> 00:36:39.700
um die Aufnahme zu starten.

00:36:39.820 --> 00:36:42.340
Das war tatsächlich das Nächste zum Vorbereiten,

00:36:42.500 --> 00:36:43.140
das wir selber hatten.

00:36:43.940 --> 00:36:45.300
Ja, Matrix.

00:36:45.700 --> 00:36:47.740
Aber es ist auch irgendwie so ein gewisserweise

00:36:47.740 --> 00:36:49.040
gebührender Einstieg.

00:36:50.620 --> 00:36:51.220
In die Audio-Effekte.

00:36:52.240 --> 00:36:53.580
Dass man dann schon mal so

00:36:53.580 --> 00:36:55.900
nicht denkt, dass es zu einfach wäre.

00:36:56.180 --> 00:36:57.360
Ich finde es auch sehr schön, Georg,

00:36:57.440 --> 00:36:59.860
dass du gleich als Profi gesagt hast,

00:37:00.340 --> 00:37:02.100
wisst ihr was, diese ganze Audio-Technik,

00:37:02.960 --> 00:37:03.940
alles weg, einfach nur

00:37:03.940 --> 00:37:05.360
ein Mikrofon, ein Kabel.

00:37:06.200 --> 00:37:06.640
Ja, sicher.

00:37:07.960 --> 00:37:09.380
Aber nochmal zu deinem Punkt mit

00:37:09.380 --> 00:37:12.080
dass es besser geklungen hat.

00:37:12.080 --> 00:37:13.860
Weil der hat ein paar Regler gedreht,

00:37:13.940 --> 00:37:15.240
dass es besser geklungen hat.

00:37:16.220 --> 00:37:17.620
Das stimmt natürlich.

00:37:18.300 --> 00:37:20.420
Aber man muss

00:37:20.420 --> 00:37:22.220
ja immer vor, in dem Fall

00:37:22.220 --> 00:37:23.100
vor Ohren führen,

00:37:24.200 --> 00:37:25.740
dass das natürlich sehr

00:37:25.740 --> 00:37:27.640
subjektiv ist und

00:37:27.640 --> 00:37:30.040
eigentlich von deiner Wahrnehmung vom Radio her

00:37:30.040 --> 00:37:32.020
geprägt ist. Da gibt es natürlich ganz

00:37:32.020 --> 00:37:34.160
unterschiedliche Stile in unterschiedlichen

00:37:34.160 --> 00:37:35.740
Ländern, auch wie man das handhabt.

00:37:36.280 --> 00:37:38.020
Also du bist jetzt einem bestimmten

00:37:38.020 --> 00:37:39.980
Radiosound vielleicht gewohnt, was

00:37:39.980 --> 00:37:41.840
deine Radiosender da bei dir in Deutschland

00:37:41.840 --> 00:37:43.820
jetzt haben. In Amerika,

00:37:43.820 --> 00:37:45.840
das ist meistens ganz anders oder in anderen

00:37:45.840 --> 00:37:47.220
Ländern. Das heißt,

00:37:47.840 --> 00:37:49.720
wenn jetzt irgendwer deine Stimme

00:37:49.720 --> 00:37:51.740
so regelt, dass er möglichst ähnlich an

00:37:51.740 --> 00:37:53.960
deiner Referenz sozusagen

00:37:53.960 --> 00:37:55.760
ist, was du als guten Sound

00:37:55.760 --> 00:37:57.940
verstehst oder gewohnt bist zu hören,

00:37:58.020 --> 00:37:59.880
ganz einfach, dann klingt das für

00:37:59.880 --> 00:38:02.120
dich gut. Wenn der jetzt zum Beispiel

00:38:02.120 --> 00:38:04.320
das etwa Südamerikaner

00:38:04.320 --> 00:38:06.100
gemacht hätte und die haben eine andere Referenz,

00:38:06.440 --> 00:38:07.940
dann hätte es vielleicht für dich gar

00:38:07.940 --> 00:38:10.260
nicht so gut geklungen. Also das ist

00:38:10.260 --> 00:38:11.920
sehr subjektiv und auch

00:38:11.920 --> 00:38:13.780
vom Kontext oder vom

00:38:13.780 --> 00:38:16.400
der Herkunft

00:38:16.400 --> 00:38:18.140
vor allem abhängig. Da gibt es

00:38:18.140 --> 00:38:20.160
große Unterschiede, wie Länder das handhaben.

00:38:20.300 --> 00:38:21.820
Also manche haben so diese richtige

00:38:21.820 --> 00:38:23.940
Radiostimme, wo alles

00:38:23.940 --> 00:38:25.740
total eng ist,

00:38:25.880 --> 00:38:27.820
sehr basslastig und

00:38:27.820 --> 00:38:30.080
tot komprimiert, also wie man es

00:38:30.080 --> 00:38:32.020
auf dem Radio hört. Das andere

00:38:32.020 --> 00:38:33.840
wieder andere Sender, wie zum Beispiel

00:38:33.840 --> 00:38:34.920
BBC oder was auch immer,

00:38:35.780 --> 00:38:37.940
viel offener, freier,

00:38:37.940 --> 00:38:39.620
also ohne sehr wenig

00:38:39.620 --> 00:38:41.380
Komprimierung, nicht so dieser

00:38:41.380 --> 00:38:43.740
Nahbesprechungseffekt, wo du so überhöhte,

00:38:43.780 --> 00:38:45.600
tiefe Frequenzen hast,

00:38:45.820 --> 00:38:47.180
wo es einfach viel normaler klingt.

00:38:47.900 --> 00:38:48.700
Also das ist sehr

00:38:48.700 --> 00:38:50.540
subjektiv natürlich.

00:38:51.660 --> 00:38:53.900
Das kommt immer auf die Referenz drauf an.

00:38:54.140 --> 00:38:55.720
Diese Bilder, wenn man

00:38:55.720 --> 00:38:57.640
das zwar über Ton spricht, aber vom Klangbild auch

00:38:57.640 --> 00:38:59.180
redet, schon

00:38:59.180 --> 00:39:01.280
auch ein bisschen einordnen, oder?

00:39:02.160 --> 00:39:03.700
Es gibt schönere Bilder

00:39:03.700 --> 00:39:05.680
von besseren Künstlern und es gibt

00:39:05.680 --> 00:39:07.340
ärztlichere Bilder.

00:39:07.880 --> 00:39:09.740
Selbst wenn sie unterschiedlich sind und wenn

00:39:09.740 --> 00:39:11.800
es verschiedene Stilrichtungen

00:39:11.800 --> 00:39:13.760
gibt, kann man schon, glaube ich,

00:39:13.780 --> 00:39:15.880
eine Qualität

00:39:15.880 --> 00:39:17.380
eines Stückes hören.

00:39:18.120 --> 00:39:19.560
Es ist auch ein bisschen bei Musik, ja, also ich

00:39:19.560 --> 00:39:22.120
höre relativ einseitige

00:39:22.120 --> 00:39:23.840
Musik, obwohl ich auch von vielen

00:39:23.840 --> 00:39:25.820
Genres durchaus anerkennen kann, wenn

00:39:25.820 --> 00:39:27.720
es da gute Musik gibt, die man gut hören kann,

00:39:27.780 --> 00:39:29.720
die man nicht so gut hören kann. Und ich höre auch, ob eine

00:39:29.720 --> 00:39:31.660
Musik einfacher produziert ist oder komplexer,

00:39:31.760 --> 00:39:33.660
unabhängig jetzt von meinem Geschmack vielleicht

00:39:33.660 --> 00:39:35.400
dafür, wenn ihr wisst, was ich meine, ja.

00:39:36.160 --> 00:39:37.480
Und ich finde, dass das auch bei Audio so

00:39:37.480 --> 00:39:39.700
und insbesondere halt

00:39:39.700 --> 00:39:41.660
bei dem, was du gesagt hast, wie du dieses Signal

00:39:41.660 --> 00:39:43.660
bearbeitest, was halt der Tontechnik

00:39:43.780 --> 00:39:45.780
der, also ich weiß nicht, ist, kann man

00:39:45.780 --> 00:39:47.860
das so sagen, ist Haphonic ein virtuelles

00:39:47.860 --> 00:39:49.260
Tontechnik-Instrument?

00:39:50.260 --> 00:39:50.780
Ist das so?

00:39:51.140 --> 00:39:52.420
Virtueller Tontechniker, ja.

00:39:52.960 --> 00:39:55.220
Und ja, was er dann tut, was er

00:39:55.220 --> 00:39:57.140
machen kann, um

00:39:57.140 --> 00:39:59.540
ich weiß nicht,

00:39:59.620 --> 00:40:01.660
in der Bildsprache bleiben, den Pinsel zu führen, ja, also

00:40:01.660 --> 00:40:03.500
tatsächlich diesen Ton zu skypen

00:40:03.500 --> 00:40:05.680
und ja,

00:40:05.820 --> 00:40:07.820
also klar, gibt es da vielleicht verschiedene Meinungen

00:40:07.820 --> 00:40:09.400
oder ich weiß nicht, ob du sowas hast wie

00:40:09.400 --> 00:40:11.560
Presets, die du sagen kannst, Haphonic,

00:40:11.560 --> 00:40:13.460
hey, das ist jetzt Taste,

00:40:13.780 --> 00:40:15.860
du hast eben Südamerika erwähnt

00:40:15.860 --> 00:40:17.740
und das ist Taste Europe oder

00:40:17.740 --> 00:40:19.740
so, oder das ist Taste Radio

00:40:19.740 --> 00:40:21.520
und das ist Taste Big Cinema.

00:40:22.500 --> 00:40:23.720
Kann ja sein, dass du das auch machen kannst,

00:40:23.800 --> 00:40:25.760
aber der Trick wäre ja, genau

00:40:25.760 --> 00:40:27.160
das auch bauen zu können, als

00:40:27.160 --> 00:40:30.120
Tontechniker, sich quasi dieses Zielbild

00:40:30.120 --> 00:40:31.920
oder diesem Stil anzupassen

00:40:31.920 --> 00:40:33.660
und das dann halt auf einen

00:40:33.660 --> 00:40:35.120
gewissen Qualitätsgrad zu bringen.

00:40:35.560 --> 00:40:37.640
Und das aus Algorithmen zu denken, finde ich spannend, weil ich

00:40:37.640 --> 00:40:39.520
versuche auch, also überhaupt erstmal zu verstehen,

00:40:39.600 --> 00:40:41.500
wie das überhaupt geht, weil dieses

00:40:41.500 --> 00:40:43.520
Klang zu,

00:40:43.780 --> 00:40:45.660
also visualisieren ist halt da wieder auch

00:40:45.660 --> 00:40:47.820
der falsche Begriff, ja, aber sich das so

00:40:47.820 --> 00:40:49.600
vorstellen zu können, wie man einen Klang

00:40:49.600 --> 00:40:51.640
überhaupt schafft, das ist irgendwie, also eine der

00:40:51.640 --> 00:40:53.660
großen Herausforderungen, die ich jetzt persönlich habe, wenn ich

00:40:53.660 --> 00:40:55.060
jetzt an Musik denke, auch

00:40:55.060 --> 00:40:57.620
was ich höre, überhaupt umzusetzen,

00:40:57.720 --> 00:41:00.100
dafür muss ich relativ viel üben

00:41:00.100 --> 00:41:01.420
oder so, ja, dass ich

00:41:01.420 --> 00:41:03.620
das hinkriege oder halt auch in die Musikschule

00:41:03.620 --> 00:41:05.280
gehen und Theorie lernen und so und

00:41:05.280 --> 00:41:07.500
das ist durchaus, glaube ich, die

00:41:07.500 --> 00:41:08.640
spannende Sache dahinter vielleicht.

00:41:09.720 --> 00:41:11.480
Und warum es einem Nutzer wie dir, Johannes,

00:41:11.480 --> 00:41:13.580
dann vielleicht schwerfällt, weil du sonst nicht so

00:41:13.580 --> 00:41:14.980
viel mit Ton machst.

00:41:16.560 --> 00:41:17.020
Ich habe da

00:41:17.020 --> 00:41:18.760
überhaupt gar keinen Connector zu.

00:41:18.880 --> 00:41:21.240
Ich habe da, glaube ich, eine sehr visuelle Ansicht.

00:41:21.960 --> 00:41:23.260
Sobald man mir eine

00:41:23.260 --> 00:41:25.200
FFT zeigt, dann

00:41:25.200 --> 00:41:27.320
komme ich damit klar, aber solange nur

00:41:27.320 --> 00:41:29.380
die Geräusche da sind oder die Wellenformen,

00:41:29.540 --> 00:41:31.380
dann bin ich

00:41:31.380 --> 00:41:31.880
völlig verloren.

00:41:33.040 --> 00:41:35.240
Ja, ich weiß es nicht genau.

00:41:35.780 --> 00:41:37.280
Ich habe mal irgendwann auch

00:41:37.280 --> 00:41:39.380
ein Podcast-Episode gehört mit

00:41:39.380 --> 00:41:41.360
Rick Rubin und der meinte

00:41:41.360 --> 00:41:43.040
so, ach, das mit dem

00:41:43.040 --> 00:41:43.560
äh,

00:41:43.580 --> 00:41:44.880
irgendwie produzieren und so.

00:41:45.600 --> 00:41:47.300
Eigentlich kann man es immer nur kaputt machen

00:41:47.300 --> 00:41:49.340
und wenn man das nicht kaputt macht, dann ist das

00:41:49.340 --> 00:41:51.320
schon sehr, sehr, dann ist das schon sehr, sehr gut.

00:41:51.800 --> 00:41:53.460
Ich weiß gar nicht, ob man tatsächlich so viel

00:41:53.460 --> 00:41:54.980
an, ähm,

00:41:55.120 --> 00:41:56.820
an Mastering

00:41:56.820 --> 00:41:59.820
kann man damit tatsächlich prägen?

00:42:00.100 --> 00:42:00.300
Ja, ja.

00:42:01.020 --> 00:42:03.240
Also ich bin jetzt ja totaler Amateur,

00:42:03.360 --> 00:42:05.160
was so Musik auch angeht und so, aber wenn ich

00:42:05.160 --> 00:42:07.380
jetzt mit einem Kumpel jetzt Musik mache

00:42:07.380 --> 00:42:09.280
und ich schaffe es halt schon, bestimmte

00:42:09.280 --> 00:42:11.280
Sachen da rauszuholen oder bestimmte

00:42:11.280 --> 00:42:13.500
Töne an der richtigen Stelle leiser oder lauter zu machen,

00:42:13.580 --> 00:42:15.380
oder halt Raum zu schaffen für, ne,

00:42:15.400 --> 00:42:17.220
den Bass oder so, irgendeinen Ducking hinzukriegen,

00:42:17.260 --> 00:42:19.160
das ist ja schon, das sind ja eher so Basics, ja,

00:42:19.260 --> 00:42:21.560
aber das, ähm, bei, also ich kann

00:42:21.560 --> 00:42:23.320
das überhaupt nicht vorstellen mit Sprache, weil ich damit überhaupt

00:42:23.320 --> 00:42:25.480
gar keine Erfahrung habe, ja, mit Podcast

00:42:25.480 --> 00:42:27.340
oder sowas, also, wir machen jetzt Vereine,

00:42:27.420 --> 00:42:29.340
aber als Hohntechniker jetzt, würde ich sagen, würde ich mich

00:42:29.340 --> 00:42:31.660
jetzt auch nicht bezeichnen und das ist halt, äh,

00:42:31.840 --> 00:42:33.180
schon nochmal eine andere Herausforderung.

00:42:33.240 --> 00:42:35.240
Und wenn man gerade diese Klangbilder vor

00:42:35.240 --> 00:42:36.840
Ohren hat, ja,

00:42:37.560 --> 00:42:39.420
da kommt man vielleicht so ein bisschen

00:42:39.420 --> 00:42:41.080
näher dran. Also das ist das, was Johannes meinte.

00:42:41.440 --> 00:42:43.540
Er hat genauso geklungen, wie er, also dachte er es im Radio,

00:42:43.580 --> 00:42:45.380
steht und wenn ich jetzt, okay, ähm,

00:42:45.460 --> 00:42:47.600
ich möchte das Audio-Klangbild

00:42:47.600 --> 00:42:49.020
haben, wie, ähm,

00:42:49.480 --> 00:42:51.480
dass sie mal so im Radio steht, dann weiß ich vielleicht

00:42:51.480 --> 00:42:53.500
in welche, vielleicht wenn ich das Klang

00:42:53.500 --> 00:42:55.500
habe, das richtige Wort dafür, ich weiß

00:42:55.500 --> 00:42:57.700
nicht, ich das Ganze bringen möchte,

00:42:57.860 --> 00:42:59.700
ob ich jetzt, ne, welche Frequenzen

00:42:59.700 --> 00:43:01.540
ich bewege. Und das, was

00:43:01.540 --> 00:43:03.620
ich jetzt spannend finde, ist, was kann ich denn noch machen

00:43:03.620 --> 00:43:05.600
eigentlich als Audio-Tontechniker

00:43:05.600 --> 00:43:07.080
außer Frequenzen

00:43:07.080 --> 00:43:09.480
bewegen und, äh, Lautstärke

00:43:09.480 --> 00:43:11.440
mit, was ist das, Envelopes,

00:43:11.440 --> 00:43:13.080
äh, modifizieren?

00:43:13.580 --> 00:43:14.960
Äh, wie ausleveln?

00:43:15.860 --> 00:43:17.060
Ja, das ist ja, der Envelope ist ja,

00:43:17.120 --> 00:43:19.580
im Endeffekt ist alles

00:43:19.580 --> 00:43:21.580
Frequenzen und Lautstärken, mehr gibt's ja nicht.

00:43:22.080 --> 00:43:23.200
Ja, genau, aber ja.

00:43:23.340 --> 00:43:23.960
Ja, gut, aber...

00:43:23.960 --> 00:43:27.160
Wie man diese, wie man diese, wie man diese Regeln

00:43:27.160 --> 00:43:29.620
Ja, aber ist auch das...

00:43:29.620 --> 00:43:31.600
Grafiks sind auch nur ein paar Pixel, das ist jetzt,

00:43:31.640 --> 00:43:33.320
äh, ist, äh, Zukunftsschau.

00:43:33.700 --> 00:43:35.560
Ja, ein paar Farben

00:43:35.560 --> 00:43:36.820
an die richtige Stelle getan.

00:43:38.040 --> 00:43:39.480
Na, na, du meinst jetzt, welche,

00:43:39.480 --> 00:43:41.560
welche Algorithmen es jetzt sozusagen

00:43:41.560 --> 00:43:42.360
noch gibt, oder was?

00:43:43.580 --> 00:43:44.380
Können wir vielleicht gleich nochmal auf eingeben?

00:43:44.440 --> 00:43:45.360
Ich find's gar nicht so unverständlich.

00:43:45.480 --> 00:43:48.360
Ich glaube, Dominik möchte einfach in dem komplizierten, äh,

00:43:48.360 --> 00:43:50.440
Interface noch ein paar mehr Knöpfe

00:43:50.440 --> 00:43:52.360
haben, wo er dann sagen kann, jetzt lieber

00:43:52.360 --> 00:43:54.340
irgendwie Radio-Style

00:43:54.340 --> 00:43:55.860
oder lieber...

00:43:55.860 --> 00:43:58.140
Er möchte wissen, welche Knöpfe mehr er drehen muss

00:43:58.140 --> 00:44:00.020
um den Radio-Style. Ja, also ich würde tatsächlich,

00:44:00.140 --> 00:44:02.020
also ich würde gerne, wenn ich jetzt so ein

00:44:02.020 --> 00:44:04.280
perfektes Tonstudio-Ding

00:44:04.280 --> 00:44:05.580
mir vorstelle, wo es diese ganzen

00:44:05.580 --> 00:44:07.940
einzelnen Regelungen gibt, ja, dann möchte ich gerne wissen,

00:44:08.020 --> 00:44:09.660
welche Regelungen ich denn überhaupt machen muss.

00:44:10.300 --> 00:44:11.740
Ja, aber das ist jetzt halt

00:44:11.740 --> 00:44:13.560
ein neuronales Netz mit einer Milliarde,

00:44:13.580 --> 00:44:15.500
Knöpfe, die du drehen kannst.

00:44:15.880 --> 00:44:17.540
Die kannst du gar nicht mehr selber drehen, da musst du was

00:44:17.540 --> 00:44:19.420
vorher machen. Naja, aber ich, ich, ich, ungefähr

00:44:19.420 --> 00:44:21.560
zu wissen, welche Richtung ich da möchte, ist vielleicht

00:44:21.560 --> 00:44:23.600
ja schon mal der erste

00:44:23.600 --> 00:44:24.200
Schritt.

00:44:25.400 --> 00:44:27.700
Also ich kann, das ist schon klar, dass ich...

00:44:27.700 --> 00:44:29.620
Habt ihr euch selber neuronale Netze trainiert,

00:44:29.700 --> 00:44:29.840
Georg?

00:44:31.600 --> 00:44:33.500
Wie meinst du, ob wir unsere Netze selber

00:44:33.500 --> 00:44:34.840
trainieren? Ja.

00:44:35.480 --> 00:44:38.060
Ja, das ist ja... Da benutzt ihr irgendwas Vorgefertigtes und, äh...

00:44:38.060 --> 00:44:39.580
Nein, nein, bei uns ist, bei uns

00:44:39.580 --> 00:44:41.060
ist alles selber gemacht.

00:44:41.060 --> 00:44:42.180
Alles selber gemacht?

00:44:42.760 --> 00:44:42.920
Ja.

00:44:43.580 --> 00:44:46.240
Alles natürlich nicht, aber die Algorithmen...

00:44:46.240 --> 00:44:47.040
Ja, PsiPi und Nampi.

00:44:48.800 --> 00:44:50.760
Und wie viele, wie viele Parameter

00:44:50.760 --> 00:44:52.360
habt ihr da drin?

00:44:52.480 --> 00:44:54.480
Wie viel, über welche Größe sprechen wir da?

00:44:54.500 --> 00:44:56.200
Also ich meine, das ist ja eine dieser Kenngrößen,

00:44:56.320 --> 00:44:58.080
wie man so sagt, hier, GPT-X hat

00:44:58.080 --> 00:44:59.640
eine Milliarde Parameter.

00:45:00.680 --> 00:45:02.040
Ja, äh,

00:45:02.160 --> 00:45:03.760
das kann ich dir so gar nicht sagen,

00:45:04.320 --> 00:45:06.120
weil, also, also diese

00:45:06.120 --> 00:45:08.280
Netze im Audi-Bereich

00:45:08.280 --> 00:45:10.160
funktionieren ein bisschen anders, weil

00:45:10.160 --> 00:45:12.200
ich meine,

00:45:12.340 --> 00:45:12.920
im Prinzip,

00:45:13.580 --> 00:45:16.100
hat schon ähnliche Elemente, also man hat halt

00:45:16.100 --> 00:45:17.520
meistens, äh,

00:45:18.260 --> 00:45:20.280
irgendwelche rekursiven Elemente

00:45:20.280 --> 00:45:21.680
oder Transformers drinnen, also

00:45:21.680 --> 00:45:23.480
bei uns meistens

00:45:23.480 --> 00:45:26.340
LSDMs oder Transformer

00:45:26.340 --> 00:45:28.260
eben, oder beides meistens und dann noch

00:45:28.260 --> 00:45:30.240
so Convolution Layer natürlich

00:45:30.240 --> 00:45:31.400
und alle

00:45:31.400 --> 00:45:34.040
die Elemente sind eh ähnlich, aber

00:45:34.040 --> 00:45:36.300
es gehen einfach viel mehr

00:45:36.300 --> 00:45:38.180
Daten rein und raus natürlich, weil

00:45:38.180 --> 00:45:40.500
Audi eine viel höhere Sampling Rate

00:45:40.500 --> 00:45:42.460
hat und viel in einer kürzeren Zeit

00:45:42.460 --> 00:45:43.560
viel mehr Daten,

00:45:43.580 --> 00:45:44.520
rein und raus müssen,

00:45:45.760 --> 00:45:47.360
aber auf was fällt jetzt eigentlich raus?

00:45:47.480 --> 00:45:49.520
Anzahl Parameter, Größe, also

00:45:49.520 --> 00:45:52.000
wir haben natürlich verschiedene Models,

00:45:52.160 --> 00:45:53.860
also von manche

00:45:53.860 --> 00:45:56.000
Gigabyte bis zu

00:45:56.000 --> 00:45:58.400
paar hundert Megabyte,

00:45:58.920 --> 00:46:00.300
also in der Größenordnung,

00:46:00.920 --> 00:46:02.080
das ist nicht so riesige Model

00:46:02.080 --> 00:46:03.500
wie irgendeine Sprachmodelle,

00:46:04.380 --> 00:46:05.960
aber doch schon ein bisschen was

00:46:05.960 --> 00:46:07.400
und

00:46:07.400 --> 00:46:09.900
ja, die Herausforderung ist natürlich auch,

00:46:10.020 --> 00:46:12.400
wie man die alle trainiert,

00:46:12.400 --> 00:46:13.560
weil es, weil es natürlich,

00:46:13.580 --> 00:46:15.100
natürlich viel Rechenleistung braucht,

00:46:15.900 --> 00:46:17.980
insofern, wir bauen uns halt hauptsächlich

00:46:17.980 --> 00:46:18.720
unsere eigenen

00:46:18.720 --> 00:46:21.420
Trainingserver auf, beziehungsweise

00:46:21.420 --> 00:46:23.300
mieten teilweise eben an,

00:46:23.900 --> 00:46:25.460
was aber leider halt sehr teuer ist,

00:46:25.520 --> 00:46:27.580
wenn man da versucht auf Amazon oder sonst

00:46:27.580 --> 00:46:28.480
irgendwo anzumieten.

00:46:29.700 --> 00:46:31.440
Bei den eigenen Rechnern ist

00:46:31.440 --> 00:46:33.380
wieder die Herausforderung, dass man die Kühlung halt

00:46:33.380 --> 00:46:35.480
hinbekommt, dass man

00:46:35.480 --> 00:46:37.220
im Büro das irgendwie

00:46:37.220 --> 00:46:38.740
aushaltet oder sonst wo

00:46:38.740 --> 00:46:40.860
die entsprechende Kühlung schafft

00:46:40.860 --> 00:46:43.400
und natürlich die Kosten von

00:46:43.400 --> 00:46:45.300
der Anschaffung, weil

00:46:45.300 --> 00:46:47.320
die GPUs sind natürlich

00:46:47.320 --> 00:46:49.300
heiß begehrt im Moment und

00:46:49.300 --> 00:46:50.380
jeder will die kaufen,

00:46:51.660 --> 00:46:53.240
aber ja, das ist natürlich

00:46:53.240 --> 00:46:55.360
andere, zusätzlich zu den

00:46:55.360 --> 00:46:56.980
Daten eben, dass man

00:46:56.980 --> 00:46:59.160
gute Daten bekommt und

00:46:59.160 --> 00:47:01.260
vor allem im Audi-Bereich sind

00:47:01.260 --> 00:47:02.800
die Daten ja auch sehr subjektiv,

00:47:03.320 --> 00:47:05.260
wie wir vorher schon geredet haben und das muss man

00:47:05.260 --> 00:47:06.400
irgendwie einordnen

00:47:06.400 --> 00:47:09.260
trotzdem und das ist nicht immer so ganz klar,

00:47:10.060 --> 00:47:11.120
also man kann das, man kann

00:47:11.120 --> 00:47:13.240
dieses Data Labeling jetzt nicht einfach nach Indien

00:47:13.240 --> 00:47:14.900
auslagern und da gibt es jetzt ein paar

00:47:14.900 --> 00:47:16.700
Clickworker, die das einfach

00:47:16.700 --> 00:47:19.060
kategorisieren, sondern da muss man

00:47:19.060 --> 00:47:20.440
wirklich ein gutes Gehör haben dafür

00:47:20.440 --> 00:47:22.800
und zusätzlich eben

00:47:22.800 --> 00:47:25.040
die ganze Computer-Hardware

00:47:25.040 --> 00:47:26.760
ist eine Herausforderung,

00:47:26.940 --> 00:47:29.140
dass man diese eben beschafft.

00:47:30.300 --> 00:47:30.740
Okay, aber

00:47:30.740 --> 00:47:33.120
trotzdem betreibt ihr ja ein System,

00:47:33.860 --> 00:47:35.500
wo ich als Endkunde

00:47:35.500 --> 00:47:37.420
eine Audiodatei hochladen kann

00:47:37.420 --> 00:47:39.180
und die wird in 10-facher

00:47:39.180 --> 00:47:40.940
Geschwindigkeit verarbeitet.

00:47:42.020 --> 00:47:42.720
Das allein

00:47:43.240 --> 00:47:45.360
das ist ja schon eine massive Leistung,

00:47:45.560 --> 00:47:47.700
dass ihr da einen Service

00:47:47.700 --> 00:47:49.660
hinstellt, der einfach so funktioniert

00:47:49.660 --> 00:47:51.700
und dann auch noch ungeheuer schnell ist.

00:47:51.800 --> 00:47:52.980
Also ich meine, wenn man sich

00:47:52.980 --> 00:47:55.720
die Leistung von solchen Systemen

00:47:55.720 --> 00:47:57.720
vor 5 oder vor 10 Jahren anschaut, würde man

00:47:57.720 --> 00:47:59.940
erwarten, dass es 10-mal so lange dauert, wie das Audio ist.

00:48:00.360 --> 00:48:01.760
Aber jetzt ist es gerade umgekehrt,

00:48:01.780 --> 00:48:02.700
es ist 10-mal so schnell,

00:48:03.800 --> 00:48:05.700
wie das Audio ist. Wie kriegt ihr das hin?

00:48:05.720 --> 00:48:07.500
Georg, ich habe mir das vorhin auf eurer Webseite durchgeschaut

00:48:07.500 --> 00:48:09.340
und habe mir gedacht, wie kriegt ihr das hin?

00:48:10.520 --> 00:48:11.440
Naja, also

00:48:11.440 --> 00:48:13.220
du redest jetzt natürlich nicht vom Training,

00:48:13.240 --> 00:48:15.340
sondern von der Influenz, also das, was

00:48:15.340 --> 00:48:16.000
deine Anwendung ist.

00:48:16.000 --> 00:48:16.520
Ja, aber trotzdem.

00:48:18.100 --> 00:48:20.960
Ja, trotzdem. Es gibt halt mittlerweile

00:48:20.960 --> 00:48:23.180
gute GPUs, um das kurz zu fassen.

00:48:24.200 --> 00:48:24.720
Okay.

00:48:25.660 --> 00:48:27.220
Ihr habt einfach horizontal

00:48:27.220 --> 00:48:29.140
skaliert. Dicke Rechner.

00:48:29.880 --> 00:48:31.480
Naja, geht halt in dem Fall

00:48:31.480 --> 00:48:32.980
leider nicht anders, weil

00:48:32.980 --> 00:48:35.420
du musst die Models halt auf GPUs ausführen,

00:48:35.560 --> 00:48:37.200
weil GPUs sind halt einfach

00:48:37.200 --> 00:48:38.820
zu langsam. Bei uns,

00:48:38.940 --> 00:48:41.060
wir sind in einer glücklichen Lage, dass wir nicht so

00:48:41.060 --> 00:48:42.760
riesige Modelle haben, wie die ganzen

00:48:42.760 --> 00:48:45.040
Language Models. Also wir können das auch noch auf einzelne

00:48:45.040 --> 00:48:46.680
GPUs ausführen und brauchen da nicht

00:48:46.680 --> 00:48:48.700
GPU-Cluster für ein Modell.

00:48:49.360 --> 00:48:50.560
Das ist schon mal viel einfacher.

00:48:51.300 --> 00:48:53.080
Aber das Schwierige ist

00:48:53.080 --> 00:48:55.220
natürlich die Rechenleistung beim Training, weil du halt

00:48:55.220 --> 00:48:56.820
da wochenlang

00:48:56.820 --> 00:48:59.100
das System rechnen lassen musst

00:48:59.100 --> 00:49:00.920
und ja, da brauchst du halt einfach

00:49:00.920 --> 00:49:02.960
viel mehr Rechenleistung. Die Influenz

00:49:02.960 --> 00:49:04.740
ist jetzt eh okay. Also es gibt

00:49:04.740 --> 00:49:07.380
die Standard-Anbieter

00:49:07.380 --> 00:49:09.100
wie Hetzner und so weiter, die bieten

00:49:09.100 --> 00:49:11.140
eh GPU-Server auch an mittlerweile

00:49:11.140 --> 00:49:12.680
und da kann man sich einfach einmieten.

00:49:12.760 --> 00:49:14.440
Und das war's dann im Endeffekt.

00:49:14.460 --> 00:49:16.780
Wie viel musst du mieten bei Hetzner für dein Modelltrainieren?

00:49:16.980 --> 00:49:18.820
Ist das einfach den einen? Kostet das 200 Euro oder was?

00:49:18.920 --> 00:49:20.500
Für das Trainieren haben wir nichts bei Hetzner.

00:49:21.060 --> 00:49:21.940
Das wäre zu teuer.

00:49:23.260 --> 00:49:24.900
Nur für die Inference

00:49:24.900 --> 00:49:25.300
oder so.

00:49:27.100 --> 00:49:28.220
Da haben wir keine Ahnung.

00:49:29.360 --> 00:49:30.940
So, zwischen 10 und 20

00:49:30.940 --> 00:49:31.220
herum.

00:49:32.160 --> 00:49:35.060
Ja, das ist schon eine ganz schön ordentliche Operation, was ihr da betreibt.

00:49:35.180 --> 00:49:35.260
Ja.

00:49:39.040 --> 00:49:40.800
Ist auch vom Betrieb her

00:49:40.800 --> 00:49:42.260
eine gewisse Herausforderung.

00:49:42.760 --> 00:49:43.240
Ja.

00:49:44.160 --> 00:49:45.820
Da werden dann doch die Datenmengen auch,

00:49:46.600 --> 00:49:48.360
also ich meine, Audio ist jetzt nicht so schlimm wie Video,

00:49:49.020 --> 00:49:50.980
aber trotzdem kriegst du ja doch

00:49:50.980 --> 00:49:53.140
Dateien, die eine gewisse Megabyte-Größe

00:49:53.140 --> 00:49:54.720
haben und die du dann verarbeiten musst

00:49:54.720 --> 00:49:56.560
und

00:49:56.560 --> 00:49:58.580
auch, soll ich mal,

00:49:58.620 --> 00:49:59.820
richtig verarbeiten musst.

00:50:01.020 --> 00:50:01.420
Genau.

00:50:02.560 --> 00:50:03.500
Höchster Respekt hier.

00:50:04.400 --> 00:50:06.340
Vor allem, man braucht halt natürlich auch Rechenleistung.

00:50:06.480 --> 00:50:08.440
Es kostet halt auch.

00:50:09.080 --> 00:50:11.000
Das ist dann der Punkt im Endeffekt.

00:50:11.780 --> 00:50:11.920
Ja.

00:50:12.760 --> 00:50:14.820
Das war halt früher schon viel günstiger.

00:50:15.100 --> 00:50:17.340
Also da haben wir das nur auf TPUs

00:50:17.340 --> 00:50:18.260
sozusagen laufen gehabt.

00:50:19.040 --> 00:50:21.100
Hat natürlich auch ähnlich lange

00:50:21.100 --> 00:50:23.540
gedauert, weil die Algorithmen

00:50:23.540 --> 00:50:25.260
halt auch für damalige Verhältnisse

00:50:25.260 --> 00:50:26.280
relativ aufwendig waren.

00:50:27.080 --> 00:50:28.960
Aber war halt um einiges günstiger.

00:50:29.820 --> 00:50:31.680
Ja, das ist so ein bisschen die Kehrseite,

00:50:31.760 --> 00:50:32.840
oder, von dieser ganzen

00:50:32.840 --> 00:50:35.000
neuronale Netze-Geschichte.

00:50:35.980 --> 00:50:37.280
Auf der einen Seite muss man

00:50:37.280 --> 00:50:38.260
wesentlich weniger

00:50:38.260 --> 00:50:40.960
manuelle Arbeit reinstecken,

00:50:41.520 --> 00:50:42.720
wobei das vielleicht auch gar nicht stimmt.

00:50:42.760 --> 00:50:42.900
Ja.

00:50:44.220 --> 00:50:45.540
Aber auf der anderen Seite

00:50:45.540 --> 00:50:47.660
zahlt man es halt mit Rechenzyklen.

00:50:48.480 --> 00:50:48.620
Ja.

00:50:49.520 --> 00:50:51.380
Ach, dazu fällt mir ein,

00:50:51.840 --> 00:50:52.960
genau, da war ich jetzt überrascht.

00:50:53.040 --> 00:50:54.840
Ich habe jetzt letztens irgendwie so ein bisschen

00:50:54.840 --> 00:50:56.740
mit Transkripten Dinge gemacht.

00:50:57.640 --> 00:50:59.460
Genau, wir waren ja

00:50:59.460 --> 00:51:01.420
beide auf der Subscribe,

00:51:01.640 --> 00:51:03.460
aber da habe ich dann auch mit

00:51:03.460 --> 00:51:05.720
anderen Leuten

00:51:05.720 --> 00:51:07.840
so geredet, wie die das mit Transkripten

00:51:07.840 --> 00:51:10.100
machen, in Podcast-Housing-

00:51:10.100 --> 00:51:10.920
Software.

00:51:10.920 --> 00:51:12.740
Ja, und ich habe mich dann mal so ein bisschen,

00:51:12.740 --> 00:51:13.880
ein bisschen vorgedrückt, weil ich dachte so,

00:51:13.920 --> 00:51:16.520
oh, das ist aber so viel Arbeit, da weiß ich nicht genau,

00:51:16.580 --> 00:51:17.540
ob ich das wirklich machen will.

00:51:18.200 --> 00:51:19.960
Und dann meinten aber alle anderen,

00:51:20.100 --> 00:51:22.640
ach so, ja, das war jetzt auch nicht so schlimm,

00:51:22.720 --> 00:51:24.780
das ging schon. Und dann bin ich da rausgegangen

00:51:24.780 --> 00:51:26.300
mit, okay, ich muss es wohl doch mal machen.

00:51:26.640 --> 00:51:28.000
Und habe dann jetzt auch mal angefangen.

00:51:28.840 --> 00:51:30.220
Und dabei...

00:51:30.220 --> 00:51:31.180
Das ist ganz gut geworden, ne?

00:51:32.480 --> 00:51:34.380
Ja, also tatsächlich irgendwie mit

00:51:34.380 --> 00:51:36.420
Whisper hat man jetzt ein Modell, das tatsächlich

00:51:36.420 --> 00:51:37.500
wirklich ganz gut

00:51:37.500 --> 00:51:40.740
sozusagen, ja...

00:51:41.040 --> 00:51:42.600
Also beim Python-Stand hast du da,

00:51:42.740 --> 00:51:43.760
so ein paar Sachen ja gezeigt.

00:51:43.760 --> 00:51:44.620
Ja, auf dem Herbst.

00:51:44.680 --> 00:51:46.600
Genau, hast du ja CLI-Interface, du hast sogar

00:51:46.600 --> 00:51:47.640
einen Blog-Eintrag dazu geschrieben.

00:51:48.080 --> 00:51:48.220
Ja.

00:51:49.700 --> 00:51:52.440
Und man kann es in der CLI benutzen, um Transkripte zu machen

00:51:52.440 --> 00:51:52.940
für Audio.

00:51:53.040 --> 00:51:53.900
Genau, aber das,

00:51:54.740 --> 00:51:57.200
weswegen ich das jetzt gerade erwähnt habe, ist,

00:51:58.700 --> 00:52:01.200
wenn man das lokal laufen lässt,

00:52:01.320 --> 00:52:02.540
dann wird auch das Laptop heiß

00:52:02.540 --> 00:52:04.460
und der Akku wird alle und das funktioniert

00:52:04.460 --> 00:52:05.980
alles nur sehr langsam und dann,

00:52:06.340 --> 00:52:07.320
es macht keinen Spaß.

00:52:08.000 --> 00:52:09.060
Aber es gibt da

00:52:09.060 --> 00:52:11.480
einen Dienstleister

00:52:11.480 --> 00:52:12.300
Drog,

00:52:12.740 --> 00:52:13.680
ich weiß gar nicht, wie man die ausspricht,

00:52:14.420 --> 00:52:16.560
und die machen ja, die haben sich irgendwie

00:52:16.560 --> 00:52:18.840
auf Inferenz spezialisiert und machen das irgendwie

00:52:18.840 --> 00:52:20.980
schnell. Die haben auch, sagen sie jedenfalls,

00:52:21.020 --> 00:52:22.040
ich habe keine Ahnung, was sie wirklich machen,

00:52:22.480 --> 00:52:24.820
aber dass sie da halt eigene Hardware

00:52:24.820 --> 00:52:26.640
haben, die da

00:52:26.640 --> 00:52:27.280
irgendwie,

00:52:28.700 --> 00:52:30.500
wo man dann Modelle halt

00:52:30.500 --> 00:52:32.820
für Inferenz drauflaufen lassen kann,

00:52:32.980 --> 00:52:34.580
die dann halt noch schneller ist als, weiß ich nicht,

00:52:34.620 --> 00:52:36.780
GPUs oder so. Und da

00:52:36.780 --> 00:52:39.000
war es tatsächlich, also irgendwie Whisper V3

00:52:39.000 --> 00:52:40.920
Large, also was halt

00:52:40.920 --> 00:52:42.580
auf meinem Laptop echt

00:52:42.740 --> 00:52:44.920
fies langsam ist, da geht halt so

00:52:44.920 --> 00:52:46.900
zwei Stunden Episode, geht da halt so in

00:52:46.900 --> 00:52:48.900
einer Minute ungefähr durch und ist fertig.

00:52:50.000 --> 00:52:51.200
Und das hat mich schon so,

00:52:51.340 --> 00:52:52.020
oh krass, also

00:52:52.020 --> 00:52:53.680
das ging mir gut.

00:52:53.680 --> 00:52:55.460
Naja, es gibt ja jetzt diese schnellere

00:52:55.460 --> 00:52:57.060
Whisper Model, das Whisper Turbo.

00:52:57.760 --> 00:52:59.120
Ja, genau, das habe ich auch

00:52:59.120 --> 00:53:01.480
probiert, das geht schon ganz gut, aber

00:53:01.480 --> 00:53:03.500
bei

00:53:03.500 --> 00:53:05.620
Drog, die machen wohl das wirklich

00:53:05.620 --> 00:53:07.800
das große Whisper V3

00:53:07.800 --> 00:53:08.060
Large.

00:53:09.220 --> 00:53:10.800
Wir haben ja auch das V3

00:53:10.800 --> 00:53:12.380
Large.

00:53:12.740 --> 00:53:14.080
Ja, das haben wir ja

00:53:14.080 --> 00:53:16.960
auf den GPUs ganz einfach

00:53:16.960 --> 00:53:17.280
kaufen.

00:53:17.900 --> 00:53:21.000
Ja, genau.

00:53:21.000 --> 00:53:21.800
Das ist super, ja.

00:53:22.800 --> 00:53:25.140
Ich habe auch die so ein bisschen verglichen,

00:53:25.600 --> 00:53:26.920
V2

00:53:26.920 --> 00:53:28.900
versus V3 und tatsächlich für Deutsch

00:53:28.900 --> 00:53:30.840
macht es, bei Englisch macht es gar nicht so einen Riesenunterschied,

00:53:30.900 --> 00:53:33.020
oder dachte ich jedenfalls jetzt so, aber bei Deutsch

00:53:33.020 --> 00:53:34.740
macht es halt noch schon einen Unterschied, also

00:53:34.740 --> 00:53:36.160
V3 ist nochmal ein gutes Stückchen besser.

00:53:37.000 --> 00:53:38.800
Also bei Namen oder auch

00:53:38.800 --> 00:53:39.940
bei Python oder auch

00:53:39.940 --> 00:53:41.780
das geht eigentlich,

00:53:41.780 --> 00:53:42.380
da, da,

00:53:42.740 --> 00:53:43.780
oft das V2

00:53:43.780 --> 00:53:45.560
versteht es halt nicht so richtig

00:53:45.560 --> 00:53:47.880
und V3 meistens dann schon,

00:53:48.000 --> 00:53:49.240
es sind auch immer noch Fehler drin, aber

00:53:49.240 --> 00:53:51.460
also merkbarer Unterschied für mich.

00:53:53.300 --> 00:53:54.360
Ja, ich weiß jetzt nicht mehr,

00:53:54.560 --> 00:53:56.620
welche Version, aber auf irgendeiner Version

00:53:56.620 --> 00:53:57.920
ist dann auf einmal immer

00:53:57.920 --> 00:53:59.520
Afonik richtig erkannt worden.

00:54:00.540 --> 00:54:01.140
Ja, auch.

00:54:01.860 --> 00:54:03.660
Weil wir haben immer so ein Test-Files

00:54:03.660 --> 00:54:05.920
und Afonik war zuerst immer falsch

00:54:05.920 --> 00:54:07.280
und dann auf einmal hat es funktioniert.

00:54:07.940 --> 00:54:09.380
Dann werden sich wohl die Daten geändert haben.

00:54:10.080 --> 00:54:11.840
Ja, ich meine, ihr seid einfach

00:54:11.840 --> 00:54:12.460
so bekannt,

00:54:12.740 --> 00:54:14.500
dass ihr jetzt in den Referenzdaten vorkommt.

00:54:14.660 --> 00:54:15.160
Ja, genau.

00:54:17.460 --> 00:54:18.800
Ich finde das auch total komisch,

00:54:18.880 --> 00:54:19.640
dass man dem

00:54:19.640 --> 00:54:22.600
Street-to-Text-Model, dem kann man ja dann auch ein Prompt geben,

00:54:23.140 --> 00:54:24.760
dass man dem sagen kann,

00:54:24.860 --> 00:54:26.580
was es tun soll und wie Leute heißen

00:54:26.580 --> 00:54:27.660
und das funktioniert dann plötzlich.

00:54:28.020 --> 00:54:29.300
Das fand ich auch sehr eigenartig.

00:54:29.440 --> 00:54:31.720
Ich weiß jetzt auch noch nicht, dass man das wirklich einstellen kann,

00:54:32.020 --> 00:54:34.460
aber ich verwende jetzt immer das gleiche Prompt oder muss es halt umkonfigurieren,

00:54:35.040 --> 00:54:36.320
aber das geht ja auch

00:54:36.320 --> 00:54:37.700
und das ist auch ganz eigenartig.

00:54:38.460 --> 00:54:39.080
Also, ja,

00:54:40.000 --> 00:54:41.480
das ist irgendwie anders als früher.

00:54:42.740 --> 00:54:45.300
Ja, das hat beim Whisper leider

00:54:45.300 --> 00:54:46.320
Seiteneffekte.

00:54:47.320 --> 00:54:52.320
Das fördert Halluzinationen.

00:54:52.640 --> 00:54:54.100
Ja, das kann natürlich sein.

00:54:54.960 --> 00:54:57.860
Deswegen verwenden wir die Prompt im Moment eigentlich nicht.

00:54:58.860 --> 00:54:59.400
Ah, okay.

00:54:59.640 --> 00:55:02.340
Ja, ich habe mir auch die Transkripte nicht so komplett durchgelesen.

00:55:03.400 --> 00:55:05.020
Wer weiß, was da jetzt so komische Sachen sind.

00:55:05.020 --> 00:55:06.940
Der weiß, was wir jetzt auf einmal für Dinge erzählen.

00:55:06.940 --> 00:55:08.680
Das auf die Portrait-Seite noch schreiben.

00:55:08.820 --> 00:55:10.020
Es gilt das gesprochene Wort.

00:55:10.500 --> 00:55:11.460
Lieber Helmut,

00:55:11.560 --> 00:55:12.060
ich bin zuhörer.

00:55:12.740 --> 00:55:14.540
Schauen Sie jetzt die Untertitel an.

00:55:15.180 --> 00:55:16.560
Ja, gehört auch so an.

00:55:16.600 --> 00:55:17.320
Das ist vielleicht nicht so.

00:55:18.720 --> 00:55:18.940
Ja.

00:55:20.240 --> 00:55:22.160
Müssen wir ein paar exotische Wörter sagen,

00:55:22.340 --> 00:55:24.540
um deine Transkriptionen zu verwirren.

00:55:25.760 --> 00:55:27.700
Nein, es ist gar nicht so bei Wörtern.

00:55:27.820 --> 00:55:28.720
Es ist meistens eben,

00:55:29.280 --> 00:55:30.780
wenn nicht gesprochen wird

00:55:30.780 --> 00:55:31.800
oder wenn Pausen sind,

00:55:32.540 --> 00:55:35.140
dass sich dann irgendeine Halluzinationen bilden

00:55:35.140 --> 00:55:37.480
und dann Wörter für Wörter abgespult werden,

00:55:37.540 --> 00:55:37.880
sozusagen.

00:55:38.680 --> 00:55:39.040
Ah.

00:55:40.240 --> 00:55:42.520
Das hört sich so ein bisschen an, als ob das Modell Neuronen,

00:55:42.740 --> 00:55:43.220
der nicht so erotisch wäre.

00:55:43.400 --> 00:55:46.420
Dann machen wir jetzt eine kurze Schweigeminute für...

00:55:46.420 --> 00:55:48.920
Eine Schweigeminute für Whisper V3.

00:55:49.320 --> 00:55:50.300
Bis wir auch mal

00:55:50.300 --> 00:55:52.900
genau das Mikrofon hier

00:55:52.900 --> 00:55:54.140
jetzt mal schauen,

00:55:54.440 --> 00:55:55.320
was da so rauskommt,

00:55:55.420 --> 00:55:58.280
wenn man das einfach mal so vor sich hin

00:55:58.280 --> 00:56:00.460
generieren lässt.

00:56:01.160 --> 00:56:01.280
Ja.

00:56:02.940 --> 00:56:03.960
Schon interessant.

00:56:05.920 --> 00:56:07.240
Ja, ich befürchte aber, Jochen,

00:56:07.240 --> 00:56:10.300
dass wir die nächste Episode einfach eine komplette Episode machen müssen,

00:56:10.380 --> 00:56:12.060
wo wir die ganzen Abkürzungen erklären,

00:56:12.140 --> 00:56:12.580
die wir heute...

00:56:12.740 --> 00:56:14.140
Abkürzungen, haben wir gehört.

00:56:14.140 --> 00:56:16.220
Wir können auch einfach die ganze Zeit schweigen

00:56:16.220 --> 00:56:18.380
in der nächsten Episode und dann lassen wir es bei den Texten.

00:56:18.960 --> 00:56:19.800
Ja, das geht auch.

00:56:20.320 --> 00:56:22.060
Und dann den Text wieder viel dedizieren.

00:56:22.940 --> 00:56:23.100
Ja.

00:56:24.500 --> 00:56:24.820
Genau.

00:56:24.820 --> 00:56:28.580
Und das ein paar Mal den Kreis

00:56:28.580 --> 00:56:29.980
und dann schauen wir mal, was rauskommt.

00:56:30.920 --> 00:56:31.100
Ja.

00:56:32.120 --> 00:56:33.360
Ja, ansonsten...

00:56:33.360 --> 00:56:36.020
Ich weiß nicht, haben wir...

00:56:36.020 --> 00:56:38.040
Jetzt haben wir schon eine ganze Weile über so

00:56:38.040 --> 00:56:38.900
Modelle und Dinge.

00:56:39.620 --> 00:56:42.140
Der Rest der Infrastruktur ist ja vielleicht auch ganz interessant.

00:56:42.140 --> 00:56:45.000
Also was so Webgeschichten

00:56:45.000 --> 00:56:45.780
zu machen angeht.

00:56:46.080 --> 00:56:46.660
Django, ja, natürlich.

00:56:47.420 --> 00:56:48.240
Machen wir auch.

00:56:49.060 --> 00:56:50.040
Nein, wir machen Django wirklich.

00:56:50.580 --> 00:56:50.820
Ja.

00:56:53.040 --> 00:56:55.020
Ja, wie gesagt, wir verwenden Django.

00:56:55.660 --> 00:56:57.960
Das ist schon seit 2013,

00:56:58.120 --> 00:57:00.080
aber dann, wenn das halt gestartet ist.

00:57:00.800 --> 00:57:02.720
Und was verwendet man dann oft dabei?

00:57:03.980 --> 00:57:05.620
Also Frontend-mäßig.

00:57:06.620 --> 00:57:08.460
Ein paar Sachen haben wir mit Vue gemacht.

00:57:08.580 --> 00:57:10.400
Das ist ein Audio-Inspektor,

00:57:10.400 --> 00:57:12.120
nenne ich das, oder Transcript-Editor.

00:57:12.140 --> 00:57:13.240
Das ist mit Vue gemacht.

00:57:13.960 --> 00:57:16.160
Dann, prinzipiell,

00:57:16.420 --> 00:57:18.120
fängt man so HTMX und

00:57:18.120 --> 00:57:19.860
solche Sachen mittlerweile

00:57:19.860 --> 00:57:22.140
für so einfachere Interface-Elemente.

00:57:23.080 --> 00:57:24.220
Also für alles, was jetzt nicht

00:57:24.220 --> 00:57:25.260
der Audio-Editor ist.

00:57:25.920 --> 00:57:28.180
Und am Frontend verwenden wir noch

00:57:28.180 --> 00:57:30.000
Tailwind-CSS.

00:57:31.000 --> 00:57:31.640
Was gibt's noch?

00:57:32.840 --> 00:57:34.160
Ja, Alpine-Nachteilweise

00:57:34.160 --> 00:57:35.000
für so kleine Schaubas.

00:57:35.000 --> 00:57:36.660
Das hört sich genau nach dem an, was wir auch machen.

00:57:37.860 --> 00:57:38.880
Machen jetzt alle, gell?

00:57:38.880 --> 00:57:40.240
Ja, machen wir auch alles.

00:57:40.620 --> 00:57:41.380
Aber es ist auch...

00:57:41.380 --> 00:57:41.860
Was heißt das?

00:57:41.860 --> 00:57:46.200
Ja, weil man sich halt nicht

00:57:46.200 --> 00:57:48.840
sicher auf den Frameworks einhandeln will.

00:57:49.340 --> 00:57:50.320
Ja, natürlich.

00:57:51.540 --> 00:57:52.880
Gut, was gibt's noch zum Erzählen?

00:57:53.160 --> 00:57:55.140
Dann Backend-mäßig

00:57:55.140 --> 00:57:56.320
verwenden wir eben

00:57:56.320 --> 00:57:57.840
so eine Task-Queue,

00:57:57.920 --> 00:58:00.480
die diese ganzen Audit-Protesting- und

00:58:00.480 --> 00:58:02.000
Encoding-Tasks verteilt.

00:58:02.200 --> 00:58:03.640
Dafür verwenden wir Celery.

00:58:05.040 --> 00:58:07.060
Und die Celery läuft dann eben

00:58:07.060 --> 00:58:09.100
auf verschiedene Server verteilt.

00:58:10.440 --> 00:58:11.180
Das sind unsere

00:58:11.180 --> 00:58:12.320
Worker-Rechner.

00:58:13.060 --> 00:58:15.040
Wir haben einen Hauptrechner, wo das

00:58:15.040 --> 00:58:16.820
Websystem läuft und der verteilt

00:58:16.820 --> 00:58:19.140
die ganzen Jobs dann auf die Worker-Rechner.

00:58:19.700 --> 00:58:21.380
Und magst du Celery? Funktioniert's gut?

00:58:22.900 --> 00:58:23.460
Mögen.

00:58:23.620 --> 00:58:24.900
Mögen ist übertrieben, aber

00:58:24.900 --> 00:58:27.360
es funktioniert seit 13 Jahren.

00:58:29.520 --> 00:58:30.580
Aber mittlerweile gibt's ja auch...

00:58:30.580 --> 00:58:32.800
Ja, hab ich auch gehört.

00:58:35.440 --> 00:58:36.440
Mittlerweile gibt's sicher

00:58:36.440 --> 00:58:38.520
modernere Tools, schätze ich mal.

00:58:38.520 --> 00:58:40.780
Wir hoffen, dass Django, das Native,

00:58:41.180 --> 00:58:42.860
ich weiß nicht, ob das mit dem Distributed...

00:58:42.860 --> 00:58:44.400
Ja, da kommt jetzt was.

00:58:44.580 --> 00:58:47.000
Aber das kann nicht so viel

00:58:47.000 --> 00:58:47.520
wie Celery.

00:58:48.200 --> 00:58:51.180
Wenn man halt wirklich da Last hat

00:58:51.180 --> 00:58:53.080
und da viele Dinge macht, dann ist es

00:58:53.080 --> 00:58:54.780
wahrscheinlich... Wenn für einen Celery

00:58:54.780 --> 00:58:56.440
funktioniert, dann sollte man das wahrscheinlich so lassen.

00:58:56.860 --> 00:58:58.900
Aber ich glaube auch,

00:58:59.000 --> 00:59:00.740
es gibt sonst nicht viel Konkurrenz da.

00:59:00.860 --> 00:59:02.800
Das ist irgendwie für komplexere

00:59:02.800 --> 00:59:04.940
Geschichten in Celery immer noch...

00:59:04.940 --> 00:59:06.720
Inzwischen gibt's ja schon einige Task-Queues.

00:59:07.180 --> 00:59:09.020
Ja, auch mit Django-Integration.

00:59:09.140 --> 00:59:10.280
Aber Celery ist halt so der

00:59:10.280 --> 00:59:10.980
bekannte...

00:59:11.180 --> 00:59:12.360
Der alte Platzisch.

00:59:14.400 --> 00:59:15.060
Ja, aber

00:59:15.060 --> 00:59:16.840
es ist auch schwer zu benutzen.

00:59:16.900 --> 00:59:18.380
Das ist so ein bisschen wie das Mischpult hier.

00:59:19.220 --> 00:59:19.620
Nein.

00:59:20.520 --> 00:59:22.200
Das ist nicht so in der Natur der Sache.

00:59:22.820 --> 00:59:24.460
Wenn man nicht hinguckt, geht's nicht

00:59:24.460 --> 00:59:26.480
immer so mit dem Lauf Richtung Fuß.

00:59:29.000 --> 00:59:29.620
Ja, okay.

00:59:30.500 --> 00:59:32.340
Ja, da braucht man doch noch eine Ausrede.

00:59:32.440 --> 00:59:34.260
Dass es die Kinder waren oder jemand anders.

00:59:34.800 --> 00:59:35.160
Genau.

00:59:35.360 --> 00:59:37.620
Vielleicht, das kann schon sein.

00:59:38.920 --> 00:59:40.220
Eigentlich musste man ja klicken

00:59:40.220 --> 00:59:41.020
in deiner...

00:59:41.180 --> 00:59:41.700
in deiner DAW.

00:59:42.060 --> 00:59:43.360
Ich weiß nicht.

00:59:44.740 --> 00:59:44.940
Ja.

00:59:45.520 --> 00:59:47.840
Das hat gar nichts mit dem Mischpult zu tun.

00:59:48.900 --> 00:59:49.040
Na ja.

00:59:49.340 --> 00:59:50.500
Task-Queues sind kompliziert.

00:59:50.660 --> 00:59:52.300
Wir haben dann auch verschiedene Task-Queues.

00:59:52.400 --> 00:59:53.420
Das macht es mal komplizierter.

00:59:53.560 --> 00:59:56.000
Also einerseits diese ganzen CPU-Server,

00:59:56.240 --> 00:59:58.600
die funktionieren eben über Celery.

00:59:59.160 --> 01:00:01.060
Dann haben wir eben noch GPU-Server.

01:00:01.600 --> 01:00:03.000
Die funktionieren dann wiederum...

01:00:03.000 --> 01:00:04.740
Die werden dann wiederum von den CPU-Servern

01:00:04.740 --> 01:00:07.140
angesprochen mit den ganzen

01:00:07.140 --> 01:00:08.780
Audio-Abschnitten.

01:00:09.680 --> 01:00:10.280
Wie macht ihr das?

01:00:10.280 --> 01:00:10.880
Die...

01:00:11.180 --> 01:00:12.220
Die haben so...

01:00:12.220 --> 01:00:13.840
Das nennt sich so ein NVIDIA Triton.

01:00:13.960 --> 01:00:15.080
Das ist ein NVIDIA-System,

01:00:15.440 --> 01:00:17.740
wo man eben so Models hosten kann am GPU.

01:00:17.980 --> 01:00:20.380
Der verteilt das relativ effizient im Speicher.

01:00:21.760 --> 01:00:22.240
Weil...

01:00:22.240 --> 01:00:24.440
Der hat wiederum eine eigene Task-Queue

01:00:24.440 --> 01:00:26.340
integriert, wie so kleine

01:00:26.340 --> 01:00:27.780
GPU-Jobs verteilt werden.

01:00:28.700 --> 01:00:30.800
Weil das Problem bei den Models ist,

01:00:31.200 --> 01:00:32.560
dass man kann jetzt nicht

01:00:32.560 --> 01:00:34.500
für jeden Request das Model...

01:00:34.500 --> 01:00:35.800
Oder es wäre nicht sehr effizient,

01:00:35.880 --> 01:00:37.780
wenn man für jeden Request das Model jetzt neu

01:00:37.780 --> 01:00:40.360
ladet in den Speicher, also in den GPU-Run.

01:00:40.360 --> 01:00:42.860
Weil das Laden an sich von so ein paar

01:00:42.860 --> 01:00:44.700
Gigabyte-Models dann

01:00:44.700 --> 01:00:46.440
schon mal ziemlich lang dauert.

01:00:47.120 --> 01:00:48.420
Deswegen gibt es

01:00:48.420 --> 01:00:49.980
zum Beispiel das NVIDIA Triton.

01:00:50.520 --> 01:00:52.620
Der versucht es möglichst effizient

01:00:52.620 --> 01:00:53.640
zu managen,

01:00:53.980 --> 01:00:56.380
dass die Models halt immer

01:00:56.380 --> 01:00:58.000
im V-Rahmen sind,

01:00:58.180 --> 01:01:00.640
beziehungsweise nur wenn notwendig

01:01:00.640 --> 01:01:02.360
halt ein anderes Laden

01:01:02.360 --> 01:01:02.880
und so weiter.

01:01:03.900 --> 01:01:06.620
Und das ist dann sozusagen die zweite Task-Queue

01:01:06.620 --> 01:01:07.860
hinter der ersten Task-Queue.

01:01:08.880 --> 01:01:10.200
Und dann kommt es

01:01:10.200 --> 01:01:11.600
von den GPU-Servern wieder zurück

01:01:11.600 --> 01:01:14.220
zur Celery-Task-Queue auf den CPU-Servern

01:01:14.220 --> 01:01:16.220
und dort gibt es dann

01:01:16.220 --> 01:01:18.160
verschiedene Files.

01:01:18.380 --> 01:01:20.120
Also wenn das Audit-Processing fertig ist,

01:01:20.240 --> 01:01:22.680
gibt es dann File-Encoding-Tasks

01:01:22.680 --> 01:01:24.500
und dann Speech-Recognition-Tasks.

01:01:24.580 --> 01:01:26.140
Dann wird es wiederum zum GPU-Server

01:01:26.140 --> 01:01:26.860
zum anderen geschickt.

01:01:27.560 --> 01:01:29.300
Dann, was gibt es noch?

01:01:29.400 --> 01:01:31.760
Dann eben so ein Verteiltask, der das auf verschiedene Server

01:01:31.760 --> 01:01:33.980
dann schickt, also Network-Tasks oder auf YouTube

01:01:33.980 --> 01:01:34.840
oder was auch immer.

01:01:35.620 --> 01:01:38.200
Und so sichert das von Task zu Task dahin.

01:01:38.500 --> 01:01:40.060
Im Celery und im

01:01:40.060 --> 01:01:41.160
Nvidia Triton.

01:01:41.960 --> 01:01:43.780
Und den Status erfasst du irgendwie in einem

01:01:43.780 --> 01:01:44.380
Dango-Modell.

01:01:45.440 --> 01:01:46.600
Genau, ja.

01:01:47.240 --> 01:01:49.220
Die Tasks rufen sich dann eben so

01:01:49.220 --> 01:01:51.620
seriell auf. Also es gibt ja bei

01:01:51.620 --> 01:01:53.900
Celery also Chord-Tasks,

01:01:54.000 --> 01:01:55.380
nennen sie das. Also da kann man verschieden,

01:01:55.380 --> 01:01:56.900
wenn jetzt zum Beispiel ein

01:01:56.900 --> 01:01:59.540
Audit-Processing fertig ist und man will

01:01:59.540 --> 01:02:01.760
daraus fünf verschiedene File-Formate

01:02:01.760 --> 01:02:03.660
erstellen, dann kann man so ein Chord-Task machen.

01:02:03.760 --> 01:02:04.700
Der macht dann diese fünf

01:02:04.700 --> 01:02:06.580
File-Formate parallel.

01:02:07.320 --> 01:02:09.960
Und dann sagt man, okay, wenn jetzt alle von diesen Fünfe fertig sind,

01:02:10.060 --> 01:02:11.740
dann ruft er den nächsten Task

01:02:11.740 --> 01:02:13.580
auf. Also das ist zum Beispiel dann der

01:02:13.580 --> 01:02:15.200
Finish-Task.

01:02:15.820 --> 01:02:17.620
Der wird dann aufgerufen, wenn diese ganzen

01:02:17.620 --> 01:02:20.180
Tasks fertig sind. Oder der Distribution-Task.

01:02:20.980 --> 01:02:21.700
Und so kann man

01:02:21.700 --> 01:02:23.700
so Ketten bauen,

01:02:24.060 --> 01:02:25.360
die sich dann also quasi

01:02:25.360 --> 01:02:27.140
parallel verbreiten und dann wieder

01:02:27.140 --> 01:02:28.740
irgendwann zusammenführen, hoffentlich.

01:02:29.880 --> 01:02:32.060
Ja. Bis das irgendwann fertig ist.

01:02:32.760 --> 01:02:33.520
Ja, man hat dann so ganze

01:02:33.520 --> 01:02:35.800
Task-Grafen oft irgendwie.

01:02:37.660 --> 01:02:37.860
Ja.

01:02:38.560 --> 01:02:38.780
Ja.

01:02:38.780 --> 01:02:38.860
Ja.

01:02:40.060 --> 01:02:41.600
Ist dann manchmal so ein bisschen

01:02:41.600 --> 01:02:44.260
schwierig, wenn man es testen will. Und manchmal

01:02:44.260 --> 01:02:45.360
hat man so komische Probleme,

01:02:46.300 --> 01:02:48.200
wenn das unerwartet

01:02:48.200 --> 01:02:50.140
auf der Stelle schief geht. Aber ja, man kann

01:02:50.140 --> 01:02:51.020
damit viel machen.

01:02:51.960 --> 01:02:54.060
Aber testen ist auch nicht so schlimm. Also man kann

01:02:54.060 --> 01:02:56.360
natürlich die Tasks einzeln

01:02:56.360 --> 01:02:58.720
testen. Mit Unit-Test

01:02:58.720 --> 01:02:59.200
ganz einfach.

01:03:00.300 --> 01:03:02.420
Das Gesamtsystem ist wieder ein bisschen komplexer

01:03:02.420 --> 01:03:03.000
zum Testen, ja.

01:03:04.300 --> 01:03:06.060
Ich meine, das Hauptproblem, was ich mal hatte,

01:03:06.060 --> 01:03:08.320
das war irgendwie aufzuräumen, wenn da irgendwas kaputt gegangen ist

01:03:08.320 --> 01:03:09.980
und dass da irgendwelche Geister-Taskungen waren,

01:03:10.060 --> 01:03:12.120
weil irgendwie noch irgendwas geklickt hat

01:03:12.120 --> 01:03:13.620
und dann nicht genau klar war, wo jetzt

01:03:13.620 --> 01:03:15.720
welcher Task in welchem Status hing oder so.

01:03:16.480 --> 01:03:16.940
Ja, klar.

01:03:17.840 --> 01:03:19.000
Und dabei ist das ganze Ding

01:03:19.000 --> 01:03:21.580
schwierig zu verstehen und dann

01:03:21.580 --> 01:03:23.520
irgendwo noch so Reste drum hängen,

01:03:23.780 --> 01:03:25.740
wo die dann prozessiert werden wollen.

01:03:26.440 --> 01:03:27.300
Aber ich glaube, wenn man so ein

01:03:27.300 --> 01:03:29.900
stabiles System hat, vielleicht raucht das ja gar nicht so oft ab.

01:03:30.740 --> 01:03:31.960
Dann, ja.

01:03:32.060 --> 01:03:34.200
Nein, das ist eigentlich relativ stabil.

01:03:34.460 --> 01:03:36.240
Außer, wir machen

01:03:36.240 --> 01:03:38.140
wieder irgendwas komisches oder so, was ja manchmal

01:03:38.140 --> 01:03:40.040
passiert. Diverse Updates,

01:03:40.060 --> 01:03:41.240
oder Features.

01:03:42.940 --> 01:03:44.340
Aber prinzipiell

01:03:44.340 --> 01:03:46.120
läuft das eigentlich sehr stabil.

01:03:47.120 --> 01:03:48.280
Das läuft bei uns jetzt natürlich

01:03:48.280 --> 01:03:50.160
auch sehr lang. Also wir haben alle möglichen

01:03:50.160 --> 01:03:51.240
Dinge drinnen.

01:03:52.180 --> 01:03:54.020
Wir haben das Feld-Checking und so weiter.

01:03:55.160 --> 01:03:56.020
Aber das funktioniert

01:03:56.020 --> 01:03:56.460
ganz gut.

01:03:57.260 --> 01:03:59.780
Ja, ich glaube, das ist einfach auch so ein Thema,

01:03:59.920 --> 01:04:02.100
was man lernen muss. Das ist halt einfach noch eine weitere

01:04:02.100 --> 01:04:02.800
Ebene

01:04:02.800 --> 01:04:06.360
von dieser Async-Sache.

01:04:07.380 --> 01:04:07.960
Ja, es sind immer noch

01:04:07.960 --> 01:04:09.340
so viele Ebenen inzwischen.

01:04:10.060 --> 01:04:12.220
Dann hast du Async, dann hast du Threads, dann hast du

01:04:12.220 --> 01:04:13.740
Multiprocessing und oben drüber.

01:04:13.740 --> 01:04:16.100
Wir verwenden es gar nicht Async, wir verwenden das

01:04:16.100 --> 01:04:17.440
wirklich Multiprocessing.

01:04:18.080 --> 01:04:20.460
Also du kannst das mit Multiprocessing auch verwenden.

01:04:21.260 --> 01:04:22.260
Ja, klar. Das ist halt

01:04:22.260 --> 01:04:23.640
über mehrere Rechner verteilt.

01:04:24.360 --> 01:04:26.440
Das ist die nächsthöhere Ebene

01:04:26.440 --> 01:04:28.520
von diesen ganzen

01:04:28.520 --> 01:04:30.420
Parallel-Compute-Sachen.

01:04:30.540 --> 01:04:32.440
Und die sind alle kompliziert und dann kann man

01:04:32.440 --> 01:04:33.440
eigentlich irgendwie nicht erwarten,

01:04:34.340 --> 01:04:36.180
dass das auf der Ebene auf einmal simpel wird.

01:04:36.180 --> 01:04:37.680
Aber, ja gut.

01:04:38.580 --> 01:04:39.860
Es ist halt was, was man lernen muss.

01:04:40.060 --> 01:04:41.740
Oder was man lernen kann.

01:04:43.700 --> 01:04:44.860
Ich habe da eigentlich

01:04:44.860 --> 01:04:45.820
ganz gute Erfahrungen gemacht.

01:04:46.840 --> 01:04:49.000
Aber es hängt auch von der Systemart ab.

01:04:50.200 --> 01:04:51.280
Es hängt auch davon ab,

01:04:51.380 --> 01:04:53.360
wie man die Bauteile benutzt.

01:04:53.420 --> 01:04:54.780
Die Bauteile an sich sind ja sehr

01:04:54.780 --> 01:04:56.600
stabil. Wenn man jetzt ein Redis oder

01:04:56.600 --> 01:04:58.560
was ihr verwendet,

01:04:58.600 --> 01:05:00.500
RabbitMQ oder ZeroMQ

01:05:00.500 --> 01:05:00.960
oder was auch immer.

01:05:01.520 --> 01:05:02.980
Die sind ja extrem stabil.

01:05:04.120 --> 01:05:05.640
Bei einem anderen Kundenprojekt

01:05:05.640 --> 01:05:07.320
haben wir einen RabbitMQ-Server.

01:05:08.720 --> 01:05:09.740
Der läuft seit

01:05:09.740 --> 01:05:11.880
acht Jahren unterbrechungsfrei.

01:05:12.880 --> 01:05:14.440
Die Bauteile an sich

01:05:14.440 --> 01:05:15.120
sind schon stabil.

01:05:18.560 --> 01:05:20.000
Wie wir das alle wissen,

01:05:20.260 --> 01:05:22.000
ich kann in jeder Programmiersprache

01:05:22.000 --> 01:05:23.580
schlechte Programme schreiben und

01:05:23.580 --> 01:05:26.040
ich kann auch schlechte verteilte Programme

01:05:26.040 --> 01:05:26.920
schreiben, wenn es sein muss.

01:05:29.260 --> 01:05:30.400
Auf alle Fälle, ja.

01:05:31.840 --> 01:05:32.080
Ja.

01:05:32.080 --> 01:05:32.160
Ja.

01:05:35.120 --> 01:05:36.040
Ja, vielleicht.

01:05:37.340 --> 01:05:37.700
Genau.

01:05:39.740 --> 01:05:42.780
Wie ist das eigentlich mit Benutzerfeedback?

01:05:44.480 --> 01:05:46.720
Im Grunde, wenn man jetzt irgendwie Dinge verbessern will,

01:05:47.420 --> 01:05:48.900
dann ist man ja darauf angewiesen,

01:05:49.240 --> 01:05:50.540
dann können diese ganzen subjektiven

01:05:50.540 --> 01:05:51.680
Geschichten, die wir eben auch schon

01:05:51.680 --> 01:05:54.440
da angesprochen hatten, die spielen ja auch

01:05:54.440 --> 01:05:55.180
eine große Rolle.

01:05:55.740 --> 01:05:58.180
Jetzt weiß man aber vielleicht gar nicht so genau,

01:05:58.680 --> 01:06:00.020
wenn jetzt aus

01:06:00.020 --> 01:06:02.260
quasi Leute Feedback geben,

01:06:02.640 --> 01:06:04.500
weil sie das anders gewohnt sind oder so,

01:06:04.500 --> 01:06:06.580
wie man das unterscheidet von, da hat

01:06:06.580 --> 01:06:07.900
irgendwas nicht richtig funktioniert oder so.

01:06:07.960 --> 01:06:09.720
Da muss man ja wahrscheinlich, ich weiß auch gar nicht,

01:06:09.740 --> 01:06:11.520
in welchen Märkten oder wo

01:06:11.520 --> 01:06:13.800
auf alle Fälle überall benutzt wird, das ist ja dann

01:06:13.800 --> 01:06:15.260
wahrscheinlich auch unterschiedlich.

01:06:15.580 --> 01:06:17.740
Auch je nach Kontext nochmal unterschiedlich.

01:06:18.100 --> 01:06:19.560
Das ist wahrscheinlich gar nicht so einfach, das

01:06:19.560 --> 01:06:21.620
dann wieder einfließen zu lassen.

01:06:24.120 --> 01:06:25.440
Ja, bei

01:06:25.440 --> 01:06:27.540
solchen Sachen ist es natürlich schwierig, aber

01:06:27.540 --> 01:06:29.500
deswegen versuchen wir eigentlich natürlich

01:06:29.500 --> 01:06:31.760
möglichst wenig

01:06:31.760 --> 01:06:33.560
subjektive oder

01:06:33.560 --> 01:06:34.980
künstlerische Sachen zu machen.

01:06:35.480 --> 01:06:37.400
Auch wenn das natürlich nicht wirklich geht.

01:06:37.400 --> 01:06:39.380
Aber gewisses

01:06:39.380 --> 01:06:41.140
Feedback ist natürlich leicht zu verstehen,

01:06:41.140 --> 01:06:43.180
wenn der sagt, okay, da ist da

01:06:43.180 --> 01:06:45.280
ein neues nicht rausgelöscht worden oder da ist

01:06:45.280 --> 01:06:47.260
irgendwas falsch rausgelöscht worden, dann kann man

01:06:47.260 --> 01:06:49.000
das natürlich leicht nachvollziehen.

01:06:50.180 --> 01:06:51.120
Dass irgendwer

01:06:51.120 --> 01:06:53.420
subjektiv ein anderes EQing

01:06:53.420 --> 01:06:55.120
haben will, das

01:06:55.120 --> 01:06:56.960
kann es immer geben, da werden wir auch

01:06:56.960 --> 01:06:59.080
nie was dagegen machen können. Wahrscheinlich, man kann

01:06:59.080 --> 01:07:00.940
nur gewisse Anzahl an Varianten

01:07:00.940 --> 01:07:02.680
anbieten und irgendwann ist halt einmal

01:07:02.680 --> 01:07:05.120
Schluss. Dann muss es halt selber

01:07:05.120 --> 01:07:07.080
filtern und das geht ja bei uns auch, dass

01:07:07.080 --> 01:07:08.920
wir halt einfach das neue, das filtering

01:07:08.920 --> 01:07:11.080
deaktiviert und man hat halt selber das gefiltert,

01:07:11.140 --> 01:07:12.900
wie man sagen will. Aber

01:07:12.900 --> 01:07:14.920
das kommt jetzt auch nicht so

01:07:14.920 --> 01:07:17.120
extrem oft vor, muss ich sagen.

01:07:17.340 --> 01:07:19.100
Also es ist schon eher eindeutig, dann quasi

01:07:19.100 --> 01:07:20.980
wenn Leute, ja, okay.

01:07:22.980 --> 01:07:23.420
Ja.

01:07:23.660 --> 01:07:24.520
Und aus dem Feedback,

01:07:24.700 --> 01:07:26.960
das ist für uns natürlich extrem wichtig,

01:07:27.140 --> 01:07:28.780
also da lernen wir halt extrem viel.

01:07:28.980 --> 01:07:30.580
Wenn wir Fehler haben, dann

01:07:30.580 --> 01:07:33.140
führt man das wieder zu den Trainingsdaten dazu und so weiter.

01:07:33.720 --> 01:07:34.780
Können die Klassifikatoren

01:07:34.780 --> 01:07:35.680
wieder damit trainieren.

01:07:37.120 --> 01:07:38.820
Warum hat der das noch nicht live

01:07:38.820 --> 01:07:39.580
im Einsatz eigentlich?

01:07:40.300 --> 01:07:41.120
War es live im Einsatz?

01:07:41.220 --> 01:07:44.060
Also jetzt beispielsweise auch von mir als Plugin in meiner DAW.

01:07:44.960 --> 01:07:46.420
So, den Weg können wir auch gehen, ja.

01:07:47.440 --> 01:07:48.880
Ja, weil

01:07:48.880 --> 01:07:51.260
wir eigentlich vom Offline-Konzept

01:07:51.260 --> 01:07:51.720
her kommen.

01:07:52.660 --> 01:07:54.080
Und unsere Algorithmen halt alle

01:07:54.080 --> 01:07:56.800
drauf aufgebaut sind,

01:07:56.800 --> 01:07:58.000
dass es offline funktioniert.

01:07:58.800 --> 01:08:00.720
Bei Live bräuchtest du natürlich eine viel kleinere

01:08:00.720 --> 01:08:01.380
Latenz.

01:08:03.020 --> 01:08:04.620
Wäre mit einigen Algorithmen

01:08:04.620 --> 01:08:06.780
eh möglich. Also zum Beispiel

01:08:06.780 --> 01:08:07.960
ja,

01:08:08.820 --> 01:08:11.100
denoising oder solche Sachen.

01:08:12.060 --> 01:08:13.400
Oder Filtering natürlich.

01:08:14.340 --> 01:08:15.120
Aber, ja,

01:08:15.800 --> 01:08:16.820
aber das können wir auch nicht machen.

01:08:17.520 --> 01:08:19.820
Das Problem ist eigentlich,

01:08:19.820 --> 01:08:22.020
dass du halt spezielle Hardware dafür brauchst.

01:08:22.080 --> 01:08:23.420
Wenn du es jetzt live machen willst,

01:08:23.880 --> 01:08:25.760
kannst du jetzt entweder einen Webservice

01:08:25.760 --> 01:08:27.840
anbieten, der das live macht, was wahrscheinlich

01:08:27.840 --> 01:08:29.020
nicht so interessant ist.

01:08:29.600 --> 01:08:31.920
Das heißt, wir müssen da eine Standalone-Lösung

01:08:31.920 --> 01:08:32.180
haben.

01:08:33.680 --> 01:08:35.960
Die muss dementsprechend gut funktionieren

01:08:35.960 --> 01:08:37.820
jetzt auf allen Systemen.

01:08:38.440 --> 01:08:38.700
Mit der

01:08:38.700 --> 01:08:40.280
beschränkten Hardware, die man dort hat.

01:08:40.420 --> 01:08:42.940
Oder man hat spezielle Systeme mit GPUs

01:08:42.940 --> 01:08:45.080
oder M3-Chips, was auch immer.

01:08:45.500 --> 01:08:46.680
Wo das sicher ein bisschen besser geht.

01:08:46.780 --> 01:08:47.420
Aber es ist halt

01:08:47.420 --> 01:08:50.760
vor allem in der momentanen Phase noch ein bisschen schwierig.

01:08:50.940 --> 01:08:52.940
Also im Moment entwickeln sich die Modelle ja so schnell

01:08:52.940 --> 01:08:54.920
weiter. Also man braucht so viel Hardware

01:08:54.920 --> 01:08:56.880
dafür. Das wird in ein paar Jahren

01:08:56.880 --> 01:08:58.440
sicher wieder anders ausschauen.

01:08:58.680 --> 01:09:00.920
Weil dann wird sich das so ein bisschen eingependelt

01:09:00.920 --> 01:09:02.600
haben. Dann wird da mehr Hardware dafür

01:09:02.600 --> 01:09:04.820
verfügbar sein auf normalen

01:09:04.820 --> 01:09:05.960
Standrechnen.

01:09:06.560 --> 01:09:08.320
Dann wird sicher irgendwann wieder die Welle kommen,

01:09:08.320 --> 01:09:10.560
wo diese ganzen Modelle

01:09:10.560 --> 01:09:12.540
dann auf den Personal Computer

01:09:12.540 --> 01:09:13.800
wieder überschwemmen.

01:09:13.920 --> 01:09:14.540
Oder überschwappen.

01:09:15.480 --> 01:09:17.220
Aber im Moment ist es halt noch ein bisschen schwierig.

01:09:18.420 --> 01:09:20.520
Ja, also was ich schon gerne hätte,

01:09:20.640 --> 01:09:21.680
wäre sozusagen in AirPods.

01:09:21.860 --> 01:09:23.100
Da gibt es ja auch so einen Transparenzmodus.

01:09:25.540 --> 01:09:26.240
Da jetzt

01:09:26.240 --> 01:09:28.160
statt einfach nur, dass das ein bisschen lauter

01:09:28.160 --> 01:09:30.100
oder leiser wird, wenn es Nebengeräusche gibt,

01:09:30.420 --> 01:09:32.320
dass das dann so richtig schön klar wird.

01:09:32.380 --> 01:09:33.100
Das wäre natürlich toll.

01:09:33.500 --> 01:09:34.320
Man könnte ja auf dem Handy das auch...

01:09:34.320 --> 01:09:35.740
Ja, genau.

01:09:36.360 --> 01:09:37.720
Da kann man natürlich auch die Modelle laufen lassen.

01:09:38.320 --> 01:09:40.640
Aber ja gut, wahrscheinlich ist das alles nicht so ganz einfach.

01:09:40.700 --> 01:09:42.460
Da tauscht man bestimmt auch für Nose Cancelling

01:09:42.460 --> 01:09:44.460
auch wieder, wenn du es halt dann einfach umdrehst.

01:09:45.440 --> 01:09:46.200
Ja, Hörgeräte,

01:09:46.300 --> 01:09:48.140
die sind alle in dieser Entwicklung dabei.

01:09:48.880 --> 01:09:49.840
Die machen eh das.

01:09:50.100 --> 01:09:51.540
Aber halt, ich meine, da ist

01:09:51.540 --> 01:09:53.620
halt die Arbeit, dass du

01:09:53.620 --> 01:09:56.340
die Modelle, die es gibt, meistens

01:09:56.340 --> 01:09:58.740
so effizient wie möglich hinkriegst.

01:09:59.060 --> 01:10:00.400
Also da geht es halt

01:10:00.400 --> 01:10:01.440
eher mehr um

01:10:01.440 --> 01:10:04.080
Effizienztuning für bestimmte

01:10:04.080 --> 01:10:06.020
Plattformen. Dann im Endeffekt für den Chip,

01:10:06.180 --> 01:10:07.840
was er in seinem Hörgerät hat.

01:10:08.320 --> 01:10:09.520
Und natürlich

01:10:09.520 --> 01:10:12.020
Akkuschonen und so weiter, weil das ist natürlich

01:10:12.020 --> 01:10:12.920
wichtig für Hörgeräte.

01:10:14.080 --> 01:10:16.260
Aber ja, im Moment sind wir halt mehr so in einer Phase,

01:10:16.360 --> 01:10:17.820
dass wir gerade noch dabei sind.

01:10:18.040 --> 01:10:20.260
Also jetzt nicht nur wir persönlich, sondern generell

01:10:20.260 --> 01:10:21.060
schätze ich halt,

01:10:21.760 --> 01:10:24.040
dass man mehr dabei ist, die Modelle weiter

01:10:24.040 --> 01:10:25.980
zu entwickeln. Irgendwann wird es eh saturieren,

01:10:26.080 --> 01:10:28.220
weil dann werden ja alle einmal gut genug sein

01:10:28.220 --> 01:10:29.840
für die meisten Tasks, sage ich mal.

01:10:30.720 --> 01:10:32.200
Und dann wird sicher wieder die andere

01:10:32.200 --> 01:10:34.020
Welle kommen, wo das

01:10:34.020 --> 01:10:35.420
wieder zurückgeht, glaube ich.

01:10:36.160 --> 01:10:37.260
Aber wir werden sehen.

01:10:37.660 --> 01:10:38.300
So, Explore!

01:10:38.320 --> 01:10:39.900
Exploration versus Exploitation.

01:10:40.040 --> 01:10:41.680
Und momentan sind wir im Exploration-Modus,

01:10:41.960 --> 01:10:43.800
wo wir versuchen herauszufinden, was man überhaupt alles

01:10:43.800 --> 01:10:45.140
denn noch damit machen kann.

01:10:45.760 --> 01:10:49.420
Und wenn es dann einmal gut genug ist,

01:10:49.500 --> 01:10:50.520
wird es abgespeckt,

01:10:50.660 --> 01:10:52.520
dass es auf allen möglichen

01:10:52.520 --> 01:10:53.700
Plattformen läuft wahrscheinlich.

01:10:54.260 --> 01:10:56.220
Ja, also ich bin so ein bisschen

01:10:56.220 --> 01:10:57.840
erschlagen von diesem ganzen Thema.

01:10:58.500 --> 01:11:00.160
Da gibt es irgendwie

01:11:00.160 --> 01:11:02.140
so viele Sachen, wo man in die Tiefe gehen könnte,

01:11:03.520 --> 01:11:04.440
wo ich aber jetzt gar nicht

01:11:04.440 --> 01:11:06.500
weiß, wie man

01:11:06.500 --> 01:11:08.120
da in die Tiefe gehen könnte, weil es mir

01:11:08.120 --> 01:11:08.820
sich nicht erschließen.

01:11:09.560 --> 01:11:12.060
Und ich finde es super spannend, dass das

01:11:12.060 --> 01:11:13.640
einfach so ein

01:11:13.640 --> 01:11:15.900
ganzes Riesenfeld ist,

01:11:16.560 --> 01:11:18.060
was es gibt und was

01:11:18.060 --> 01:11:20.260
man braucht und wo es auch viele Leute gibt,

01:11:20.380 --> 01:11:21.140
die da dran arbeiten.

01:11:21.980 --> 01:11:24.100
Und auch viele Profis gibt, die da dran arbeiten.

01:11:25.560 --> 01:11:26.120
Ich habe selbst

01:11:26.120 --> 01:11:28.020
mein Cousin

01:11:28.020 --> 01:11:30.020
hat eine Konzertagentur, also die machen da

01:11:30.020 --> 01:11:31.320
auch ganz viel im

01:11:31.320 --> 01:11:33.960
Live-Bereich und im

01:11:33.960 --> 01:11:35.400
Analog-Bereich, sage ich mal.

01:11:36.960 --> 01:11:38.080
Und ich habe da überhaupt,

01:11:38.080 --> 01:11:38.800
keine Ahnung,

01:11:39.080 --> 01:11:42.300
so wenig Ahnung davon, dass ich keine sinnvollen

01:11:42.300 --> 01:11:43.160
Fragen stellen kann.

01:11:43.980 --> 01:11:45.900
Und ich glaube, an dem Punkt sind wir jetzt irgendwie so, oder?

01:11:45.960 --> 01:11:48.180
Dass wir die grobe Form

01:11:48.180 --> 01:11:50.040
abgetastet haben von diesem System

01:11:50.040 --> 01:11:51.940
und dann haben wir uns schon mal mit der Task-View beschäftigt,

01:11:52.000 --> 01:11:53.220
weil wir da alle was dazu sagen können.

01:11:54.440 --> 01:11:54.760
Aber

01:11:54.760 --> 01:11:57.740
so die richtigen Fragen kann man gar nicht mehr stellen.

01:11:59.840 --> 01:12:02.020
So geht es mir jetzt gerade. Ich weiß nicht, wie es euch geht.

01:12:03.020 --> 01:12:03.960
Ja, also genau.

01:12:04.060 --> 01:12:05.440
Ich würde dann eher so etwas fragen,

01:12:05.440 --> 01:12:08.060
wie vielleicht, was würdest du denn denken,

01:12:08.080 --> 01:12:10.060
sind die interessanten Entwicklungen in diesem ganzen

01:12:10.060 --> 01:12:11.040
Audio-Bereich,

01:12:11.740 --> 01:12:14.000
in welche Richtung könnte es da gehen, oder gibt es

01:12:14.000 --> 01:12:15.960
irgendwelche, wird es jetzt erstmal noch

01:12:15.960 --> 01:12:17.500
eine Weile quasi

01:12:17.500 --> 01:12:19.520
mehr Modelle

01:12:19.520 --> 01:12:21.000
geben?

01:12:21.780 --> 01:12:22.600
Ja, ich weiß nicht genau.

01:12:24.300 --> 01:12:25.060
Oder wird das

01:12:25.060 --> 01:12:26.460
irgendwann

01:12:26.460 --> 01:12:28.920
sowieso alles,

01:12:29.980 --> 01:12:30.760
naja, also

01:12:30.760 --> 01:12:33.940
keine Ahnung. Ich weiß gar nicht, welche Frage ich stellen wollte.

01:12:34.720 --> 01:12:35.860
Na, gerne. Also

01:12:35.860 --> 01:12:37.740
ja, tschau, es gibt jetzt natürlich viele

01:12:37.740 --> 01:12:39.540
alle möglichen neuen Modelle

01:12:39.540 --> 01:12:40.780
von vielen Firmen.

01:12:42.620 --> 01:12:43.620
Was natürlich ein großes

01:12:43.620 --> 01:12:45.160
Thema ist, was wir jetzt gar nicht

01:12:45.160 --> 01:12:47.400
angegangen sind bis jetzt,

01:12:47.560 --> 01:12:48.660
oder wahrscheinlich auch nicht werden,

01:12:49.280 --> 01:12:51.800
ist eben Audiosynthese, die ihr sicher alle wisst.

01:12:52.220 --> 01:12:53.860
Ja. Eleven Labs und so weiter.

01:12:54.060 --> 01:12:54.680
Oh ja. Also

01:12:54.680 --> 01:12:57.320
funktioniert das schon echt extrem gut.

01:12:58.420 --> 01:12:58.840
Und

01:12:58.840 --> 01:13:01.720
ja, wird sicher viel, viel

01:13:01.720 --> 01:13:03.760
Content über solche Wege

01:13:03.760 --> 01:13:04.700
produziert werden.

01:13:07.220 --> 01:13:07.700
Dann,

01:13:07.740 --> 01:13:09.820
ein anderes großes Thema ist

01:13:09.820 --> 01:13:11.620
natürlich

01:13:11.620 --> 01:13:13.420
Musik. Da gibt es

01:13:13.420 --> 01:13:15.580
relativ wenig im Moment. Also im Moment

01:13:15.580 --> 01:13:18.100
stürzen sich alle auf die Sprachanwendungen.

01:13:18.760 --> 01:13:19.840
Bei Musik gibt es echt

01:13:19.840 --> 01:13:20.720
sehr wenig.

01:13:21.580 --> 01:13:22.920
Was es gibt, sind so

01:13:22.920 --> 01:13:25.340
Stem-Separation-Musikmodelle, also

01:13:25.340 --> 01:13:27.460
wo man verschiedene Instrumente von

01:13:27.460 --> 01:13:29.700
einem Mix extrahiert. Funktioniert

01:13:29.700 --> 01:13:31.340
meistens auch nur gut, wenn man so

01:13:31.340 --> 01:13:33.280
vier Instrumente extrahiert, oder

01:13:33.280 --> 01:13:35.760
vielleicht ein bisschen mehr, also Bass, Schlagzeug,

01:13:36.420 --> 01:13:36.920
Gesang,

01:13:37.740 --> 01:13:39.140
Klavier oder Gitarre halt.

01:13:39.460 --> 01:13:40.540
Die klassischen

01:13:40.540 --> 01:13:42.760
Setups.

01:13:43.780 --> 01:13:45.720
Dann auch gibt es noch sehr wenig

01:13:45.720 --> 01:13:47.740
in der Richtung von Musik-Restoration

01:13:47.740 --> 01:13:49.660
oder Musik-Aufbereitung.

01:13:49.800 --> 01:13:51.700
Es gibt so Online-Mastering-Services schon

01:13:51.700 --> 01:13:53.460
sehr lang. Einige, die machen natürlich

01:13:53.460 --> 01:13:54.740
ein bisschen was in diese Richtung.

01:13:55.440 --> 01:13:57.380
Aber jetzt so spezialisiertere Sachen,

01:13:57.940 --> 01:13:59.420
also im Prinzip das, was wir

01:13:59.420 --> 01:14:01.480
dabei erforderlich machen, wirklich auf Musik

01:14:01.480 --> 01:14:03.640
umgelegt, gibt es

01:14:03.640 --> 01:14:04.720
eigentlich noch nicht so wirklich.

01:14:05.380 --> 01:14:07.540
Vielleicht gehen wir auch mal ein bisschen mehr in die Richtung. Mal schauen.

01:14:07.740 --> 01:14:08.920
Dann

01:14:08.920 --> 01:14:11.460
bei Musik,

01:14:12.220 --> 01:14:13.480
was auch komisch ist, was

01:14:13.480 --> 01:14:15.540
nicht so wirklich noch gibt,

01:14:16.180 --> 01:14:17.680
ist wiederum

01:14:17.680 --> 01:14:19.460
bei Sprache ist ja Transkription natürlich

01:14:19.460 --> 01:14:20.740
das heiße Thema.

01:14:21.080 --> 01:14:23.460
Es ist jetzt sehr viel weitergegangen in den letzten Jahren.

01:14:24.100 --> 01:14:25.340
Analog dazu für Musik.

01:14:25.920 --> 01:14:27.440
Transkription gibt es wiederum

01:14:27.440 --> 01:14:28.520
sehr wenig.

01:14:29.360 --> 01:14:30.420
Also Notanzeigen.

01:14:31.120 --> 01:14:31.460
Genau.

01:14:32.900 --> 01:14:34.960
Macht ja nicht einer, der

01:14:34.960 --> 01:14:37.500
ursprünglich

01:14:37.500 --> 01:14:39.040
Entwickler von Django.

01:14:40.260 --> 01:14:41.020
Nee, nee, der

01:14:41.020 --> 01:14:42.620
Adrian Holowaty.

01:14:43.300 --> 01:14:43.900
Ah, der Adrian.

01:14:44.300 --> 01:14:47.120
Der macht OCR, glaube ich, für Noten.

01:14:47.980 --> 01:14:49.540
Ja, OCR ist wieder ein anderes Thema.

01:14:49.540 --> 01:14:51.560
Ist nochmal ein anderes Thema. Aber möglicherweise auch

01:14:51.560 --> 01:14:53.560
Noten aus Musik. Das weiß ich aber

01:14:53.560 --> 01:14:54.520
gar nicht, ob sie das auch machen.

01:14:55.580 --> 01:14:57.640
Ich glaube nicht. Ich glaube, das ist nur OCR.

01:14:58.200 --> 01:14:58.920
Ah, okay.

01:14:59.640 --> 01:15:01.620
Ich habe es nur so quer gelesen,

01:15:01.740 --> 01:15:03.000
aber ich glaube, es ist hauptsächlich OCR.

01:15:04.560 --> 01:15:05.720
Also eben das jetzt ist wieder mal

01:15:05.720 --> 01:15:06.620
getestet, weil

01:15:06.620 --> 01:15:09.800
einfach nur Band, Privat und so weiter

01:15:09.800 --> 01:15:11.560
habe ich gedacht, mal ein bisschen was transkribieren

01:15:11.560 --> 01:15:12.940
lassen. Aber

01:15:12.940 --> 01:15:14.980
da habe ich irgendwie nichts Gescheites gefunden.

01:15:16.020 --> 01:15:17.540
Obwohl es ja ähnliche...

01:15:17.540 --> 01:15:19.380
Packt der Jochen diesen Link in die Shownotes?

01:15:19.700 --> 01:15:20.920
Ja. Ja, das macht er sowieso.

01:15:21.920 --> 01:15:22.080
Ja.

01:15:23.340 --> 01:15:24.140
Ja, ich meine,

01:15:24.540 --> 01:15:26.640
genau, ich brauche mir ja nur

01:15:26.640 --> 01:15:29.540
irgendwie Eingabe, Ausgabe und ein bisschen

01:15:29.540 --> 01:15:29.920
GPU.

01:15:29.920 --> 01:15:31.640
Ah, Jochen,

01:15:31.720 --> 01:15:32.860
das kann das sein.

01:15:35.380 --> 01:15:35.780
Ja.

01:15:35.880 --> 01:15:35.960
Ja.

01:15:35.960 --> 01:15:35.980
Ja.

01:15:35.980 --> 01:15:36.040
Ja.

01:15:36.040 --> 01:15:36.060
Ja.

01:15:36.060 --> 01:15:36.080
Ja.

01:15:36.080 --> 01:15:36.100
Ja.

01:15:36.100 --> 01:15:36.120
Ja.

01:15:36.120 --> 01:15:36.140
Ja.

01:15:36.140 --> 01:15:36.160
Ja.

01:15:36.160 --> 01:15:36.220
Ja.

01:15:36.220 --> 01:15:36.240
Ja.

01:15:36.620 --> 01:15:36.840
Ja.

01:15:36.840 --> 01:15:36.840


01:15:36.840 --> 01:15:36.840


01:15:36.840 --> 01:15:36.840


01:15:36.840 --> 01:15:36.840


01:15:36.840 --> 01:15:36.840


01:15:36.840 --> 01:15:36.840


01:15:36.840 --> 01:15:36.840


01:15:36.840 --> 01:15:36.840


01:15:36.840 --> 01:15:36.840


01:15:36.840 --> 01:15:36.840


01:15:36.840 --> 01:15:36.840


01:15:36.840 --> 01:15:36.840


01:15:36.840 --> 01:15:36.840


01:15:36.840 --> 01:15:36.840


01:15:36.840 --> 01:15:36.840


01:15:36.840 --> 01:15:36.840


01:15:36.840 --> 01:15:36.840


01:15:36.840 --> 01:15:36.840


01:15:36.840 --> 01:15:36.840


01:15:36.840 --> 01:15:36.840


01:15:36.840 --> 01:15:36.840


01:15:36.840 --> 01:15:36.840


01:15:36.840 --> 01:15:36.840


01:15:36.840 --> 01:15:36.840


01:15:36.840 --> 01:15:36.840


01:15:36.840 --> 01:15:36.840


01:15:36.840 --> 01:15:36.840


01:15:36.840 --> 01:15:36.840


01:15:36.840 --> 01:15:36.840


01:15:36.840 --> 01:15:36.840


01:15:36.840 --> 01:15:36.840


01:15:36.840 --> 01:15:36.840


01:15:36.840 --> 01:15:36.840


01:15:36.840 --> 01:15:36.840


01:15:36.840 --> 01:15:36.840


01:15:36.840 --> 01:15:36.840


01:15:36.840 --> 01:15:36.840


01:15:36.840 --> 01:15:36.840


01:15:36.840 --> 01:15:36.840


01:15:36.840 --> 01:15:36.840


01:15:36.840 --> 01:15:36.840


01:15:36.840 --> 01:15:36.840


01:15:36.840 --> 01:15:36.840


01:15:36.840 --> 01:15:36.840


01:15:36.840 --> 01:15:36.840


01:15:36.840 --> 01:15:36.840


01:15:36.840 --> 01:15:36.840


01:15:36.840 --> 01:15:36.840


01:15:36.840 --> 01:15:36.840


01:15:36.840 --> 01:15:36.840


01:15:36.840 --> 01:15:36.840


01:15:36.840 --> 01:15:36.840


01:15:36.840 --> 01:15:36.840


01:15:36.840 --> 01:15:36.840


01:15:36.840 --> 01:15:36.840


01:15:36.840 --> 01:15:36.840


01:16:06.620 --> 01:16:08.140
von Django

01:16:08.140 --> 01:16:10.540
irgendwie, Boost Your Django Developer

01:16:10.540 --> 01:16:11.960
Experience von Adam Johnson.

01:16:12.840 --> 01:16:13.780
E-Mail habe ich auch gekriegt.

01:16:13.980 --> 01:16:16.020
Und jetzt, wenn man sich

01:16:16.020 --> 01:16:17.640
quasi da denkt,

01:16:18.420 --> 01:16:20.280
irgendwie, vielleicht mal kurze Zeit nochmal,

01:16:20.460 --> 01:16:22.480
das lohnt sich, weil da ist doch einiges dazu gekommen.

01:16:22.620 --> 01:16:23.420
Also es war ein großes Update.

01:16:24.240 --> 01:16:26.500
Es ist jetzt auch so viel mit Debugging drin und so.

01:16:27.000 --> 01:16:28.440
Und ja, das Buch fand ich

01:16:28.440 --> 01:16:28.960
ja.

01:16:29.940 --> 01:16:31.180
Und der verkauft auch gerade,

01:16:31.180 --> 01:16:33.620
gibt es das Sonderangebot noch,

01:16:33.680 --> 01:16:35.340
wo irgendwie drei solche

01:16:35.340 --> 01:16:36.580
Pakete zusammen hat?

01:16:36.620 --> 01:16:38.480
Ja, stand in dieser E-Mail drin.

01:16:38.560 --> 01:16:39.980
Keine Ahnung, aber wenn man die

01:16:39.980 --> 01:16:42.500
hört, dann ist es wahrscheinlich nicht mehr.

01:16:43.560 --> 01:16:45.260
Ja gut, wenn es das

01:16:45.260 --> 01:16:46.800
noch für die schnellen Hörer,

01:16:46.820 --> 01:16:49.260
das ist jetzt ein Anreiz, unsere Episoden immer sofort zu hören.

01:16:50.080 --> 01:16:51.100
Immer sofort.

01:16:53.440 --> 01:16:54.860
Wir werden diesen Link finden,

01:16:55.000 --> 01:16:55.760
sofern es ihn noch gibt.

01:16:56.420 --> 01:16:58.960
Vielen Dank, Georg, für deine Einblicke auf Phonic.

01:16:58.960 --> 01:17:00.580
War großartig. Vielen Dank, Georg.

01:17:00.820 --> 01:17:01.920
Vielen Dank für die Einladung.

01:17:03.000 --> 01:17:03.680
Alles klar.

01:17:03.760 --> 01:17:04.540
Bleibt uns gewogen.

01:17:04.960 --> 01:17:06.600
Hallo at peisenpodcast.de für alles Feedback.

01:17:06.620 --> 01:17:07.900
Und kommt zu unseren Treffen.

01:17:08.140 --> 01:17:10.620
Ja, wo wir noch ein bisschen rausfinden, wann und wo wir das machen.

01:17:11.900 --> 01:17:13.160
Bleibt hier bei uns im Rheinland.

01:17:13.320 --> 01:17:13.640
Tut mir leid.

01:17:13.800 --> 01:17:14.840
Mach ein Anreisen.

01:17:16.000 --> 01:17:17.300
Eine gute Gelegenheit.

01:17:19.660 --> 01:17:20.780
Aufruf an alle Hörer.

01:17:21.100 --> 01:17:22.360
Jetzt sofort abstimmen.

01:17:22.720 --> 01:17:23.580
Ja, ihr könnt eine

01:17:23.580 --> 01:17:26.060
Fahrgemeinschaft bilden.

01:17:26.060 --> 01:17:26.740
Ich kann gerade sagen.

01:17:29.020 --> 01:17:30.460
Okay, dann kommen wir auch direkt

01:17:30.460 --> 01:17:31.160
an die Adria.

01:17:32.760 --> 01:17:33.520
Viel Spaß.

01:17:33.520 --> 01:17:34.600
Bis bald.

01:17:34.900 --> 01:17:35.140
Tschüss.
