WEBVTT

00:00:00.000 --> 00:00:03.740
Hallo, liebe Hörerinnen und Hörer. Willkommen im Python-Podcast, Episode 61.

00:00:04.660 --> 00:00:08.980
Wirklich 61. Wir haben eben noch ein bisschen drüber zu erhalten.

00:00:09.160 --> 00:00:11.640
Heute geht es um Auphonikin. Hallo, Jochen.

00:00:12.220 --> 00:00:14.680
Hallo, Dominik. Herzlich willkommen und herzlich willkommen, Johannes.

00:00:15.160 --> 00:00:15.560
Hi, Johannes.

00:00:15.560 --> 00:00:16.020
Auch wieder mit dabei.

00:00:16.200 --> 00:00:16.320
Ja.

00:00:16.540 --> 00:00:17.080
Hallo zusammen.

00:00:17.500 --> 00:00:19.240
Wir haben ja schon ein paar Mal hier gehabt, glaube ich. Ihr kennt ihn.

00:00:19.500 --> 00:00:19.800
Genau.

00:00:20.220 --> 00:00:22.120
Und wir haben auch einen besonderen Gast heute wieder.

00:00:22.760 --> 00:00:23.220
Hallo, Georg.

00:00:24.120 --> 00:00:25.700
Hallo, danke für die Einladung.

00:00:26.660 --> 00:00:27.520
Ja, schön, dass du da bist.

00:00:29.340 --> 00:00:30.960
Eine Vorstellung machen wir vielleicht bestimmt noch später,

00:00:31.080 --> 00:00:31.800
wenn wir zu Wort kommen.

00:00:31.880 --> 00:00:33.540
Vielleicht fangen wir mit unserer klassischen Struktur an.

00:00:33.580 --> 00:00:35.020
Wir haben ja immer besonders viel Struktur im Podcast,

00:00:35.120 --> 00:00:35.680
habe ich gehört, Jochen.

00:00:36.100 --> 00:00:36.320
Ja?

00:00:36.660 --> 00:00:36.800
Ja.

00:00:37.280 --> 00:00:37.560
Okay.

00:00:37.660 --> 00:00:38.440
Vielleicht als erstes News,

00:00:38.540 --> 00:00:39.840
für alle, die es noch nicht mitbekommen haben,

00:00:39.900 --> 00:00:41.860
wir planen ein HörerInnen-Treffen.

00:00:42.000 --> 00:00:44.060
Ja, wir hatten ja letztes Mal da aufgerufen,

00:00:44.260 --> 00:00:44.740
sich zu melden.

00:00:44.840 --> 00:00:45.640
In der Region Rheinland.

00:00:45.880 --> 00:00:47.300
Es haben sich tatsächlich einige Leute schon gemeldet.

00:00:47.340 --> 00:00:48.200
Genau, wir haben gesagt,

00:00:48.420 --> 00:00:51.400
ihr solltet uns auf jeden Fall immer noch eine Mail schreiben,

00:00:51.460 --> 00:00:52.740
damit wir das dann ordentlich zählen können.

00:00:52.880 --> 00:00:54.480
Und genau einer hat uns eine Mail geschrieben.

00:00:54.540 --> 00:00:56.140
Die anderen Leute haben sich über alle Kanäle gemeldet.

00:00:56.160 --> 00:00:57.380
Manche haben sich auf LinkedIn gemeldet,

00:00:57.480 --> 00:00:59.460
manche haben sich über Discord gemeldet,

00:00:59.600 --> 00:01:01.260
manche haben sich einfach nur persönlich gemeldet.

00:01:02.840 --> 00:01:03.740
Aber wir kriegen das auch immer wieder.

00:01:03.740 --> 00:01:05.020
Also wer Lust hat, sagt auf jeden Fall Bescheid.

00:01:05.500 --> 00:01:08.300
Und ich habe gehört, dass die Stuttgart-Fraktion,

00:01:08.780 --> 00:01:09.700
die Süddeutschland-Fraktion,

00:01:09.840 --> 00:01:11.500
die ist gerade stark in Führung.

00:01:11.600 --> 00:01:12.380
Macht ihr eine Frage?

00:01:13.040 --> 00:01:13.920
Nein, leider nicht.

00:01:15.360 --> 00:01:16.800
Diese Gerüchte kann ich nicht bestätigen.

00:01:17.460 --> 00:01:18.900
Auf LinkedIn hat einer gesagt,

00:01:18.960 --> 00:01:21.840
er würde gerne das lieber in Stuttgart haben als in Düsseldorf.

00:01:22.300 --> 00:01:24.320
Aber ansonsten, zum Beispiel auf Spotify

00:01:24.320 --> 00:01:25.980
wollten vier Düsseldorf und

00:01:25.980 --> 00:01:27.120
keiner Stuttgart.

00:01:27.860 --> 00:01:29.540
Ja, und bei uns im Discord auch.

00:01:29.540 --> 00:01:30.640
Ja, also

00:01:30.640 --> 00:01:32.920
tut mir leid, du musst leider anreisen.

00:01:32.960 --> 00:01:35.300
Aber wir müssen uns halt noch überlegen, wie wir das machen wollen

00:01:35.300 --> 00:01:36.220
und wo.

00:01:36.520 --> 00:01:39.140
Also ist jetzt aber letzte Chance

00:01:39.140 --> 00:01:40.600
für die Süddeutschland-Hörer.

00:01:40.680 --> 00:01:43.180
Ja okay, wenn man jetzt wirklich will, dass in Stuttgart stattfindet,

00:01:43.220 --> 00:01:43.680
könnte man nochmal.

00:01:44.200 --> 00:01:47.060
Ihr habt noch die Chance. Stimmen Sie jetzt ab.

00:01:47.600 --> 00:01:49.080
Die Telefonleitungen sind geschaltet.

00:01:49.920 --> 00:01:51.080
Die Spuren sind

00:01:51.080 --> 00:01:52.900
scharf gestellt am Mischpult, mit dem wir

00:01:52.900 --> 00:01:54.920
nie Probleme haben. Genau, das war es doch schon wieder,

00:01:55.060 --> 00:01:57.380
dann bleibt uns gewogen, hallo at pythonpodcast.com.de

00:01:57.380 --> 00:01:58.460
Haben wir Picks? Nein.

00:01:59.660 --> 00:02:01.360
Wir wollten News machen, glaube ich, noch.

00:02:01.600 --> 00:02:03.120
Okay, gut. Ich habe

00:02:03.120 --> 00:02:05.100
ehrlich gesagt fast

00:02:05.100 --> 00:02:06.940
gar nichts. Also es gibt

00:02:06.940 --> 00:02:08.940
eine neue Rails-Version, die ein bisschen mehr

00:02:08.940 --> 00:02:10.860
Deployment dazu kann, aber... Okay, wir waren, glaube ich,

00:02:10.860 --> 00:02:12.460
erst vor zwei Wochen News gemacht und in den letzten

00:02:12.460 --> 00:02:14.720
zwei Wochen ist nicht so wahnsinnig viel passiert. Ja, und es ist nicht so wirklich viel passiert,

00:02:14.800 --> 00:02:16.840
keine Ahnung warum. Dann skippen wir heute die News

00:02:16.840 --> 00:02:18.760
oder hast du mit News mitgebracht? Oder hat jemand von euch

00:02:18.760 --> 00:02:20.620
irgendwas Interessantes, was in der Python-Welt

00:02:20.620 --> 00:02:22.100
passiert ist? Ne.

00:02:22.420 --> 00:02:23.140
Ich hab nix.

00:02:24.080 --> 00:02:26.140
Dann lassen wir einfach den Georg sich selbst vorstellen

00:02:26.140 --> 00:02:27.900
und ein bisschen was erzählen. Das finde ich eine tolle Idee.

00:02:28.420 --> 00:02:30.040
Obwohl, wir könnten auch einmal noch kurz Werbung machen

00:02:30.040 --> 00:02:30.640
für uns selber.

00:02:31.420 --> 00:02:32.220
Das ist eine gute Idee.

00:02:33.020 --> 00:02:35.720
Ja, ganz kurz.

00:02:36.460 --> 00:02:38.340
Miet mich, miet mich, miet mich.

00:02:38.800 --> 00:02:39.380
Jetzt hier.

00:02:39.820 --> 00:02:40.640
Ja, wie war das?

00:02:41.000 --> 00:02:43.040
Ja, man kann uns auch mieten.

00:02:44.700 --> 00:02:46.520
Ich hab gehört, das muss man wiederholen.

00:02:46.780 --> 00:02:48.060
Sonst merken sich die Leute das nicht.

00:02:48.420 --> 00:02:49.720
Wir haben das ja schon einmal gemacht.

00:02:50.080 --> 00:02:50.960
Aber einmal ist zu wenig.

00:02:51.880 --> 00:03:02.260
Und deswegen sagen wir das einfach nochmal, also wenn ihr interessante Projekte habt oder so, die meisten von uns sind irgendwie Freelancer und auch im Prinzip für schöne Projekte buchbar.

00:03:02.780 --> 00:03:10.460
Und ich wiederhole das jetzt mal in meiner Stimme auch nochmal, auch ich bin Mietbar und immer für interessante Projekte zu haben.

00:03:11.000 --> 00:03:11.420
Ja, wunderbar.

00:03:11.420 --> 00:03:15.120
Und Georg, wie ist das bei dir? Bist du auch Mietbar oder bist du irgendwo angestellt?

00:03:15.840 --> 00:03:17.620
Wir sind alle Mietbar irgendwie, oder?

00:03:17.760 --> 00:03:18.600
Ja, gut.

00:03:18.740 --> 00:03:21.640
Also ihr wisst ja schon, dass ihr alle für die Werbung im Podcast erst eine Rechnung bekommt.

00:03:21.880 --> 00:03:29.720
Von mir? Das war jetzt deine Überleitung, damit du den Georg vorstellen kannst.

00:03:30.060 --> 00:03:30.800
Ja, gut, dann.

00:03:32.400 --> 00:03:34.380
Okay, Entschuldigung, Georg, bitte.

00:03:35.200 --> 00:03:37.680
Ja, ich bin der Georg, hallo.

00:03:38.660 --> 00:03:47.380
Und ja, wenn man mich mieten will, ich bin aus Österreich an der slowenischen Grenze ganz im Süden, da in der Nähe von Graz.

00:03:48.060 --> 00:03:54.540
Und warum bin ich da? Also wir haben so ein Projekt, Afonik nennen sie das, da geht es um Audio-Verbesserung.

00:03:54.700 --> 00:04:08.680
Vielleicht noch einmal ganz kurz einhaken darf, Afonik habt ihr auf jeden Fall schon mal gehört. Also zumindest, wenn ihr unseren Podcast schon mal gehört habt, habt ihr auf jeden Fall Afonik gehört, weil wir von Anfang an alle unsere Episoden durch Afonik jagen.

00:04:09.520 --> 00:04:11.460
Aha, so gehört, nicht schlecht.

00:04:11.460 --> 00:04:16.760
Ja, zuerst mal zu mir.

00:04:16.900 --> 00:04:19.980
Also ich habe bei uns da in Graz Toningenieur studiert.

00:04:20.120 --> 00:04:21.100
Das ist eine interessante Studie,

00:04:21.180 --> 00:04:23.740
weil man so Audiosachen und Informatik

00:04:23.740 --> 00:04:26.600
und Elektrotechnik-Sachen in Kombination quasi hat.

00:04:26.820 --> 00:04:28.240
Also du hättest das Audio-Problem hier,

00:04:28.320 --> 00:04:29.600
was wir am Anfang der Episode hatten,

00:04:29.720 --> 00:04:31.600
heute sehr viel schneller in den Griff bekommen.

00:04:32.000 --> 00:04:32.920
Deswegen habe ich gesagt,

00:04:33.020 --> 00:04:34.420
warum verwendet ihr einen Mischpuls?

00:04:34.860 --> 00:04:36.020
Dann hat man keine Probleme,

00:04:36.940 --> 00:04:38.140
wenn man keines verwendet.

00:04:38.540 --> 00:04:39.420
Wie auch immer.

00:04:40.220 --> 00:04:46.100
Und ja, dann mehr so in die Richtung Informatik, also alles ein bisschen so kombiniert,

00:04:46.240 --> 00:04:49.860
also Audio und Informatik und Machine Learning und so weiter.

00:04:50.960 --> 00:04:58.880
Und dadurch war ich sehr viel Podcast-Hörer immer und dadurch bin ich dann irgendwie zu Afonik gekommen,

00:04:59.700 --> 00:05:04.140
wo es eben um die Verbesserung von Audi gegangen ist und was am Anfang auch noch ganz wichtig war,

00:05:04.140 --> 00:05:06.880
das heißt verschiedene Dateien zu erstellen,

00:05:06.880 --> 00:05:11.960
sei es mp3, AAC, da hat es ja alle möglichen Formate damals noch gegeben

00:05:11.960 --> 00:05:14.540
und die Metadaten korrekt zu haben und so weiter und so fort.

00:05:15.240 --> 00:05:18.360
Und so ist das ganze Projekt sozusagen entstanden.

00:05:19.100 --> 00:05:21.500
Warum jetzt im Python-Podcast, wenn Sie einige fragen?

00:05:21.740 --> 00:05:25.700
Also bei uns ist ja fast alles mit Python gemacht,

00:05:26.780 --> 00:05:30.980
weil allein schon von der ganzen Algorithmen-Seite ist das alles mit Python,

00:05:31.740 --> 00:05:33.480
das immer, wo das immer schafft, Byton,

00:05:33.560 --> 00:05:35.860
das ganze Websystem haben wir auch mit Byton gemacht.

00:05:36.060 --> 00:05:37.960
Da erzählen wir bitte gerne gleich noch ein bisschen

00:05:37.960 --> 00:05:39.840
ausführlicher drüber, das interessiert unsere

00:05:39.840 --> 00:05:41.220
Hörerinnen natürlich sehr.

00:05:41.780 --> 00:05:42.400
Glaube ich.

00:05:42.980 --> 00:05:47.740
Ja, das klingt auch gut.

00:05:48.140 --> 00:05:51.860
genau, ich weiß nicht, wie kommt denn dann,

00:05:52.080 --> 00:05:53.800
also ich habe immer schon, also ich höre ja,

00:05:53.860 --> 00:05:56.060
ich habe schon ganz lange immer Podcasts gehört und

00:05:56.060 --> 00:05:57.920
gefühlt war so Aufhonig

00:05:57.920 --> 00:05:59.780
auch schon relativ früh mit dabei.

00:06:00.440 --> 00:06:03.260
war ein Podcast speziell

00:06:03.260 --> 00:06:03.700
irgendwie

00:06:03.700 --> 00:06:06.160
auch so eine

00:06:06.160 --> 00:06:09.180
Motivation dafür, irgendwie das zu

00:06:09.180 --> 00:06:11.080
machen oder ist das halt irgendwie später

00:06:11.080 --> 00:06:11.760
dazugekommen,

00:06:12.980 --> 00:06:15.040
dass das Podcast funktioniert

00:06:15.040 --> 00:06:16.400
vielleicht, ja.

00:06:17.240 --> 00:06:18.860
Ja, also zuerst

00:06:18.860 --> 00:06:21.280
das erste System war quasi

00:06:21.280 --> 00:06:22.820
explizit für Podcasts, ja.

00:06:23.380 --> 00:06:25.200
Das war der Tim damals, der Tim

00:06:25.200 --> 00:06:27.080
Britloff, der immer

00:06:27.080 --> 00:06:28.980
gestöhnt hat, dass alles so kompliziert ist

00:06:28.980 --> 00:06:34.080
und da denkt man sich dann natürlich, na okay, da braucht man halt immer so ein Tool

00:06:34.080 --> 00:06:38.600
und das hat dann eben so angefangen, zuerst mit dem Leveling,

00:06:38.600 --> 00:06:43.980
dass man eben verschiedene Lautstärken von verschiedenen Sprechern auf gleiche Levels bringt und so weiter

00:06:43.980 --> 00:06:47.960
und dann eben so ein Web-System, also so ein Web-Interface dazu

00:06:47.960 --> 00:06:54.480
und von dort weg ist es dann halt weiter gewachsen in andere Bereiche.

00:06:55.620 --> 00:06:57.340
Der Tim hat das dann eben auch angekündigt

00:06:57.340 --> 00:06:58.620
auf seinem Podcast damals.

00:06:59.660 --> 00:07:01.440
Und so sind halt viele andere

00:07:01.440 --> 00:07:03.120
Podcaster auch dazukommen.

00:07:03.660 --> 00:07:05.280
Und dann hat sich das immer sehr schön

00:07:05.280 --> 00:07:06.380
langsam weiter verbreitet.

00:07:07.060 --> 00:07:09.000
Ja, ich glaube, ich habe es auch daher

00:07:09.000 --> 00:07:11.080
mal gehört, denke ich, wahrscheinlich, ja.

00:07:12.080 --> 00:07:12.740
Genau, ja.

00:07:14.800 --> 00:07:17.060
Ja, das ist ja auch interessant.

00:07:17.700 --> 00:07:19.100
Ich habe auch den Eindruck,

00:07:19.100 --> 00:07:21.000
dass ihr da am Anfang

00:07:21.000 --> 00:07:22.740
relativ viel so Scikit-Learn

00:07:22.740 --> 00:07:24.040
verwendet habt zumindest

00:07:24.040 --> 00:07:26.040
für irgendwie

00:07:26.040 --> 00:07:28.600
diese ganzen Anpassungen?

00:07:29.800 --> 00:07:30.460
Ja, also wir

00:07:30.460 --> 00:07:31.740
ganz am Anfang

00:07:31.740 --> 00:07:34.600
so viel mit NumPy, Scikit-Learn,

00:07:34.780 --> 00:07:36.680
SciPy, also diese ganzen

00:07:36.680 --> 00:07:38.640
Signalfarbedrucks

00:07:38.640 --> 00:07:40.460
und Machine Learning Packages, was es

00:07:40.460 --> 00:07:41.820
eben damals so gegeben hat.

00:07:43.040 --> 00:07:44.680
Und das war eh...

00:07:44.680 --> 00:07:46.100
Vielleicht kannst du kurz sagen, wann damals war?

00:07:47.180 --> 00:07:48.560
Damals, also gestartet

00:07:48.560 --> 00:07:50.900
sind wir 2013,

00:07:51.440 --> 00:07:52.680
wenn ich das richtig im Kopf habe.

00:07:52.920 --> 00:07:54.780
Also ist das von bald das zwölfte Jahr.

00:07:55.280 --> 00:07:56.580
Schon ein bisschen was sehr Gutes dort.

00:07:56.700 --> 00:07:58.620
Ja, das waren halt die

00:07:58.620 --> 00:08:00.940
frühen 2010er Jahre quasi,

00:08:01.140 --> 00:08:02.900
wo die erste Version entstanden

00:08:02.900 --> 00:08:04.620
ist. Und

00:08:04.620 --> 00:08:06.480
ja, was

00:08:06.480 --> 00:08:08.820
ich schätze mal, eure Hörer kennen

00:08:08.820 --> 00:08:10.500
eh diese ganzen Packages, also

00:08:10.500 --> 00:08:11.480
NumPy, so

00:08:11.480 --> 00:08:14.520
Array Processing und

00:08:14.520 --> 00:08:16.940
SciPy setzt eben drauf auf,

00:08:17.240 --> 00:08:18.960
hat ein paar zusätzliche

00:08:18.960 --> 00:08:20.700
Algorithmen, vor allem

00:08:20.700 --> 00:08:22.940
im Signalverarbeitungsbereich

00:08:22.940 --> 00:08:25.020
und Scikit-Learn

00:08:25.020 --> 00:08:26.820
waren halt früher

00:08:26.820 --> 00:08:29.100
hauptsächlich alle möglichen Klassifikations-

00:08:29.100 --> 00:08:31.020
und Clustering-Algorithmen,

00:08:31.220 --> 00:08:32.560
auf denen wir dann halt auch

00:08:32.560 --> 00:08:34.720
aufgebaut haben und

00:08:34.720 --> 00:08:36.440
ja, vielleicht mal

00:08:36.440 --> 00:08:38.560
ein Beispiel, was wir damals da so machen

00:08:38.560 --> 00:08:39.360
haben können, so,

00:08:40.420 --> 00:08:42.440
geht natürlich jetzt auch noch, aber jetzt gibt es halt

00:08:42.440 --> 00:08:44.620
andere Techniken auch. Wir haben halt

00:08:44.620 --> 00:08:46.600
damals versucht, früher hat es ja

00:08:46.600 --> 00:08:48.700
eigentlich nur so Audio-Plugins

00:08:48.700 --> 00:08:50.680
gegeben, was halt Signalverarbeitung

00:08:50.680 --> 00:08:52.600
Algorithmen waren, die halt irgendwie

00:08:52.600 --> 00:08:54.480
abgelaufen sind und man hat ein paar Rahmen

00:08:54.480 --> 00:08:55.980
da dann eingestellt und

00:08:55.980 --> 00:08:58.740
im Prinzip war das immer noch sehr schwer

00:08:58.740 --> 00:09:00.880
zu bedienen, wie man es am Mischpult sieht

00:09:00.880 --> 00:09:02.340
und

00:09:02.340 --> 00:09:04.700
das Ganze

00:09:04.700 --> 00:09:06.580
haben wir versucht eigentlich einmal zu

00:09:06.580 --> 00:09:08.160
automatisieren, das heißt wir haben halt

00:09:08.160 --> 00:09:10.720
nicht nur diese DSP Algorithmen gehabt

00:09:10.720 --> 00:09:12.660
die man aufs Audio irgendwie anwendet, sondern

00:09:12.660 --> 00:09:14.740
versucht mit Klassifikatoren

00:09:14.740 --> 00:09:16.620
gewisse Sachen im Audio zu erkennen, also

00:09:16.620 --> 00:09:18.500
wo zum Beispiel verschiedene Sprecher sind

00:09:18.500 --> 00:09:20.380
oder wo Musikteile sind, wo jetzt nur

00:09:20.380 --> 00:09:22.560
nur Rauschteile sind oder

00:09:22.560 --> 00:09:24.540
eben nur Hintergrundgeräusche

00:09:24.540 --> 00:09:26.460
oder Hintergrundmusik, Vordergrundmusik

00:09:26.460 --> 00:09:28.340
und lauter solche Sachen. Und mit

00:09:28.340 --> 00:09:29.540
diesen

00:09:29.540 --> 00:09:32.200
Ergebnissen, die wir eben von den

00:09:32.200 --> 00:09:34.100
Klassifikatoren dann bekommen haben,

00:09:34.300 --> 00:09:36.000
dafür haben wir zum Beispiel

00:09:36.000 --> 00:09:38.340
Scikit-Learn-Sachen verwendet,

00:09:38.460 --> 00:09:40.500
wie jetzt SVMs

00:09:40.500 --> 00:09:42.300
oder irgendeine

00:09:42.300 --> 00:09:44.600
Decision Trees mit Feature Extraction

00:09:44.600 --> 00:09:46.300
vorher. Und aufgrund

00:09:46.300 --> 00:09:48.220
von diesen Analysedaten haben wir dann

00:09:48.220 --> 00:09:49.960
eben die Parameter der

00:09:49.960 --> 00:09:52.200
der ganzen DSP-Algorithmen automatisch

00:09:52.200 --> 00:09:54.260
gesetzt, also zum Beispiel

00:09:54.260 --> 00:09:56.160
wenn man einen D-Noiser

00:09:56.160 --> 00:09:58.120
hat, haben wir das Auto mal segmentiert

00:09:58.120 --> 00:09:59.640
in verschiedene Abschnitte, wo

00:09:59.640 --> 00:10:01.820
verschiedene Noise-Profile sind, also

00:10:01.820 --> 00:10:04.160
zum Beispiel wären wir jetzt hier in einem Raum,

00:10:04.280 --> 00:10:05.860
dann geht man raus, dann hat man natürlich ein anderes

00:10:05.860 --> 00:10:08.040
Noise-Profil, da haben wir so ein Clustering

00:10:08.040 --> 00:10:09.760
gemacht, dass das Auto segmentiert

00:10:09.760 --> 00:10:11.800
und dann in den einzelnen

00:10:11.800 --> 00:10:13.920
Segmenten

00:10:13.920 --> 00:10:15.680
haben wir geschaut, wo jetzt Sprecher sind,

00:10:15.740 --> 00:10:17.900
oder Musikteile und in den stillen

00:10:17.900 --> 00:10:19.720
Teilen, wo eben keiner spricht, also

00:10:19.720 --> 00:10:23.160
wo nur der Noise-Floor sozusagen unten überbleibt.

00:10:23.340 --> 00:10:27.500
Diese haben wir dann so zusammengestitcht und daraus Noise-Profile extrahiert

00:10:27.500 --> 00:10:33.320
und diesen Noise dann quasi vom Gesamtsignal abgezogen

00:10:33.320 --> 00:10:37.640
und wiederum entschieden, ob das überhaupt Sinn macht, dass man das macht

00:10:37.640 --> 00:10:40.220
oder ob das nicht Musik ist und da wollen wir das vielleicht nicht abziehen.

00:10:40.860 --> 00:10:44.300
Also die Grundidee ist halt, dass man so verschiedene Klassifikatoren hat

00:10:44.300 --> 00:10:46.800
und mit denen dann die Algorithmen steuert.

00:10:47.560 --> 00:10:50.000
Und für das hat das ganz gut funktioniert, ja.

00:10:50.200 --> 00:10:52.320
Aber diese Algorithmen sind dann quasi noch so die klassischen,

00:10:52.420 --> 00:10:54.400
ich weiß jetzt nicht, ich habe jetzt so im Hinterkopf,

00:10:54.460 --> 00:10:57.080
da gibt es irgendwie so Audio Workstations

00:10:57.080 --> 00:10:58.600
und irgendwelche Plugins und so

00:10:58.600 --> 00:11:00.680
und da kann man dann wahrscheinlich die Parameter einstellen,

00:11:00.880 --> 00:11:03.060
aber sozusagen die sind dann halt übernommen,

00:11:03.260 --> 00:11:07.160
aber wie man die einstellt, ist automatisiert über halt irgendwie...

00:11:07.160 --> 00:11:09.420
Übernommen, also die haben wir natürlich schon selber entwickelt,

00:11:09.600 --> 00:11:12.220
aber vom Prinzip her ähnlich natürlich.

00:11:12.220 --> 00:11:16.140
Also man hat halt bestimmte Filter oder Kompressoren, Limiter

00:11:16.140 --> 00:11:18.360
und was gibt es noch

00:11:18.360 --> 00:11:20.500
alles in der FFT-basierten Prozesse

00:11:20.500 --> 00:11:22.400
so wie dieses Denoising zum Beispiel

00:11:22.400 --> 00:11:23.880
und

00:11:23.880 --> 00:11:25.640
auf diese Weise

00:11:25.640 --> 00:11:27.900
steuert man dann diese

00:11:27.900 --> 00:11:30.480
klassischen DSP-Algorithmen quasi.

00:11:31.480 --> 00:11:31.640
Ja,

00:11:32.420 --> 00:11:34.460
aber genau gibt es da nicht

00:11:34.460 --> 00:11:36.340
irgendwie, wenn man jetzt zum Beispiel

00:11:36.340 --> 00:11:38.860
das ist ja auch ein spezieller Anwendungsfall

00:11:38.860 --> 00:11:39.840
eigentlich, dass man halt

00:11:39.840 --> 00:11:42.180
so ein fertiges Audio hat, was man dann

00:11:42.180 --> 00:11:43.240
post-processen will,

00:11:44.300 --> 00:11:45.740
kann man da nicht auch noch irgendwie

00:11:45.740 --> 00:11:46.960
vielleicht irgendwie

00:11:46.960 --> 00:11:49.480
Informationen, mehr

00:11:49.480 --> 00:11:51.480
Informationen verwerten, wenn man halt das ganze

00:11:51.480 --> 00:11:53.180
Audio, weil normalerweise diese

00:11:53.180 --> 00:11:55.500
Audio Workstations sind ja immer mehr so drauf ausgelegt,

00:11:55.900 --> 00:11:57.260
dass man halt irgendwie einen Mix

00:11:57.260 --> 00:11:59.640
so live erzeugt und

00:11:59.640 --> 00:12:01.580
da hat man ja gar nicht so

00:12:01.580 --> 00:12:02.140
viel Informationen.

00:12:02.880 --> 00:12:03.740
Das ist eben das,

00:12:03.940 --> 00:12:07.320
der Unterschied

00:12:07.320 --> 00:12:09.380
von unserem System gewesen zu den

00:12:09.380 --> 00:12:11.220
anderen Sachen oder zu den meisten anderen Sachen.

00:12:12.040 --> 00:12:13.380
Also, dass eben

00:12:13.380 --> 00:12:15.340
das ganze Konzept, wie es im

00:12:15.340 --> 00:12:16.640
Computer meistens funktioniert.

00:12:17.340 --> 00:12:19.040
Also in Audio-Plugins

00:12:19.040 --> 00:12:21.080
ist es halt eigentlich ein

00:12:21.080 --> 00:12:23.340
Realtime-Konzept, also ein Plugin

00:12:23.340 --> 00:12:25.420
sieht ja nur einen kleinen Buffer an Audio,

00:12:25.580 --> 00:12:27.380
den er prozessiert und

00:12:27.380 --> 00:12:29.040
den muss er jetzt auch so schnell wie möglich

00:12:29.040 --> 00:12:30.740
prozessieren und dann spuckt er ihn wieder aus,

00:12:31.260 --> 00:12:33.160
weil das System ja auf Realtime

00:12:33.160 --> 00:12:34.980
ausgelegt ist und

00:12:34.980 --> 00:12:37.260
es hat zumindest damals

00:12:37.260 --> 00:12:39.020
sehr wenig Programme gegeben, die

00:12:39.020 --> 00:12:40.420
jetzt ja wirklich so

00:12:40.420 --> 00:12:43.220
Offline-Audio-Berechnung gemacht

00:12:43.220 --> 00:12:44.560
haben und

00:12:44.560 --> 00:12:47.340
das war damals eben der

00:12:47.340 --> 00:12:49.360
Levelator, den es da gegeben hat, das war auch so

00:12:49.360 --> 00:12:51.300
ein Programm, das einfach die Levels

00:12:51.300 --> 00:12:53.220
quasi gleich geregelt hat von

00:12:53.220 --> 00:12:54.600
Aufnahmen,

00:12:55.200 --> 00:12:57.280
nämlich Brute Force, also

00:12:57.280 --> 00:12:59.220
der hat nicht geschaut, ob da irgendwie Musik ist, das hat er

00:12:59.220 --> 00:13:01.280
vollkommen zerstört, aber halt einfach versucht, alles

00:13:01.280 --> 00:13:02.400
irgendwie gleich laut zu machen

00:13:02.400 --> 00:13:03.740
und

00:13:03.740 --> 00:13:07.040
dieses Programm hat mich damals ein bisschen

00:13:07.040 --> 00:13:09.040
fasziniert, weil ich doch aus der Audio

00:13:09.040 --> 00:13:11.180
Bubble sozusagen gekommen bin und das haben mir

00:13:11.180 --> 00:13:13.060
die Podcaster damals gezeigt und

00:13:13.060 --> 00:13:14.980
Und ich habe mir gedacht, warum habe ich noch nie von dem gehört?

00:13:15.060 --> 00:13:16.200
Das ist ja eigentlich ganz praktisch.

00:13:16.840 --> 00:13:20.220
Weil in der ganzen professionellen Audio-Welt

00:13:20.220 --> 00:13:22.620
dieses Konzept einfach nicht existent war.

00:13:22.840 --> 00:13:23.100
Also wirklich.

00:13:24.340 --> 00:13:27.340
Weil es da natürlich die super speziellen Plugins geben,

00:13:28.120 --> 00:13:31.120
die von den namhaften Herstellern und so weiter.

00:13:31.860 --> 00:13:35.120
Aber dieses Konzept haben wir dann auch versucht ähnlich zu machen.

00:13:35.120 --> 00:13:39.480
Also weg von dem Plugin-Konzept und eben einfach das gesamte Audio analysiert.

00:13:39.700 --> 00:13:41.960
Das heißt, man hat vorher schon mal schauen können, wo was passiert.

00:13:42.080 --> 00:13:44.320
Und danach die Algorithmen dann darauf anpassen.

00:13:46.140 --> 00:13:47.820
Zusätzlich ist das natürlich praktisch.

00:13:47.900 --> 00:13:52.460
Das kann man dann als Web-Service anbieten, weil da kann man dann das ganze File hintun.

00:13:52.460 --> 00:13:56.460
Und das wird dann halt einfach sozusagen im Hintergrund prozessiert.

00:13:57.180 --> 00:14:02.400
Und dann bieten sie natürlich auch andere Sachen an, dass man das File dann gleich mal hindistributiert.

00:14:02.560 --> 00:14:05.520
Also auf YouTube und auf Soundcloud wird auch immer so ziemlich populär.

00:14:05.740 --> 00:14:11.620
Und alle möglichen anderen Targets auf den eigenen Server oder verschiedene andere.

00:14:12.080 --> 00:14:15.280
Publikations- und Encoding-Steps

00:14:15.280 --> 00:14:18.340
dann dazu tun. Darf ich noch so ein paar

00:14:18.340 --> 00:14:20.800
Fragen stellen, vielleicht zu diesem Audio-Ding? Das würde mich so ein bisschen

00:14:20.800 --> 00:14:24.540
mehr interessieren. Also du hast das aus der Tontechnik-Welt

00:14:24.540 --> 00:14:27.300
quasi gedacht, ja? Und wenn du sagst,

00:14:27.380 --> 00:14:29.840
okay, du möchtest die Sachen auspegeln irgendwie, dann

00:14:29.840 --> 00:14:33.200
guckst du darauf, dass das so ein bisschen harmonisch

00:14:33.200 --> 00:14:35.840
ist und du guckst, dass das so ein bisschen Raum gibt

00:14:35.840 --> 00:14:39.260
und du versuchst dann mit den Filtern,

00:14:40.100 --> 00:14:42.100
die durch das Machine Learning trainiert sind,

00:14:42.180 --> 00:14:44.540
zu erkennen, was jetzt ein Störgeräusch ist

00:14:44.540 --> 00:14:46.080
und nicht zur Stimme gehört.

00:14:48.460 --> 00:14:52.140
Und ja, also ich versuche es so ein bisschen

00:14:52.140 --> 00:14:53.620
einfach darzustellen, weil ich möchte gerne

00:14:53.620 --> 00:14:56.020
diesen Prozess aus dieser Audio-Perspektive

00:14:56.020 --> 00:14:57.240
so ein bisschen eher verstehen.

00:14:58.420 --> 00:15:01.540
Ja, naja, ich rede jetzt immer noch aus der Perspektive,

00:15:02.300 --> 00:15:04.660
wie das quasi früher war.

00:15:05.940 --> 00:15:11.760
Aber nehmen wir vielleicht mal dieses Leveling-Beispiel, was muss man da machen?

00:15:11.920 --> 00:15:17.100
Also wenn man jetzt verschiedene Sprecher hat, zum Beispiel wie wir da,

00:15:17.100 --> 00:15:21.880
einer ist halt viel lauter, einer ist viel leiser und das wechselt sich dann ab.

00:15:23.840 --> 00:15:28.300
Und wo war ich jetzt? Ja genau, dann hat man irgendwelche anderen Sachen noch dabei,

00:15:28.520 --> 00:15:35.400
also Intro-Musik zum Beispiel oder dann ist wieder mal Pause und dann hört man irgendwelche anderen Geräusche.

00:15:35.940 --> 00:15:46.300
Dann nennt sich das so Voice Activity Detection, also man detektiert eben, wo jetzt wirklich die Sprache aktiv ist und wo jetzt Pausen sind.

00:15:46.960 --> 00:15:57.640
Dann detektiert man zum Beispiel, wo jetzt Musiksegmente sind und dann, wo jetzt irgendwas anderes ist, also irgendeine Störgeräusche, die jetzt weder Sprache noch Musik sind sozusagen.

00:15:58.360 --> 00:16:04.740
Und dann, wenn man jetzt die verschiedenen Sprachsegmente hat und da sind große Levelunterschiede,

00:16:04.800 --> 00:16:09.380
dann versucht man die so schnell wie möglich nachzuregeln, dass sie möglichst ähnlich laut klingen,

00:16:09.620 --> 00:16:12.800
also relativ schnell zu faden.

00:16:13.520 --> 00:16:17.140
Bei Musik muss man das jetzt wieder anders machen, weil wenn man in der Musik jetzt so schnell nachregelt,

00:16:17.140 --> 00:16:23.100
dann würde man die ganze innere Dynamik der Musik zerstören, weil Musik braucht ja viel mehr Dynamik natürlich,

00:16:23.260 --> 00:16:25.160
wäre alles ziemlich

00:16:25.160 --> 00:16:27.360
eine Wurst. Eine Wurst

00:16:27.360 --> 00:16:29.100
in dem Sinn, dass alles gleich laut ist und

00:16:29.100 --> 00:16:31.300
dann nicht mehr gut klingt. Das heißt, bei Musik

00:16:31.300 --> 00:16:33.080
muss man das natürlich wiederum anders machen, deswegen

00:16:33.080 --> 00:16:34.960
muss man das vorher klassifizieren, dann hat man wieder

00:16:34.960 --> 00:16:37.260
irgendwelche anderen Geräusche, die jetzt weder Musik

00:16:37.260 --> 00:16:39.260
noch Sprache sind, die wird man wahrscheinlich

00:16:39.260 --> 00:16:41.080
nicht raufregeln wollen.

00:16:41.820 --> 00:16:43.140
Also das kennt man von

00:16:43.140 --> 00:16:45.100
so alten Automatic Gain Control

00:16:45.100 --> 00:16:47.560
Algorithmen bei diversen

00:16:47.560 --> 00:16:49.080
Recording-Systemen, wenn man das

00:16:49.080 --> 00:16:51.260
einstellt und dann stehen lässt und dann mal der Zeit lang

00:16:51.260 --> 00:16:53.240
nichts sagt, dann wird auf einmal der Noise-Begel

00:16:53.240 --> 00:16:55.020
komplett hochgezogen vom Hintergrund

00:16:55.020 --> 00:16:57.300
und dann fängt wieder irgendwer zum Sprechen

00:16:57.300 --> 00:16:59.240
an, dann regelt der

00:16:59.240 --> 00:17:01.220
Begel wieder runter und dann ist der Noise wieder

00:17:01.220 --> 00:17:02.520
unten und die Sprache kommt wieder.

00:17:03.100 --> 00:17:05.360
Also genau solche Pumping-

00:17:05.360 --> 00:17:07.160
Artefakte, dass irgendwas hochgezogen

00:17:07.160 --> 00:17:08.720
wird, was man nicht will, will man

00:17:08.720 --> 00:17:10.340
natürlich nicht haben und das

00:17:10.340 --> 00:17:12.780
kann man natürlich viel besser machen, wenn man

00:17:12.780 --> 00:17:14.900
das ganze Pfeil vorher klassifiziert, wo

00:17:14.900 --> 00:17:16.980
welche Events

00:17:16.980 --> 00:17:19.080
passieren, die relevant sind für diesen

00:17:19.080 --> 00:17:21.260
Algorithmus jetzt und dann

00:17:21.260 --> 00:17:23.260
weiß man schon, das ist da und das ist da und dann

00:17:23.260 --> 00:17:23.920
kann man diese

00:17:23.920 --> 00:17:26.660
Nachregelung natürlich

00:17:26.660 --> 00:17:29.040
ein bisschen besser machen, ganz einfach.

00:17:29.660 --> 00:17:30.900
Ich hoffe, das war jetzt deine Frage.

00:17:31.160 --> 00:17:33.580
Ja, ich versuche mir noch vorzustellen,

00:17:33.980 --> 00:17:35.440
wie das genau aussieht. Also wenn du

00:17:35.440 --> 00:17:37.220
sagst, also die Musik braucht jetzt ein bisschen mehr

00:17:37.220 --> 00:17:38.500
Dynamik, hast du gesagt,

00:17:39.080 --> 00:17:41.360
dann lässt den Filter ein bisschen mehr

00:17:41.360 --> 00:17:43.540
auf und du regelst halt nicht die einzelnen Frequenzen

00:17:43.540 --> 00:17:45.580
alle auf laut, sondern willst dir ein bisschen

00:17:45.580 --> 00:17:47.200
auch Raum geben vielleicht. Ich weiß nicht,

00:17:47.820 --> 00:17:51.000
Ich versuche das so ein bisschen visuell zu verstehen,

00:17:51.440 --> 00:17:54.260
was bei Musik vielleicht nicht ganz so einfach zu erklären ist.

00:17:55.920 --> 00:17:59.480
Ja, aber ist Musik eigentlich überhaupt jemals sozusagen auch das Ziel gewesen,

00:17:59.580 --> 00:18:00.900
dass man das halt verbessern kann?

00:18:01.060 --> 00:18:05.140
Oder ist das auch vor allem nicht eher schon immer irgendwie Sprache,

00:18:05.400 --> 00:18:07.660
reine Sprache gewesen?

00:18:08.380 --> 00:18:10.500
Ja, aber du musst ja mit der Musik auch irgendwas machen.

00:18:10.500 --> 00:18:12.000
Ja, man muss auch damit irgendwie klarkommen, ne, ja.

00:18:12.180 --> 00:18:14.620
Das Problem ist ja, du kannst ja nicht einfach nichts machen,

00:18:14.700 --> 00:18:17.280
weil wenn du jetzt die Sprache irgendwie großartig nachregelst

00:18:17.280 --> 00:18:18.860
und dann ist die Musik wieder ganz woanders,

00:18:19.000 --> 00:18:20.760
dann passt das ja erst wieder nicht zusammen.

00:18:21.420 --> 00:18:23.760
Also wir versuchen natürlich die Musik

00:18:23.760 --> 00:18:26.980
so wenig wie möglich zu verändern,

00:18:27.100 --> 00:18:27.520
sag ich mal,

00:18:28.380 --> 00:18:30.400
also künstlerisch zu verändern,

00:18:30.840 --> 00:18:32.420
sondern einfach so anzupassen,

00:18:32.420 --> 00:18:35.860
dass sie zum Rest von der Produktion passt.

00:18:36.180 --> 00:18:38.600
Also dass halt die Lautstärkenverhältnisse

00:18:38.600 --> 00:18:40.440
zu den Sprechern und der Musik

00:18:40.440 --> 00:18:42.360
einigermaßen passt,

00:18:43.260 --> 00:18:45.160
dass die Lautstärkenverhältnisse in der Musik

00:18:45.160 --> 00:18:47.180
nicht so viel verändert werden,

00:18:47.280 --> 00:19:16.880
Also natürlich werden sie ein bisschen verändert, aber nicht zu extrem und spektral wird die Musik jetzt eigentlich auch nicht verändert, also zumindest bis jetzt nicht, vielleicht machen wir das in Zukunft nochmal, weil wir gehen natürlich davon aus, meistens hat man so einen Einspieler oder sonst irgendwas, das ist schon vorproduziert, das ist künstlerisch meistens so gewollt und da will man jetzt nicht großartig was ändern dabei, außer vielleicht ein bisschen Neues weglöschen oder eben die Pegel anpassen, dass sie zum Rest passen.

00:19:17.280 --> 00:19:21.120
Was wir natürlich auch sehr oft an so Musikmixes machen, da macht es schon Sinn.

00:19:21.120 --> 00:19:24.160
Also wenn man jetzt ein Stück hat, das sehr laut ist und sehr leise, das passt

00:19:24.160 --> 00:19:26.100
Passen wir schon an, dass das dann wieder zusammenpasst.

00:19:26.660 --> 00:19:28.860
Aber jetzt nicht den spektralen Content in der Musik.

00:19:29.920 --> 00:19:30.100
Ja.

00:19:31.380 --> 00:19:33.980
Aber genau, ist das denn...

00:19:33.980 --> 00:19:37.720
Aber inzwischen hat sich ja auch im Machine Learning-Bereich

00:19:37.720 --> 00:19:40.840
so einiges getan, so in den letzten zehn Jahren.

00:19:41.760 --> 00:19:43.340
Ich meine, 2013 hat das mit dem Deep Learning

00:19:43.340 --> 00:19:44.300
und so gerade erst angefangen.

00:19:45.360 --> 00:19:48.180
Gibt es da inzwischen auch Geschichten,

00:19:48.260 --> 00:19:49.940
wo man das so mehr so richtig End-to-End,

00:19:50.500 --> 00:19:53.260
ohne dass man dann noch irgendwelche Blöcke dazwischen hat,

00:19:53.300 --> 00:19:54.920
die man konfiguriert, sondern einfach

00:19:54.920 --> 00:19:56.840
quasi, man könnte ja auch das alles irgendwie

00:19:56.840 --> 00:19:58.660
insgesamt lernen und dann halt

00:19:58.660 --> 00:20:00.800
Audio rein auf der einen Seite in

00:20:00.800 --> 00:20:02.960
irgendwie ein neuronales Netz und dann wieder Audio auch wieder raus.

00:20:04.440 --> 00:20:04.980
Hat sich

00:20:04.980 --> 00:20:06.740
das da eigentlich in die Richtung schon entwickelt?

00:20:07.880 --> 00:20:09.160
Weil ich habe da ehrlich gesagt ja keine Ahnung von.

00:20:10.400 --> 00:20:10.740
Ja, so

00:20:10.740 --> 00:20:13.020
funktioniert es im Moment

00:20:13.020 --> 00:20:13.900
eigentlich. Also

00:20:13.900 --> 00:20:16.840
wie gesagt, wenn man

00:20:16.840 --> 00:20:18.480
jetzt von der Geschichte her kommt, mit von

00:20:18.480 --> 00:20:20.260
NumPy, SciPy und

00:20:20.260 --> 00:20:22.100
CKitLearn und so weiter,

00:20:23.300 --> 00:20:25.620
sind immer

00:20:25.620 --> 00:20:27.440
weitere Algorithmen gekommen. Also ich habe zum Beispiel

00:20:27.440 --> 00:20:29.220
meine Blumenarbeit damals

00:20:29.220 --> 00:20:31.720
auch schon mit so neuronalen Netzen gemacht.

00:20:31.820 --> 00:20:33.560
Das war 2007 oder

00:20:33.560 --> 00:20:35.680
2008. Da war das noch ganz

00:20:35.680 --> 00:20:38.080
am Anfang, vor allem im Audi-Bereich.

00:20:39.220 --> 00:20:40.040
Und am Anfang

00:20:40.040 --> 00:20:41.740
von der Phonik haben wir das jetzt noch

00:20:41.740 --> 00:20:43.680
nicht gehabt, weil es ja einfach

00:20:43.680 --> 00:20:45.280
nur zu aufwendig war zum Rechnen.

00:20:46.000 --> 00:20:46.880
Aber dann

00:20:46.880 --> 00:20:49.660
sind wir eh gleich in diese

00:20:49.660 --> 00:20:50.500
Richtung einmal gegangen.

00:20:51.680 --> 00:20:53.620
Wenn wir jetzt schon in beiden Podcasts sind,

00:20:53.700 --> 00:20:55.200
können wir von den Tools ein bisschen reden.

00:20:55.340 --> 00:20:57.260
Zuerst war das Dancerflow

00:20:57.260 --> 00:20:59.140
sehr beliebt am Anfang.

00:21:00.760 --> 00:21:01.440
Vor allem mit diesem

00:21:01.440 --> 00:21:03.620
Keras, dieser Keras

00:21:03.620 --> 00:21:05.460
Library, das war damals so ein

00:21:05.460 --> 00:21:07.420
Wrapper für Dancerflow, im Prinzip einfach mit

00:21:07.420 --> 00:21:09.680
einer einfacheren

00:21:09.680 --> 00:21:11.380
API, also einfacher

00:21:11.380 --> 00:21:13.400
zu verwenden. Ja, inzwischen ist es glaube ich

00:21:13.400 --> 00:21:14.540
die offizielle API-Aufwand.

00:21:15.560 --> 00:21:17.300
Ja, die haben es glaube ich irgendwie, oder der

00:21:17.300 --> 00:21:19.380
Typ bei Keras ist dann glaube ich irgendwann zu

00:21:19.380 --> 00:21:21.100
Google und dann haben sie das gleich dazu

00:21:21.100 --> 00:21:21.600
einbaut.

00:21:22.620 --> 00:21:24.980
Wie auch immer, zuerst haben wir viel mit Keras

00:21:24.980 --> 00:21:26.720
eben gemacht und dann irgendwann

00:21:26.720 --> 00:21:28.820
sind wir dann eh so wie alle auch

00:21:28.820 --> 00:21:29.860
auf PyTorch.

00:21:30.620 --> 00:21:32.680
Mittlerweile machen wir eigentlich alles mit PyTorch,

00:21:32.760 --> 00:21:34.940
also eh schon lang. Aber jetzt zu den

00:21:34.940 --> 00:21:36.580
Algorithmen, wie funktioniert das jetzt?

00:21:36.580 --> 00:21:38.260
Also eigentlich

00:21:38.260 --> 00:21:40.260
ziemlich anders, also

00:21:40.260 --> 00:21:42.460
wie du gesagt hast, mittlerweile

00:21:42.460 --> 00:21:44.700
kommt eigentlich einfach nur mehr Audio

00:21:44.700 --> 00:21:46.560
rein und Audio raus

00:21:46.560 --> 00:21:48.540
dann. Also es ist viel mehr Blackbox als

00:21:48.540 --> 00:21:48.880
vorher.

00:21:50.500 --> 00:21:53.220
Und wie funktioniert das?

00:21:53.460 --> 00:21:57.640
Das heißt, man ist jetzt natürlich hauptsächlich damit beschäftigt,

00:21:57.760 --> 00:22:00.540
oder mit vielen Sachen beschäftigt, aber ein großer Punkt ist natürlich,

00:22:00.660 --> 00:22:04.100
dass man jetzt die ganzen Datensätze eben zusammenstellt.

00:22:04.840 --> 00:22:09.060
Nehmen wir nochmal den Beispiel mit denoising, also Störgeräusche weglöschen.

00:22:09.700 --> 00:22:13.960
Dazu braucht man natürlich ganz viele Audiosprachfiles,

00:22:13.960 --> 00:22:17.820
wenn wir jetzt nur Sprache betrachten, braucht man ganz viele Sprachfiles,

00:22:17.960 --> 00:22:19.840
gut klingen, also ganz viele

00:22:19.840 --> 00:22:21.820
Sprecher, verschiedene Sprachen,

00:22:22.000 --> 00:22:23.820
verschiedene Geschlechter natürlich, verschiedene

00:22:23.820 --> 00:22:25.880
Ausdrucksweisen, verschiedene

00:22:25.880 --> 00:22:28.440
Sprachstile, emotionale Sprache,

00:22:28.620 --> 00:22:30.060
Fadesprache, was auch immer

00:22:30.060 --> 00:22:31.840
man sich flüstern,

00:22:32.060 --> 00:22:34.100
was auch immer man sich denken kann, also alles mögliche,

00:22:34.140 --> 00:22:36.100
was es dazu gibt. Das natürlich

00:22:36.100 --> 00:22:37.940
in einer guten Qualität, ohne verrauschen.

00:22:38.560 --> 00:22:39.740
Dann braucht man natürlich ganz

00:22:39.740 --> 00:22:41.640
große Datensätze von

00:22:41.640 --> 00:22:43.960
verschiedenen Neustarten,

00:22:44.140 --> 00:22:45.920
also statisches Rauschen, dann ein Auto,

00:22:45.920 --> 00:22:47.660
das hinten vorbeifährt oder

00:22:47.660 --> 00:22:50.780
Klopfgeräusche am Computer

00:22:50.780 --> 00:22:52.480
und so weiter.

00:22:52.600 --> 00:22:54.040
Alles, was man sich irgendwie vorstellen kann.

00:22:54.680 --> 00:22:56.720
Musik natürlich auch, falls man Musik auch wegrechnen

00:22:56.720 --> 00:22:58.280
will. Baby streichen,

00:22:58.600 --> 00:22:59.760
Hunde bellen.

00:23:01.900 --> 00:23:02.420
Und

00:23:02.420 --> 00:23:04.800
dann mischt man diese Daten

00:23:04.800 --> 00:23:06.060
eben zusammen, also dass man

00:23:06.060 --> 00:23:08.600
aus diesen schönen Daten eben das Rauschen

00:23:08.600 --> 00:23:10.620
dazurechnet. Das ist dann quasi

00:23:10.620 --> 00:23:12.540
das schlechte Signal, das ist

00:23:12.540 --> 00:23:14.540
das Input von dem Netzwerk und als

00:23:14.540 --> 00:23:16.580
Target hat man dann einfach das schöne

00:23:16.580 --> 00:23:18.700
Signal und dann trainiert

00:23:18.700 --> 00:23:20.600
man eben dieses Model, das Netzwerk

00:23:20.600 --> 00:23:22.440
an, also ihr kennt das wahrscheinlich

00:23:22.440 --> 00:23:24.520
alle, und

00:23:24.520 --> 00:23:26.300
dann

00:23:26.300 --> 00:23:28.280
hat das eben einen bestimmten

00:23:28.280 --> 00:23:30.280
Lernalgorithmus, das die Gewichte

00:23:30.280 --> 00:23:31.960
in diesem neuronalen Netzwerk eben

00:23:31.960 --> 00:23:33.680
updatet und dadurch

00:23:33.680 --> 00:23:36.200
versucht es eben zu lernen, wenn man das

00:23:36.200 --> 00:23:38.120
reinschickt, kommt das raus und

00:23:38.120 --> 00:23:39.920
versucht eben zu generalisieren

00:23:39.920 --> 00:23:41.980
für alle möglichen anderen Sachen, die

00:23:41.980 --> 00:23:44.040
dazwischen sind, die man eben nicht explizit

00:23:44.040 --> 00:23:46.420
gelernt hat. Zusätzlich

00:23:46.420 --> 00:23:48.800
zu diesen Daten und Modeln

00:23:48.800 --> 00:23:50.380
gibt es ja noch

00:23:50.380 --> 00:23:51.940
so Transformationen, also

00:23:51.940 --> 00:23:54.140
das Audio wird nicht nur durch

00:23:54.140 --> 00:23:56.420
zumischen von Neu schlechter gemacht, sondern

00:23:56.420 --> 00:23:58.260
man kann auch noch alles mögliche andere machen.

00:23:58.780 --> 00:24:00.700
Man kann Filter-

00:24:00.700 --> 00:24:02.600
Artefakte draufrechnen, die das Netzwerk

00:24:02.600 --> 00:24:04.380
dann wegrechnen soll

00:24:04.380 --> 00:24:06.720
oder das Audio klicken zum Beispiel

00:24:06.720 --> 00:24:09.020
und das versucht es wieder wegzurechnen

00:24:09.020 --> 00:24:10.420
oder irgendwelche Kompressoren

00:24:10.420 --> 00:24:12.640
am Target oder am Input drauflegen.

00:24:13.420 --> 00:24:14.620
Also alles, was man früher so

00:24:14.620 --> 00:24:16.980
eigentlich an Signalbearbeitungsalgorithmen

00:24:16.980 --> 00:24:18.540
gehabt hat und

00:24:18.540 --> 00:24:19.820
direkt angewendet hat,

00:24:20.560 --> 00:24:22.480
ist jetzt für den End-User quasi weg,

00:24:22.700 --> 00:24:24.620
aber die ganzen Algorithmen braucht man

00:24:24.620 --> 00:24:26.480
trotzdem immer noch, weil man damit

00:24:26.480 --> 00:24:28.840
im Endeffekt jetzt die ganzen Transformationen

00:24:28.840 --> 00:24:30.740
von den Daten macht,

00:24:31.320 --> 00:24:32.840
damit man sie so zusammenbasteln

00:24:32.840 --> 00:24:34.320
kann, damit sie eben möglichst

00:24:34.320 --> 00:24:36.760
variantenreich sind und damit man alle möglichen

00:24:36.760 --> 00:24:38.520
Sachen abbilden kann, die das

00:24:38.520 --> 00:24:40.340
Model dann eben machen soll.

00:24:41.340 --> 00:24:42.620
Aber wenn

00:24:42.620 --> 00:24:44.620
ja die Algorithmen nicht mehr direkt auf die Daten

00:24:44.620 --> 00:24:46.780
an, sondern einfach auf den Trainingsdaten

00:24:46.780 --> 00:24:48.540
und damit modelliert man sozusagen die

00:24:48.540 --> 00:24:50.180
Trainingsdaten so, wie es dann eben fürs

00:24:50.180 --> 00:24:51.380
Model sein soll.

00:24:53.860 --> 00:24:54.600
Ja, interessant.

00:24:54.740 --> 00:24:56.780
Ich hätte mir schon mal überlegt, irgendwie, keine Ahnung,

00:24:57.040 --> 00:24:58.600
ob man nicht sowas machen

00:24:58.600 --> 00:24:59.920
könnte, wie wenn man jetzt

00:24:59.920 --> 00:25:02.660
angenommen, man hätte irgendwie

00:25:02.660 --> 00:25:04.580
ganz viel hochqualitatives Audio irgendwo her,

00:25:05.120 --> 00:25:06.600
keine Ahnung, hat ein Archiv von

00:25:06.600 --> 00:25:08.480
einem Radiosender gefunden oder

00:25:08.480 --> 00:25:09.920
irgendwelchen Medien

00:25:09.920 --> 00:25:12.480
und man spielt das jetzt irgendwie

00:25:12.480 --> 00:25:14.520
in einem Raum ab und legt dann

00:25:14.520 --> 00:25:16.600
irgendwie ein Handy irgendwie in die Mitte oder sowas

00:25:16.600 --> 00:25:18.580
und nimmt das dann auf, dann könnte man

00:25:18.580 --> 00:25:20.420
ja eigentlich sozusagen, kann man dann nicht

00:25:20.420 --> 00:25:23.000
gutes Audio aus irgendwie einer Handy-Mikrofon-

00:25:23.000 --> 00:25:24.320
Aufnahme generieren. Könnte man nicht

00:25:24.320 --> 00:25:26.040
ein neuronales Netz trainieren, das halt

00:25:26.040 --> 00:25:28.440
irgendwie quasi dann halt auch, wenn ich dann selber

00:25:28.440 --> 00:25:30.560
wieder das Handy nehme oder reinspreche, dann quasi

00:25:30.560 --> 00:25:32.500
da einen guten Klang draus mache. Das ist glaube ich

00:25:32.500 --> 00:25:34.420
das, was Georg versucht, diese Folge. Genau

00:25:34.420 --> 00:25:36.940
das. Aber da lernst du doch

00:25:36.940 --> 00:25:37.780
nur einen Filter, oder?

00:25:38.680 --> 00:25:39.640
Genau, im Prinzip

00:25:39.640 --> 00:25:42.100
gibt es genauso Datensätze von

00:25:42.100 --> 00:25:44.220
du meinst jetzt zum Beispiel Impuls-Responses,

00:25:44.340 --> 00:25:46.380
also Impuls-Antworten von Räumen

00:25:46.380 --> 00:25:46.920
zum Beispiel,

00:25:48.260 --> 00:25:49.880
wo eben, keine Ahnung,

00:25:49.980 --> 00:25:51.860
100.000 Impuls-Responses

00:25:51.860 --> 00:25:54.120
von verschiedenen Geometrien

00:25:54.120 --> 00:25:55.860
von Räumen, das heißt in dem Fall

00:25:55.860 --> 00:25:57.820
hättest du ein Handy halt immer

00:25:57.820 --> 00:26:00.080
an einem anderen Punkt, in einem anderen Raum

00:26:00.080 --> 00:26:00.400
liegen.

00:26:01.980 --> 00:26:04.420
Das sind eben genau diese Transformations.

00:26:04.560 --> 00:26:05.900
In dem Fall rechnet man dann so

00:26:05.900 --> 00:26:07.560
eine Impuls-Response drauf auf

00:26:07.560 --> 00:26:09.960
das Input-Signal und am Target

00:26:09.960 --> 00:26:12.260
soll das dann eben wieder weggeregnet werden.

00:26:13.140 --> 00:26:16.220
Dann in deinem Fall hättest du noch so nicht-lineare Verzerrungen drinnen,

00:26:16.380 --> 00:26:18.080
vom Handy, Mikrofon zum Beispiel.

00:26:18.280 --> 00:26:22.920
Das kann man natürlich auch mit so nicht-linearen Verzerrungen ganz einfach simulieren.

00:26:23.400 --> 00:26:27.240
Zusätzlich hast du noch Rauschen dabei, also man kann da noch ein neues dazu mischen.

00:26:27.980 --> 00:26:31.700
Und mit diesen ganzen Dingen, dann hast du vielleicht noch spektrale Effekte drinnen,

00:26:31.920 --> 00:26:36.140
also man kann noch so EQ-Dinger auf deinen Input drauflegen.

00:26:36.140 --> 00:26:37.840
und wenn man diese ganzen Effekte

00:26:37.840 --> 00:26:39.440
zusammen mischt, dann

00:26:39.440 --> 00:26:41.960
kommt halt irgendein schlechtes

00:26:41.960 --> 00:26:43.860
Audio sozusagen raus, das man dann

00:26:43.860 --> 00:26:44.480
verwenden kann.

00:26:45.540 --> 00:26:47.880
Ja, und das kann man natürlich dann

00:26:47.880 --> 00:26:49.720
deutlich flexibler machen, als wenn man das jetzt

00:26:49.720 --> 00:26:51.280
irgendwie tatsächlich physisch irgendwie machen müsste.

00:26:51.580 --> 00:26:53.700
Man braucht ja auch viele Daten

00:26:53.700 --> 00:26:54.320
irgendwie wahrscheinlich.

00:26:55.180 --> 00:26:57.260
Was heißt denn viele Daten?

00:26:57.400 --> 00:26:59.700
Wie viele Daten braucht man denn?

00:26:59.780 --> 00:27:01.660
Braucht man da 10 Stunden

00:27:01.660 --> 00:27:03.340
oder 100 Stunden oder 1000 Stunden

00:27:03.340 --> 00:27:05.000
oder 100.000 Stunden?

00:27:06.140 --> 00:27:20.160
Naja, mehr wie tausend. Also es kommt drauf an, wie gut das soll oder welcher Algorithmus jetzt und wie gut das funktionieren soll. Also für so ein neues Redaction-Sachen brauchst du schon einige tausend Stunden an Audio-Material, sage ich mal.

00:27:20.520 --> 00:27:26.720
Okay, also so ein Podcast-Archiv aus 150 Stunden Audio kommt nicht weit.

00:27:27.440 --> 00:27:53.900
Naja, bei allem, wenn du jetzt ein Podcast-Archiv hast, das ist halt sehr einseitig, also du bist natürlich verschiedenste Podcast-Archive von verschiedenen Ländern, von verschiedenen Ausdrucksweisen, dann kommt natürlich noch die Qualität vom Audio dazu, also es ist ja nicht so leicht, wirklich gute Sprache zum Beispiel zu finden, wo jetzt kein Rauschen drin ist, weil sonst trainierst du ja auch erst wieder an, dass du Rauschen dabei hast.

00:27:53.900 --> 00:27:56.540
Also wir machen das meistens

00:27:56.540 --> 00:27:57.680
ein bisschen rekursiv, also

00:27:57.680 --> 00:28:00.440
man hat natürlich einmal ein Modell, dann findet man

00:28:00.440 --> 00:28:01.740
wieder neue Daten, die ein bisschen

00:28:01.740 --> 00:28:04.260
verrauscht sind, die

00:28:04.260 --> 00:28:06.460
neu ist man mit dem alten Modell, damit trainiert man

00:28:06.460 --> 00:28:07.980
dann das neue Modell und so weiter,

00:28:08.520 --> 00:28:10.440
damit man die Daten ein bisschen

00:28:10.440 --> 00:28:11.480
besser aufbereiten kann.

00:28:12.400 --> 00:28:14.000
Weil, was ja ganz interessant ist,

00:28:14.520 --> 00:28:16.040
welche Effekte wir immer gehabt haben, also

00:28:16.040 --> 00:28:18.160
wenn man natürlich schon mal Daten

00:28:18.160 --> 00:28:20.500
gehabt hat, mit denen man

00:28:20.500 --> 00:28:21.780
ein Model trainiert hat,

00:28:22.200 --> 00:28:24.340
und der will mir dann danach noch einmal

00:28:24.340 --> 00:28:26.500
den Neues mit dem gleichen Model, dann funktioniert

00:28:26.500 --> 00:28:28.440
das natürlich nicht, weil das Model hat ja schon

00:28:28.440 --> 00:28:30.380
gelernt, dass in den Daten Neues

00:28:30.380 --> 00:28:32.000
drinnen ist und das reproduziert

00:28:32.000 --> 00:28:33.960
den Neues ganz einfach wieder.

00:28:35.020 --> 00:28:36.220
Also irgendwie ist das wirklich

00:28:36.220 --> 00:28:37.400
drinnen gespeichert dann.

00:28:39.280 --> 00:28:40.500
Na gut, aber

00:28:40.500 --> 00:28:41.680
was

00:28:41.680 --> 00:28:44.360
bei uns auch noch so ein Ding ist,

00:28:45.220 --> 00:28:46.440
weil wir

00:28:46.440 --> 00:28:47.860
ja vorher von der

00:28:47.860 --> 00:28:50.080
klassischen DSP-Welt,

00:28:50.180 --> 00:28:51.760
Machine Learning-Welt gekommen sind,

00:28:52.200 --> 00:29:04.520
Der Vorteil dort ist natürlich, dass man Parameter zur Kontrolle hat, was oft ein Vorteil, oft ein Nachteil ist, weil es komplizierter werden kann. Ein Vorteil, weil man verschiedene Use Cases damit abbilden kann.

00:29:05.560 --> 00:29:30.700
Und dieses Prinzip wollten wir jetzt halt auch nicht ganz aufgeben in der ganzen neuen Deep Learning Welt sozusagen, weil man kann natürlich auch so ein Model machen, das jetzt alle diese Transformationen und was auch immer drinnen hat und da kommt dann irgendwas raus und mit dem kann man dann leben oder nicht, aber oft will man halt auch mehr Kontrolle haben, was genau man mit dem Audio machen will.

00:29:30.700 --> 00:29:44.620
Man will zum Beispiel nur gewisse Störgeräusche rausrechnen oder man will Musik auch rausrechnen oder Atme wegrechnen oder gewisse Sachen wegschneiden oder Lautstärken labeln, Lautstärken nicht labeln, Filtering anwenden oder nicht.

00:29:44.780 --> 00:29:53.740
Also insofern ist unser Weg, dass wir verschiedene Stem-Models haben, die wir dann kombinieren.

00:29:54.000 --> 00:29:58.480
Also zum Beispiel haben wir so ein Model, das im Filtering macht, das nennt sich der Auto-EQ-Model,

00:29:59.140 --> 00:30:01.700
was auf das Filtering spezialisiert ist.

00:30:01.800 --> 00:30:07.140
Dann haben wir verschiedene Denoising-Models, die verschiedene Teile von Audi weglöschen können oder überlassen können,

00:30:07.140 --> 00:30:14.480
damit man dann die so kombinieren kann, um noch ein bisschen Kontrolle darüber zu haben,

00:30:14.780 --> 00:30:29.260
Um auch verschiedene Use Cases, was ist das zum Beispiel, also in einem Radio Play, also in einem Hörspiel im Radio will man natürlich alle möglichen Soundeffekte hinten haben, also in einem Wasserfall, der plätschert oder der Knall, wenn die Tür aufgeht.

00:30:29.260 --> 00:30:35.200
Oder in einem Yoga-Video will man natürlich das ganze Atmen im Hintergrund haben und nicht rauslöschen.

00:30:35.800 --> 00:30:40.540
Jetzt in einem reinen Sprach-Podcast will man viel mehr natürlich rauslöschen.

00:30:40.760 --> 00:30:48.360
Also alles, was Tippen ist oder das Plätschern vom Bach im Hintergrund oder der Vögel oder Atmen von mir.

00:30:48.420 --> 00:30:53.300
Das kann man auch rauslöschen oder Pausen rauslöschen, wenn man es ganz extrem machen will.

00:30:54.460 --> 00:30:55.020
Insofern.

00:30:56.420 --> 00:30:58.300
Also es ist quasi sehr kontextabhängig,

00:30:58.340 --> 00:30:59.560
also sehr auch davon abhängig,

00:31:00.120 --> 00:31:02.280
also man kann nicht ein Modell für alle

00:31:02.280 --> 00:31:04.400
Sachen verwenden oder das Modell

00:31:04.400 --> 00:31:05.680
muss er halt selber erkennen, was jetzt,

00:31:06.200 --> 00:31:08.360
eigentlich müsste man ihm das ja sagen, das kann er jetzt ja gar nicht

00:31:08.360 --> 00:31:10.180
wissen, ob der jetzt das

00:31:10.180 --> 00:31:11.880
oder schwierig wahrscheinlich,

00:31:12.320 --> 00:31:14.440
ob das ab und zu erwünscht ist oder nicht.

00:31:16.120 --> 00:31:16.740
Ja, klar.

00:31:17.880 --> 00:31:18.200
Ja, das

00:31:18.200 --> 00:31:19.800
Multitrack-Interface,

00:31:20.320 --> 00:31:22.240
ich meine, das ist ja auch schön,

00:31:22.240 --> 00:31:23.560
dass das alles geht, genau, aber ja,

00:31:23.660 --> 00:31:25.120
es ist nicht so ganz einfach einzustellen, das stimmt.

00:31:25.960 --> 00:31:27.880
Ja, Multitrack ist nochmal besonders

00:31:27.880 --> 00:31:29.800
komplex, vor allem vom Interface, weil

00:31:29.800 --> 00:31:31.700
für jede Track kannst du alle

00:31:31.700 --> 00:31:33.320
Settings halt einstellen und dann

00:31:33.320 --> 00:31:35.600
wird das halt natürlich gleich einmal viel.

00:31:36.280 --> 00:31:36.520
Ja.

00:31:37.620 --> 00:31:38.780
Ja, gar nicht so einfach.

00:31:39.640 --> 00:31:41.780
Ich glaube, wir sind so ein bisschen überfahren, oder?

00:31:41.880 --> 00:31:43.320
Von diesen ganzen

00:31:43.320 --> 00:31:45.780
Möglichkeiten, die es da gibt und von

00:31:45.780 --> 00:31:47.200
den ganzen coolen Sachen, die ihr da macht.

00:31:49.180 --> 00:31:49.420
Und

00:31:49.420 --> 00:31:51.540
als Außenstehender, also ich als,

00:31:51.600 --> 00:31:53.680
sag ich mal, Feldwald und Wiesen-Informatiker,

00:31:54.560 --> 00:31:55.720
mir fehlt da so ein bisschen

00:31:55.720 --> 00:31:57.640
der Bezug dazu. Also für mich ist es

00:31:57.640 --> 00:31:59.780
so ein bisschen so, ja, ich habe hier eine Audiodatei und

00:31:59.780 --> 00:32:01.680
da gibt es irgendwelche magischen

00:32:01.680 --> 00:32:03.540
Tools, die irgendwelche magischen Sachen machen und

00:32:03.540 --> 00:32:04.600
hinterher hört es sich besser an.

00:32:06.040 --> 00:32:07.480
Ja, aber es ist ja auch okay, oder?

00:32:07.560 --> 00:32:09.600
Als User willst du eh nicht mehr wissen im Endeffekt.

00:32:10.440 --> 00:32:11.760
Jetzt hast du ja alles auf den User

00:32:11.760 --> 00:32:13.940
degradiert. Idealerweise

00:32:13.940 --> 00:32:15.840
möchte ich nicht mehr wissen, das stimmt natürlich.

00:32:17.340 --> 00:32:17.700
Aber

00:32:17.700 --> 00:32:20.040
wir wollen ja da schon gerne einen Blick reinwerfen

00:32:20.040 --> 00:32:21.800
und das ist

00:32:21.800 --> 00:32:23.440
irgendwie so eine ganz eigene Welt, diese

00:32:23.440 --> 00:32:25.700
Audiosachen. Ich meine, da ist die

00:32:25.720 --> 00:32:27.700
da gibt es spezielle Hardware und dann

00:32:27.700 --> 00:32:29.620
sehen die Knöpfe alle anders aus und dann sind die

00:32:29.620 --> 00:32:31.660
Interfaces so kompliziert, dass wir nicht damit klarkommen

00:32:31.660 --> 00:32:32.660
und

00:32:32.660 --> 00:32:35.760
ich finde es total

00:32:35.760 --> 00:32:37.820
faszinierend, wie tief

00:32:37.820 --> 00:32:39.060
das so ist, weil das so

00:32:39.060 --> 00:32:41.240
auf der Ebene

00:32:41.240 --> 00:32:43.720
die der User

00:32:43.720 --> 00:32:45.680
damit interagiert, ist das ja wirklich nur so. Ich habe eine

00:32:45.680 --> 00:32:47.260
Datei und die soll besser klingen und jetzt

00:32:47.260 --> 00:32:48.880
ist es so.

00:32:49.940 --> 00:32:51.420
Das war natürlich auch der Punkt,

00:32:51.940 --> 00:32:53.660
warum wir angefangen

00:32:53.660 --> 00:32:55.100
haben mit Afonik überhaupt.

00:32:55.720 --> 00:33:01.700
Weil Audio-Technik einfach vor 10, 15 Jahren sehr kryptisch war.

00:33:01.860 --> 00:33:03.320
Das ist ja heute schon total anders.

00:33:04.140 --> 00:33:07.920
Früher hast du echt wissen müssen, was ein Kompressor ist, was ein Limiter ist,

00:33:07.980 --> 00:33:11.140
wie du den einstellst, wie du die ganzen Filterparameter einstellst,

00:33:11.700 --> 00:33:14.320
wo man, wenn man eigentlich nicht wirklich Ahnung davon hat,

00:33:14.440 --> 00:33:17.120
viel leichter, viel mehr schlecht machen kann, als gut machen kann.

00:33:18.200 --> 00:33:22.460
Und das war eigentlich der Ausgangspunkt von uns,

00:33:23.500 --> 00:33:25.620
weil wir halt gedacht haben, oder ich damals

00:33:25.620 --> 00:33:27.640
gedacht habe, dass man kann

00:33:27.640 --> 00:33:29.880
einfach einem normalen Menschen unter Anführungszeichen

00:33:29.880 --> 00:33:31.440
sowas einfach nicht zumuten.

00:33:31.860 --> 00:33:33.580
Der, wie du sagst, nur ein besseres

00:33:33.580 --> 00:33:35.620
Audio haben will, das war

00:33:35.620 --> 00:33:36.880
einfach alles viel zu kompliziert.

00:33:37.940 --> 00:33:39.740
Ja, ganz oft ist es ja auch so,

00:33:39.880 --> 00:33:41.440
dass gerade in dieser

00:33:41.440 --> 00:33:43.660
Audio-Welt, dass man als

00:33:43.660 --> 00:33:45.420
normaler Benutzer viele Dinge

00:33:45.420 --> 00:33:47.420
gar nicht hört

00:33:47.420 --> 00:33:48.360
oder gar nicht versteht.

00:33:49.760 --> 00:33:53.380
Man hat ja da gelegentlich Kontakt dazu

00:33:53.380 --> 00:34:19.420
Und wenn man dann so sieht, ja, da sitzt einer hier an seinem Mischpult und dann dreht er an irgendwelchen Reglern und es passiert eigentlich gar nichts. So, erster Eindruck, aber dann am Ende hört es sich doch irgendwie wesentlich besser an, als es sich vorher angehört hat. Und diese Intransparenz ist so für mich als Benutzer, ja, ich zähle mich da durchaus zu den Benutzern, super interessant, weil ich verstehe überhaupt gar nicht, was es da für, ich verstehe noch nicht mal, was es für Parameter gibt.

00:34:20.800 --> 00:34:30.040
Und dann gibt es aber Experten, die gucken sich das an und sagen, ja, nee, so kannst du es nicht machen und hier musst du diesen das hochdrehen und das runterdrehen und dann am Ende denkst du, verrückt.

00:34:30.260 --> 00:34:54.060
Und ich habe einmal so eine Erfahrung gemacht, da haben wir bei einem ehemaligen Arbeitgeber, wir haben ein Marketingvideo gedreht, das war ein großer Spaß für einen Programmiertwettbewerb und der war auch so ein Audio-Fan, der hatte sich selber in seinem Wohnzimmer ein kleines Studio reingebaut, auch mit so Schallschutzwänden und so Zeugs und dann hat er da mit seiner Band, was man halt so macht.

00:34:54.960 --> 00:35:04.680
Und dann hat er da so ein Stück Audio von mir aufgenommen und ich meine, jeder, der schon mal Audio von sich selber gehört hat, der weiß, dass das ganz schrecklich ist, wenn man sich das anhört, weil die eigene Stimme, die hört sich gruselig an.

00:35:05.040 --> 00:35:17.840
Aber dann hat er das da so reingetan und hat so ein paar Knöpfe gedreht und auf einmal habe ich mich angehört wie ein Radiomoderator und so eine richtig sonore Stimme mit Volumen drin und er hat das Reverb aufgedreht.

00:35:18.500 --> 00:35:39.640
Ja, und vielleicht auch ein bisschen die Bässe hochgedreht und, keine Ahnung, einen Kompressor reingemacht, weiß ich, was das bedeutet. Jedenfalls einige magische Regler und auf einmal war es viel, viel, viel besser. Und ich finde das super faszinierend, dass es so eine Welt gibt, die eigentlich so intransparent ist, aber die doch irgendwie jeder hört, weil man hört ja schon, ob sich Audio gut anhört oder nicht.

00:35:40.500 --> 00:35:46.900
Und meinst du jetzt, wenn du das Audio auf dem Telefon als Podcast hörst oder wenn du das bei deiner Serienanlage hörst oder im Auto?

00:35:48.600 --> 00:35:52.720
Wenn ich das in meinen Bluetooth-Lautsprechern zehn Meter von meinem Handy anhöre.

00:35:53.020 --> 00:35:57.520
Entschuldigung, ich wollte gerade, weil ich finde nämlich, dass die Sachen alle auf unterschiedlichen Geräten immer ganz anders klingen.

00:35:58.400 --> 00:36:06.360
Ja, das ist natürlich so. Aber ich meine, die ganz alten Sachen waren ja alle für Radio und auch da hat es sich sehr gut angehört. Also besser als ohne.

00:36:07.460 --> 00:36:10.620
Ja, wobei ich glaube, das muss man auch so ein bisschen lernen.

00:36:10.740 --> 00:36:15.920
Also ich habe jedenfalls irgendwie zum Beispiel bei den ersten Podcast-Episoden jetzt hier,

00:36:16.440 --> 00:36:18.100
dachte ich, ach, das klingt ja eigentlich ganz gut.

00:36:18.100 --> 00:36:21.120
Und wenn ich mir die heute anhöre, denke ich mir so, ah, das klingt aber eigentlich ganz schön schlecht.

00:36:21.580 --> 00:36:23.400
Und das war auch so ein Lernprozess.

00:36:23.600 --> 00:36:25.240
Das ging nicht von Anfang an.

00:36:25.560 --> 00:36:27.480
Und dann hat der Jochen sich ein ganz großes Mischpult gekauft,

00:36:27.560 --> 00:36:29.000
das wir immer noch nicht ordentlich bedienen können.

00:36:29.160 --> 00:36:30.460
Und damit ist es viel besser geworden.

00:36:30.920 --> 00:36:31.720
Ja, nee.

00:36:31.960 --> 00:36:32.500
Viel einfacher.

00:36:32.860 --> 00:36:32.960
Ja.

00:36:33.680 --> 00:36:34.580
Aber ich höre jetzt auch...

00:36:34.580 --> 00:36:39.700
Was die Hörer nicht wissen, ist ja, dass wir vorher eine Dreiviertelstunde gebraucht haben, um die Aufnahme zu starten.

00:36:39.820 --> 00:36:43.140
Das war tatsächlich das Nächste zum Vorbereiten, das wir ever hatten.

00:36:44.880 --> 00:36:45.280
Matrix.

00:36:45.700 --> 00:36:55.880
Aber es ist auch ein gewisserweise gebührender Einstieg, dass man dann schon mal so nicht denkt, dass es zu einfach wäre.

00:36:56.040 --> 00:37:03.380
Ich finde es auch sehr schön, Georg, dass du gleich als Profi gesagt hast, wisst ihr was, diese ganze Audio-Technik, alles weg.

00:37:03.480 --> 00:37:05.340
einfach nur ein Mikrofon, ein Kabel.

00:37:06.200 --> 00:37:06.720
Sehr sicher.

00:37:07.980 --> 00:37:09.380
Aber nochmal zu deinem Punkt mit

00:37:09.380 --> 00:37:12.040
dass es besser geklungen hat.

00:37:12.600 --> 00:37:13.860
Weil der hat ein paar Regler gedreht

00:37:13.860 --> 00:37:15.220
und dass es besser geklungen hat.

00:37:16.260 --> 00:37:17.620
Das stimmt natürlich,

00:37:18.300 --> 00:37:18.660
aber

00:37:18.660 --> 00:37:21.200
man muss ja immer vor,

00:37:21.700 --> 00:37:23.100
in dem Fall vor Ohren führen,

00:37:23.880 --> 00:37:24.980
dass das natürlich

00:37:24.980 --> 00:37:27.220
sehr subjektiv

00:37:27.220 --> 00:37:29.300
ist und eigentlich von deiner Wahrnehmung

00:37:29.300 --> 00:37:30.800
vom Radio her geprägt ist.

00:37:30.960 --> 00:37:33.080
Da gibt es natürlich ganz unterschiedliche Stile

00:37:33.080 --> 00:37:35.040
in unterschiedlichen Ländern auch, wie man

00:37:35.040 --> 00:37:36.760
das handhabt. Also du bist

00:37:36.760 --> 00:37:38.880
jetzt einem bestimmten Radiosound

00:37:38.880 --> 00:37:40.860
vielleicht gewohnt, was deine Radiosender

00:37:40.860 --> 00:37:42.260
bei dir in Deutschland jetzt haben.

00:37:42.940 --> 00:37:45.000
In Amerika ist es meistens ganz anders

00:37:45.000 --> 00:37:46.240
oder in anderen Ländern.

00:37:46.800 --> 00:37:48.720
Das heißt, wenn jetzt

00:37:48.720 --> 00:37:50.780
irgendwer deine Stimme so regelt, dass er

00:37:50.780 --> 00:37:52.820
möglichst ähnlich an deiner

00:37:52.820 --> 00:37:54.860
Referenz sozusagen ist, was du

00:37:54.860 --> 00:37:56.620
als guten Sound verstehst oder

00:37:56.620 --> 00:37:58.420
gewohnt bist zu hören, ganz einfach,

00:37:59.100 --> 00:38:00.240
dann klingt das für dich gut.

00:38:00.240 --> 00:38:02.100
Wenn du jetzt zum Beispiel

00:38:02.100 --> 00:38:04.300
das, wenn das jetzt ein Südamerikaner

00:38:04.300 --> 00:38:06.080
gemacht hätte und die haben eine andere Referenz,

00:38:06.420 --> 00:38:08.380
dann hätte es vielleicht für dich gar nicht so gut

00:38:08.380 --> 00:38:10.240
geklungen. Also das ist

00:38:10.240 --> 00:38:11.900
sehr subjektiv und auch

00:38:11.900 --> 00:38:13.460
vom Kontext oder

00:38:13.460 --> 00:38:16.420
von der Herkunft

00:38:16.420 --> 00:38:18.140
vor allem abhängig. Da gibt es

00:38:18.140 --> 00:38:20.160
große Unterschiede, wie Länder das Handhaben.

00:38:20.400 --> 00:38:21.840
Manche haben so diese richtige

00:38:21.840 --> 00:38:23.940
Radiostimme, wo alles

00:38:23.940 --> 00:38:26.180
total eng ist, sehr

00:38:26.180 --> 00:38:27.820
basslastig und

00:38:27.820 --> 00:38:30.060
tot komprimiert, also wie man es

00:38:30.060 --> 00:38:32.000
auf dem Radio hört. Das andere

00:38:32.000 --> 00:38:37.700
wieder andere Sender, wie zum Beispiel BBC oder was auch immer, viel offener, freier,

00:38:37.700 --> 00:38:42.620
also ohne sehr wenig Komprimierung, nicht so dieser Nahbesprechungseffekt,

00:38:42.620 --> 00:38:48.280
wo du so überhöhte, tiefe Frequenzen hast, wo es einfach viel normaler klingt. Also das

00:38:48.290 --> 00:38:50.530
sehr subjektiv natürlich

00:38:50.530 --> 00:38:51.430
diese Übernehmung.

00:38:51.670 --> 00:38:53.890
Das kommt immer auf die Referenz drauf an.

00:38:54.130 --> 00:38:56.350
Diese Bilder, wenn man das zwar über Ton

00:38:56.350 --> 00:38:57.990
spricht, aber vom Klangbild auch redet,

00:38:58.530 --> 00:39:00.570
schon auch ein bisschen

00:39:00.570 --> 00:39:01.270
einordnen, oder?

00:39:01.970 --> 00:39:03.690
Es gibt schönere Bilder

00:39:03.690 --> 00:39:05.670
von besseren Künstlern und es gibt

00:39:05.670 --> 00:39:07.890
ästlichere Bilder vielleicht.

00:39:08.010 --> 00:39:09.910
Selbst wenn sie unterschiedlich sind und wenn es

00:39:09.910 --> 00:39:12.050
verschiedene Stilrichtungen gibt,

00:39:12.610 --> 00:39:13.790
kann man schon, glaube ich,

00:39:14.310 --> 00:39:15.890
eine Qualität

00:39:15.890 --> 00:39:17.370
eines Stückes hören.

00:39:18.190 --> 00:39:20.070
Es ist auch ein bisschen bei Musik, ja, also ich höre

00:39:20.070 --> 00:39:22.410
relativ einseitige Musik,

00:39:22.810 --> 00:39:24.210
obwohl ich auch von vielen Genres

00:39:24.210 --> 00:39:26.370
durchaus anerkennen kann, wenn es da gute

00:39:26.370 --> 00:39:28.650
Musik gibt, die man gut hören kann, die man nicht so gut hören kann.

00:39:28.890 --> 00:39:30.490
Und ich höre auch, ob eine Musik einfacher

00:39:30.490 --> 00:39:32.430
produziert ist oder komplexer, unabhängig jetzt von

00:39:32.430 --> 00:39:34.010
meinem Geschmack vielleicht dafür.

00:39:34.470 --> 00:39:35.390
Wenn ihr wisst, was ich meine, ja.

00:39:36.150 --> 00:39:37.490
Und ich finde, das ist auch bei Audio so.

00:39:37.490 --> 00:39:39.410
Und insbesondere

00:39:39.410 --> 00:39:41.250
halt bei dem, was du sagtest, wie du diesen

00:39:41.250 --> 00:39:42.810
Signal bearbeitest, was halt der

00:39:42.810 --> 00:39:45.270
Tontechniker, der, also ich weiß nicht, ist,

00:39:45.550 --> 00:39:47.870
kann man das so sagen, ist Harphonik ein virtuelles

00:39:47.870 --> 00:39:49.250
Tontechnik-Instrument.

00:39:50.270 --> 00:39:50.710
Ist das so?

00:39:51.070 --> 00:39:52.410
Virtueller Tontechniker, ja.

00:39:52.970 --> 00:39:54.890
Und ja, was er dann tut,

00:39:55.030 --> 00:39:56.490
was er da machen kann, um

00:39:56.490 --> 00:39:58.190
ähm,

00:39:58.970 --> 00:40:00.910
ich will jetzt wieder in der Bildsprache bleiben, den Pinsel

00:40:00.910 --> 00:40:02.750
zu führen, ja, also tatsächlich diesen

00:40:02.750 --> 00:40:03.850
Ton zu skypen und

00:40:03.850 --> 00:40:06.930
ja, also klar, gibt's da

00:40:06.930 --> 00:40:08.770
vielleicht verschiedene Meinungen oder ich weiß nicht, ob du

00:40:08.770 --> 00:40:10.690
sowas hast wie Presets, die du

00:40:10.690 --> 00:40:12.430
sagen kannst, Afonik, hey, das ist jetzt

00:40:12.430 --> 00:40:14.810
Taste, du hast eben

00:40:14.810 --> 00:40:16.770
Südamerika erwähnt und das ist Taste

00:40:16.770 --> 00:40:18.930
Europe oder so, oder

00:40:18.930 --> 00:40:20.630
das ist Taste Radio und das ist Taste

00:40:20.630 --> 00:40:22.950
Big Cinema. Kann ja sein,

00:40:23.010 --> 00:40:25.030
dass du das auch machen kannst, aber der Trick

00:40:25.030 --> 00:40:26.870
wäre ja, genau das auch bauen zu können.

00:40:26.990 --> 00:40:28.710
Als Tontechniker sich quasi

00:40:28.710 --> 00:40:30.810
dieses Zielbild oder diesem

00:40:30.810 --> 00:40:32.990
Stil anzupassen und

00:40:32.990 --> 00:40:35.110
das dann halt auf einen gewissen Qualitätsgrad zu bringen.

00:40:35.550 --> 00:40:36.970
Und das aus Algorithmen zu denken,

00:40:37.030 --> 00:40:38.870
finde ich spannend, weil ich versuche auch überhaupt

00:40:38.870 --> 00:40:40.630
erstmal zu verstehen, wie das überhaupt geht, weil

00:40:40.630 --> 00:40:42.730
dieses Klang

00:40:42.730 --> 00:40:44.870
zu visualisieren,

00:40:44.910 --> 00:40:46.630
ist halt da wieder auch wieder der falsche Begriff, ja,

00:40:46.710 --> 00:40:57.610
Aber sich das so vorstellen zu können, wie man einen Klang überhaupt schafft, das ist irgendwie eine der großen Herausforderungen, die ich jetzt persönlich habe, wenn ich jetzt an Musik denke, auch was ich höre überhaupt umzusetzen.

00:40:57.610 --> 00:41:04.750
Dafür muss ich relativ viel üben oder so, dass ich das hinkriege oder halt auch in die Musikschule gehen und Theorie lernen und so.

00:41:05.270 --> 00:41:08.630
Und das ist durchaus, glaube ich, die spannende Sache dahinter vielleicht.

00:41:09.750 --> 00:41:14.990
Und warum es so einem Nutzer wie dir, Johannes, dann vielleicht schwerfällt, weil du sonst nicht so viel mit Ton machst.

00:41:15.010 --> 00:41:15.650
Absolut, blutiger Nutzer.

00:41:16.650 --> 00:41:18.730
Ich habe da überhaupt gar keinen Connect dazu.

00:41:18.730 --> 00:41:20.830
Ich habe da, glaube ich, eine sehr visuelle

00:41:20.830 --> 00:41:22.730
Ansicht. Sobald man mir

00:41:22.730 --> 00:41:24.150
eine FFT zeigt,

00:41:24.970 --> 00:41:26.450
dann komme ich damit klar.

00:41:26.670 --> 00:41:28.610
Aber solange nur die Geräusche da sind oder die

00:41:28.610 --> 00:41:29.630
Wellenformen, dann

00:41:29.630 --> 00:41:31.870
bin ich völlig verloren.

00:41:33.010 --> 00:41:34.670
Ja, ich weiß es nicht

00:41:34.670 --> 00:41:36.370
genau. Ich habe mal irgendwann

00:41:36.370 --> 00:41:38.730
auch ein Podcast-Episode gehört

00:41:38.730 --> 00:41:40.430
mit Rick Rubin

00:41:40.430 --> 00:41:42.450
und der meinte so, ach,

00:41:42.590 --> 00:41:44.490
das mit dem irgendwie Produzieren

00:41:44.490 --> 00:41:46.510
und so, eigentlich kann man es immer

00:41:46.510 --> 00:41:48.410
nur kaputt machen und wenn man das nicht

00:41:48.410 --> 00:41:49.950
kaputt macht, dann ist das schon sehr, sehr

00:41:49.950 --> 00:41:52.590
gut. Ich weiß gar nicht, ob man

00:41:52.590 --> 00:41:54.030
tatsächlich so viel an

00:41:54.030 --> 00:41:56.830
Mastering

00:41:56.830 --> 00:41:58.570
kann man

00:41:58.570 --> 00:41:59.810
damit tatsächlich prägen.

00:42:01.030 --> 00:42:02.510
Ich bin jetzt ja

00:42:02.510 --> 00:42:04.490
totaler Amateur, was Musik auch angeht

00:42:04.490 --> 00:42:05.970
und so, aber wenn ich jetzt mit einem Kumpel

00:42:05.970 --> 00:42:08.550
Musik mache und ich schaffe es halt

00:42:08.550 --> 00:42:10.510
schon, bestimmte Sachen da rauszuholen oder

00:42:10.510 --> 00:42:12.570
bestimmte Töne an der richtigen Stelle

00:42:12.570 --> 00:42:14.490
leiser oder lauter zu machen oder halt Raum zu schaffen

00:42:14.490 --> 00:42:16.010
für den Bass oder so

00:42:16.010 --> 00:42:17.750
einen Ducking hinzukriegen, das ist ja schon

00:42:17.750 --> 00:42:19.610
eher so Basics, ja, aber

00:42:19.610 --> 00:42:22.270
ich kann mir das überhaupt nicht vorstellen

00:42:22.270 --> 00:42:24.170
mit Sprache, weil ich damit überhaupt gar keine Erfahrung habe,

00:42:24.210 --> 00:42:26.170
ja, mit Podcast oder sowas, also

00:42:26.170 --> 00:42:28.250
wir machen jetzt Vereine, aber als Hontechniker

00:42:28.250 --> 00:42:30.150
jetzt würde ich sagen, würde ich mich jetzt auch nicht bezeichnen

00:42:30.150 --> 00:42:32.150
und das ist halt schon nochmal

00:42:32.150 --> 00:42:33.930
eine andere Herausforderung und wenn man gerade diese

00:42:33.930 --> 00:42:36.010
Klangbilder vor Uhren hat,

00:42:36.710 --> 00:42:38.110
ja, da

00:42:38.110 --> 00:42:39.950
kommt man vielleicht so ein bisschen näher dran, also

00:42:39.950 --> 00:42:42.050
das ist das, was Johannes meinte. Er hat genauso

00:42:42.050 --> 00:42:44.030
geklungen, wie er dachte, dass er im Radio steht und

00:42:44.030 --> 00:43:00.130
Und wenn ich jetzt weiß, okay, ich möchte das Audio-Klangbild haben, wie das hier mal so im Radio steht, dann weiß ich vielleicht, in welche, vielleicht wenn ich das Klang habe, das richtige Wort dafür, ich weiß nicht, ich das Ganze bringen möchte, ob ich jetzt, welche Frequenzen ich bewege.

00:43:00.130 --> 00:43:13.090
Und was ich jetzt spannend finde, ist, was kann ich denn noch machen eigentlich als Audio-Tontechniker, außer Frequenzen bewegen und Lautstärke mit, was ist das, Envelopes modifizieren?

00:43:14.030 --> 00:43:15.150
Die ausleveln.

00:43:15.850 --> 00:43:17.150
Ja, das ist ja, der Envelope ist ja...

00:43:17.150 --> 00:43:19.590
Im Endeffekt ist alles

00:43:19.590 --> 00:43:21.570
Frequenzen und Lautstärkung, mehr gibt's ja nicht.

00:43:22.070 --> 00:43:23.190
Ja, genau, aber ja.

00:43:23.330 --> 00:43:23.950
Ja, gut, aber...

00:43:23.950 --> 00:43:27.690
Wie man diese Regeln...

00:43:27.690 --> 00:43:29.550
Ja, aber...

00:43:29.550 --> 00:43:31.590
Grafiks sind auch nur ein paar Pixel, das ist jetzt

00:43:31.590 --> 00:43:33.370
zu kurz geschaut.

00:43:34.370 --> 00:43:35.550
Ja, ein paar Farben

00:43:35.550 --> 00:43:36.810
an die richtige Stelle getan.

00:43:38.090 --> 00:43:39.510
Na, du meinst jetzt, welche

00:43:39.510 --> 00:43:41.770
Algorithmen es jetzt sozusagen noch

00:43:41.770 --> 00:43:42.350
gibt, oder was?

00:43:43.110 --> 00:43:44.350
Da können wir vielleicht gleich noch mal drauf eingehen.

00:43:44.450 --> 00:43:45.050
Ich finde es gar nicht so unangenehm.

00:43:45.050 --> 00:43:48.890
Ich glaube, der Dominik möchte einfach in dem komplizierten Interface

00:43:48.890 --> 00:43:51.630
noch ein paar mehr Knöpfe haben, wo er dann sagen kann,

00:43:51.750 --> 00:43:55.850
jetzt lieber irgendwie Radio-Style oder lieber...

00:43:55.850 --> 00:43:58.550
Nee, er möchte wissen, welche Knöpfe mehr er drehen muss um den Radio-Style.

00:43:58.550 --> 00:43:59.090
Um mehr so...

00:43:59.090 --> 00:44:00.990
Ja, also ich würde tatsächlich, also ich würde gerne,

00:44:01.170 --> 00:44:04.750
wenn ich jetzt so ein perfektes Tonstudio-Ding mir vorstelle,

00:44:04.850 --> 00:44:07.090
wo es diese ganzen einzelnen Regelungen gibt,

00:44:07.170 --> 00:44:09.170
ja, dann möchte ich gerne wissen, welche Regelungen ich denn überhaupt...

00:44:09.170 --> 00:44:12.710
Ja, aber das ist jetzt halt neuronales Netz.

00:44:12.930 --> 00:44:15.550
einer Milliarde Knöpfe, die du drehen kannst.

00:44:15.870 --> 00:44:16.970
Die kannst du gar nicht mehr selber drehen,

00:44:17.050 --> 00:44:17.730
da musst du das vorher drehen.

00:44:19.070 --> 00:44:21.130
Ungefähr zu wissen, welche Richtung ich da möchte,

00:44:21.250 --> 00:44:22.690
ist vielleicht ja schon mal der

00:44:22.690 --> 00:44:24.190
erste Schritt.

00:44:25.710 --> 00:44:26.790
Also ich glaube, es ist schon klar, dass ich

00:44:26.790 --> 00:44:28.990
die Spur nicht drehe. Habt ihr euch selber neuronale

00:44:28.990 --> 00:44:29.830
Netze trainiert, Georg?

00:44:31.590 --> 00:44:32.890
Wie meinst du, ob wir unsere

00:44:32.890 --> 00:44:34.830
Netze selber trainieren? Ja.

00:44:35.470 --> 00:44:36.450
Ja, sicher. Wir benutzen irgendwas

00:44:36.450 --> 00:44:38.650
Vorgefertigtes und... Nein, nein, bei uns

00:44:38.650 --> 00:44:40.710
ist alles selber

00:44:40.710 --> 00:44:42.170
gemacht. Alles selber gemacht?

00:44:42.550 --> 00:44:44.590
Ja, also alles natürlich nicht, aber

00:44:44.590 --> 00:44:46.230
die Algorithmen, so muss man sagen.

00:44:46.250 --> 00:44:47.050
SciPy und NumPy.

00:44:48.790 --> 00:44:50.750
Und wie viele Parameter

00:44:50.750 --> 00:44:52.350
habt ihr da drin?

00:44:52.950 --> 00:44:54.470
Über welche Größe sprechen wir da?

00:44:54.470 --> 00:44:56.530
Also ich meine, das ist ja eine dieser Kenngrößen, die man so

00:44:56.530 --> 00:44:58.070
sagt, hier, GPT-X hat

00:44:58.070 --> 00:44:59.650
eine Milliarde Parameter.

00:45:00.810 --> 00:45:02.550
Ja, das kann

00:45:02.550 --> 00:45:03.750
ich dir so gar nicht sagen,

00:45:04.470 --> 00:45:06.110
weil, also diese

00:45:06.110 --> 00:45:08.270
Netze im Audi-Bereich

00:45:08.270 --> 00:45:10.190
funktionieren ein bisschen anders, weil

00:45:10.190 --> 00:45:12.190
ich meine,

00:45:12.190 --> 00:45:14.170
im Prinzip hat es schon

00:45:14.170 --> 00:45:16.090
ähnliche Elemente, also man hat halt

00:45:16.090 --> 00:45:17.210
meistens

00:45:17.210 --> 00:45:20.270
irgendwelche rekursiven Elemente

00:45:20.270 --> 00:45:21.670
oder Transformers drinnen, also

00:45:21.670 --> 00:45:23.510
bei uns meistens

00:45:23.510 --> 00:45:26.330
LSDMs oder Transformer

00:45:26.330 --> 00:45:28.230
eben oder beides meistens und dann noch

00:45:28.230 --> 00:45:30.250
so Convolution Layer natürlich

00:45:30.250 --> 00:45:31.390
und alle

00:45:31.390 --> 00:45:34.030
die Elemente sind eh ähnlich, aber

00:45:34.030 --> 00:45:36.310
es gehen einfach viel mehr

00:45:36.310 --> 00:45:38.170
Daten rein und raus natürlich, weil

00:45:38.170 --> 00:45:40.490
Audio eine viel höhere Sampling Rate

00:45:40.490 --> 00:45:42.470
hat und in einer kürzeren Zeit

00:45:42.470 --> 00:45:44.510
viel mehr Daten rein und raus müssen.

00:45:45.750 --> 00:45:46.450
Aber auf was

00:45:46.450 --> 00:45:48.230
fällt jetzt eigentlich raus? Anzahl Parameter,

00:45:48.670 --> 00:45:49.510
Größe, also

00:45:49.510 --> 00:45:52.270
wir haben natürlich verschiedene Models, also

00:45:52.270 --> 00:45:53.850
von manche

00:45:53.850 --> 00:45:56.050
Gigabyte bis zu

00:45:56.050 --> 00:45:58.390
ein paar hundert Megabyte,

00:45:58.910 --> 00:46:00.290
also in der Größenordnung.

00:46:00.910 --> 00:46:02.270
Das ist nicht so riesige Models wie

00:46:02.270 --> 00:46:03.490
irgendeine Sprachmodelle,

00:46:04.370 --> 00:46:05.950
aber doch schon ein bisschen was.

00:46:06.910 --> 00:46:07.390
Und

00:46:07.390 --> 00:46:10.190
ja, die Herausforderung ist natürlich auch, wie man

00:46:10.190 --> 00:46:14.130
wie man die alle trainiert, weil es natürlich viel

00:46:14.130 --> 00:46:17.970
Rechenleistung braucht. Insofern, wir bauen uns halt hauptsächlich

00:46:17.970 --> 00:46:21.850
unsere eigenen Trainingsserver auf, beziehungsweise mieten

00:46:21.850 --> 00:46:26.130
teilweise eben an, was aber leider halt sehr teuer ist, wenn man da versucht

00:46:26.130 --> 00:46:28.470
auf Amazon oder sonst irgendwo anzumieten.

00:46:29.710 --> 00:46:34.070
Bei den eigenen Rechnern ist wieder die Herausforderung, dass man die Kühlung halt hinbekommt,

00:46:34.810 --> 00:46:38.090
dass man im Büro das noch irgendwie aushaltet oder

00:46:38.090 --> 00:46:40.090
sonst wo die entsprechende

00:46:40.090 --> 00:46:41.850
Entkühlung schafft und natürlich

00:46:41.850 --> 00:46:43.750
die Kosten von der

00:46:43.750 --> 00:46:45.290
Anschaffung, weil

00:46:45.290 --> 00:46:47.970
die GPUs sind natürlich heiß begehrt

00:46:47.970 --> 00:46:49.950
im Moment und jeder will

00:46:49.950 --> 00:46:52.070
die kaufen, aber

00:46:52.070 --> 00:46:53.250
das ist natürlich

00:46:53.250 --> 00:46:55.730
zusätzlich zu den Daten

00:46:55.730 --> 00:46:57.870
eben, dass man gute Daten

00:46:57.870 --> 00:46:59.890
bekommt und vor allem im

00:46:59.890 --> 00:47:01.910
Audi-Bereich sind die Daten ja auch

00:47:01.910 --> 00:47:03.870
sehr subjektiv, wie wir vorher

00:47:03.870 --> 00:47:05.710
schon geredet haben und das muss man irgendwie

00:47:05.710 --> 00:47:07.550
einordnen trotzdem

00:47:07.550 --> 00:47:09.270
und das ist nicht immer so ganz klar.

00:47:10.110 --> 00:47:12.070
Also man kann dieses Data Labeling

00:47:12.070 --> 00:47:13.810
jetzt nicht einfach nach Indien auslagern

00:47:13.810 --> 00:47:15.690
und da gibt es jetzt ein paar Clickworker,

00:47:15.910 --> 00:47:18.070
die das einfach kategorisieren,

00:47:18.210 --> 00:47:20.430
sondern da muss man wirklich ein gutes Gehör haben dafür.

00:47:21.630 --> 00:47:25.010
Und zusätzlich eben die ganze Computer-Hardware

00:47:25.010 --> 00:47:26.770
ist eine Herausforderung,

00:47:26.770 --> 00:47:29.130
dass man diese eben beschafft.

00:47:30.270 --> 00:47:33.110
Okay, aber trotzdem betreibt ihr ja ein System,

00:47:33.850 --> 00:47:37.410
wo ich als Endkunde eine Audiodatei hochladen kann.

00:47:37.550 --> 00:47:51.690
Und die wird in zehnfacher Geschwindigkeit verarbeitet. Allein das ist ja schon eine massive Leistung, dass ihr da einen Service hinstellt, der einfach so funktioniert und dann auch noch ungeheuer schnell ist.

00:47:51.690 --> 00:48:09.350
Also ich meine, wenn man sich die Leistung von solchen Systemen vor fünf oder vor zehn Jahren anschaut, würde man erwarten, dass es zehnmal so lange dauert, wie das Audio ist. Aber jetzt ist es gerade umgekehrt. Es ist zehnmal so schnell, wie das Audio ist. Wie kriegt ihr das hin, Georg? Ich habe mir das vorhin auf eurer Webseite durchgeschaut und habe mir gedacht, wie kriegt ihr das hin?

00:48:10.390 --> 00:48:15.990
Naja, also ich meine, du redest jetzt natürlich nicht vom Training, sondern von der Influenz, also das, was deine Anwendung ist.

00:48:16.010 --> 00:48:16.510
Ja, aber trotzdem.

00:48:18.110 --> 00:48:23.190
Ja, trotzdem. Es gibt halt mittlerweile gute GPUs, um das kurz zu fassen.

00:48:24.250 --> 00:48:29.130
Okay, ihr habt ein paar horizontal skaliert. Dicke Rechner.

00:48:29.890 --> 00:48:37.630
Naja, geht halt in dem Fall leider nicht anders, weil du musst die Models halt auf GPUs ausführen, weil auf CPUs sind sie halt einfach zu langsam.

00:48:38.110 --> 00:49:01.870
Bei uns, wir sind in einer glücklichen Lage, dass wir eben nicht so riesige Modelle haben wie die ganzen Language Models, also wir können das auch auf einzelne GPUs ausführen und brauchen dann nicht GPU Cluster für ein Modell, das ist schon mal viel einfacher, aber das Schwierige ist natürlich die Rechenleistung beim Training, weil du halt da wochenlang das System rechnen lassen musst und ja, da brauchst du dann einfach viel mehr Rechenleistung.

00:49:01.870 --> 00:49:03.910
die Inferance ist jetzt eh okay

00:49:03.910 --> 00:49:04.750
also es gibt

00:49:04.750 --> 00:49:07.590
die Standardanbieter wie

00:49:07.590 --> 00:49:09.330
Hetzner und so weiter, die bieten eh

00:49:09.330 --> 00:49:11.530
GPU-Server auch an mittlerweile und

00:49:11.530 --> 00:49:13.030
da kann man sich einfach einmieten und

00:49:13.030 --> 00:49:15.670
das war es dann im Endeffekt. Wie viel musst du mieten bei Hetzner?

00:49:15.810 --> 00:49:17.690
Für dein Modelltrainieren-Training? Ist es einfach den einen?

00:49:17.790 --> 00:49:19.610
Kostet er 200 Euro oder was? Fürs Trainieren

00:49:19.610 --> 00:49:21.950
haben wir nichts bei Hetzner, das wäre zu teuer

00:49:21.950 --> 00:49:22.830
für die

00:49:22.830 --> 00:49:25.330
Inferance oder so

00:49:25.330 --> 00:49:27.810
da haben wir

00:49:27.810 --> 00:49:28.250
keine Ahnung

00:49:28.250 --> 00:49:31.250
zwischen 10 und 20 herum

00:49:31.870 --> 00:49:59.790
Ja, ist schon eine ganz schön ordentliche Operation, was ihr da betreibt. Ist auch vom Betrieb her eine gewisse Herausforderung, weil da werden dann doch die Datenmengen auch, also ich meine Audio ist jetzt nicht so schlimm wie Video, aber trotzdem kriegst du ja doch da Teilen, die eine gewisse Megabyte Größe haben und die du dann verarbeiten musst und auch, soll ich mal, richtig verarbeiten musst.

00:50:01.030 --> 00:50:03.490
Also höchster Respekt hier.

00:50:04.390 --> 00:50:05.310
Und vor allem, man braucht halt

00:50:05.310 --> 00:50:06.330
natürlich auch Rechenleistung.

00:50:06.470 --> 00:50:08.450
Das kostet es halt auch.

00:50:09.070 --> 00:50:10.990
Das ist dann der Punkt im Endeffekt.

00:50:12.730 --> 00:50:13.290
Das war halt

00:50:13.290 --> 00:50:14.810
früher schon viel günstiger.

00:50:15.130 --> 00:50:17.330
Da haben wir das nur auf CPUs

00:50:17.330 --> 00:50:18.250
sozusagen laufen gehabt.

00:50:19.030 --> 00:50:21.110
Hat natürlich auch ähnlich lange

00:50:21.110 --> 00:50:23.530
gedauert, weil die Algorithmen

00:50:23.530 --> 00:50:25.250
halt auch für damalige Verhältnisse

00:50:25.250 --> 00:50:26.290
relativ aufwendig waren.

00:50:27.090 --> 00:50:28.950
Aber war halt um einiges günstiger.

00:50:29.850 --> 00:50:47.650
Ja, das ist so ein bisschen die Kehrseite, oder, von dieser ganzen neuronale Netze-Geschichte. Auf der einen Seite muss man wesentlich weniger manuelle Arbeit reinstecken, wobei das vielleicht auch gar nicht stimmt. Aber auf der anderen Seite bezahlt man es halt mit Rechenzyklen.

00:50:49.230 --> 00:51:15.290
Ach, dazu fällt mir ein, genau, da war ich jetzt überrascht. Ich habe jetzt letztens irgendwie so ein bisschen mit Transkripten Dinge gemacht. Wir waren ja beide auf der Subscribe und da habe ich dann auch mit anderen Leuten so geredet, wie die das mit Transkripten machen, Podcast-Hosting-Software und ich habe mich dann mal so ein bisschen vorgedrückt, weil ich dachte so, oh, das ist aber so viel Arbeit.

00:51:15.290 --> 00:51:17.570
weiß ich nicht genau, ob ich das wirklich machen will

00:51:17.570 --> 00:51:19.590
und dann meinten aber

00:51:19.590 --> 00:51:21.210
alle anderen, achso, ja, das haben wir,

00:51:21.290 --> 00:51:23.150
das war jetzt auch nicht so schlimm, das ging schon

00:51:23.150 --> 00:51:25.490
und dann bin ich da rausgegangen mit, okay, ich muss

00:51:25.490 --> 00:51:27.410
es wohl doch mal machen und hab dann jetzt auch mal

00:51:27.410 --> 00:51:28.830
angefangen und

00:51:28.830 --> 00:51:31.230
das ist ganz gut geworden, ne?

00:51:32.430 --> 00:51:33.470
Ja, also tatsächlich

00:51:33.470 --> 00:51:35.390
irgendwie mit Whisper hat man jetzt ein

00:51:35.390 --> 00:51:37.490
Modell, das tatsächlich wirklich ganz gut

00:51:37.490 --> 00:51:39.330
sozusagen

00:51:39.330 --> 00:51:40.370
ja

00:51:40.370 --> 00:51:43.470
Also beim Pice Sprint hast du da so ein paar Sachen

00:51:43.470 --> 00:51:45.210
gezeigt. Ja, auf den Apps. Genau, hast du ja.

00:51:45.350 --> 00:51:47.350
CLI-Interface, du hast sogar einen Blog-Eintrag dazu

00:51:47.350 --> 00:51:49.110
geschrieben. Ja. Und, äh, ja.

00:51:49.710 --> 00:51:51.270
Und man kann es in der CLI benutzen,

00:51:51.350 --> 00:51:53.210
um Transkripte zu machen für Audio. Genau,

00:51:53.330 --> 00:51:55.170
aber das, das, das, das, äh, wo ich,

00:51:55.330 --> 00:51:57.190
weswegen ich das jetzt, äh, gerade erwähnt habe, ist,

00:51:57.390 --> 00:51:59.550
ähm, äh,

00:51:59.770 --> 00:52:01.450
wenn man das lokal laufen lässt, dann

00:52:01.450 --> 00:52:03.510
wird auch das Laptop heiß und der Akku wird alle

00:52:03.510 --> 00:52:05.290
und das funktioniert alles nur sehr langsam

00:52:05.290 --> 00:52:07.310
und dann, das macht keinen Spaß.

00:52:07.930 --> 00:52:09.450
Äh, aber es gibt da einen,

00:52:09.450 --> 00:52:11.470
einen Dienst, äh, Dienstleister

00:52:11.470 --> 00:52:13.670
Drog, ich weiß gar nicht, wie man die ausspricht,

00:52:14.410 --> 00:52:15.250
und die machen ja,

00:52:15.670 --> 00:52:17.890
die haben sich irgendwie auf Inferenz spezialisiert

00:52:17.890 --> 00:52:19.550
und machen das irgendwie schnell. Die haben auch,

00:52:19.950 --> 00:52:21.830
sagen sie jedenfalls, ich habe keine Ahnung, was sie wirklich

00:52:21.830 --> 00:52:23.830
machen, aber dass sie

00:52:23.830 --> 00:52:25.530
da halt eigene Hardware haben, die

00:52:25.530 --> 00:52:27.270
da irgendwie,

00:52:28.690 --> 00:52:29.470
wo man dann

00:52:29.470 --> 00:52:31.770
Modelle halt für Inferenz

00:52:31.770 --> 00:52:33.750
drauf laufen lassen kann, die dann halt noch schneller

00:52:33.750 --> 00:52:35.350
ist als, weiß ich nicht, GPUs oder so.

00:52:36.070 --> 00:52:37.630
Und da war es tatsächlich, also

00:52:37.630 --> 00:52:39.510
irgendwie Whisper V3 Large,

00:52:39.870 --> 00:52:40.910
also was halt

00:52:40.910 --> 00:52:42.530
auf meinem Laptop echt

00:52:42.530 --> 00:52:44.910
fies langsam ist, da geht halt so

00:52:44.910 --> 00:52:46.890
zwei Stunden Episode, geht da halt so in

00:52:46.890 --> 00:52:48.890
einer Minute ungefähr durch und ist fertig.

00:52:50.010 --> 00:52:51.210
Und das hat mich schon so

00:52:51.210 --> 00:52:52.090
krass, also

00:52:52.090 --> 00:52:54.970
das ging schon ganz gut. Naja, es gibt ja jetzt diese

00:52:54.970 --> 00:52:57.050
schnellere Whisper-Model, das Whisper Turbo.

00:52:57.750 --> 00:52:59.110
Ja, genau, das habe ich auch

00:52:59.110 --> 00:53:01.130
probiert, das geht schon ganz gut,

00:53:01.130 --> 00:53:01.370
aber

00:53:01.370 --> 00:53:05.050
bei Grog, die machen

00:53:05.050 --> 00:53:06.510
wohl wirklich das große

00:53:06.510 --> 00:53:08.070
Whisper V3 Large.

00:53:08.990 --> 00:53:10.770
Wir haben ja auch das V3.

00:53:10.910 --> 00:53:13.970
Ja, das haben wir

00:53:13.970 --> 00:53:16.570
auf den GPUs

00:53:16.570 --> 00:53:17.290
ganz einfach laufen.

00:53:17.910 --> 00:53:18.870
Ah ja, ja.

00:53:20.350 --> 00:53:21.790
Ja, genau. Das ist super, ja.

00:53:22.030 --> 00:53:24.250
Ja, weil das hat auch, ich habe auch die so ein bisschen

00:53:24.250 --> 00:53:25.130
verglichen,

00:53:25.210 --> 00:53:28.210
V2 versus V3 und

00:53:28.210 --> 00:53:30.190
tatsächlich für Deutsch macht es, bei Englisch macht es gar nicht

00:53:30.190 --> 00:53:31.950
so einen Riesenunterschied, oder dachte ich jedenfalls jetzt so,

00:53:32.430 --> 00:53:34.390
aber bei Deutsch macht es halt noch schon einen Unterschied.

00:53:34.610 --> 00:53:36.130
Also V3 ist nochmal ein gutes Stückchen besser.

00:53:36.930 --> 00:53:38.330
Also bei Namen

00:53:38.330 --> 00:53:39.950
oder auch bei Python oder auch

00:53:39.950 --> 00:53:41.810
das geht eigentlich

00:53:41.810 --> 00:53:43.770
da oft das V2

00:53:43.770 --> 00:53:45.550
versteht es halt nicht so richtig

00:53:45.550 --> 00:53:47.870
und V3 meistens dann schon

00:53:47.870 --> 00:53:49.230
es sind auch immer noch Fehler drin, aber

00:53:49.230 --> 00:53:51.450
also merkbarer Unterschied für mich

00:53:51.450 --> 00:53:54.010
Ja, ich weiß

00:53:54.010 --> 00:53:55.370
jetzt nicht mehr welche Version, aber

00:53:55.370 --> 00:53:57.670
auf irgendeiner Version ist dann auf einmal

00:53:57.670 --> 00:53:59.170
immer Auphonic richtig erkannt

00:53:59.170 --> 00:54:01.150
Ja, auch

00:54:01.150 --> 00:54:03.630
Weil wir haben immer so ein Test-File

00:54:03.630 --> 00:54:05.570
und Auphonic war zuerst immer

00:54:05.570 --> 00:54:07.290
falsch und dann auf einmal hat es funktioniert

00:54:07.290 --> 00:54:09.810
Da werden sich wohl die Daten geändert haben

00:54:09.950 --> 00:54:14.490
Ja, ich meine, ihr seid einfach so bekannt, dass ihr jetzt in den Referenzdaten vorkommt.

00:54:14.670 --> 00:54:15.190
Ja, genau.

00:54:17.450 --> 00:54:27.650
Ich finde das auch total komisch, dass man dem Street-to-Text-Model, dem kann man ja dann auch ein Prompt geben, dass man dem sagen kann, was es tun soll und wie Leute heißen und das funktioniert dann plötzlich.

00:54:28.050 --> 00:54:29.290
Das fand ich auch sehr eigenartig.

00:54:29.430 --> 00:54:34.450
Ich weiß jetzt auch noch nicht, dass man das wirklich einstellen kann, aber ich verwende jetzt immer das gleiche Prompt oder muss es halt umkonfigurieren.

00:54:34.990 --> 00:54:37.690
Aber das geht ja auch und das ist auch ganz eigenartig.

00:54:38.190 --> 00:54:39.050
Also, ja,

00:54:39.950 --> 00:54:41.490
das ist irgendwie anders als früher.

00:54:43.730 --> 00:54:45.290
Ja, das hat beim Whisper leider

00:54:45.290 --> 00:54:47.210
Seiteneffekte, also

00:54:47.210 --> 00:54:49.330
der, sagen wir mal so,

00:54:49.710 --> 00:54:52.330
das fördert Halluzinationen.

00:54:52.630 --> 00:54:54.250
Ja, das kann natürlich sein, ja.

00:54:55.070 --> 00:54:56.030
Deswegen verwenden wir

00:54:56.030 --> 00:54:57.850
die Prompte im Moment eigentlich nicht.

00:54:58.870 --> 00:54:59.750
Ah, okay, ja.

00:55:00.090 --> 00:55:01.830
Ja, ich habe mir auch die Transkripte nicht so komplett

00:55:01.830 --> 00:55:03.330
durchgelesen, da haben wir nur so Stichproben.

00:55:03.470 --> 00:55:05.250
Wer weiß, was da jetzt so komische Sachen sind.

00:55:05.250 --> 00:55:06.990
auf einmal für Dinge erzählen.

00:55:06.990 --> 00:55:09.270
Musst du auf die Podcast-Seite noch schreiben, es gilt das

00:55:09.270 --> 00:55:10.010
gesprochene Wort.

00:55:10.650 --> 00:55:13.250
Liebe Zuhörer, schauen Sie

00:55:13.250 --> 00:55:14.550
jetzt die Untertitel an.

00:55:15.210 --> 00:55:17.330
Ja, könnte so sein, dass das vielleicht nicht so

00:55:17.330 --> 00:55:18.930
Ja.

00:55:20.190 --> 00:55:21.550
Müssen wir jetzt ein paar exotische

00:55:21.550 --> 00:55:23.350
Wörter sagen, um das, um deine

00:55:23.350 --> 00:55:24.550
Transkriptionen zu verwirren.

00:55:25.710 --> 00:55:27.330
Ja. Nein, es ist gar nicht so bei

00:55:27.330 --> 00:55:28.990
Wörtern. Es ist meistens eben, wenn

00:55:28.990 --> 00:55:31.490
nicht gesprochen wird oder wenn Pausen

00:55:31.490 --> 00:55:33.330
sind, dass sie dann

00:55:33.330 --> 00:55:35.570
irgendeine Halluzinationen bilden und dann

00:55:35.570 --> 00:55:37.830
Wörter für Wörter abgespult werden, sozusagen.

00:55:38.690 --> 00:55:39.010
Ah.

00:55:40.110 --> 00:55:41.650
Das hört sich so ein bisschen an,

00:55:41.670 --> 00:55:43.210
als ob das Modell nur erotisch wäre.

00:55:43.350 --> 00:55:45.690
Dann machen wir jetzt eine kurze Schweigeminute für

00:55:45.690 --> 00:55:47.870
eine Schweigeminute

00:55:47.870 --> 00:55:48.910
für Whisper V3.

00:55:49.290 --> 00:55:51.450
Wisst ihr auch mal, genau,

00:55:51.550 --> 00:55:53.610
das Mikrofon hier. Jetzt kommt Whisper

00:55:53.610 --> 00:55:55.310
zu Wort. Mal schauen, was da so rauskommt,

00:55:55.450 --> 00:55:57.410
wenn man das einfach mal so

00:55:57.410 --> 00:55:58.270
vor sich hin

00:55:58.270 --> 00:56:00.450
generieren lässt.

00:56:01.170 --> 00:56:02.690
Ja, schon.

00:56:03.210 --> 00:56:03.970
schon interessant.

00:56:05.910 --> 00:56:07.230
Ja, ich befürchte aber, Jochen,

00:56:07.290 --> 00:56:09.410
dass wir die nächste Episode einfach eine komplette

00:56:09.410 --> 00:56:11.130
Episode machen müssen, wo wir die ganzen

00:56:11.130 --> 00:56:12.710
Abkürzungen erklären, die wir heute

00:56:12.710 --> 00:56:15.290
gehört haben. Wir können auch einfach

00:56:15.290 --> 00:56:17.290
die ganze Zeit schweigen in der nächsten Episode und dann lassen

00:56:17.290 --> 00:56:18.950
wir es bei den Texten.

00:56:18.950 --> 00:56:19.790
Ja, das geht auch.

00:56:20.330 --> 00:56:22.050
Und dann den Text wieder für den Delizieren.

00:56:24.530 --> 00:56:25.630
Mit unseren Stimmen.

00:56:27.450 --> 00:56:29.210
Und das ein paar Mal im Kreis und dann schauen wir mal,

00:56:29.210 --> 00:56:29.910
was rauskommt.

00:56:30.970 --> 00:56:33.170
Ja, ansonsten

00:56:33.170 --> 00:56:34.710
Genau, ich weiß nicht,

00:56:34.890 --> 00:56:36.650
haben wir, genau, jetzt haben wir

00:56:36.650 --> 00:56:38.710
schon eine ganze Weile über so Modelle und

00:56:38.710 --> 00:56:40.870
Dinge. Der Rest der Infrastruktur

00:56:40.870 --> 00:56:42.450
ist ja vielleicht auch ganz interessant, also

00:56:42.450 --> 00:56:44.990
was so Webgeschichten

00:56:44.990 --> 00:56:46.690
zum Beispiel angeht. Django? Django, ja, natürlich.

00:56:47.410 --> 00:56:48.230
Ja, machen wir auch.

00:56:49.050 --> 00:56:50.010
Nein, wir machen Django wirklich?

00:56:50.550 --> 00:56:50.810
Ja.

00:56:53.150 --> 00:56:55.010
Ja, wie gesagt, wir verwenden Django.

00:56:55.650 --> 00:56:56.130
Das ist schon

00:56:56.130 --> 00:56:58.750
seit 2013, oder wann das halt

00:56:58.750 --> 00:57:00.070
gestartet ist.

00:57:00.670 --> 00:57:01.990
Und was verwenden wir dann

00:57:01.990 --> 00:57:10.910
noch dabei, ja so Frontend-mäßig, ein paar Sachen haben wir mit Vue gemacht, das ist ein Audio-Inspektor nennen wir das,

00:57:11.010 --> 00:57:19.850
also Transcript-Editor, der ist mit Vue gemacht, dann prinzipiell fängt man so HTMX und solche Sachen mittlerweile

00:57:19.850 --> 00:57:27.950
für so einfachere Interface-Elemente, also für alles, was jetzt nicht der Audio-Editor ist und am Frontend verwenden wir

00:57:27.950 --> 00:57:29.790
noch Tailwind, CSS.

00:57:31.030 --> 00:57:31.630
Was gibt's noch?

00:57:32.830 --> 00:57:33.550
Ja, Alpine

00:57:33.550 --> 00:57:34.990
teilweise für so kleine Charts.

00:57:34.990 --> 00:57:36.650
Das hört sich genau nach dem an, was wir auch machen.

00:57:37.370 --> 00:57:38.870
Ja, machen jetzt alle, gell?

00:57:38.970 --> 00:57:40.110
Ja, machen irgendwie auch alle.

00:57:40.610 --> 00:57:43.150
Aber es gibt auch einen Grund dafür, warum es so ist.

00:57:44.350 --> 00:57:46.070
Ja, weil man sich halt

00:57:46.070 --> 00:57:48.990
nicht die geholfenen Frameworks einhandeln will, gell?

00:57:49.610 --> 00:57:50.310
Ja, natürlich.

00:57:51.530 --> 00:57:52.270
Gut, was gibt's noch

00:57:52.270 --> 00:57:53.130
zum Erzählen? Dann

00:57:53.130 --> 00:57:56.330
Backend-mäßig verwenden wir eben

00:57:56.330 --> 00:58:02.150
Das ist eine Task Queue, die diese ganzen Audit Processing und Encoding Tasks verteilt.

00:58:02.150 --> 00:58:09.150
Dafür verwenden wir Celery und das Celery läuft dann auf verschiedene Server verteilt.

00:58:09.150 --> 00:58:12.450
Das sind unsere Worker Rechner.

00:58:12.450 --> 00:58:19.120
Wir haben einen Hauptrechner, wo das Websystem läuft und der verteilt die ganzen Jobs dann auf die Worker-Rechner.

00:58:19.700 --> 00:58:21.380
Und magst du Celery? Funktioniert es gut?

00:58:22.760 --> 00:58:27.360
Mögen ist übertrieben, aber es funktioniert seit 13 Jahren.

00:58:29.520 --> 00:58:38.500
Aber mittlerweile gibt es auch modernere Tools, schätze ich mal.

00:58:38.500 --> 00:58:40.360
Wir hoffen, dass Django das

00:58:40.360 --> 00:58:42.460
Native kann, aber ich weiß nicht, ob das mit dem Distributed

00:58:42.460 --> 00:58:44.400
da gut geht. Ja, da kommt jetzt was,

00:58:44.580 --> 00:58:46.520
aber das kann nicht

00:58:46.520 --> 00:58:47.500
so viel wie Celery.

00:58:49.300 --> 00:58:50.500
Genau, wenn man halt wirklich

00:58:50.500 --> 00:58:52.420
da Last hat und da Dinge, viele Dinge

00:58:52.420 --> 00:58:53.940
macht, dann ist es wahrscheinlich, wenn

00:58:53.940 --> 00:58:56.420
für einen Celery funktioniert, dann sollte man das wahrscheinlich so lassen.

00:58:56.860 --> 00:58:58.760
Aber ich glaube

00:58:58.760 --> 00:59:00.560
auch, dass es, es gibt sonst nicht viel Konkurrenz

00:59:00.560 --> 00:59:02.340
da, das ist irgendwie für

00:59:02.340 --> 00:59:03.880
komplexere Geschichten in Celery immer noch.

00:59:04.940 --> 00:59:06.020
Inzwischen gibt es ja schon einige

00:59:06.020 --> 00:59:08.380
Task Queues. Ja, auch mit Django

00:59:08.380 --> 00:59:10.260
Integration, aber Celery ist halt so der

00:59:10.260 --> 00:59:12.400
bekannte alte Platzhirsch.

00:59:14.620 --> 00:59:16.400
Ja, aber es ist auch schwer

00:59:16.400 --> 00:59:18.380
zu benutzen. Das ist so ein bisschen wie das Mischpult hier.

00:59:19.220 --> 00:59:19.620
Nein.

00:59:20.720 --> 00:59:22.560
Das liegt doch in der Natur der Sache, oder?

00:59:22.860 --> 00:59:24.440
Wenn man nicht hinguckt, dreht sich

00:59:24.440 --> 00:59:26.480
das immer so mit dem Lauf Richtung Fuß

00:59:26.480 --> 00:59:26.920
und

00:59:26.920 --> 00:59:32.340
Ja, da braucht man doch noch eine Ausrede,

00:59:32.420 --> 00:59:34.260
dass es die Kinder waren oder jemand anders.

00:59:34.860 --> 00:59:36.260
Genau. Und dann war man es doch selber

00:59:36.260 --> 00:59:37.620
vielleicht, das kann schon sein.

00:59:37.960 --> 00:59:40.220
Ja, vor allem, weil das, eigentlich musste man ja klicken

00:59:40.220 --> 00:59:41.720
in deiner DAW,

00:59:42.040 --> 00:59:43.360
oder es riecht bei einer DAW, ich weiß nicht.

00:59:44.740 --> 00:59:45.960
Ja, und das hat

00:59:45.960 --> 00:59:47.840
gar nichts mit dem Meshwall zu tun.

00:59:48.900 --> 00:59:49.340
Naja, egal.

00:59:49.360 --> 00:59:51.580
Das sind kompliziert, ja, wir haben dann auch verschiedene

00:59:51.580 --> 00:59:53.620
Dasks, das macht es mal komplizierter, also

00:59:53.620 --> 00:59:56.000
einerseits diese ganzen CPU-Server,

00:59:56.240 --> 00:59:57.940
die funktionieren eben

00:59:57.940 --> 00:59:59.960
über Celery, dann haben wir eben noch

00:59:59.960 --> 01:00:02.200
GPU-Server, die funktionieren

01:00:02.200 --> 01:00:04.040
dann wiederum, die werden dann wiederum von den

01:00:04.040 --> 01:00:05.420
CPU-Servern angesprochen,

01:00:06.100 --> 01:00:07.640
mit den ganzen Audio

01:00:07.640 --> 01:00:08.780
Abschnitten.

01:00:09.760 --> 01:00:10.280
Und wie macht ihr das?

01:00:11.220 --> 01:00:13.840
Die haben so, das nennt sich so ein NVIDIA Triton,

01:00:13.960 --> 01:00:15.900
das ist ein NVIDIA System, wo man

01:00:15.900 --> 01:00:17.760
eben so Models hosten kann am GPU,

01:00:17.980 --> 01:00:19.720
der verteilt das relativ effizient

01:00:19.720 --> 01:00:21.460
im Speicher, weil

01:00:21.460 --> 01:00:23.680
der hat wiederum eine eigene

01:00:23.680 --> 01:00:25.360
Task Queue integriert,

01:00:25.360 --> 01:00:27.500
wie so kleine GPU Jobs verteilt

01:00:27.500 --> 01:00:29.640
werden, weil das Problem

01:00:29.640 --> 01:00:31.280
bei den Models ist, dass

01:00:31.280 --> 01:00:32.980
man kann jetzt nicht für jeden

01:00:32.980 --> 01:00:35.340
Request das Model, oder es wäre nicht sehr

01:00:35.340 --> 01:00:37.280
effizient, wenn man für jeden Request das Model

01:00:37.280 --> 01:00:39.220
jetzt neu ladet in den Speicher,

01:00:39.360 --> 01:00:41.200
also in den GPU-Ran, weil das

01:00:41.200 --> 01:00:42.860
Laden an sich von so ein paar

01:00:42.860 --> 01:00:44.700
Gigabyte-Models dann

01:00:44.700 --> 01:00:46.420
schon mal ziemlich lang dauert.

01:00:47.200 --> 01:00:48.900
Deswegen gibt es eben zum Beispiel

01:00:48.900 --> 01:00:50.680
das NVIDIA Triton, der

01:00:50.680 --> 01:00:52.960
versucht es eben möglichst effizient zu

01:00:52.960 --> 01:00:54.000
managen, dass

01:00:54.000 --> 01:00:57.060
die Models halt immer im

01:00:57.060 --> 01:00:58.780
V-Rahmen sind, beziehungsweise

01:00:58.780 --> 01:01:00.860
nur wenn notwendig halt

01:01:00.860 --> 01:01:02.880
ein anderes Laden und so weiter.

01:01:03.860 --> 01:01:05.020
Und das ist dann

01:01:05.020 --> 01:01:07.000
sozusagen die zweite Task-View hinter der

01:01:07.000 --> 01:01:09.380
ersten Task Queue und

01:01:09.380 --> 01:01:11.080
dann kommt es von den GPU-Servern

01:01:11.080 --> 01:01:13.000
wieder Druck zur Celery-Task Queue

01:01:13.000 --> 01:01:14.840
auf den CPU-Servern und

01:01:14.840 --> 01:01:16.800
dort gibt es dann, dort wird dann

01:01:16.800 --> 01:01:18.800
verschiedene Files, also wenn das

01:01:18.800 --> 01:01:20.600
Auto-Processing fertig ist, gibt es dann

01:01:20.600 --> 01:01:23.020
File-Encoding-Tasks und

01:01:23.020 --> 01:01:24.900
dann Speech-Recognition-Tasks, dann wird es

01:01:24.900 --> 01:01:26.840
wiederum zum GPU-Server, zum anderen geschickt.

01:01:27.560 --> 01:01:29.100
Dann, was gibt es

01:01:29.100 --> 01:01:30.900
noch, dann eben so Verteil-Tasks, der das

01:01:30.900 --> 01:01:32.480
auf verschiedene Server dann schickt, also

01:01:32.480 --> 01:01:34.840
Netzwerk-Tasks oder auf YouTube oder was auch immer

01:01:34.840 --> 01:01:36.600
und so sichert das von

01:01:36.600 --> 01:01:38.240
Task-to-Task dahin.

01:01:38.920 --> 01:01:40.660
Im Celery und im NVIDIA

01:01:40.660 --> 01:01:42.780
Triton. Und den Status

01:01:42.780 --> 01:01:44.360
erfasst du irgendwie in einem Dango-Modell.

01:01:45.360 --> 01:01:45.920
Genau.

01:01:47.040 --> 01:01:48.740
Die Tasks rufen sich dann eben

01:01:48.740 --> 01:01:50.620
so seriell auf.

01:01:50.780 --> 01:01:52.720
Es gibt ja bei Celery

01:01:52.720 --> 01:01:54.440
also Chord-Tasks, nennen sie das.

01:01:54.900 --> 01:01:56.480
Wenn jetzt zum Beispiel

01:01:56.480 --> 01:01:58.920
ein Audit-Processing fertig ist

01:01:58.920 --> 01:02:00.740
und man will daraus fünf verschiedene

01:02:00.740 --> 01:02:02.660
File-Formate erstellen, dann kann man so

01:02:02.660 --> 01:02:04.300
einen Chord-Task machen. Der macht dann diese

01:02:04.300 --> 01:02:06.560
fünf Pfeilformate parallel

01:02:06.560 --> 01:02:08.200
und dann sagt man, okay, wenn

01:02:08.200 --> 01:02:10.440
jetzt alle von diesen fünf fertig sind, dann ruft

01:02:10.440 --> 01:02:12.480
er den nächsten Task auf, also

01:02:12.480 --> 01:02:13.620
das ist zum Beispiel dann der

01:02:13.620 --> 01:02:16.320
Finish-Task, der wird dann

01:02:16.320 --> 01:02:18.400
aufgerufen, wenn diese ganzen Tasks fertig sind

01:02:18.400 --> 01:02:20.160
oder der Distribution-Task

01:02:20.160 --> 01:02:22.480
und so kann man so Ketten

01:02:22.480 --> 01:02:24.500
bauen, die sich

01:02:24.500 --> 01:02:26.460
dann also quasi parallel verbreiten

01:02:26.460 --> 01:02:28.400
und dann wieder irgendwann zusammenführen,

01:02:28.520 --> 01:02:30.100
hoffentlich. Ja.

01:02:30.820 --> 01:02:32.080
Bis das irgendwann fertig ist.

01:02:32.780 --> 01:02:34.400
Ja, man hat dann so ganze Task-Grafen

01:02:34.400 --> 01:02:35.820
oft irgendwie.

01:02:37.720 --> 01:02:37.860
Ja.

01:02:38.580 --> 01:02:38.840
Ja.

01:02:40.080 --> 01:02:41.600
Ist dann manchmal so ein bisschen

01:02:41.600 --> 01:02:44.020
schwierig, wenn man es testen will und

01:02:44.020 --> 01:02:45.340
manchmal hat man so komische Probleme,

01:02:46.280 --> 01:02:48.220
wenn das an einer unerwarteten

01:02:48.220 --> 01:02:49.600
Stelle schief geht, aber ja.

01:02:49.760 --> 01:02:53.600
Aber testen ist auch nicht so schlimm.

01:02:53.740 --> 01:02:55.720
Also man kann natürlich die Tasks

01:02:55.720 --> 01:02:56.920
einzeln testen,

01:02:57.720 --> 01:02:59.180
mit Unit-Tests ganz einfach.

01:03:00.280 --> 01:03:01.720
Das Gesamtsystem ist wieder ein bisschen

01:03:01.720 --> 01:03:03.000
komplexer zum Besten, ja.

01:03:04.320 --> 01:03:06.060
Ich hatte immer das Hauptproblem, was ich mal hatte,

01:03:06.180 --> 01:03:08.100
das war irgendwie aufzuräumen, wenn da irgendwas kaputt gegangen

01:03:08.100 --> 01:03:09.980
ist und das irgendwelche Geistertastungen waren,

01:03:10.100 --> 01:03:12.120
weil irgendjemand noch irgendwas geklickt hat

01:03:12.120 --> 01:03:13.600
und dann nicht genau klar war, wo jetzt

01:03:13.600 --> 01:03:15.720
welcher Tast in welchem Status hing oder so.

01:03:16.500 --> 01:03:16.920
Ja, klar.

01:03:17.840 --> 01:03:18.960
Und da war das ganze Ding

01:03:18.960 --> 01:03:21.620
schwierig zu verstehen und dann

01:03:21.620 --> 01:03:23.720
irgendwo noch so Reste drum hängen und

01:03:23.720 --> 01:03:25.740
wo die dann prozessiert werden wollen.

01:03:26.440 --> 01:03:27.300
Aber ich glaube, wenn man so ein

01:03:27.300 --> 01:03:29.900
stabiles System hat, vielleicht raucht das ja gar nicht so oft ab.

01:03:30.740 --> 01:03:32.900
Nein, das ist eigentlich

01:03:32.900 --> 01:03:34.740
relativ stabil, außer

01:03:34.740 --> 01:03:36.740
wir machen wieder irgendwas

01:03:36.740 --> 01:03:38.560
komisches oder so, was ja manchmal passiert.

01:03:39.260 --> 01:03:40.360
Diverse Updates oder

01:03:40.360 --> 01:03:41.140
Features.

01:03:42.940 --> 01:03:44.580
Aber prinzipiell läuft

01:03:44.580 --> 01:03:46.100
das eigentlich sehr stabil.

01:03:47.100 --> 01:03:48.900
Das läuft bei uns jetzt natürlich auch sehr lang.

01:03:49.020 --> 01:03:50.740
Also wir haben alle möglichen Dinge

01:03:50.740 --> 01:03:52.300
drinnen, wie das

01:03:52.300 --> 01:03:54.020
Fail-Checking und so weiter.

01:03:54.940 --> 01:03:56.440
Aber das funktioniert ganz gut.

01:03:57.240 --> 01:03:58.480
Ja, ich glaube,

01:03:58.480 --> 01:04:00.560
das ist einfach auch so ein Thema, was man lernen muss.

01:04:00.660 --> 01:04:02.780
Das ist halt einfach noch eine weitere Ebene

01:04:02.780 --> 01:04:04.600
von dieser

01:04:04.600 --> 01:04:06.360
Async-Sache.

01:04:07.400 --> 01:04:08.400
Ja, das sind immer noch so viele

01:04:08.400 --> 01:04:10.540
Ebenen inzwischen. Ganz unten hast du

01:04:10.540 --> 01:04:12.200
Async, dann hast du Threads, dann hast du

01:04:12.200 --> 01:04:13.740
Multiprocessing und oben drüber.

01:04:13.740 --> 01:04:16.340
Wir verwenden es gar nicht Async, wir verwenden das wirklich

01:04:16.340 --> 01:04:18.540
Multiprocessing. Also du kannst

01:04:18.540 --> 01:04:20.460
Celery mit Multiprocessing auch verwenden.

01:04:21.280 --> 01:04:22.460
Ja, klar. Das ist halt über

01:04:22.460 --> 01:04:24.320
mehrere Rechner verteilt.

01:04:24.320 --> 01:04:26.440
Das ist die nächsthöhere Ebene

01:04:26.440 --> 01:04:28.500
von diesen ganzen

01:04:28.500 --> 01:04:30.400
Parallel-Compute-Sachen.

01:04:30.540 --> 01:04:32.700
die sind alle kompliziert und dann kann man eigentlich

01:04:32.700 --> 01:04:34.660
irgendwie nicht erwarten, dass das

01:04:34.660 --> 01:04:36.680
auf der Ebene auf einmal simpel wird, aber

01:04:36.680 --> 01:04:37.680
ja gut.

01:04:38.600 --> 01:04:40.200
Es ist halt was, was man lernen muss und

01:04:40.200 --> 01:04:42.720
oder was man lernen kann und

01:04:42.720 --> 01:04:44.340
ich habe da

01:04:44.340 --> 01:04:45.820
eigentlich ganz gute Erfahrungen gemacht.

01:04:46.840 --> 01:04:48.800
Aber es hängt auch von der Systemart

01:04:48.800 --> 01:04:49.140
ab, ja.

01:04:50.340 --> 01:04:52.400
Und es hängt auch davon ab, wie man die

01:04:52.400 --> 01:04:54.480
Bauteile benutzt. Die Bauteile an sich sind ja

01:04:54.480 --> 01:04:56.420
sehr, sehr stabil. Wenn man jetzt ein Redis

01:04:56.420 --> 01:04:58.560
oder ein, was weiß ich, was ihr verwendet,

01:04:58.620 --> 01:05:00.480
RabbitMQ oder ZeroMQ

01:05:00.480 --> 01:05:02.300
oder was auch immer, die sind ja

01:05:02.300 --> 01:05:03.960
extrem stabil. Also

01:05:03.960 --> 01:05:06.200
bei einem anderen Kundenprojekt haben wir einen

01:05:06.200 --> 01:05:07.320
RabbitMQ-Server,

01:05:08.400 --> 01:05:10.300
der läuft seit, keine Ahnung,

01:05:10.380 --> 01:05:12.360
acht Jahren unterbrechungsfrei und

01:05:12.360 --> 01:05:14.420
die Bauteile an sich

01:05:14.420 --> 01:05:15.140
sind schon stabil.

01:05:16.620 --> 01:05:16.680
Nur,

01:05:17.480 --> 01:05:20.180
wie wir das alle wissen, ja,

01:05:20.320 --> 01:05:22.380
ich kann in jeder Programmiersprache schlechte

01:05:22.380 --> 01:05:23.560
Programme schreiben und

01:05:23.560 --> 01:05:26.340
ich kann auch schlechte verteilte Programme schreiben,

01:05:26.480 --> 01:05:26.900
wenn es sein muss.

01:05:28.620 --> 01:05:30.420
Auf alle Fälle, ja.

01:05:31.460 --> 01:05:55.160
Ja, vielleicht, genau. Wie ist das eigentlich mit Benutzerfeedback? Im Grunde, wenn man jetzt irgendwie Dinge verbessern will, dann ist man ja darauf angewiesen, diese ganzen subjektiven Geschichten, die wir eben auch schon da angesprochen hatten, die spielen da ja auch eine große Rolle.

01:05:55.160 --> 01:05:57.120
und wenn jetzt, jetzt weiß man aber

01:05:57.120 --> 01:05:59.120
vielleicht gar nicht so genau, wenn jetzt

01:05:59.120 --> 01:06:01.320
aus quasi

01:06:01.320 --> 01:06:03.280
Leute Feedback geben, weil sie das

01:06:03.280 --> 01:06:05.360
anders gewohnt sind oder so, wie man das unterscheidet

01:06:05.360 --> 01:06:07.200
von, da ist jetzt, hat irgendwas nicht richtig

01:06:07.200 --> 01:06:08.700
funktioniert oder so, da muss man ja wahrscheinlich,

01:06:09.180 --> 01:06:10.860
ich weiß auch gar nicht, in welchen Märkten oder

01:06:10.860 --> 01:06:13.240
wo Aufforderung überall benutzt wird,

01:06:13.320 --> 01:06:15.260
das ist ja dann wahrscheinlich auch unterschiedlich,

01:06:15.580 --> 01:06:17.040
auch je nach Kontext nochmal

01:06:17.040 --> 01:06:19.080
unterschiedlich, das ist wahrscheinlich gar nicht so

01:06:19.080 --> 01:06:21.180
einfach, das dann wieder einfließen

01:06:21.180 --> 01:06:21.620
zu lassen.

01:06:24.180 --> 01:06:24.620
Ja,

01:06:25.160 --> 01:06:49.000
Bei solchen Sachen ist es natürlich schwierig, aber deswegen versuchen wir eigentlich natürlich möglichst wenig subjektive oder künstlerische Sachen zu machen, auch wenn es natürlich nicht wirklich geht, aber gewisses Feedback ist natürlich leicht zu verstehen, wenn der sagt, okay, da ist da ein neues nicht rausgelöscht worden oder da ist irgendwas falsch rausgelöscht worden, dann kann man das natürlich leicht nachvollziehen.

01:06:49.900 --> 01:06:51.860
dass irgendwer subjektiv

01:06:51.860 --> 01:06:54.040
ein anderes EQing haben will,

01:06:54.900 --> 01:06:56.020
das kann es immer geben.

01:06:56.260 --> 01:06:57.880
Da werden wir auch nie was dagegen

01:06:57.880 --> 01:06:59.560
machen können. Wahrscheinlich, man kann nur eine gewisse

01:06:59.560 --> 01:07:01.720
Anzahl an Varianten anbieten und

01:07:01.720 --> 01:07:03.280
irgendwann ist halt einmal Schluss.

01:07:03.920 --> 01:07:05.560
Dann muss man es halt selber filtern

01:07:05.560 --> 01:07:07.520
und das geht ja bei uns auch, dass wir halt

01:07:07.520 --> 01:07:09.560
einfach, dass man das Filtering deaktiviert

01:07:09.560 --> 01:07:11.660
und man hat halt selber das gefiltert, wie man es haben will.

01:07:12.580 --> 01:07:12.900
Aber

01:07:12.900 --> 01:07:14.920
das kommt jetzt auch nicht so

01:07:14.920 --> 01:07:17.120
extrem oft vor, muss ich sagen.

01:07:17.340 --> 01:07:19.100
Also es ist schon eher eindeutig dann quasi,

01:07:19.300 --> 01:07:20.980
wenn Leute, ja, okay.

01:07:21.760 --> 01:07:21.820
Ja.

01:07:23.660 --> 01:07:24.520
Und aus dem Feedback,

01:07:24.720 --> 01:07:27.200
das ist für uns natürlich extrem wichtig, also

01:07:27.200 --> 01:07:29.220
da lernen wir halt extrem viel, wenn wir

01:07:29.220 --> 01:07:31.320
Fehler haben, dann führt man das wieder

01:07:31.320 --> 01:07:33.140
zu den Trainingsdaten dazu und so weiter.

01:07:33.700 --> 01:07:35.220
Können die Klassifikatoren wieder damit

01:07:35.220 --> 01:07:35.680
trainieren.

01:07:37.100 --> 01:07:39.240
Warum habt ihr das noch nicht live im Einsatz

01:07:39.240 --> 01:07:41.120
eigentlich? Was live im Einsatz?

01:07:41.200 --> 01:07:43.160
Also jetzt beispielsweise auch von euch als Plugin

01:07:43.160 --> 01:07:44.540
in meiner DAW irgendwie.

01:07:45.180 --> 01:07:46.400
So, den Weg können wir auch gehen, ja.

01:07:47.440 --> 01:07:51.700
Ja, weil wir eigentlich vom Offline-Konzept her kommen

01:07:51.700 --> 01:07:56.800
und unsere Algorithmen halt alle drauf aufgebaut sind,

01:07:56.900 --> 01:07:57.960
dass es offline funktioniert.

01:07:58.800 --> 01:08:01.360
Bei Live bräuchtest du natürlich eine viel kleinere Latenz.

01:08:02.980 --> 01:08:05.220
Wäre mit einigen Algorithmen eh möglich.

01:08:05.660 --> 01:08:11.100
Also zum Beispiel denoising oder solche Sachen.

01:08:12.200 --> 01:08:13.420
Oder Filtering natürlich.

01:08:14.360 --> 01:08:16.840
Aber ja, alles können wir auch nicht machen.

01:08:17.440 --> 01:08:22.000
Das Problem ist eigentlich, dass du halt spezielle Hardware dafür brauchst.

01:08:22.080 --> 01:08:26.260
Wenn du es jetzt live machen willst, kannst du jetzt entweder einen Web-Service anbieten,

01:08:26.380 --> 01:08:29.000
der das live macht, was wahrscheinlich nicht so interessant ist.

01:08:29.600 --> 01:08:32.180
Das heißt, wenn, dann müsstest du eine Standalone-Lösung haben.

01:08:33.660 --> 01:08:37.760
Die muss dementsprechend gut funktionieren jetzt auf allen Systemen

01:08:37.760 --> 01:08:40.280
mit der beschränkten Hardware, die man dort hat.

01:08:40.280 --> 01:08:45.080
Oder man hat spezielle Systeme mit GPUs oder M3-Chips, was auch immer,

01:08:45.520 --> 01:08:46.660
wo das sicher ein bisschen besser geht.

01:08:46.780 --> 01:08:50.840
aber es ist halt vor allem in der momentanen Phase noch ein bisschen schwieriger.

01:08:50.960 --> 01:08:53.280
Also im Moment entwickeln sich die Modelle ja so schnell weiter,

01:08:53.520 --> 01:08:55.260
also man braucht so viel Hardware dafür,

01:08:55.980 --> 01:08:59.060
das wird in ein paar Jahren sicher wieder anders ausschauen, glaube ich mal.

01:08:59.140 --> 01:09:01.160
Weil dann wird sich das so ein bisschen eingependelt haben,

01:09:01.160 --> 01:09:06.500
dann wird da mehr Hardware dafür verfügbar sein auf normalen Standrechnern.

01:09:06.560 --> 01:09:08.300
Dann wird sicher irgendwann wieder die Welle kommen,

01:09:08.460 --> 01:09:14.540
wo diese ganzen Modelle dann auf den Personal Computer wieder überschwemmen oder überschwappen.

01:09:15.480 --> 01:09:17.220
Aber im Moment ist es halt noch ein bisschen schwierig.

01:09:18.420 --> 01:09:21.680
Ja, also was ich schon gerne hätte, wäre sozusagen in den AirPods.

01:09:21.880 --> 01:09:23.080
Da gibt es ja auch so einen Transparenzmodus.

01:09:25.560 --> 01:09:28.780
Da jetzt statt einfach nur, dass das ein bisschen lauter oder leiser wird,

01:09:28.860 --> 01:09:32.300
wenn es Nebengeräusche gibt, dass das dann so richtig schön klar wird.

01:09:32.380 --> 01:09:33.080
Das wäre natürlich toll.

01:09:33.500 --> 01:09:34.840
Und man könnte ja auf dem Handy das auch irgendwie...

01:09:34.840 --> 01:09:35.040
Podcast-Modus.

01:09:35.300 --> 01:09:35.760
Ja, genau.

01:09:36.360 --> 01:09:37.700
Da kann man natürlich auch die Modelle laufen lassen.

01:09:38.360 --> 01:09:40.620
Aber ja gut, wahrscheinlich ist das alles nicht so ganz einfach.

01:09:40.900 --> 01:09:43.000
Da tauscht man bestimmt auch für Nose-Canceling auch wieder, ne?

01:09:43.000 --> 01:09:44.460
Wenn du es halt dann einfach umdrehst.

01:09:45.620 --> 01:09:47.320
Ja, Hörgeräte, die sind voll in dieser

01:09:47.320 --> 01:09:48.380
Entwicklung dabei.

01:09:48.900 --> 01:09:49.900
Die machen eh das.

01:09:50.680 --> 01:09:53.120
Da ist halt die Arbeit,

01:09:53.260 --> 01:09:55.140
dass du die Modelle,

01:09:55.240 --> 01:09:57.300
die es gibt, meistens so effizient

01:09:57.300 --> 01:09:58.740
wie möglich hinkriegst.

01:09:59.520 --> 01:10:01.440
Da geht es halt eher mehr um

01:10:01.440 --> 01:10:03.320
Effizienz-Tuning für

01:10:03.320 --> 01:10:05.520
eine bestimmte Plattform, dann im Endeffekt

01:10:05.520 --> 01:10:07.220
für den Chip, was er in seinem

01:10:07.220 --> 01:10:07.840
Hörgerät hat.

01:10:08.880 --> 01:10:11.340
Und natürlich Akku schonen und so weiter,

01:10:11.440 --> 01:10:12.920
weil das ist natürlich wichtig für Hörgeräte.

01:10:13.000 --> 01:10:15.260
Aber ja, im Moment sind wir halt

01:10:15.260 --> 01:10:17.060
mehr so in einer Phase, dass wir gerade noch

01:10:17.060 --> 01:10:19.340
dabei sind, also jetzt nicht nur wir persönlich,

01:10:19.500 --> 01:10:21.040
sondern generell schätze ich halt,

01:10:21.740 --> 01:10:23.240
dass man mehr dabei ist,

01:10:23.300 --> 01:10:25.180
die Modelle weiterzuentwickeln. Irgendwann wird

01:10:25.180 --> 01:10:26.840
es eh saturieren, weil dann werden ja alle

01:10:26.840 --> 01:10:28.940
einmal gut genug sein für die meisten

01:10:28.940 --> 01:10:29.840
Tasks, sage ich mal.

01:10:30.700 --> 01:10:33.080
Und dann wird sicher wieder die andere Welle kommen, wo

01:10:33.080 --> 01:10:35.440
das wieder zurückgeht, glaube ich.

01:10:36.400 --> 01:10:37.220
Aber wir werden sehen.

01:10:37.620 --> 01:10:39.220
So Exploration versus

01:10:39.220 --> 01:10:41.340
Exploitation und momentan sind wir im Exploration

01:10:41.340 --> 01:10:43.300
Modus, wo wir versuchen rauszufinden, was man

01:10:43.300 --> 01:10:45.140
überhaupt alles denn noch damit machen kann.

01:10:45.820 --> 01:10:47.140
Und genau, ja.

01:10:48.100 --> 01:10:49.420
Und wenn es dann aber gut genug ist,

01:10:49.500 --> 01:10:51.460
wird es abgespeckt, dass es

01:10:51.460 --> 01:10:53.300
auf allen möglichen Plattformen läuft,

01:10:53.420 --> 01:10:55.240
wahrscheinlich. Ja, also ich bin so ein,

01:10:55.300 --> 01:10:57.220
wie gesagt, so ein bisschen erschlagen von diesem

01:10:57.220 --> 01:10:58.900
ganzen Thema. Da gibt es

01:10:58.900 --> 01:11:01.480
irgendwie so viele Sachen, wo man in die Tiefe

01:11:01.480 --> 01:11:02.100
gehen könnte,

01:11:03.400 --> 01:11:04.780
wo ich aber jetzt gar nicht den,

01:11:05.580 --> 01:11:07.320
wo ich gar nicht weiß, wie man da in die Tiefe gehen

01:11:07.320 --> 01:11:08.820
könnte, weil sie mir sich nicht erschließen.

01:11:09.560 --> 01:11:24.100
Und ich finde es super spannend, dass das einfach so ein ganzes Riesenfeld ist, was es gibt und was man braucht und wo es auch viele Leute gibt, die daran arbeiten und auch viele Profis gibt, die daran arbeiten.

01:11:25.080 --> 01:11:35.400
Ich habe selbst, mein Cousin hat eine Konzertagentur, also die machen da auch ganz viel im Live-Bereich und im Analog-Bereich, sage ich mal.

01:11:36.900 --> 01:11:38.120
Und ich habe da überhaupt

01:11:38.120 --> 01:11:38.800
keine Ahnung.

01:11:39.100 --> 01:11:42.300
Ich habe so wenig Ahnung davon, dass ich keine sinnvollen

01:11:42.300 --> 01:11:43.160
Fragen stellen kann.

01:11:43.980 --> 01:11:45.880
Und ich glaube, an dem Punkt sind wir jetzt irgendwie so, oder?

01:11:45.940 --> 01:11:48.180
Dass wir so die grobe Form

01:11:48.180 --> 01:11:50.020
abgetastet haben von diesem System

01:11:50.020 --> 01:11:51.940
und dann haben wir uns schon mal mit der Task Queue beschäftigt,

01:11:52.000 --> 01:11:53.200
weil wir da alle was dazu sagen können.

01:11:54.460 --> 01:11:54.780
Aber

01:11:54.780 --> 01:11:57.740
so die richtigen Fragen kann man gar nicht mehr stellen.

01:11:59.860 --> 01:12:02.000
So geht es mir jetzt gerade. Ich weiß nicht, wie es euch geht.

01:12:03.020 --> 01:12:03.960
Ja, also genau.

01:12:04.040 --> 01:12:05.420
Ich würde dann eher so etwas fragen,

01:12:05.540 --> 01:12:07.640
dann vielleicht wie, was würdest

01:12:07.640 --> 01:12:09.540
du denn denken, sind die interessanten Entwicklungen

01:12:09.540 --> 01:12:11.020
in diesem ganzen Audiobereich,

01:12:11.740 --> 01:12:13.640
in welche Richtung können es da gehen, oder

01:12:13.640 --> 01:12:15.600
gibt es irgendwelche, wird es jetzt

01:12:15.600 --> 01:12:17.540
erstmal noch eine Weile quasi

01:12:17.540 --> 01:12:19.500
mehr Modelle

01:12:19.500 --> 01:12:21.000
geben,

01:12:21.760 --> 01:12:22.580
ja, ich weiß nicht genau,

01:12:23.580 --> 01:12:25.060
oder wird das,

01:12:25.240 --> 01:12:26.500
ja, wird das irgendwann

01:12:26.500 --> 01:12:28.940
sowieso alles,

01:12:29.940 --> 01:12:31.440
naja, das, ja, also,

01:12:31.700 --> 01:12:33.620
ja, keine Ahnung, ich weiß gar nicht, welche Frage ich stellen

01:12:33.620 --> 01:12:35.420
wollte. Nein, gerne.

01:12:35.700 --> 01:12:37.500
Also, ja klar, es gibt jetzt natürlich

01:12:37.500 --> 01:12:39.540
viele, alle möglichen neuen Modelle

01:12:39.540 --> 01:12:40.780
von vielen Firmen.

01:12:42.340 --> 01:12:43.620
Was natürlich ein großes

01:12:43.620 --> 01:12:45.160
Thema ist, was wir jetzt gar nicht

01:12:45.160 --> 01:12:47.400
angegangen sind bis jetzt,

01:12:47.580 --> 01:12:49.540
oder wahrscheinlich auch nicht gelernt, ist eben

01:12:49.540 --> 01:12:51.800
Audiosynthese, wie ihr sicher alle wisst.

01:12:52.180 --> 01:12:53.560
Ja. Eleven Labs und so

01:12:53.560 --> 01:12:54.680
weiter. Oh ja. Also,

01:12:54.960 --> 01:12:57.300
funktioniert ja schon echt extrem gut

01:12:57.300 --> 01:12:58.840
und

01:12:58.840 --> 01:13:01.420
ja, wird sicher viel,

01:13:01.420 --> 01:13:03.440
viel Content über solche

01:13:03.440 --> 01:13:14.660
wege produziert werden dann anderes großes thema ist natürlich musik da gibt es relativ wenig im

01:13:14.660 --> 01:13:20.260
moment also im moment stürzen sich alle auf die sprachanwendungen bei musik gibt es echt sehr

01:13:20.260 --> 01:13:27.200
wenig was es gibt sind so stem separation musikmodelle also wo man verschiedene instrumente

01:13:27.200 --> 01:13:33.080
von einem mix extrahiert funktioniert meistens auch nur gut wenn man so vier instrumente extrahiert

01:13:33.080 --> 01:13:39.140
oder vielleicht ein bisschen mehr, also Bass, Schlagzeug, Gesang, Klavier oder Gitarre halt,

01:13:39.460 --> 01:13:42.780
die klassischen Setups.

01:13:43.780 --> 01:13:49.080
Dann auch gibt es noch sehr wenig in der Richtung von Musik-Restoration oder Musik-Aufbereitung,

01:13:49.780 --> 01:13:54.780
es gibt so Online-Mastering-Services schon sehr lang, einige, die machen natürlich ein bisschen was in diese Richtung,

01:13:55.420 --> 01:14:00.300
aber jetzt so spezialisiertere Sachen, also im Prinzip das, was wir da bei Afonik machen,

01:14:00.300 --> 01:14:02.320
wirklich auf Musik umgelegt.

01:14:02.940 --> 01:14:04.740
Gibt es eigentlich noch nicht so wirklich.

01:14:05.380 --> 01:14:07.060
Vielleicht gehen wir auch mal ein bisschen mehr in die Richtung,

01:14:07.180 --> 01:14:07.540
mal schauen.

01:14:08.540 --> 01:14:13.220
Dann bei Musik, was auch komisch ist,

01:14:13.320 --> 01:14:15.540
was es nicht so wirklich noch gibt,

01:14:16.220 --> 01:14:20.700
ist wiederum bei Sprache ist ja Transkription natürlich das heiße Thema.

01:14:21.080 --> 01:14:23.440
Ist jetzt sehr viel weitergegangen in den letzten Jahren.

01:14:24.100 --> 01:14:28.500
Analog dazu für Musik, Transkription gibt es wiederum sehr wenig.

01:14:29.140 --> 01:14:30.840
Also Noten erzeugen.

01:14:31.120 --> 01:14:31.420
Genau.

01:14:32.920 --> 01:14:35.020
Macht da nicht einer der

01:14:35.020 --> 01:14:37.500
ursprünglich

01:14:37.500 --> 01:14:39.040
Entwickler von Django?

01:14:40.220 --> 01:14:41.080
Nee, nee, der

01:14:41.080 --> 01:14:42.620
Adrian Holowaty.

01:14:43.280 --> 01:14:43.900
Ah, der Adrian.

01:14:44.300 --> 01:14:47.100
Der macht OCR, glaube ich, für Noten.

01:14:47.960 --> 01:14:49.540
Ja, OCR ist wieder ein anderes Thema.

01:14:49.640 --> 01:14:51.240
Ist nochmal ein anderes Thema, aber möglicherweise

01:14:51.240 --> 01:14:53.020
auch Noten aus Musik.

01:14:53.020 --> 01:14:54.520
Das weiß ich aber gar nicht, ob sie das auch machen.

01:14:55.200 --> 01:14:56.980
Ja, ich glaube nicht. Ich glaube, das ist

01:14:56.980 --> 01:14:57.620
nur OCR.

01:14:58.240 --> 01:15:00.760
Ich habe es nur so

01:15:00.760 --> 01:15:02.960
quer gelesen, aber ich glaube, es ist hauptsächlich OCR.

01:15:04.560 --> 01:15:05.240
Also ich habe das jetzt

01:15:05.240 --> 01:15:06.600
jetzt wieder mal getestet, weil

01:15:06.600 --> 01:15:09.260
einfach nur Band, Privat

01:15:09.260 --> 01:15:10.940
und so weiter, habe ich gedacht, mal ein bisschen was

01:15:10.940 --> 01:15:12.940
transkribieren lassen, aber

01:15:12.940 --> 01:15:14.980
da habe ich irgendwie nichts Gescheites gefunden.

01:15:16.040 --> 01:15:16.700
Obwohl es ja ähnliche

01:15:16.700 --> 01:15:18.900
Techniken gibt. Packt der Jochen diesen Link in die

01:15:18.900 --> 01:15:20.960
Shownotes? Ja. Ja, das macht er so wieder.

01:15:21.900 --> 01:15:22.060
Ja.

01:15:22.060 --> 01:15:24.120
Ja, ich meine,

01:15:24.500 --> 01:15:26.180
genau, ich brauche

01:15:26.180 --> 01:15:27.720
mir ja nur irgendwie

01:15:27.720 --> 01:15:29.900
Eingabe, Ausgabe und ein bisschen GPU,

01:15:30.100 --> 01:15:31.020
dann kannst du...

01:15:31.020 --> 01:15:32.880
Ja, kann das sein.

01:15:35.460 --> 01:15:38.060
Der Schwergewichtige ist nur, was du da gerade gesagt hast.

01:15:40.200 --> 01:15:41.800
Und Noten mit Aufnahmen

01:15:41.800 --> 01:15:43.680
dazu sollte es eigentlich auch geben.

01:15:45.180 --> 01:15:45.980
Aber ja.

01:15:48.320 --> 01:15:48.860
Insofern

01:15:48.860 --> 01:15:51.640
kann wir ein neues Projekt machen.

01:15:54.900 --> 01:15:55.620
Herzlichen Dank,

01:15:55.840 --> 01:15:56.320
lieber Georg.

01:15:56.500 --> 01:15:58.720
Ja, ich weiß nicht, wollten wir noch irgendwie was picken oder so?

01:15:58.960 --> 01:15:59.940
Oder sparen wir uns das diesmal?

01:16:01.040 --> 01:16:01.800
Wir sparen uns das diesmal.

01:16:01.820 --> 01:16:02.400
Wir sind eh schon spät.

01:16:02.740 --> 01:16:02.880
Genau.

01:16:03.340 --> 01:16:04.440
Ach doch, nee, ich mach noch ganz kurz.

01:16:04.560 --> 01:16:09.360
Ich hab gesehen, es gibt das Update von Django irgendwie.

01:16:09.480 --> 01:16:11.940
Boost your Django Developer Experience von Adam Johnson.

01:16:12.840 --> 01:16:13.760
Die E-Mail hab ich auch gekriegt.

01:16:13.940 --> 01:16:14.460
Ja, ja, genau.

01:16:14.460 --> 01:16:20.280
Und jetzt, wenn man sich quasi da denkt, irgendwie hat man vielleicht mal kurz Zeit nochmal.

01:16:20.480 --> 01:16:22.480
Das lohnt sich, weil da ist doch einiges dazugekommen.

01:16:22.620 --> 01:16:23.420
Also es war ein großes Update.

01:16:24.200 --> 01:16:26.040
Da ist jetzt auch so viel Debugging drin

01:16:26.040 --> 01:16:28.000
und so und ja, das Buch

01:16:28.000 --> 01:16:28.960
fand ich, ja.

01:16:30.040 --> 01:16:31.720
Und er verkauft auch gerade, er macht gerade,

01:16:32.360 --> 01:16:34.100
gibt es das Sonderangebot noch, wo er irgendwie

01:16:34.100 --> 01:16:35.960
drei solche Pakete

01:16:35.960 --> 01:16:38.000
zusammen hat? Stand in dieser

01:16:38.000 --> 01:16:39.960
E-Mail drin. Keine Ahnung, aber wenn man die

01:16:39.960 --> 01:16:42.040
Episode im halben Jahr hört, dann ist es wahrscheinlich

01:16:42.040 --> 01:16:44.020
nicht mehr. Ja gut,

01:16:44.560 --> 01:16:45.920
wenn es das noch, das ist jetzt

01:16:45.920 --> 01:16:47.600
für die schnellen Hörer, das ist jetzt ein Anreiz,

01:16:47.720 --> 01:16:49.260
unsere Episoden immer sofort zu hören.

01:16:50.080 --> 01:16:51.040
Immer sofort.

01:16:53.460 --> 01:16:55.320
Wir werden diesen Link finden, sofern es

01:16:55.320 --> 01:16:57.160
ihn noch gibt. Ja, vielen Dank, Georg,

01:16:57.260 --> 01:16:59.000
für deine Einblicke auf Phonica.

01:16:59.300 --> 01:17:00.600
War großartig. Vielen Dank, Georg.

01:17:00.820 --> 01:17:01.920
Vielen Dank für die Einladung.

01:17:03.040 --> 01:17:04.520
Alles klar. Bleibt uns gewogen.

01:17:04.960 --> 01:17:06.940
Hallo at peisenpodcast.de für alles Feedback und

01:17:06.940 --> 01:17:09.060
kommt zu unserem Treffen. Ja, wo wir noch

01:17:09.060 --> 01:17:10.840
ein bisschen rausfinden, wann und wo wir das machen, aber

01:17:10.840 --> 01:17:13.140
das machen wir dann. Bleibt hier bei uns im Rheinland.

01:17:13.260 --> 01:17:14.840
Tut mir leid, lieber Herr, du musst anreisen.

01:17:15.940 --> 01:17:17.280
Eine gute Gelegenheit,

01:17:17.380 --> 01:17:18.680
deine alte Heimat kennenzulernen.

01:17:19.700 --> 01:17:20.780
Aufruf an alle Hörer,

01:17:20.780 --> 01:17:22.720
jetzt sofort abstimmen für Stück.

01:17:22.740 --> 01:17:24.840
Ja, ihr könnt eine Mitfahrgelegenheit

01:17:24.840 --> 01:17:26.040
und eine Fahrgemeinschaft bilden.

01:17:26.060 --> 01:17:26.980
Ich kann Gras anbieten.

01:17:29.280 --> 01:17:31.160
Okay, dann kommen wir auch direkt an die Adria.

01:17:31.400 --> 01:17:31.600
Na gut.

01:17:33.020 --> 01:17:34.600
Viel Spaß, hört uns, bis bald.

01:17:34.920 --> 01:17:35.140
Tschüss.
