WEBVTT 00:00:00.000 --> 00:00:03.740 Hallo, liebe Hörerinnen und Hörer. Willkommen im Python-Podcast, Episode 61. 00:00:03.740 --> 00:00:08.960 Wirklich 61. Wir haben eben noch ein bisschen drüber zu erhalten. 00:00:08.960 --> 00:00:11.640 Heute geht es um Auphonikin. Hallo, Jochen. 00:00:11.640 --> 00:00:14.660 Hallo, Dominik. Herzlich willkommen und herzlich willkommen, Johannes. 00:00:14.660 --> 00:00:15.560 Hi, Johannes. 00:00:15.560 --> 00:00:16.020 Auch wieder mit dabei. 00:00:16.020 --> 00:00:16.320 Ja. 00:00:16.320 --> 00:00:17.080 Hallo zusammen. 00:00:17.080 --> 00:00:19.240 Wir haben ja schon ein paar Mal hier gehabt, glaube ich. Ihr kennt ihn. 00:00:19.240 --> 00:00:19.800 Genau. 00:00:19.800 --> 00:00:22.120 Und wir haben auch einen besonderen Gast heute wieder. 00:00:22.120 --> 00:00:23.220 Hallo, Georg. 00:00:23.220 --> 00:00:25.700 Hallo, danke für die Einladung. 00:00:25.700 --> 00:00:27.520 Ja, schön, dass du da bist. 00:00:29.340 --> 00:00:31.800 Eine Vorstellung machen wir vielleicht bestimmt noch später, wenn wir zur Welt kommen. 00:00:31.800 --> 00:00:33.540 Vielleicht fangen wir mit unserer klassischen Struktur an. 00:00:33.540 --> 00:00:36.040 Wir haben ja immer besonders viel Struktur im Podcast, habe ich gehört, Jochen. 00:00:36.040 --> 00:00:36.320 Ja? 00:00:36.320 --> 00:00:36.800 Ja. 00:00:36.800 --> 00:00:37.560 Okay. 00:00:37.560 --> 00:00:40.360 Vielleicht als erstes News. Für alle, die es noch nicht mitbekommen haben, wir planen 00:00:40.360 --> 00:00:41.860 ein HörerInnen-Treffen. 00:00:41.860 --> 00:00:44.740 Ja, wir hatten ja letztes Mal da aufgerufen, sich zu melden. 00:00:44.740 --> 00:00:47.300 In der Region Rheinland. Es haben sich tatsächlich einige Leute schon gemeldet. 00:00:47.300 --> 00:00:51.400 Genau. Wir haben gesagt, ihr solltet uns auf jeden Fall immer noch eine Mail schreiben, 00:00:51.400 --> 00:00:54.480 damit wir das dann ordentlich zählen können. Und genau einer hat uns eine Mail geschrieben. 00:00:54.480 --> 00:00:56.140 Die anderen Leute haben sich über alle Kanäle gemeldet. 00:00:56.140 --> 00:00:58.680 Manche haben sich auf LinkedIn gemeldet, manche haben sich über 00:00:58.680 --> 00:01:01.260 Discord gemeldet, manche haben sich einfach nur persönlich gemeldet. 00:01:01.260 --> 00:01:03.740 Aber wir kriegen das immer wieder. 00:01:03.740 --> 00:01:05.520 Also, wer Lust hat, sagt auf jeden Fall Bescheid. Wir würden uns freuen. 00:01:05.520 --> 00:01:09.680 Und ich habe gehört, dass die Stuttgart-Fraktion, die Süddeutschland-Fraktion, 00:01:09.680 --> 00:01:11.480 die ist gerade stark in Führung. 00:01:11.480 --> 00:01:12.380 Macht ihr eine Frage? 00:01:12.380 --> 00:01:13.920 Nein, leider nicht. 00:01:13.920 --> 00:01:16.780 Diese Gerüchte kann ich nicht bestätigen. 00:01:16.780 --> 00:01:20.500 Also, auf LinkedIn hat einer gesagt, er würde gerne das lieber in Stuttgart 00:01:20.500 --> 00:01:24.320 haben als in Düsseldorf. Aber ansonsten, zum Beispiel auf Spotify 00:01:24.320 --> 00:01:27.120 wollten vier Düsseldorf und keiner Stuttgart. 00:01:28.020 --> 00:01:29.560 Ja, und bei uns im Discord auch. 00:01:29.560 --> 00:01:32.920 Ja, also, tut mir leid, du musst leider anreisen. 00:01:32.920 --> 00:01:36.220 Aber wir müssen uns halt noch überlegen, wie wir das machen wollen und wo. 00:01:36.220 --> 00:01:40.600 Also, ist jetzt aber letzte Chance für die Süddeutschland-Hörer. 00:01:40.600 --> 00:01:43.180 Ja, okay, wenn man jetzt wirklich, wirklich will, dass es in Stuttgart stattfindet, 00:01:43.180 --> 00:01:43.680 könnte man nochmal. 00:01:43.680 --> 00:01:45.120 Ihr habt noch die Chance. 00:01:45.120 --> 00:01:45.540 Ja. 00:01:45.540 --> 00:01:47.060 Stimmen Sie jetzt ab. 00:01:47.060 --> 00:01:49.060 Die Telefonleitungen sind geschaltet. 00:01:49.060 --> 00:01:54.080 Die Spuren sind scharf gestellt am Mischpult, mit dem wir nie Probleme haben. 00:01:54.080 --> 00:01:54.920 Das war es doch schon wieder. 00:01:54.920 --> 00:01:55.800 Dann bleibt uns gewogen. 00:01:55.800 --> 00:01:57.380 Hallo at PythonPodcast.com.de. 00:01:57.380 --> 00:01:57.960 Haben wir Pics? 00:01:58.280 --> 00:01:58.460 Nein. 00:01:58.460 --> 00:02:01.360 Wir wollten News machen, glaube ich, noch. 00:02:01.360 --> 00:02:02.080 Okay, gut. 00:02:02.080 --> 00:02:05.660 Ich habe, ehrlich gesagt, fast gar nichts. 00:02:05.660 --> 00:02:09.640 Also, es gibt eine neue Rails-Version, die ein bisschen mehr Deployment dazu kann. 00:02:09.640 --> 00:02:11.820 Okay, wir waren, glaube ich, erst vor zwei Wochen News gemacht. 00:02:11.820 --> 00:02:13.500 Und in den letzten zwei Wochen ist nicht so wahnsinnig viel passiert. 00:02:13.500 --> 00:02:14.720 Ja, und es ist nicht so wirklich viel passiert. 00:02:14.720 --> 00:02:15.300 Keine Ahnung warum. 00:02:15.300 --> 00:02:16.840 Dann skippen wir heute die News. 00:02:16.840 --> 00:02:18.080 Oder hast du mit News mitgebracht? 00:02:18.080 --> 00:02:21.120 Oder hat jemand von euch irgendwas Interessantes, was in der Python-Welt passiert ist? 00:02:21.120 --> 00:02:23.120 Nein, ich habe nichts. 00:02:23.120 --> 00:02:27.040 Dann lassen wir einfach den Georg sich selbst vorstellen und ein bisschen was erzählen. 00:02:27.040 --> 00:02:27.900 Das ist eine tolle Idee. 00:02:28.460 --> 00:02:30.620 Obwohl, wir könnten auch einmal noch kurz Werbung machen für uns selber. 00:02:30.620 --> 00:02:32.240 Das ist eine gute Idee. 00:02:32.240 --> 00:02:32.660 Willst du für uns selber Werbung machen? 00:02:32.660 --> 00:02:33.200 Bitte? 00:02:33.200 --> 00:02:34.380 Willst du für uns selber Werbung machen? 00:02:34.380 --> 00:02:34.700 Ja, okay. 00:02:34.700 --> 00:02:36.020 Ja, ganz kurz vielleicht. 00:02:36.020 --> 00:02:38.340 Miet mich, miet mich, miet mich. 00:02:38.340 --> 00:02:39.380 Jetzt hier. 00:02:39.380 --> 00:02:40.620 Ja, wie war das? 00:02:40.620 --> 00:02:43.040 Ja, man kann uns auch mieten. 00:02:43.040 --> 00:02:46.500 Und ich habe gehört, das muss man wiederholen. 00:02:46.500 --> 00:02:48.060 Sonst merken sich die Leute das nicht. 00:02:48.060 --> 00:02:49.720 Deswegen, wir haben das ja schon einmal gemacht. 00:02:49.720 --> 00:02:50.960 Aber einmal ist zu wenig. 00:02:50.960 --> 00:02:53.060 Und deswegen sagen wir das einfach nochmal. 00:02:53.060 --> 00:02:54.920 Also, wenn ihr interessante Projekte habt oder so. 00:02:54.920 --> 00:02:57.360 Die meisten von uns sind irgendwie Freelancer. 00:02:58.020 --> 00:03:02.260 Und auch im Prinzip für schöne Projekte buchbar. 00:03:02.260 --> 00:03:05.900 Und ich wiederhole das jetzt mal in meiner Stimme auch nochmal. 00:03:05.900 --> 00:03:07.820 Auch ich bin mietbar. 00:03:07.820 --> 00:03:10.460 Und immer für interessante Projekte zu haben. 00:03:10.460 --> 00:03:11.420 Ja, wunderbar. 00:03:11.420 --> 00:03:13.000 Und Georg, wie ist das bei dir? 00:03:13.000 --> 00:03:15.120 Bist du auch mietbar oder bist du irgendwo angestellt? 00:03:15.120 --> 00:03:17.620 Wir sind alle mietbar irgendwie, oder? 00:03:17.620 --> 00:03:18.600 Ja, gut. 00:03:18.600 --> 00:03:21.660 Also, ihr wisst ja schon, dass ihr alle für die Werbung im Podcast erst eine Rechnung bekommt. 00:03:21.660 --> 00:03:22.940 Von mir. 00:03:22.940 --> 00:03:25.280 Das zählt. 00:03:25.280 --> 00:03:27.740 Dominik, das war jetzt deine Überleitung. 00:03:28.020 --> 00:03:29.700 Damit du dir den Georg vorstellen kannst. 00:03:29.700 --> 00:03:30.160 Ja. 00:03:30.160 --> 00:03:30.780 Ja, gut, dann. 00:03:30.780 --> 00:03:32.780 Okay, genau. 00:03:32.780 --> 00:03:34.380 Entschuldigung, Georg, bitte. 00:03:34.380 --> 00:03:37.660 Ja, ich bin der Georg, hallo. 00:03:37.660 --> 00:03:45.920 Und, ja, wenn man mich mieten will, ich bin aus Österreich an der slowenischen Grenze, ganz im Süden. 00:03:45.920 --> 00:03:47.380 Da in der Nähe von Graz. 00:03:47.380 --> 00:03:49.440 Und warum bin ich da? 00:03:49.440 --> 00:03:51.960 Also, wir haben so ein Projekt, Afonik nennen sie das. 00:03:51.960 --> 00:03:53.660 Da geht es um Audioverbesserung. 00:03:53.660 --> 00:03:56.480 Vielleicht noch einmal ganz kurz einhaken darf. 00:03:56.480 --> 00:03:58.000 Afonik habt ihr auf jeden Fall schon. 00:03:58.020 --> 00:03:58.520 Schon mal gehört. 00:03:58.520 --> 00:04:03.100 Also, zumindest, wenn ihr unseren Podcast schon mal gehört habt, habt ihr auf jeden Fall Afonik gehört. 00:04:03.100 --> 00:04:03.980 Also, den Effekt zumindest. 00:04:03.980 --> 00:04:08.680 Wir von Anfang an alle unsere Episoden durch Afonik jagen. 00:04:08.680 --> 00:04:08.860 Ja. 00:04:08.860 --> 00:04:10.480 Aha, so gehört. 00:04:10.480 --> 00:04:11.440 Nicht schlecht. 00:04:11.440 --> 00:04:11.700 Ja. 00:04:11.700 --> 00:04:13.040 Ja. 00:04:13.040 --> 00:04:16.760 Also, zuerst mal zu mir. 00:04:16.760 --> 00:04:19.980 Also, ich habe bei uns da in Graz Toningenieur studiert. 00:04:19.980 --> 00:04:26.600 Das ist eine interessante Studie, weil man so Audiosachen und Informatik und Elektrotechnik-Sachen in Kombination quasi hat. 00:04:26.600 --> 00:04:28.000 Also, du hättest das Audio-Problem. 00:04:28.020 --> 00:04:31.600 Was wir am Anfang der Episode hatten, heute sehr viel schneller in den Griff bekommen. 00:04:31.600 --> 00:04:34.420 Deswegen habe ich gesagt, warum verwendet ihr einen Mischpuls? 00:04:34.420 --> 00:04:38.140 Dann hat man keine Probleme, wenn man keines verwendet. 00:04:38.140 --> 00:04:39.420 Wie auch immer. 00:04:39.420 --> 00:04:44.020 Und ja, dann mehr so in die Richtung Informatik. 00:04:44.020 --> 00:04:46.100 Also, alles ein bisschen so kombiniert. 00:04:46.100 --> 00:04:49.860 Also, Audio und Informatik und Machine Learning und so weiter. 00:04:49.860 --> 00:04:55.600 Und dadurch war ich sehr viel Podcast-Hörer immer. 00:04:55.600 --> 00:04:57.600 Und dadurch bin ich dann irgendwie zu... 00:04:58.020 --> 00:05:02.400 Da war Phonic gekommen, wo es eben um die Verbesserung von Audio gegangen ist. 00:05:02.400 --> 00:05:06.880 Und was am Anfang auch noch ganz wichtig war, ist, verschiedene Dateien zu erstellen. 00:05:06.880 --> 00:05:09.780 Sei es MP3, AAC. 00:05:09.780 --> 00:05:11.960 Da hat es ja alle möglichen Formate damals noch gegeben. 00:05:11.960 --> 00:05:14.540 Und die Metadaten korrekt zu haben und so weiter und so fort. 00:05:14.540 --> 00:05:18.360 Und so ist das ganze Projekt sozusagen entstanden. 00:05:18.360 --> 00:05:21.500 Warum jetzt im beiden Podcast, wenn Sie einige fragen. 00:05:21.500 --> 00:05:25.700 Also, bei uns ist ja fast alles mit beiden gemacht. 00:05:25.700 --> 00:05:27.060 Weil... 00:05:27.060 --> 00:05:27.300 Weil... 00:05:27.300 --> 00:05:27.500 Weil... 00:05:28.020 --> 00:05:30.960 Allein schon von der ganzen Algorithmen-Seite ist das alles mit beiden. 00:05:30.960 --> 00:05:32.320 Hat das immer... 00:05:32.320 --> 00:05:33.460 War das immer schon auf beiden. 00:05:33.460 --> 00:05:35.860 Dann das ganze Websystem haben wir auch mit beiden gemacht. 00:05:35.860 --> 00:05:38.700 Da erzählen wir bitte gerne gleich noch ein bisschen ausführlicher drüber. 00:05:38.700 --> 00:05:41.220 Das interessiert unsere Hörerinnen natürlich sehr. 00:05:41.220 --> 00:05:42.380 Glaube ich. 00:05:42.380 --> 00:05:43.260 Vielleicht. 00:05:43.260 --> 00:05:44.540 Ja. 00:05:44.540 --> 00:05:45.540 Okay. 00:05:45.540 --> 00:05:47.740 Ja, das klingt auch gut. 00:05:47.740 --> 00:05:50.200 Und genau. 00:05:50.200 --> 00:05:52.080 Ich weiß nicht, wie kommt denn dann... 00:05:52.080 --> 00:05:53.160 Also, ich habe immer schon... 00:05:53.160 --> 00:05:53.840 Also, ich höre ja... 00:05:53.840 --> 00:05:55.580 Ich habe schon ganz lange immer Podcast gehört. 00:05:55.580 --> 00:05:57.700 Und gefühlt war so... 00:05:57.700 --> 00:05:59.780 Vor allem auch schon relativ früh mit dabei. 00:05:59.780 --> 00:06:01.400 Wie... 00:06:01.400 --> 00:06:03.680 War ein Podcast speziell irgendwie? 00:06:03.680 --> 00:06:09.380 Auch so eine Motivation dafür, irgendwie das zu machen? 00:06:09.380 --> 00:06:11.740 Oder ist das halt irgendwie später dazu gekommen, 00:06:11.740 --> 00:06:15.440 dass das Podcast funktioniert vielleicht? 00:06:15.440 --> 00:06:19.500 Ja, also zuerst... 00:06:19.500 --> 00:06:22.820 Das erste System war quasi explizit für Podcasts, ja. 00:06:22.820 --> 00:06:25.640 Das war der Tim damals, der Tim Britloff, 00:06:25.640 --> 00:06:27.640 der immer gestöhnt hat. 00:06:27.700 --> 00:06:28.980 Er hat gesagt, dass alles so kompliziert ist. 00:06:28.980 --> 00:06:32.220 Und da denkt man sich dann natürlich, 00:06:32.220 --> 00:06:34.080 na okay, da braucht man halt immer so ein Tool. 00:06:34.080 --> 00:06:36.100 Und das hat dann eben so angefangen. 00:06:36.100 --> 00:06:38.600 Zuerst mit dem Leveling, 00:06:38.600 --> 00:06:40.360 dass man eben verschiedene Lautstärken 00:06:40.360 --> 00:06:41.680 von verschiedenen Sprechern 00:06:41.680 --> 00:06:43.960 auf gleiche Levels bringt und so weiter. 00:06:43.960 --> 00:06:46.440 Und dann eben so ein Web-System, 00:06:46.440 --> 00:06:47.940 also so ein Web-Interface dazu. 00:06:47.940 --> 00:06:52.900 Und von dort weg ist es dann halt weiter gewachsen 00:06:52.900 --> 00:06:54.460 in andere Bereiche. 00:06:54.460 --> 00:06:57.340 Der Tim hat das dann eben auch angekündigt. 00:06:57.400 --> 00:06:58.560 Auf seinem Podcast damals. 00:06:58.560 --> 00:07:01.440 Und so sind halt viele andere 00:07:01.440 --> 00:07:03.100 Podcaster auch dazukommen. 00:07:03.100 --> 00:07:05.540 Und dann hat sich das immer sehr schön langsam 00:07:05.540 --> 00:07:06.380 weiter verbreitet. 00:07:06.380 --> 00:07:09.540 Ja, ich glaube, ich habe es auch daher mal gehört, 00:07:09.540 --> 00:07:11.060 denke ich, wahrscheinlich, ja. 00:07:11.060 --> 00:07:12.640 Genau, ja. 00:07:12.640 --> 00:07:17.060 Ja, das ist ja auch interessant. 00:07:17.060 --> 00:07:19.120 Ich habe auch den Eindruck, 00:07:19.120 --> 00:07:21.000 dass ihr da am Anfang 00:07:21.000 --> 00:07:22.740 relativ viel so Scikit-Learn 00:07:22.740 --> 00:07:24.040 irgendwie verwendet habt zumindest 00:07:24.040 --> 00:07:26.640 für irgendwie diese ganzen... 00:07:27.400 --> 00:07:28.600 Anpassungen. 00:07:28.600 --> 00:07:31.740 Ja, also wir haben ganz am Anfang 00:07:31.740 --> 00:07:34.600 so viel mit NumPy, Scikit-Learn, 00:07:34.600 --> 00:07:36.600 ja, SciPy, also diese ganzen 00:07:36.600 --> 00:07:38.680 Signalfarbe-Docs 00:07:38.680 --> 00:07:39.980 und Machine Learning Packages, 00:07:39.980 --> 00:07:41.800 was es eben damals so gegeben hat. 00:07:41.800 --> 00:07:44.680 Und das war eh... 00:07:44.680 --> 00:07:46.100 Vielleicht kannst du kurz sagen, wann damals war? 00:07:46.100 --> 00:07:48.560 Damals, also gestartet 00:07:48.560 --> 00:07:50.920 sind wir 2013, 00:07:50.920 --> 00:07:52.680 wenn ich das richtig im Kopf habe. 00:07:52.680 --> 00:07:54.780 Also es ist bald das zwölfte Jahr. 00:07:54.780 --> 00:07:56.580 Schon ein bisschen was Errotes dort. 00:07:56.580 --> 00:07:57.100 Ja, das... 00:07:57.100 --> 00:08:00.940 Das waren halt die frühen 2010er-Jahre quasi, 00:08:00.940 --> 00:08:03.160 wo die erste Version entstanden ist. 00:08:03.160 --> 00:08:05.580 Und... 00:08:05.580 --> 00:08:06.920 Ja, was... 00:08:06.920 --> 00:08:09.000 Ich schätze mal, eure Hörer kennen eh 00:08:09.000 --> 00:08:11.120 diese ganzen Packages, also NumPy, 00:08:11.120 --> 00:08:13.120 so Array-Processing 00:08:13.120 --> 00:08:15.620 und SciPy 00:08:15.620 --> 00:08:16.940 setzt eben drauf auf, 00:08:16.940 --> 00:08:19.120 hat ein paar zusätzliche Algorithmen, 00:08:19.120 --> 00:08:21.060 vor allem im 00:08:21.060 --> 00:08:22.920 Signalfarbetungsbereich. 00:08:22.920 --> 00:08:25.020 Und Scikit-Learn, 00:08:25.020 --> 00:08:27.080 ja, waren halt früher hauptsächlich, 00:08:27.100 --> 00:08:29.100 alle möglichen Klassifikations- 00:08:29.100 --> 00:08:30.340 und Clustering-Algorithmen, 00:08:30.340 --> 00:08:33.420 auf denen wir dann halt auch aufgebaut haben. 00:08:33.420 --> 00:08:35.120 Und... 00:08:35.120 --> 00:08:37.260 Ja, vielleicht mal ein Beispiel, 00:08:37.260 --> 00:08:38.960 was wir damals da so machen konnten, 00:08:38.960 --> 00:08:40.400 so... 00:08:40.400 --> 00:08:41.860 Oder geht natürlich jetzt auch noch, 00:08:41.860 --> 00:08:43.360 aber jetzt gibt es halt andere Techniken auch. 00:08:43.360 --> 00:08:45.440 Wir haben halt damals versucht, 00:08:45.440 --> 00:08:49.140 früher hat es ja eigentlich nur so Audio-Plugins gegeben, 00:08:49.140 --> 00:08:51.300 was halt Signalverarbeitungsalgorithmen 00:08:51.300 --> 00:08:53.260 waren, die halt irgendwie abgelaufen 00:08:53.260 --> 00:08:55.500 sind und man hat da Parameter dann eingestellt 00:08:55.500 --> 00:08:57.000 und im Prinzip, 00:08:57.000 --> 00:08:58.740 war das immer noch sehr schwer 00:08:58.740 --> 00:09:00.880 zu bedienen, wie man es am Mischpult sieht. 00:09:00.880 --> 00:09:02.320 Und 00:09:02.320 --> 00:09:05.160 das Ganze haben wir 00:09:05.160 --> 00:09:07.380 versucht eigentlich einmal zu automatisieren. 00:09:07.380 --> 00:09:08.140 Das heißt, wir haben halt 00:09:08.140 --> 00:09:10.720 nicht nur diese DSP-Algorithmen gehabt, 00:09:10.720 --> 00:09:12.660 die man aufs Audio irgendwie anwendet, sondern 00:09:12.660 --> 00:09:14.740 versucht mit Klassifikatoren 00:09:14.740 --> 00:09:16.840 gewisse Sachen im Audio zu erkennen, also wo 00:09:16.840 --> 00:09:18.840 zum Beispiel verschiedene Sprecher sind, oder wo 00:09:18.840 --> 00:09:20.400 Musikteile sind, wo jetzt nur 00:09:20.400 --> 00:09:22.700 Rausch-Teile sind, oder 00:09:22.700 --> 00:09:24.540 eben nur Hintergrundgeräusche, 00:09:24.540 --> 00:09:26.980 oder Hintergrundmusik, Vordergrundmusik und lauter so. 00:09:26.980 --> 00:09:28.600 Und mit diesen 00:09:28.600 --> 00:09:33.080 Ergebnissen, die wir eben von den Klassifikatoren 00:09:33.080 --> 00:09:34.980 dann bekommen haben, dafür haben wir 00:09:34.980 --> 00:09:37.180 zum Beispiel im Scikit-Learn 00:09:37.180 --> 00:09:38.820 Sachen verwendet, wie jetzt 00:09:38.820 --> 00:09:40.980 SVMs oder 00:09:40.980 --> 00:09:43.220 irgendeine Decision-Trees 00:09:43.220 --> 00:09:44.940 mit Feature-Extraction vorher. 00:09:44.940 --> 00:09:46.740 Und aufgrund von diesen 00:09:46.740 --> 00:09:48.480 Analysedaten haben wir dann eben 00:09:48.480 --> 00:09:50.980 die Parameter der ganzen DSP-Algorithmen 00:09:50.980 --> 00:09:52.760 automatisch gesetzt. 00:09:52.760 --> 00:09:55.420 Also zum Beispiel, wenn man 00:09:55.420 --> 00:09:56.820 einen Denoiser hat, haben wir 00:09:56.820 --> 00:09:58.700 das Audio mal segmentiert in verschiedene 00:09:58.700 --> 00:10:01.220 Abschnitte, wo verschiedene Noise-Profile 00:10:01.220 --> 00:10:03.080 sind, also zum Beispiel 00:10:03.080 --> 00:10:04.880 wir reden jetzt hier in einem Raum, dann geht man raus, 00:10:04.880 --> 00:10:06.500 dann hat man natürlich ein anderes Noise-Profil. 00:10:06.500 --> 00:10:09.080 Da haben wir so ein Clustering gemacht, dass das Audio 00:10:09.080 --> 00:10:11.140 segmentiert, und dann in den 00:10:11.140 --> 00:10:13.320 einzelnen Segmenten 00:10:13.320 --> 00:10:14.960 haben wir geschaut, wo 00:10:14.960 --> 00:10:16.920 jetzt Sprecher sind, oder Musikteile, und in den 00:10:16.920 --> 00:10:19.100 stillen Teilen, wo halt eben keiner 00:10:19.100 --> 00:10:21.400 spricht, also wo nur der Noise-Floor 00:10:21.400 --> 00:10:23.160 sozusagen unten überbleibt, 00:10:23.160 --> 00:10:25.080 diese haben wir dann so zusammengestitcht 00:10:25.080 --> 00:10:26.740 und daraus Noise-Profile. 00:10:26.740 --> 00:10:26.800 Und dann haben wir dann auch 00:10:26.800 --> 00:10:28.600 extrahiert und 00:10:28.600 --> 00:10:30.420 diesen Noise dann quasi 00:10:30.420 --> 00:10:32.800 vom Gesamtsignal abgezogen. 00:10:32.800 --> 00:10:34.920 Und wiederum entschieden, 00:10:34.920 --> 00:10:36.640 ob das überhaupt Sinn macht, dass man 00:10:36.640 --> 00:10:38.820 das macht, oder ob das nicht Musik ist, 00:10:38.820 --> 00:10:40.220 und da wollen wir das vielleicht nicht abziehen. 00:10:40.220 --> 00:10:42.880 Also die Grundidee ist halt, dass man so verschiedene 00:10:42.880 --> 00:10:44.700 Klassifikatoren hat und mit denen 00:10:44.700 --> 00:10:46.800 dann die Algorithmen steuert. 00:10:46.800 --> 00:10:48.900 Und für das hat das 00:10:48.900 --> 00:10:50.960 ganz gut funktioniert, ja. Aber diese Algorithmen 00:10:50.960 --> 00:10:52.780 sind dann quasi noch so die klassischen, ich weiß jetzt 00:10:52.780 --> 00:10:54.700 nicht, ich hab jetzt so im Hinterkopf, da gibt's 00:10:54.700 --> 00:10:56.700 irgendwie so Audio-Works, 00:10:56.780 --> 00:10:58.600 Vibrations und irgendwelche Plugins und so 00:10:58.600 --> 00:11:00.700 und da kann man dann wahrscheinlich die Parameter einstellen, 00:11:00.700 --> 00:11:02.400 aber sozusagen die sind dann halt 00:11:02.400 --> 00:11:04.680 übernommen, aber wie man die einstellt, ist 00:11:04.680 --> 00:11:06.360 automatisiert über halt 00:11:06.360 --> 00:11:08.560 irgendwie... Übernommen, also die haben wir natürlich 00:11:08.560 --> 00:11:10.620 schon selber entwickelt, aber vom 00:11:10.620 --> 00:11:12.540 Prinzip her ähnlich natürlich, also 00:11:12.540 --> 00:11:14.440 man hat halt bestimmte Filter oder 00:11:14.440 --> 00:11:16.820 Kompressoren, Limiter und 00:11:16.820 --> 00:11:18.360 was gibt's noch, 00:11:18.360 --> 00:11:20.500 FFT-basierten Prozesse, 00:11:20.500 --> 00:11:22.400 so wie das ist, denoising zum Beispiel. 00:11:22.400 --> 00:11:23.900 Ja. Und 00:11:23.900 --> 00:11:26.700 auf diese Weise steuert 00:11:26.700 --> 00:11:27.860 man dann diese 00:11:27.860 --> 00:11:30.680 klassischen DSB-Algorithmen quasi, ja. 00:11:30.680 --> 00:11:32.780 Ja. Aber 00:11:32.780 --> 00:11:35.040 genau, gibt's da nicht irgendwie, 00:11:35.040 --> 00:11:36.320 wenn man jetzt zum Beispiel, 00:11:36.320 --> 00:11:38.860 das ist ja auch ein spezieller Anwendungsfall 00:11:38.860 --> 00:11:40.620 eigentlich, dass man halt das, dass man 00:11:40.620 --> 00:11:43.000 so ein fertiges Audio hat, was man dann post-processen 00:11:43.000 --> 00:11:44.840 will, kann man da nicht 00:11:44.840 --> 00:11:46.500 auch noch irgendwie vielleicht 00:11:46.500 --> 00:11:48.200 irgendwie Informationen, 00:11:48.200 --> 00:11:50.800 mehr Informationen verwerten, wenn man 00:11:50.800 --> 00:11:52.680 halt das ganze Audio, weil normalerweise 00:11:52.680 --> 00:11:54.560 diese Audio-Works-Sessions sind ja immer so 00:11:54.560 --> 00:11:56.480 mehr so drauf ausgelegt, dass man halt 00:11:56.480 --> 00:11:58.600 irgendwie einen Mix so live 00:11:58.600 --> 00:11:59.640 erzeugt und 00:11:59.640 --> 00:12:02.120 da hat man ja gar nicht so viele Informationen. 00:12:02.120 --> 00:12:03.760 Das ist eben das, 00:12:03.760 --> 00:12:05.460 das ist eben das, 00:12:05.460 --> 00:12:08.560 der Unterschied von unserem System 00:12:08.560 --> 00:12:10.380 gewesen zu den anderen Sachen oder zu den 00:12:10.380 --> 00:12:12.060 meisten anderen Sachen, also 00:12:12.060 --> 00:12:14.520 das ist eben, das ist unser 00:12:14.520 --> 00:12:16.660 Konzept, wie es am Computer meistens funktioniert, 00:12:16.660 --> 00:12:19.040 also in Audio-Plugins 00:12:19.040 --> 00:12:20.440 ist es halt 00:12:20.440 --> 00:12:22.200 eigentlich ein Realtime-Konzept, also 00:12:22.200 --> 00:12:24.200 ein Plugin sieht ja nur einen kleinen 00:12:24.200 --> 00:12:26.420 Buffer an Audio, den er prozessiert, 00:12:26.420 --> 00:12:28.440 und der muss ja jetzt auch so 00:12:28.440 --> 00:12:30.240 schnell wie möglich prozessieren und dann spuckt er 00:12:30.240 --> 00:12:32.160 wieder aus, weil das System ja 00:12:32.160 --> 00:12:34.080 auf Realtime ausgelegt ist 00:12:34.080 --> 00:12:35.880 und es hat 00:12:35.880 --> 00:12:38.320 zumindest damals sehr wenig Programme 00:12:38.320 --> 00:12:40.420 gegeben, die jetzt ja wirklich so 00:12:40.420 --> 00:12:42.420 Offline-Audio-Berechnung 00:12:42.420 --> 00:12:44.560 gemacht haben und 00:12:44.560 --> 00:12:45.760 das war 00:12:45.760 --> 00:12:48.300 damals eben der Levelator, den es da 00:12:48.300 --> 00:12:50.140 gegeben hat, das war auch so ein Programm, das 00:12:50.140 --> 00:12:52.440 einfach die Levels quasi gleich geregelt 00:12:52.440 --> 00:12:54.600 hat von Aufnahmen, 00:12:54.600 --> 00:12:55.520 die mich 00:12:56.200 --> 00:12:58.340 BruteForce, also der hat nicht geschaut, ob da irgendwie 00:12:58.340 --> 00:13:00.380 Musik ist, das hat er vollkommen zerstört, aber halt 00:13:00.380 --> 00:13:02.400 einfach versucht, alles irgendwie gleich laut zu machen 00:13:02.400 --> 00:13:03.740 und 00:13:03.740 --> 00:13:06.400 dieses Programm hat 00:13:06.400 --> 00:13:08.380 mich damals ein bisschen fasziniert, weil ich doch 00:13:08.380 --> 00:13:10.360 aus der Audio-Bubble sozusagen gekommen 00:13:10.360 --> 00:13:12.580 bin und das haben mir die Podcaster damals gezeigt 00:13:12.580 --> 00:13:14.500 und ich habe mir gedacht, warum habe ich noch nie 00:13:14.500 --> 00:13:16.200 von dem gehört, das ist ja eigentlich ganz praktisch, 00:13:16.200 --> 00:13:18.000 weil in der ganzen 00:13:18.000 --> 00:13:20.240 professionellen Audio-Welt 00:13:20.240 --> 00:13:22.420 dieses Konzept einfach nicht existent 00:13:22.420 --> 00:13:23.760 war, also wirklich, also 00:13:23.760 --> 00:13:26.140 weil es da halt natürlich die super 00:13:26.140 --> 00:13:28.340 speziellen Plugins geben, die 00:13:28.340 --> 00:13:30.640 von den namhaften Herstellern 00:13:30.640 --> 00:13:32.160 und so weiter, aber 00:13:32.160 --> 00:13:34.220 dieses Konzept haben wir dann auch 00:13:34.220 --> 00:13:36.520 versucht ähnlich zu machen, also weg von dem Plugin-Konzept 00:13:36.520 --> 00:13:38.500 und eben einfach das gesamte 00:13:38.500 --> 00:13:40.220 Audio analysiert, das heißt man hat 00:13:40.220 --> 00:13:42.160 vorher schon mal schauen können, wo was passiert und 00:13:42.160 --> 00:13:44.340 danach eben die Algorithmen dann darauf anpassen 00:13:44.340 --> 00:13:46.600 zusätzlich 00:13:46.600 --> 00:13:48.260 ist es natürlich praktisch, das kann man 00:13:48.260 --> 00:13:50.100 dann als Web-Service anbieten, weil 00:13:50.100 --> 00:13:52.440 da kann man dann das ganze feil hin tun 00:13:52.440 --> 00:13:53.920 und das wird dann halt einfach 00:13:53.920 --> 00:13:55.860 sozusagen im Hintergrund 00:13:55.860 --> 00:13:55.920 äh 00:13:55.920 --> 00:13:57.960 prozessiert und dann bieten sie 00:13:57.960 --> 00:13:59.780 natürlich auch andere Sachen an, dass man 00:13:59.780 --> 00:14:01.660 das feilt dann gleich mal hin 00:14:01.660 --> 00:14:04.100 distributiert, also auf YouTube und auf Soundcloud 00:14:04.100 --> 00:14:05.520 war damals man ziemlich populär 00:14:05.520 --> 00:14:07.600