WEBVTT

00:00:00.000 --> 00:00:05.580
Hallo liebe Hörerinnen und Hörer, willkommen im Python-Podcast. Heute in einer Jubiläumsepisode und zwar Episode Nummer 30.

00:00:07.240 --> 00:00:09.620
Natürlich sind wir wieder mit dem Jochen da und ich bin der Dominik.

00:00:09.740 --> 00:00:10.260
Hallo Dominik.

00:00:10.460 --> 00:00:12.840
Und heute haben wir auch einen besonderen Gast und das ist die Ines.

00:00:13.500 --> 00:00:14.320
Ja, hallo Ines.

00:00:14.980 --> 00:00:16.600
Ja, wollen wir die Ines mal vorstellen, Jochen?

00:00:17.220 --> 00:00:24.280
Ja, normalerweise, genau, sagen wir Leuten immer, sie sollen sich selber vorstellen, aber ja, vielleicht ist es ja auch gar nicht so schlecht, wenn wir das machen.

00:00:24.280 --> 00:00:29.500
Ich habe irgendwo gelesen, dass es besser ankommt, wenn man von jemand anders vorgestellt wird.

00:00:30.000 --> 00:00:35.240
Das kommt wahrscheinlich auch drauf an, von wem man vorgestellt wird. Das tut mir jetzt sehr leid, dass ich das wünsche.

00:00:37.980 --> 00:00:39.680
Ines ist Explosion, also wer ist Ines?

00:00:40.740 --> 00:00:55.720
Genau, also wir kamen drauf, weil ich von einem Hörer eine Mail bekommen habe, der sich dafür interessierte, irgendwie ein bisschen mehr über Machine Learning, Natural Language Processing bzw. halt SPACE zu hören.

00:00:55.720 --> 00:00:57.760
und da dachte ich so, oh ja,

00:00:58.800 --> 00:01:00.260
das stimmt, das wollte

00:01:00.260 --> 00:01:02.160
ich doch auch selber schon immer mal gerne

00:01:02.160 --> 00:01:04.180
machen und habe dann halt irgendeine Mail

00:01:04.180 --> 00:01:05.980
an Ines geschrieben. Ines, du hast was mit

00:01:05.980 --> 00:01:07.880
Spacey zu tun? Und genau,

00:01:08.220 --> 00:01:08.380
ja.

00:01:09.760 --> 00:01:10.280
Ines Nick.

00:01:13.280 --> 00:01:14.380
Wir bei Explosion,

00:01:14.460 --> 00:01:15.840
wir entwickeln Spacey,

00:01:16.060 --> 00:01:18.120
eine Open Source Bibliothek für

00:01:18.120 --> 00:01:20.380
Natural Language Processing in Python

00:01:20.380 --> 00:01:22.240
und daran arbeiten wir,

00:01:22.360 --> 00:01:23.460
daran arbeite ich seit

00:01:23.460 --> 00:01:25.640
ein paar Jahren und

00:01:25.640 --> 00:01:46.840
und ja, damit verbringe ich auch einen Großteil meiner Zeit und wir entwickeln auch andere Produkte und Tools hauptsächlich für Softwareentwickler, die mit Machine Learning und vor allem auch mit NLP arbeiten. Also quasi, ja, wir entwickeln Software für Softwareentwickler, um quasi den Alltag ein bisschen schöner und produktiver zu gestalten.

00:01:46.840 --> 00:02:05.980
Das hört sich spannend an. Ich würde vielleicht vorstellen, dass wir so ein bisschen mit einer Einleitung anfangen für Menschen, die uns noch nicht so folgen können, weil die vielleicht im Thema noch nicht ganz so tief drin sind. Vielleicht nochmal so ganz kurz die Begrifflichkeiten klären, was ist denn jetzt überhaupt so das NLP und was macht man damit und was für Features würde man denn sowas wie Spacey machen wollen und sowas vielleicht?

00:02:35.980 --> 00:02:36.980
Du möchtest zum Beispiel wissen, wer macht was, wer ist das Subjekt, wer ist das Objekt, was für Personen kommen vor, was für Firmen, was für Kon Kon Kon Kon Kon Kon Kon Kon Kon Kon

00:03:05.980 --> 00:03:35.960
und Jochen unterhalten sich über die Programmiersprache Python

00:03:35.980 --> 00:04:05.960
und Python.

00:04:05.980 --> 00:04:35.960
und Jochen unterhalten sich über die Programmiersprache Python

00:04:35.980 --> 00:04:37.540
und wo auch tatsächlich diese

00:04:37.540 --> 00:04:39.720
Technologie auch wirklich

00:04:39.720 --> 00:04:41.240
zum Einsatz kommt

00:04:41.240 --> 00:04:43.140
in verschiedenen

00:04:43.140 --> 00:04:45.380
Anwendungsbereichen, Firmen,

00:04:46.720 --> 00:04:47.940
alles mögliche.

00:04:49.040 --> 00:04:49.240
Ja,

00:04:49.700 --> 00:04:50.480
ich

00:04:50.480 --> 00:04:53.680
habe da auch relativ

00:04:53.680 --> 00:04:55.460
viel schon, was Textkategorisierungen

00:04:55.460 --> 00:04:57.500
angeht und so, gemacht

00:04:57.500 --> 00:04:59.760
und zu der Zeit, das ist halt auch schon lange her,

00:05:00.300 --> 00:05:01.940
aber da waren halt so lineare

00:05:01.940 --> 00:05:03.580
Modelle das Mittel der Wahl irgendwie.

00:05:03.580 --> 00:05:04.700
Das war so...

00:05:04.700 --> 00:05:05.560
Das ist so eine...

00:05:05.560 --> 00:05:08.280
Es gibt viele

00:05:08.280 --> 00:05:10.580
Problematiken, wo wir nach wie vor

00:05:10.580 --> 00:05:11.580
Leuten empfehlen würden,

00:05:12.120 --> 00:05:14.360
so eine super Oldschool-Methode

00:05:14.360 --> 00:05:16.560
linear klappt immer noch besser.

00:05:17.240 --> 00:05:18.440
Schneller kannst du

00:05:18.440 --> 00:05:20.120
auch teilweise heutzutage,

00:05:20.320 --> 00:05:21.520
selbst mit den hottesten

00:05:21.520 --> 00:05:24.400
Modellen teilweise nicht überbieten.

00:05:26.000 --> 00:05:28.260
Aber es gibt natürlich andere Bereiche, wo wir sagen,

00:05:28.380 --> 00:05:28.880
okay, gut,

00:05:30.300 --> 00:05:31.520
da braucht man einfach ein bisschen mehr.

00:05:31.940 --> 00:05:33.020
Und ja.

00:05:34.200 --> 00:05:34.420
Ja.

00:05:34.700 --> 00:05:48.020
Ja genau, also ich meine, da hat sich natürlich, also so ein lineares Modell ist natürlich relativ einfach und inzwischen gibt es ja da irgendwie so, was halt Neuronalen Netze angeht, Deep Learning, irgendwie hat sich ja einiges getan, so im letzten Jahrzehnt so ein bisschen.

00:05:48.020 --> 00:05:49.080
und

00:05:49.080 --> 00:05:52.120
ja, das ist

00:05:52.120 --> 00:05:54.240
natürlich auch schön, dass man da jetzt

00:05:54.240 --> 00:05:56.340
irgendwie in dem Bereich

00:05:56.340 --> 00:05:58.000
nochmal deutlich mehr rausholen kann

00:05:58.000 --> 00:06:00.420
und was ich daran ja auch total faszinierend

00:06:00.420 --> 00:06:02.060
finde, das ist jetzt auch eine relativ aktuelle Entwicklung

00:06:02.060 --> 00:06:04.120
mit diesen ganzen

00:06:04.120 --> 00:06:05.060
Transformer-Geschichten,

00:06:06.720 --> 00:06:08.040
dass man da tatsächlich

00:06:08.040 --> 00:06:09.180
irgendwie aus

00:06:09.180 --> 00:06:12.220
ja, quasi

00:06:12.220 --> 00:06:14.560
Text oder ungelabelten Daten

00:06:14.560 --> 00:06:16.560
halt irgendwie was lernen kann

00:06:16.560 --> 00:06:19.220
und dann weniger gelabelte Daten braucht,

00:06:19.320 --> 00:06:21.960
weil gelabelte Daten sind natürlich immer relativ schwer zu bekommen.

00:06:22.960 --> 00:06:27.580
Ja, und ich glaube, es löst auch ein viel tiefer liegendes Problem,

00:06:27.660 --> 00:06:28.560
was wir halt schon immer hatten,

00:06:29.040 --> 00:06:33.560
und zwar, dass Sprache ja wirklich auch nur im Kontext der Welt

00:06:33.560 --> 00:06:36.560
und im Kontext der Linguistik existiert.

00:06:37.320 --> 00:06:38.900
Das heißt, wenn du jetzt ein Modell trainierst

00:06:38.900 --> 00:06:40.420
und selbst wenn du dem nur beibringen möchtest,

00:06:40.820 --> 00:06:42.840
ist diese E-Mail Spam oder nicht.

00:06:42.840 --> 00:06:56.320
Das Modell muss zusätzlich zu dem tatsächlichen Problem und den entsprechenden Wörtern, die wahrscheinlich meistens darauf hindeuten, ob es Spam ist oder nicht, auch noch so viele andere Dinge lernen.

00:06:56.320 --> 00:07:11.440
Zum Beispiel schon allein, wie funktioniert die englische Sprache, wie werden da die Wörter meistens angeordnet oder auch einfach, wie funktioniert die Welt, was sind Wörter, die im Kontext der Welt benutzt werden und wie passt das alles zusammen.

00:07:11.440 --> 00:07:13.800
und das ist unglaublich viel

00:07:13.800 --> 00:07:15.660
Wissen, was man eben auch

00:07:15.660 --> 00:07:17.940
einem Modell quasi immer wieder beibringen muss,

00:07:18.300 --> 00:07:19.920
damit es überhaupt das machen kann, was sie wollen.

00:07:20.040 --> 00:07:21.440
Also es gibt Wortpolzen zu Themenkomplexen oder sowas, ja?

00:07:21.900 --> 00:07:22.540
Ja, genau.

00:07:22.540 --> 00:07:24.340
Und du wirst wirklich immer

00:07:24.340 --> 00:07:26.580
von vorne anfangen

00:07:26.580 --> 00:07:28.200
oder so war es in der Vergangenheit und jetzt

00:07:28.200 --> 00:07:30.640
Transfer Learning

00:07:30.640 --> 00:07:31.740
nennt man das auch.

00:07:33.080 --> 00:07:34.500
Eine Sache, die wir

00:07:34.500 --> 00:07:36.400
jetzt halt können und die jetzt tatsächlich funktioniert, ist,

00:07:36.600 --> 00:07:37.460
dass wir

00:07:37.460 --> 00:07:40.500
quasi wissen, dass wir aus anderen

00:07:40.500 --> 00:07:45.440
gewonnen haben, quasi transferieren können auf das neue Problem. Also wir können quasi was

00:07:45.440 --> 00:07:49.520
vortrainieren, was unserem Modell quasi ermöglicht,

00:07:49.580 --> 00:07:53.460
schon ein bisschen mehr zu wissen über die Sprache und die generelle

00:07:53.460 --> 00:07:57.200
Welt und die generellen Wörter und so weiter. Also wir können quasi sagen,

00:07:57.200 --> 00:08:01.060
hier ist ganz viel roher Text, guck dir das an

00:08:01.060 --> 00:08:05.080
und wie es zum Beispiel funktioniert ist, die Aufgabe ist,

00:08:05.860 --> 00:08:09.240
hier sind ein paar Wörter und wir lassen jetzt ein Wort weg und dann

00:08:09.240 --> 00:08:11.060
und lassen wir unser Modell

00:08:11.060 --> 00:08:13.500
vorhersagen, was das Wort sein könnte.

00:08:13.860 --> 00:08:15.180
Und das machen wir relativ lange,

00:08:15.800 --> 00:08:17.560
bis es hoffentlich

00:08:17.560 --> 00:08:19.540
eine ganz gute Gewichtung aufgebaut hat und das nächste

00:08:19.540 --> 00:08:21.460
Wort vorhersagen kann. Und es hat sich

00:08:21.460 --> 00:08:22.820
herausgestellt, dass diese Aufgabe

00:08:22.820 --> 00:08:25.180
sich sehr gut generalisieren lässt für

00:08:25.180 --> 00:08:27.460
andere Sachen. Das heißt, die Gewichtungen, die wir da

00:08:27.460 --> 00:08:29.360
aufbauen, die haben unglaublich

00:08:29.360 --> 00:08:31.160
viel Informationen inkludiert,

00:08:31.240 --> 00:08:33.340
quasi über die Sprache. Was ja auch irgendwie Sinn macht,

00:08:33.440 --> 00:08:35.280
wenn du überlegst, okay, was muss man

00:08:35.280 --> 00:08:37.360
wissen oder lernen

00:08:37.360 --> 00:08:38.700
um das nächste Wort

00:08:38.700 --> 00:08:40.180
vorhersagen zu können.

00:08:41.100 --> 00:08:42.920
Und das ist quasi so die

00:08:42.920 --> 00:08:45.140
Essenz von dem,

00:08:45.280 --> 00:08:46.920
was jetzt quasi ein bisschen neuer ist und was

00:08:46.920 --> 00:08:48.980
auch dafür sorgt, dass man eben

00:08:48.980 --> 00:08:51.000
relativ wenig gelabelte

00:08:51.000 --> 00:08:52.420
oder spezifische Daten braucht,

00:08:53.080 --> 00:08:54.920
um auch ein relativ

00:08:54.920 --> 00:08:56.820
komplexes neues Problem zu lösen,

00:08:57.220 --> 00:08:58.240
da man eben auf dieses

00:08:58.240 --> 00:09:00.540
grellere Wissen zurückgreifen kann.

00:09:00.880 --> 00:09:02.600
Also man kann quasi diese Gewichte vortrainieren.

00:09:04.180 --> 00:09:04.820
Und das ist

00:09:04.820 --> 00:09:05.360
die Idee.

00:09:07.140 --> 00:09:08.300
Ja, ich

00:09:08.300 --> 00:09:09.280
Genau, letztens gab es auch irgendwie einen Blogpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpostpost

00:09:38.300 --> 00:09:40.120
oder eben Transfer Learning.

00:09:41.200 --> 00:09:44.080
Ja, Terminologie generell im Bereich.

00:09:44.400 --> 00:09:46.320
Was nennt man ein Modell?

00:09:46.400 --> 00:09:48.120
Das finde ich ist leider ein bisschen unglücklich,

00:09:48.860 --> 00:09:50.640
dass heutzutage oder so Language Model

00:09:50.640 --> 00:09:50.640
wird halt für so viele Dinge benut benut benut benut benut benut benut benut benut benut benut benut benut benut benut benut benut benut benut benut benut benut benut benut benut benut benut benut benut benut benut benut benut benut benut benut benut benut benut benut benut benut benut benut benut benut benut benut benut benut benut benut benut benut benut benut benut benut benut benut benut benut benut benut benut benut benut benut benut benut benut benut benut benut benut benut benut benut benut benut benut benut benut benut benut benut benut benut benut

00:10:08.300 --> 00:10:10.280
oder zumindest

00:10:10.280 --> 00:10:12.520
traditionell, man nennt vieles ein Modell.

00:10:13.260 --> 00:10:14.420
Manche Leute nennen den

00:10:14.420 --> 00:10:16.220
Algorithmus ein Modell, also

00:10:16.220 --> 00:10:18.380
quasi die Implementation, den

00:10:18.380 --> 00:10:20.340
Code, den du dafür schreibst, aber dann

00:10:20.340 --> 00:10:22.600
gibt es natürlich auch das Artefakt, das du da

00:10:22.600 --> 00:10:24.620
trainierst, also die Gewichte,

00:10:25.120 --> 00:10:26.620
also so eine binäre

00:10:26.620 --> 00:10:28.560
Datei, die dann da rumliegt

00:10:28.560 --> 00:10:29.760
und die du am Ende speicherst.

00:10:31.280 --> 00:10:32.580
Und vielleicht das zusammen

00:10:32.580 --> 00:10:34.680
kann man eigentlich so als Modell bezeichnen.

00:10:35.100 --> 00:10:36.200
Dann, ich glaube, früher

00:10:36.200 --> 00:10:38.200
Language Model haben wir früher auch gerne genannt,

00:10:38.300 --> 00:10:49.880
und halt Modelle, die wir trainiert haben für verschiedene Sprachen, aber das würde jetzt auch heutzutage viel benutzt für eben diese Gewichte, die man trainiert auf der Basis von rohem Text.

00:10:50.800 --> 00:10:54.700
Das ist also heute hauptsächlich, was Leute meinen, wenn sie Language Mono sagen.

00:10:54.700 --> 00:11:07.640
Also okay, wir haben kompletten Text aus der Wikipedia im Englischen runtergeladen und diese Embeddings trainiert, indem wir das nächste Wort vorhergesagt haben und die kann man jetzt weiter benutzen.

00:11:07.640 --> 00:11:09.040
und das ist ein Language-Motto.

00:11:10.320 --> 00:11:11.340
Also es gibt da verschiedene

00:11:11.340 --> 00:11:13.780
Definitionen oder verschiedene

00:11:13.780 --> 00:11:15.740
Verwendungen.

00:11:15.740 --> 00:11:17.280
Es wird halt irgendwie in unterschiedlichen Kontexten

00:11:17.280 --> 00:11:19.700
unterschiedlich verwendet.

00:11:20.440 --> 00:11:21.900
Ich sehe auch, was Leute, was nennt man

00:11:21.900 --> 00:11:23.200
Machine Learning, was nennt man

00:11:23.200 --> 00:11:24.040
KI?

00:11:25.180 --> 00:11:25.720
Oder AI.

00:11:25.720 --> 00:11:26.860
Ist auch leider nicht immer so.

00:11:27.220 --> 00:11:27.680
Oder AI.

00:11:29.080 --> 00:11:31.740
Ja genau, da muss ich mich auch erst mal dran

00:11:31.740 --> 00:11:32.700
gewöhnen, weil ich bin tatsächlich,

00:11:33.420 --> 00:11:35.740
die deutsche Terminologie ist mir nicht so

00:11:35.740 --> 00:11:37.040
nah, weil ich halt nie,

00:11:37.040 --> 00:11:39.500
weil ich es halt nie gelernt habe auf Deutsch.

00:11:39.580 --> 00:11:41.360
Also ich bin immer gewohnt, so auf Englisch drüber zu lesen.

00:11:41.380 --> 00:11:42.540
Du bist doch gerade in Australien, ne?

00:11:42.980 --> 00:11:44.660
Ich bin momentan gerade in Australien, ja.

00:11:45.520 --> 00:11:46.800
Ein bisschen Social Distancing

00:11:46.800 --> 00:11:47.920
von Opa.

00:11:48.840 --> 00:11:50.140
Genau, so weit wie möglich weg.

00:11:50.400 --> 00:11:51.480
Ich glaube, die Weitergeht auch gar nicht.

00:11:52.340 --> 00:11:54.960
Ja, also wie gesagt, ich freue mich drauf, wieder zurückzukommen,

00:11:55.120 --> 00:11:56.480
aber halt momentan ist, okay gut,

00:11:57.160 --> 00:11:58.900
bringt ja auch keinem was, wenn ich jetzt

00:11:58.900 --> 00:11:59.820
in der momentanen Situation

00:11:59.820 --> 00:12:01.900
da wieder in den Flieger steige.

00:12:03.180 --> 00:12:04.420
Ja, aber ich habe halt auch nie so,

00:12:04.420 --> 00:12:05.860
ich habe zum Beispiel nie jetzt klassisch

00:12:05.860 --> 00:12:07.820
Informatik studiert oder so.

00:12:08.760 --> 00:12:10.500
Deswegen, das merkt ihr teilweise im Vergleich,

00:12:10.620 --> 00:12:12.020
dass manche Leute, die halt auf Deutsch

00:12:12.020 --> 00:12:13.180
Programmieren gelernt haben,

00:12:13.960 --> 00:12:16.040
da so die deutsche Terminologie drauf haben.

00:12:17.000 --> 00:12:18.440
Und da muss ich mich

00:12:18.440 --> 00:12:20.120
auch erstmal reinlesen. Ich habe für

00:12:20.120 --> 00:12:22.220
Spacey so einen Online-Kurs gemacht, den habe ich auch

00:12:22.220 --> 00:12:24.120
in verschiedenen Sprachen übersetzt. Also ich nicht,

00:12:24.200 --> 00:12:25.460
ich habe ihn auch nur auf Deutsch übersetzt.

00:12:25.920 --> 00:12:27.300
Mehr Sprachen kann ich nicht, aber

00:12:27.300 --> 00:12:30.240
andere aus der Community haben uns dabei geholfen

00:12:30.240 --> 00:12:32.240
und ich muss mich erstmal sehr reinlesen in

00:12:32.240 --> 00:12:34.320
die deutsche Programmier-

00:12:34.320 --> 00:12:35.980
Terminologie. So sagt man

00:12:35.980 --> 00:12:36.740
iterieren.

00:12:38.520 --> 00:12:39.800
Also Konsens ist scheinbar ja.

00:12:41.800 --> 00:12:42.200
Ja.

00:12:43.540 --> 00:12:44.820
Ja, ich will das auf Deutsch sagen.

00:12:44.940 --> 00:12:46.720
Das hört sich manchmal komisch an.

00:12:46.920 --> 00:12:48.960
Ja, es ist sehr eigenartig.

00:12:49.100 --> 00:12:50.420
Ich komme manchmal jetzt so

00:12:50.420 --> 00:12:52.700
das Problem hatte ich jetzt letztens,

00:12:53.200 --> 00:12:55.000
dass dann irgendwie

00:12:55.000 --> 00:12:57.320
ich weiß nicht, Domain Driven Design,

00:12:57.460 --> 00:12:58.980
ob das euch ein Begriff ist,

00:12:59.560 --> 00:13:01.620
wenn man jetzt in einer anderen Domäne unterwegs ist,

00:13:01.620 --> 00:13:03.000
also gar nicht unbedingt jetzt,

00:13:03.000 --> 00:13:05.240
wenn es ums Programmieren geht, sondern einfach

00:13:05.240 --> 00:13:07.500
fachlich ist man halt irgendwas unterwegs, wo

00:13:07.500 --> 00:13:08.820
Leute halt ihre eigene Sprache für

00:13:08.820 --> 00:13:11.660
entwickelt haben, um sich

00:13:11.660 --> 00:13:13.540
überhaupt austauschen zu können über das Thema, mit dem

00:13:13.540 --> 00:13:15.520
sie da zu tun haben. Und da habe ich

00:13:15.520 --> 00:13:17.480
dann erstmal alles nach Englisch übersetzt, weil ich

00:13:17.480 --> 00:13:19.400
das so schrecklich fand, weil

00:13:19.400 --> 00:13:21.160
das geht gar nicht, wenn da irgendwie so deutsche Worte

00:13:21.160 --> 00:13:22.400
im Source Code stehen, dann dachte ich so,

00:13:22.480 --> 00:13:25.360
muss ich unbedingt übersetzen. Dann habe ich dann weitergelesen

00:13:25.360 --> 00:13:27.700
und dann hieß es so, naja, nee, am besten immer die Originalbegriffe

00:13:27.700 --> 00:13:29.380
benutzen, weil ansonsten ist das

00:13:29.380 --> 00:13:31.280
die totale Verwirrung. Man weiß hinterher überhaupt

00:13:31.280 --> 00:13:33.360
gar nicht mehr, was was bedeutet. Ja, das bin dann auch

00:13:33.360 --> 00:13:33.640
passiert.

00:13:36.400 --> 00:13:36.960
Es ist

00:13:36.960 --> 00:13:39.360
irgendwie nicht so einfach mit den unterschiedlichen

00:13:39.360 --> 00:13:41.200
Sprachen, das blöd. Ja, da hat es eine Mischung halt.

00:13:41.560 --> 00:13:43.260
Ganz gerade im IT-Bereich ist ja voll auch so

00:13:43.260 --> 00:13:44.500
Denglisch irgendwie dann.

00:13:45.060 --> 00:13:46.980
Ja, und ich meine, Programmieren an sich,

00:13:47.100 --> 00:13:48.820
Python ist Englisch.

00:13:49.680 --> 00:13:50.900
Und auch so, du merkst ja natürlich,

00:13:51.000 --> 00:13:52.760
die Wörter, du programmierst

00:13:52.760 --> 00:13:55.260
auf Englisch. Oder schon

00:13:55.260 --> 00:13:57.440
allein, wenn du dir so eine deutsche Tastatur anguckst.

00:13:57.920 --> 00:13:58.360
Die englische

00:13:58.360 --> 00:14:08.300
Programmiersprachen sind meist für die amerikanische Tastatur entwickelt worden. Deswegen haben wir den Backtick an der blödesten Stelle und es ist eigentlich der Akzent.

00:14:10.420 --> 00:14:11.000
Oder Backslash.

00:14:11.160 --> 00:14:17.920
Ja, oder auch andere, oder die ganzen Klammern zu tippen. Warum ist das so nervig auf unseren Tastaturen?

00:14:17.920 --> 00:14:19.620
Ja, weil, ja.

00:14:19.960 --> 00:14:21.940
Ja, wir wollten unbedingt neue eigene Tastaturen machen.

00:14:21.940 --> 00:14:40.260
Ja, ich habe mir immer überlegt, ob ich einfach mal sagen soll, okay, ich lerne die amerikanische Tastatur, weil es ja wirklich fürs Programmieren einfach ist. Also einfach eine Taste zu haben, wo du einen Backtick tippen kannst, ist einfach. Aber ich kriege das nicht mehr hin. Ich glaube, ich bin zu alt.

00:14:41.360 --> 00:14:43.040
Ja, du musst wahrscheinlich anfangen mit einer anderen.

00:14:43.040 --> 00:14:50.120
Ja, oder bei mir ist das Problem auch immer, ich habe es dann immer mal überlegt, ob ich dann nicht in meinem nächsten Rechner dann tatsächlich amerikanische Tastatur oder englische Tastatur halt nehme

00:14:50.120 --> 00:14:52.140
und dann dachte ich mir, aber ich habe jetzt noch ein paar andere

00:14:52.140 --> 00:14:57.540
Ich habe auch gerne die Umlaute auf der Tastatur

00:14:57.540 --> 00:15:02.440
Also es stört mich, wenn ich jetzt nicht ein Öl tippen kann oder so

00:15:02.440 --> 00:15:05.500
Ja, aber ich sage mal, die Sprache, wir tippen ja schon alles dann auf Englisch raus

00:15:05.500 --> 00:15:08.460
Also auch Kommentare und so würde ich jetzt mal schätzen, dass wir alle die auf Englisch schreiben

00:15:08.460 --> 00:15:11.900
Das macht ja auch irgendwie Sinn, wenn man ein bisschen kollaborativ arbeiten möchte und so

00:15:11.900 --> 00:15:14.020
und ja, es ist halt schon interessant.

00:15:14.180 --> 00:15:15.600
Also ich glaube, Englisch ist halt, weil man so

00:15:15.600 --> 00:15:17.780
ein Natural Language anguckt, mit Sicherheit um

00:15:17.780 --> 00:15:19.740
Meilen weiter, als das irgendwie

00:15:19.740 --> 00:15:21.420
Deutsch sein wird. Und

00:15:21.420 --> 00:15:22.940
Meilen ist wahrscheinlich noch zu wenig.

00:15:23.580 --> 00:15:25.820
Einfach von der Masse an Sätzen,

00:15:25.960 --> 00:15:27.920
die so gesagt werden in den jeweiligen Sprachen

00:15:27.920 --> 00:15:29.700
und was man damit halt an Datenbasis irgendwie

00:15:29.700 --> 00:15:30.840
anfangen kann.

00:15:30.920 --> 00:15:33.880
Also generell, die Forschung findet

00:15:33.880 --> 00:15:35.940
auf Englisch statt und natürlich

00:15:35.940 --> 00:15:37.820
es gibt unglaublich viel interessante Arbeit,

00:15:38.120 --> 00:15:40.000
auch was NLP

00:15:40.000 --> 00:15:42.280
angeht in anderen Sprachen

00:15:42.280 --> 00:15:44.160
und auch die Forschung, aber

00:15:44.160 --> 00:15:45.560
grundsätzlich muss man sagen,

00:15:46.380 --> 00:15:47.320
rein alle

00:15:47.320 --> 00:15:49.100
Sprachen, die

00:15:49.100 --> 00:15:51.960
Englisch ähneln, mit denen können

00:15:51.960 --> 00:15:53.680
wir momentan auch im Bereich

00:15:53.680 --> 00:15:55.820
Machine Learning am besten umgehen, weil da einfach die

00:15:55.820 --> 00:15:57.500
meiste Forschung stattgefunden hat.

00:15:57.720 --> 00:15:59.700
Okay, interessant. Welche Sprachen ähneln

00:15:59.700 --> 00:16:00.060
Englisch?

00:16:01.420 --> 00:16:02.560
Also natürlich so die

00:16:02.560 --> 00:16:04.560
romanischen Sprachen

00:16:04.560 --> 00:16:07.360
schon. Also alles,

00:16:07.360 --> 00:16:09.320
also es ist halt

00:16:09.320 --> 00:16:13.660
und so ein Spektrum, aber Chinesisch zum Beispiel eher nicht.

00:16:14.840 --> 00:16:20.240
Also ich würde sagen, eher die Sprachen, die Englisch am unähnlichsten sind,

00:16:21.260 --> 00:16:24.980
sind durchaus auch weniger erforscht.

00:16:25.080 --> 00:16:30.340
Oder die Techniken, die veröffentlicht werden oder die geforscht werden

00:16:30.340 --> 00:16:32.840
und die Strategien für Machine Learning und so weiter,

00:16:34.160 --> 00:16:36.920
die sind halt schon meist optimiert für Englisch.

00:16:36.920 --> 00:17:06.780
und da ist natürlich auch die Motivation da für den Forscher zu sagen, okay gut, du möchtest ja auch, das kann man ja auch den einzelnen Leuten da nicht ankreiden, also du möchtest natürlich, wenn du auf einem Gebiet forschst, du möchtest deine Experimente vergleichen können mit anderer Arbeit, du möchtest sagen, hey, hier, cool, ich habe tatsächlich was entwickelt und was gemacht hier, das irgendwie besser ist als das, was vorher da war und ja, viele der wichtige, die wichtige Arbeit ist halt, ja, funktioniert mit englischem Corpora,

00:17:06.920 --> 00:17:12.900
und das heißt, natürlich ist da eine Motivation da, auch mit der englischen Sprache zu arbeiten.

00:17:13.300 --> 00:17:14.860
Und natürlich ist einfach mehr und mehr Daten da.

00:17:15.860 --> 00:17:17.500
Ja, auch einfach viel mehr Trainingsdaten.

00:17:20.500 --> 00:17:26.160
Aber man muss auch sagen, okay, momentan, wir sind am Punkt, man braucht gar nicht mehr unbedingt so viele Daten.

00:17:26.160 --> 00:17:31.500
Man kann Daten selber erstellen, das ist ja auch ein Bereich, in dem wir arbeiten.

00:17:31.760 --> 00:17:36.340
Also unser kommerzielles Produkt, wodurch wir auch Geld verdienen, weil wir machen ja unglaublich viel Open Source,

00:17:36.340 --> 00:17:38.200
was wir verschenken quasi

00:17:38.200 --> 00:17:40.300
ist Prodigy, das ist ein

00:17:40.300 --> 00:17:42.360
Annotationstool, speziell

00:17:42.360 --> 00:17:44.380
entwickelt für Entwickler und Machine Learning. Also die

00:17:44.380 --> 00:17:45.900
Idee ist, okay, oft

00:17:45.900 --> 00:17:48.360
du willst, wenn du halt ein spezielles

00:17:48.360 --> 00:17:50.300
Problem löst, ist es oft nicht damit

00:17:50.300 --> 00:17:52.220
getan, dir einfach irgendein Modell aus dem

00:17:52.220 --> 00:17:54.320
Internet runterzuladen, das irgendjemand anders mal trainiert

00:17:54.320 --> 00:17:56.340
hat und das vielleicht ein bisschen ähnlich ist zu dem, was

00:17:56.340 --> 00:17:57.880
du machen möchtest. Und

00:17:57.880 --> 00:18:00.020
da wir auch heute an einem Punkt sind, wo wir sagen,

00:18:00.100 --> 00:18:02.040
du brauchst gar nicht mehr Big Data

00:18:02.040 --> 00:18:03.340
Milliarden an

00:18:03.340 --> 00:18:06.040
Beispielen,

00:18:06.340 --> 00:18:08.000
und auch ein paar hundert, paar tausend.

00:18:08.480 --> 00:18:10.560
Damit kannst du echt, also wenn du es gut machst

00:18:10.560 --> 00:18:12.340
und wenn das gut durchdacht ist

00:18:12.340 --> 00:18:12.660
und

00:18:12.660 --> 00:18:16.420
du dir Gedanken machst, okay, wie strukturiere ich das

00:18:16.420 --> 00:18:18.520
Problem, kannst du damit echt super

00:18:18.520 --> 00:18:20.340
Resultate mittlerweile erzielen. Das heißt,

00:18:20.620 --> 00:18:22.500
es ist auch komplett

00:18:22.500 --> 00:18:24.280
machbar, dass du sagst, hey, ich setze mich einfach hin

00:18:24.280 --> 00:18:26.320
und verbringe eine Stunde, gucke mir meine Daten

00:18:26.320 --> 00:18:28.160
wirklich an, überlege mir, wie label ich die

00:18:28.160 --> 00:18:30.000
und wenn

00:18:30.000 --> 00:18:31.660
das Tool effizient ist

00:18:31.660 --> 00:18:34.340
und du damit gut arbeiten kannst, kannst selbst du

00:18:34.340 --> 00:18:36.200
als einzelner Mensch innerhalb

00:18:36.200 --> 00:18:38.500
von einer Stunde ein Datenset erstellen,

00:18:39.040 --> 00:18:40.300
mit dem du wirklich was

00:18:40.300 --> 00:18:41.660
auch produktiv machen kannst.

00:18:42.800 --> 00:18:44.360
Vielleicht da nochmal auf die

00:18:44.360 --> 00:18:46.180
Features könnten wir da nochmal eingehen.

00:18:46.240 --> 00:18:47.880
Was macht denn Spacey jetzt genau

00:18:47.880 --> 00:18:50.380
mit einem Datensatz? Also was kannst du damit alles

00:18:50.380 --> 00:18:51.680
machen? Also Spacey ist

00:18:51.680 --> 00:18:53.700
eine Bibliothek,

00:18:53.820 --> 00:18:55.340
mit der du

00:18:55.340 --> 00:18:57.960
moderne NLP-Systeme

00:18:57.960 --> 00:18:58.900
bauen kannst.

00:19:00.480 --> 00:19:01.940
Wir haben

00:19:01.940 --> 00:19:03.580
verschiedenste Komponenten, die du

00:19:03.580 --> 00:19:05.260
trainieren kannst.

00:19:05.260 --> 00:19:25.240
Wir haben natürlich auch Pipelines, die man sich runterladen kann, die wir vortrainiert haben und für verschiedene Tasks oder verschiedene Probleme kannst du halt deinen Text reinfüttern und du bekommst am Ende die Annotationen, die das Modell extra hier hat, am Ende raus.

00:19:25.240 --> 00:19:55.220
und Jochen unterhalten sich über die Programmiersprache Python

00:20:25.240 --> 00:20:46.480
Name, Städtename, Produktname, Firmenname und so weiter. Und das ist natürlich vor allem spannend, wenn man das halt auf seine ganz spezielle Problematik zuschneidet. Also wenn man spezielle Begriffe in seinem Bereich hat und dann kannst du wirklich ein Modell trainieren, dass das entsprechend dir vorhersagen kann und dann hast du halt den Personennamen.

00:20:46.480 --> 00:20:48.080
für die Domäne irgendwie.

00:20:48.520 --> 00:20:49.980
Genau, und dann kannst du auch sagen, okay,

00:20:50.340 --> 00:20:52.360
der Personenname, ist das jetzt das

00:20:52.360 --> 00:20:53.980
Subjekt oder das Objekt und so weiter.

00:20:54.620 --> 00:20:56.720
Oder andere Komponenten,

00:20:56.760 --> 00:20:58.380
wo wir halt gerade dran arbeiten oder die man halt auch

00:20:58.380 --> 00:21:00.340
bauen kann. Du kannst sagen,

00:21:00.460 --> 00:21:02.220
wenn du jetzt ein Pronomen hast,

00:21:02.840 --> 00:21:04.260
so er bezieht sich

00:21:04.260 --> 00:21:06.600
auf wen bezieht sich das? Also der Mann

00:21:06.600 --> 00:21:09.840
kommt nach Hause,

00:21:10.320 --> 00:21:11.660
er zieht sich die Schuhe aus.

00:21:12.620 --> 00:21:14.500
Kannst du das er zurück

00:21:14.500 --> 00:21:15.580
auf den Mann

00:21:15.580 --> 00:21:18.540
beziehen. Das ist auch in vielen Kontexten sehr wichtig.

00:21:19.980 --> 00:21:23.900
Denn das ist was, wenn wir das lesen, uns ist das relativ klar.

00:21:24.940 --> 00:21:27.640
Wenn du das maschinell machst, ist es deutlich

00:21:27.640 --> 00:21:32.220
trickier und auch nicht immer so eindeutig, wie wir das gerne hätten

00:21:32.220 --> 00:21:33.800
in der Sprache.

00:21:37.520 --> 00:21:39.180
Textklassifizierung hast du ja schon mal angesprochen vorher.

00:21:40.780 --> 00:21:44.380
Du kannst natürlich auch Labels für den ganzen Text vorher sagen. Geht es hier um Sport?

00:21:44.380 --> 00:21:45.420
geht es hier um Politik,

00:21:46.620 --> 00:21:47.920
geht es hier um Spam,

00:21:48.620 --> 00:21:50.480
das ist was, was du machen kannst und du kannst

00:21:50.480 --> 00:21:52.280
eben, und Spacy lässt sich halt diese

00:21:52.280 --> 00:21:54.320
Komponenten zu einer Pipeline

00:21:54.320 --> 00:21:55.400
zusammenbauen

00:21:55.400 --> 00:21:58.300
und natürlich zwischendurch

00:21:58.300 --> 00:21:59.980
es kann auch sein, dass du sagst, hey, ich möchte

00:21:59.980 --> 00:22:01.980
einen Baustein, der soll einfach nur

00:22:01.980 --> 00:22:04.440
richtig oldschool, ein paar reguläre Ausdrücke

00:22:04.440 --> 00:22:06.540
sein, denn in der Praxis

00:22:06.540 --> 00:22:08.000
ist das nach wie vor,

00:22:08.200 --> 00:22:10.520
es macht Sinn, du trainierst ein System

00:22:10.520 --> 00:22:12.700
richtig fancy, Transformers,

00:22:12.700 --> 00:22:14.080
Named Entity Recognition,

00:22:14.380 --> 00:22:29.840
Geil, sag Firmennamen voraus, es funktioniert super und dann, weiß nicht, zeigst du es deinem Chef, der gibt irgendwas ein mit deinem Firmennamen drin und das Ding erkennt den eigenen Firmennamen nicht, weil der irgendwie komisch ist und überhaupt nichts Ähnliches in den Trainingsdaten war.

00:22:29.840 --> 00:22:33.620
Jetzt können sie sagen, oh, da mache ich jetzt nochmal neue Trainingsdaten,

00:22:34.060 --> 00:22:37.680
tune meine Hyperparameters und verbringe da nochmal ein paar Wochen dran

00:22:37.680 --> 00:22:42.960
und am Ende kriegt der unseren Firmennamen hin, aber kann irgendwelche anderen Sachen nicht mehr.

00:22:43.040 --> 00:22:46.140
Oder du sagst, ja geil, haue ich jetzt einfach einen regulären Ausdruck drauf

00:22:46.140 --> 00:22:50.060
und dann kriegt der unseren Firmennamen immer richtig hin.

00:22:50.140 --> 00:22:53.520
Und in der Praxis, so löst man viele dieser Probleme.

00:22:53.520 --> 00:23:00.520
und so sehen praktische Systeme aus.

00:23:00.620 --> 00:23:06.340
Du hast vielleicht einen super heißen, modernen Baustein,

00:23:06.340 --> 00:23:12.500
der die neuesten Transformer-Modelle verwendet

00:23:12.500 --> 00:23:14.500
und dann hast du vielleicht einen Text-Classifier,

00:23:14.720 --> 00:23:19.480
der noch Oldschool-Lineares-Modell, weil es einfach gut funktioniert.

00:23:20.620 --> 00:23:22.500
Dann hast du noch ein paar Regeln obendrauf

00:23:22.500 --> 00:23:23.940
und am Ende hast du halt

00:23:23.940 --> 00:23:26.540
eine Repräsentation von einem Text, wo alle

00:23:26.540 --> 00:23:28.360
diese Informationen drin ist, die du dann

00:23:28.360 --> 00:23:29.280
verwenden kannst, um

00:23:29.280 --> 00:23:32.680
was auch immer dein eigentliches Ziel ist

00:23:32.680 --> 00:23:34.200
zu erreichen.

00:23:34.300 --> 00:23:35.140
Denn das ist ja auch nochmal ein Problem.

00:23:36.400 --> 00:23:38.660
Die tatsächlichen Ziele, die man

00:23:38.660 --> 00:23:40.320
hat und die Probleme, die man lösen möchte,

00:23:40.440 --> 00:23:42.340
die sind ja nicht immer eins zu eins

00:23:42.340 --> 00:23:44.300
übertragbar in ein

00:23:44.300 --> 00:23:45.860
Machine Learning Modell, das man

00:23:45.860 --> 00:23:47.120
trainiert.

00:23:48.360 --> 00:23:50.480
So stellen sich das manche

00:23:50.480 --> 00:23:52.240
Leute manchmal vor. Oh, unsere Firma

00:23:52.240 --> 00:23:58.220
möchte, dass wir das und das und das auslesen und das am Ende so und so in die Datenbank eingeben.

00:23:59.460 --> 00:24:05.680
Kann man versuchen, wirklich von A nach B komplett ein System vorhersagen zu lassen,

00:24:05.840 --> 00:24:10.360
ist aber oft in der Praxis nicht sonderlich nützlich.

00:24:10.940 --> 00:24:14.980
Und auch nicht oft muss man sich hinsetzen, okay, wie kann man das Problem runterbrechen

00:24:14.980 --> 00:24:21.020
in kleinere Bausteine, die man auch tatsächlich effektiv mit den technischen Möglichkeiten,

00:24:21.020 --> 00:24:22.480
die wir momentan haben, lösen kann.

00:24:24.220 --> 00:24:24.760
Naja, ja.

00:24:25.060 --> 00:24:26.740
Ja, es ist auch immer wieder, ich meine, ich finde das

00:24:26.740 --> 00:24:38.052
ja tats erstaunlich dass sich im Grunde alle Probleme letztendlich dann doch auch vielleicht manchmal in mehreren Schritten aber auch eben sowas Simples wie bin Klassifikationen quasi runterbrechen

00:24:38.052 --> 00:24:38.712
lassen, weil

00:24:38.712 --> 00:24:41.972
von binärer

00:24:41.972 --> 00:24:43.992
Klassifikationen zu Multilabel, also dass man halt

00:24:43.992 --> 00:24:45.832
mehrere Labels jetzt für den Text vorher sagt

00:24:45.832 --> 00:24:47.852
oder so, ist eigentlich quasi auch das Gleiche

00:24:47.852 --> 00:24:49.952
und ja, dann gibt's halt

00:24:49.952 --> 00:24:51.872
noch Regressionen und dann gibt's halt noch Clustering und dann

00:24:51.872 --> 00:24:53.932
war's das im Grunde schon, aber man

00:24:53.932 --> 00:24:55.412
kann damit halt ne Menge machen und da dachte ich,

00:24:55.412 --> 00:24:57.152
so, hm, damit soll man wirklich alles machen können,

00:24:57.152 --> 00:24:59.092
aber ja, es geht schon, aber

00:24:59.092 --> 00:25:00.732
man muss sich halt dann doch ein bisschen

00:25:00.732 --> 00:25:02.392
ja, manchmal...

00:25:02.392 --> 00:25:05.112
Es geht halt auch so ein bisschen ums Mindset, aber das ist ja auch beim

00:25:05.112 --> 00:25:07.392
Programmieren generell nicht anders.

00:25:07.572 --> 00:25:09.092
Also wenn du jetzt sagst, okay, ich hab hier

00:25:09.092 --> 00:25:11.072
ein Problem, das möchte ich lösen mit Python,

00:25:11.172 --> 00:25:13.092
dann musst du dir auch überlegen, okay, was habe ich hier zur Verfügung?

00:25:13.792 --> 00:25:15.412
Was sind so diese Abstraktionen?

00:25:15.952 --> 00:25:17.172
Wie strukturiere ich das?

00:25:17.972 --> 00:25:19.172
Was macht Sinn, was macht

00:25:19.172 --> 00:25:19.772
keinen Sinn?

00:25:21.032 --> 00:25:22.332
Und das ist quasi der Job,

00:25:22.912 --> 00:25:25.012
den du dann als Softwareentwickler löst und

00:25:25.012 --> 00:25:26.072
so ähnlich ist es auch

00:25:26.072 --> 00:25:28.392
im Bereich Machine Learning. Ist auch quasi

00:25:28.392 --> 00:25:30.472
eine Art zu programmieren.

00:25:31.112 --> 00:25:32.732
Ist halt nur ein bisschen anders

00:25:32.732 --> 00:25:34.532
und man hat halt noch diese Daten

00:25:34.532 --> 00:25:35.352
als die Komponente.

00:25:36.212 --> 00:25:38.392
Im klassischeren Programmieren hast du halt

00:25:38.392 --> 00:25:40.372
im Programm, da geht was rein, kommt immer

00:25:40.372 --> 00:25:42.212
was raus. Hier hast du Code

00:25:42.212 --> 00:25:43.012
plus Daten.

00:25:44.872 --> 00:25:45.912
Beziehungsweise das, was man

00:25:45.912 --> 00:25:47.592
programmiert, ist nicht so sehr

00:25:47.592 --> 00:25:50.392
ein Algorithmus, aber man legt

00:25:50.392 --> 00:25:52.132
eher die Daten für ein Modell fest, das dann

00:25:52.132 --> 00:25:52.672
irgendwie

00:25:52.672 --> 00:25:55.892
tatsächlich dann irgendwie was macht.

00:25:56.072 --> 00:25:58.172
Das fand ich auch interessant, das gab es, glaube ich, 2018

00:25:58.172 --> 00:25:59.972
gab es einen Vortrag von

00:25:59.972 --> 00:26:01.392
André Carpati,

00:26:02.012 --> 00:26:03.072
ich weiß gar nicht, wie das auch gesprochen wird,

00:26:03.572 --> 00:26:05.852
Software 2.0 oder Software 2.0

00:26:05.852 --> 00:26:08.332
Genau, also das ist auch eine sehr

00:26:08.332 --> 00:26:09.932
jährige Idee, ja. Genau, der

00:26:09.932 --> 00:26:12.072
sagt ja auch, ja, also früher haben wir halt

00:26:12.072 --> 00:26:13.712
sozusagen eine, also

00:26:13.712 --> 00:26:15.512
wir haben ein Problem und

00:26:15.512 --> 00:26:17.992
haben wir einen Lösungsraum für dieses Problem

00:26:17.992 --> 00:26:19.812
und wenn wir jetzt das explizit

00:26:19.812 --> 00:26:21.932
programmieren, dann nehmen wir uns einen ganz winzigen

00:26:21.932 --> 00:26:23.932
Punkt aus diesem Lösungsraum

00:26:23.932 --> 00:26:25.952
raus und definieren den halt

00:26:25.952 --> 00:26:27.932
exakt, aber tatsächlich kann man ja auch vielleicht

00:26:27.932 --> 00:26:30.012
einfach eben per Daten so eine

00:26:30.012 --> 00:26:31.692
Region aus dem Lösungsraum raus

00:26:31.692 --> 00:26:34.232
zeigen und dann halt ein Optimierungsverfahren

00:26:34.232 --> 00:26:35.752
verwenden, um tatsächlich die

00:26:35.752 --> 00:26:37.492
Lösung zu finden, also

00:26:37.492 --> 00:26:40.192
quasi per Machine Learning

00:26:40.192 --> 00:26:41.852
ein Modell trainieren, das dann halt

00:26:41.852 --> 00:26:42.692
sozusagen die Lösung

00:26:42.692 --> 00:26:45.452
modelliert

00:26:45.452 --> 00:26:47.932
und dann verändert sich

00:26:47.932 --> 00:26:49.712
der Job als Programmierer halt so

00:26:49.712 --> 00:26:51.352
ein bisschen und

00:26:51.352 --> 00:26:52.972
das fand ich auch sehr interessant.

00:26:53.132 --> 00:26:55.692
Das hebt es dann wieder auf eine etwas abstraktere Ebene

00:26:55.692 --> 00:26:58.272
dann werden natürlich die Tools, die man dafür braucht

00:26:58.272 --> 00:26:59.752
halt extrem wichtig und

00:26:59.752 --> 00:27:01.092
sehr interessant. Genau, und auch

00:27:01.092 --> 00:27:03.712
die Daten in ganz anderen Stellen werden bekommen

00:27:03.712 --> 00:27:05.992
und das ist halt auch, was meiner Meinung nach nach wie vor

00:27:05.992 --> 00:27:08.112
nicht genug Aufmerksamkeit bekommt

00:27:08.112 --> 00:27:10.132
also auch so als Analogie jetzt

00:27:10.132 --> 00:27:11.612
wenn du programmierst

00:27:11.612 --> 00:27:13.852
klassisch, schreibst du deinen Code

00:27:13.852 --> 00:27:16.192
dann hast du einen Compiler, da geht

00:27:16.192 --> 00:27:18.232
dein Code rein und am Ende kommt ein Programm

00:27:18.232 --> 00:27:19.472
raus und

00:27:19.472 --> 00:27:21.912
jetzt mit Machine Learning hast du

00:27:21.912 --> 00:27:24.272
deine Daten, du hast einen Algorithmus

00:27:24.272 --> 00:27:27.132
und am Ende trainierst du dein Modell und dein Modell kommt raus.

00:27:27.512 --> 00:27:30.732
Und wenn du jetzt feststellst, okay, dein Modell ist nicht sonderlich geil

00:27:30.732 --> 00:27:35.212
oder im klassischen Programmieren, das Programm, was am Ende rauskommt aus deinem Compiler,

00:27:35.612 --> 00:27:40.032
macht nicht das, was es soll, ist zu langsam, funktioniert nicht, hat Bugs, was machst du?

00:27:40.452 --> 00:27:45.052
Du könntest natürlich hingehen und sagen, okay, da gehe ich jetzt erstmal an den Compiler ran

00:27:45.052 --> 00:27:46.532
und schreibe mir meinen eigenen Compiler.

00:27:46.892 --> 00:27:48.212
Machst du aber normalerweise nicht.

00:27:48.432 --> 00:27:51.832
Normalerweise, du gehst in deinen Code rein und veränderst deinen Code

00:27:51.832 --> 00:27:54.332
und passt den an und fix den,

00:27:54.712 --> 00:27:56.432
damit dein Programm am Ende besser wird.

00:27:56.552 --> 00:27:58.392
Ich will damit nicht sagen, es gibt super viel Arbeit,

00:27:58.452 --> 00:28:00.332
die man im Bereich Compiler noch machen kann,

00:28:00.452 --> 00:28:01.832
aber das ist normalerweise so nicht

00:28:01.832 --> 00:28:04.392
das Erste, was man macht.

00:28:04.992 --> 00:28:06.292
Und analog natürlich,

00:28:06.532 --> 00:28:08.292
Machine Learning, wenn dein Modell

00:28:08.292 --> 00:28:10.152
nicht das macht, was es soll und du damit

00:28:10.152 --> 00:28:12.232
nicht zufrieden bist, kannst du

00:28:12.232 --> 00:28:14.132
hingehen und deinen Algorithmus tweaken

00:28:14.132 --> 00:28:16.112
und natürlich kann sein, dass da ein Bug drin ist,

00:28:16.812 --> 00:28:18.312
der dafür sorgt, dass dein Modell

00:28:18.312 --> 00:28:20.232
nichts lernt, aber meistens, was du

00:28:20.232 --> 00:28:22.072
machen solltest, ist, dir die Daten angucken.

00:28:23.512 --> 00:28:25.672
Und du kannst

00:28:25.672 --> 00:28:28.272
das Schöne am praktischen

00:28:28.272 --> 00:28:30.412
Machine Learning oder praktischen

00:28:30.412 --> 00:28:32.152
NLP, wenn du es wirklich anwendest

00:28:32.152 --> 00:28:33.592
auf Probleme, ist, dass du

00:28:33.592 --> 00:28:35.952
selber entscheiden kannst, wie schwierig

00:28:35.952 --> 00:28:38.012
oder wie einfach du dir

00:28:38.012 --> 00:28:39.732
das Problem machst. Du kannst

00:28:39.732 --> 00:28:42.052
kontrollieren, wie du deine Daten

00:28:42.052 --> 00:28:44.572
annotierst, wie du die aufbereitest,

00:28:45.592 --> 00:28:46.012
wie du

00:28:46.012 --> 00:28:48.052
das Problem runterbrichst.

00:28:48.592 --> 00:28:49.972
Und das ist, glaube ich, auch

00:28:49.972 --> 00:28:53.712
wie sich zum Beispiel die angewandte Praxis so ein bisschen unterscheidet

00:28:53.712 --> 00:28:55.132
von der reinen Forschung.

00:28:55.872 --> 00:28:58.452
In der Forschung ist das Zielen ganz anderes.

00:28:58.632 --> 00:29:02.212
Du hast ein Problem, du hast einen Benchmark,

00:29:03.112 --> 00:29:04.812
du hast einen Algorithmus, den du entwickelt hast

00:29:04.812 --> 00:29:07.752
und dann, es macht natürlich Sinn, wir wollen alle unsere Algorithmen

00:29:07.752 --> 00:29:10.892
am selben Problem vergleichen, denn nur so kannst du sehen,

00:29:11.392 --> 00:29:14.792
ist das, was ich jetzt hier mache, besser als das, was jemand anders gemacht hat.

00:29:14.912 --> 00:29:16.292
Macht meine Idee Sinn, funktioniert das?

00:29:17.732 --> 00:29:19.912
Das heißt, da setzt du dich typischerweise nicht hin

00:29:19.912 --> 00:29:24.252
und änderst das Problem, denn dann hat deine ganze Forschung keinen Sinn mehr.

00:29:25.772 --> 00:29:31.632
Aber das sind eben ein bisschen die anderen Denkweisen, die man da hat.

00:29:31.932 --> 00:29:36.632
Und das ist auch, glaube ich, etwas, was einfach die angewandte Praxis unterscheidet.

00:29:37.012 --> 00:29:40.112
Und auch jetzt, um es wieder zurückzuführen, ein bisschen auf das, was wir so machen,

00:29:40.552 --> 00:29:45.732
was auch so ein bisschen die Philosophie von Spacey unterscheidet von vielleicht anderen Bibliotheken

00:29:45.732 --> 00:29:48.332
und auch die Gedanken, die wir uns machen müssen.

00:29:49.412 --> 00:29:55.932
Unsere Nutzer sind ja Entwickler, die wirklich in der Praxis diese Systeme bauen.

00:29:56.812 --> 00:30:03.612
Und das heißt, wir müssen natürlich Entscheidungen treffen, die das besonders effizient und einfach machen,

00:30:03.612 --> 00:30:08.632
aber auch die Möglichkeit geben, diese Bausteine entsprechend zusammenzusetzen,

00:30:09.132 --> 00:30:15.472
manche Bausteine wiederzuverwenden und eben eine flexible Möglichkeit zu haben,

00:30:15.472 --> 00:30:17.972
diese Systeme halt zu bauen und auch zu testen

00:30:17.972 --> 00:30:19.672
und auch zu sehen, okay,

00:30:19.752 --> 00:30:21.592
wenn was nicht funktioniert, möchtest du ja gucken,

00:30:21.692 --> 00:30:23.692
wo ist das Problem? Das ist

00:30:23.692 --> 00:30:25.712
sehr schwer, wenn alles so eine Blackbox ist und du

00:30:25.712 --> 00:30:27.432
am Ende nicht weißt, was passiert da.

00:30:27.532 --> 00:30:29.772
Da geht was rein, am Ende kommt was raus und

00:30:29.772 --> 00:30:30.852
ja,

00:30:31.832 --> 00:30:32.752
das war's halt.

00:30:34.392 --> 00:30:35.472
Ja, ja, ja, genau.

00:30:35.672 --> 00:30:37.232
Und das ist natürlich auch sowas, was

00:30:37.232 --> 00:30:39.232
eben man wahrscheinlich

00:30:39.232 --> 00:30:41.572
im akademischen Bereich nicht so häufig hat,

00:30:41.612 --> 00:30:44.012
dass man eben auch mit den Annotationstools

00:30:44.012 --> 00:31:02.392
viel zu tun hat oder auch mit, was ich auch immer häufig sehe, dass man dieses, wie speichert man Daten, wie reagiert man darauf, wenn sich Daten verändern oder so, ist halt ein ganz wichtiger Teil, dieser ganze Data Engineering Aspekt ist halt auch total wichtig und den hat man halt eigentlich gar nicht, wenn man jetzt mit fixen Corporate arbeitet, die immer gleich sind.

00:31:02.392 --> 00:31:03.232
und ich meine, das ist ja wie gesagt,

00:31:04.252 --> 00:31:06.392
das ist ja auch nicht unbedingt was, wo sich

00:31:06.392 --> 00:31:08.452
ein Forscher mit beschäftigen möchte, aber ich glaube,

00:31:08.532 --> 00:31:10.412
es ist eher was, was man auf der anderen Seite, wenn man eben

00:31:10.412 --> 00:31:12.212
im angewandten Bereich arbeitet,

00:31:12.292 --> 00:31:14.012
sich halt bewusst machen muss, okay,

00:31:14.172 --> 00:31:16.292
oder es gibt so ein bisschen den

00:31:16.292 --> 00:31:18.492
momentan, viele Leute sind unglaublich

00:31:18.492 --> 00:31:20.392
heiß drauf und wollen sich halt so, okay, die letzte

00:31:20.392 --> 00:31:21.732
Forschung direkt rein

00:31:21.732 --> 00:31:24.232
ins Blut

00:31:24.232 --> 00:31:26.612
direkt injizieren

00:31:26.612 --> 00:31:28.192
so schnell wie möglich

00:31:28.192 --> 00:31:29.812
und in manchen Bereichen

00:31:29.812 --> 00:31:32.112
geht das und natürlich, wir haben

00:31:32.112 --> 00:31:33.972
wirklich in den letzten Jahren vor allem sehr

00:31:33.972 --> 00:31:35.952
schnelle Adoptionen gesehen von Dingen, die in der

00:31:35.952 --> 00:31:37.772
Forschung entwickelt wurden und auch

00:31:37.772 --> 00:31:40.032
praktisch sehr schnell

00:31:40.032 --> 00:31:41.012
auch

00:31:41.012 --> 00:31:43.832
verwendbar waren.

00:31:45.692 --> 00:31:46.032
Und natürlich

00:31:46.032 --> 00:31:47.812
der Kreislauf geht schneller

00:31:47.812 --> 00:31:49.932
und wenn irgendwas Interessantes rauskommt,

00:31:51.372 --> 00:31:51.472
dann

00:31:51.472 --> 00:31:53.972
dauert es auch nicht mehr so lange,

00:31:54.392 --> 00:31:55.952
bis man auch tatsächlich was Sinnvolles damit machen

00:31:55.952 --> 00:31:57.052
kann, aber es ist halt nicht immer so.

00:31:57.772 --> 00:31:59.832
Nur weil irgendein Paper rauskommt,

00:31:59.932 --> 00:32:01.832
was halt spannend klingt, heißt es nicht,

00:32:01.832 --> 00:32:31.812
und Jochen unterhalten sich über die Programmiersprache Python

00:32:31.832 --> 00:32:33.832
Ja, ja, ja, ja.

00:32:35.692 --> 00:32:36.372
Ja.

00:32:39.192 --> 00:32:39.872
Genau.

00:32:40.392 --> 00:32:40.872
Ja,

00:32:41.872 --> 00:32:43.632
ihr macht ja auch noch diese

00:32:43.632 --> 00:32:45.712
im Prodigy, dieses

00:32:45.712 --> 00:32:48.012
Annotationstool, das ist

00:32:48.012 --> 00:32:49.852
auch alles quasi so, wie Spacey auch

00:32:49.852 --> 00:32:51.832
Python, beziehungsweise wahrscheinlich dann im

00:32:51.832 --> 00:32:53.972
Frontend irgendwie was anderes, das weiß ich gar nicht.

00:32:55.152 --> 00:32:55.852
Ja, also Frontend

00:32:55.852 --> 00:32:58.032
natürlich, du brauchst immer ein bisschen JavaScript, damit es im Browser läuft

00:32:58.032 --> 00:32:59.912
und es ist so eine relativ leichte

00:32:59.912 --> 00:33:01.752
React-App, aber ja,

00:33:01.832 --> 00:33:05.832
Backend ist alles in Python und die Philosophie ist auch wirklich, okay, es ist ein Entwicklertool,

00:33:05.892 --> 00:33:09.132
du möchtest damit programmieren. Das war uns immer unglaublich wichtig und

00:33:09.132 --> 00:33:13.472
wir freuen uns auch, das wurde halt super gut angenommen, Prodigy ist sehr erfolgreich

00:33:13.472 --> 00:33:17.012
und das ist auch was, was wirklich Entwickler

00:33:17.012 --> 00:33:21.672
anspricht und das ist auch die Art von Tools,

00:33:21.752 --> 00:33:25.352
die wir entwickeln wollen und natürlich auch die Art von Tools, die wir auch gerne benutzen wollen. Also ich möchte, wenn ich mit

00:33:25.352 --> 00:33:28.992
etwas arbeite, ich möchte programmieren können. Wenn ich irgendwas

00:33:28.992 --> 00:33:31.812
irgendwas möchte, wenn ich

00:33:31.812 --> 00:33:33.772
weiß, wie ich irgendwas in Python machen kann

00:33:33.772 --> 00:33:35.792
und ein Tool gibt mir die Möglichkeit,

00:33:36.092 --> 00:33:37.672
da einfach ein bisschen Code zu schreiben,

00:33:38.052 --> 00:33:38.873
denke ich, cool, super.

00:33:39.392 --> 00:33:41.052
Vor allem, weil ja auch in dem Bereich

00:33:41.052 --> 00:33:43.852
fast alles andere in Python

00:33:43.852 --> 00:33:44.732
läuft.

00:33:46.472 --> 00:33:47.772
Wenn du jetzt BASIC benutzt,

00:33:47.812 --> 00:33:49.652
andere Bibliotheken, die Modelle,

00:33:50.112 --> 00:33:51.212
das ist meistens Python.

00:33:51.732 --> 00:33:53.512
Du kannst unglaublich viel machen,

00:33:53.952 --> 00:33:55.772
was das Laden von Daten,

00:33:56.192 --> 00:33:57.732
Streamen und so weiter angeht.

00:33:57.732 --> 00:34:00.712
und das ist alles möglich, das ist alles gelöst.

00:34:02.192 --> 00:34:08.913
Da ist auch unsere Philosophie generell, wir wollen es Entwicklern ermöglichen, Code zu schreiben.

00:34:09.073 --> 00:34:11.152
Wenn du Code schreiben kannst, ist es immer besser.

00:34:11.332 --> 00:34:13.172
Du möchtest nicht nur einen Button haben, auf den du klicken kannst.

00:34:13.252 --> 00:34:18.532
Ein Button, auf den du klicken kannst, ist cool, aber wenn du mehr machen möchtest,

00:34:18.632 --> 00:34:21.873
solltest du die Möglichkeit haben und für Entwickler ist einfach Code die beste Art und Weise.

00:34:21.873 --> 00:34:25.132
Was kann man denn machen

00:34:25.132 --> 00:34:27.852
mit den Daten, um die vorzubereiten

00:34:27.852 --> 00:34:29.632
oder aufzubereiten für Spacey oder

00:34:29.632 --> 00:34:31.073
mit Spacey sogar mit den Daten?

00:34:32.393 --> 00:34:33.652
Also es kommt natürlich darauf an,

00:34:33.672 --> 00:34:35.452
was man machen möchte. Also meinst du mit vorbereiten,

00:34:35.732 --> 00:34:37.873
okay, du hast halt rohen Text

00:34:37.873 --> 00:34:39.812
und du möchtest halt etwas damit trainieren

00:34:39.812 --> 00:34:40.952
und du möchtest den annotieren?

00:34:41.352 --> 00:34:42.492
Ja, also

00:34:42.492 --> 00:34:46.012
erstmal, die Daten

00:34:46.012 --> 00:34:47.613
musst du natürlich annotieren

00:34:47.613 --> 00:34:49.652
und die in Format bringen,

00:34:50.272 --> 00:34:51.252
damit du zum Beispiel dann

00:34:51.252 --> 00:34:52.992
Modell damit trainieren kannst.

00:34:53.893 --> 00:34:55.593
Eine Option ist,

00:34:55.652 --> 00:34:57.272
du kannst ganz oldschool in einer

00:34:57.272 --> 00:34:59.012
Excel-Tabelle machen, du kannst es

00:34:59.012 --> 00:35:01.272
ganz oldschool in

00:35:01.272 --> 00:35:03.373
JSON machen und das wirklich eintippen,

00:35:03.512 --> 00:35:04.913
von hier bis da ist eine Person,

00:35:05.232 --> 00:35:06.772
oder das und das ist das Label,

00:35:07.092 --> 00:35:09.152
so wird es auch oft gemacht. Dann natürlich mit

00:35:09.152 --> 00:35:11.172
einem Tool wie Prodigy sagen wir, hey, du kannst einfach

00:35:11.172 --> 00:35:13.332
deine Daten rein streamen, du kannst

00:35:13.332 --> 00:35:14.352
ein bisschen klicken,

00:35:15.612 --> 00:35:17.212
du kannst auch Sachen ein bisschen automatisieren,

00:35:17.212 --> 00:35:18.913
das ist halt auch immer cool, denn

00:35:18.913 --> 00:35:22.172
als Menschen,

00:35:22.612 --> 00:35:25.212
wir sind einfach, es gibt viele Dinge, die wir einfach

00:35:25.212 --> 00:35:26.532
schlechter können als ein Computer.

00:35:26.792 --> 00:35:27.792
Ist halt nun mal so.

00:35:28.112 --> 00:35:30.552
Unser Erinnerungsvermögen ist schlecht,

00:35:31.092 --> 00:35:32.393
wenn es darum geht,

00:35:32.873 --> 00:35:34.492
Dinge zuverlässig,

00:35:34.752 --> 00:35:36.952
immer konsistent, genau gleich

00:35:36.952 --> 00:35:37.992
zu machen, können wir nicht.

00:35:39.192 --> 00:35:40.272
Und das sind nun mal Dinge,

00:35:40.532 --> 00:35:42.812
dafür haben wir Computer entwickelt, das kann ein Computer halt

00:35:42.812 --> 00:35:43.893
besser. Deswegen sagen wir,

00:35:44.652 --> 00:35:46.112
wenn du halt Dinge, die

00:35:46.112 --> 00:35:47.592
sehr

00:35:47.592 --> 00:35:50.472
ein bisschen

00:35:50.472 --> 00:35:53.632
stupide, aber wo du immer das Gleiche machen musst,

00:35:53.852 --> 00:35:57.132
das kann halt auch ein Computer machen. Du kannst dem Computer sagen, okay, ich bin mir relativ sicher,

00:35:57.373 --> 00:36:00.032
dass Berlin eigentlich immer eine Stadt ist.

00:36:00.692 --> 00:36:02.692
Und wenn nicht, gut, dann kann ich das korrigieren.

00:36:02.792 --> 00:36:05.772
Das heißt, du kannst dir Workflows bauen, wo du sagst, hey,

00:36:06.792 --> 00:36:08.913
ich habe hier ein paar Beispiele für das,

00:36:09.732 --> 00:36:11.992
was ich quasi in meinen Daten labeln möchte.

00:36:13.672 --> 00:36:15.172
Das mache ich jetzt automatisch

00:36:15.172 --> 00:36:18.972
und guck mir das nur an und wenn irgendwas falsch ist, dann korrigiere ich das.

00:36:19.052 --> 00:36:22.413
Oder du hast schon ein Modell, das sagt ein paar Dinge voraus, ist aber nicht so gut.

00:36:23.072 --> 00:36:28.852
Dann kannst du sagen, cool, Modell, label mir das schon mal und ich guck mir das nur an.

00:36:30.152 --> 00:36:33.933
Das ist was, was du machen kannst und am Ende, okay, am Ende kriegst du die Daten raus

00:36:33.933 --> 00:36:36.873
und kannst dann dein Modell damit trainieren.

00:36:37.652 --> 00:36:40.712
Aber da fängt es halt auch, ich würde sagen, da fängt es halt erst an.

00:36:41.132 --> 00:36:44.492
Das ist halt der erste Schritt und das Lustige ist oft, wenn man halt hört,

00:36:44.492 --> 00:36:46.672
wie Leute sich über diese Themen austauschen,

00:36:47.352 --> 00:36:48.452
klingt es danach, als wäre es

00:36:48.452 --> 00:36:50.532
dann schon vorbei. Cool, du labelst so ein bisschen

00:36:50.532 --> 00:36:52.232
deine Daten, dann trainierst dein Modell, fertig.

00:36:53.632 --> 00:36:54.512
Aber natürlich

00:36:54.512 --> 00:36:56.433
ist es immer

00:36:56.433 --> 00:36:57.413
ein iterativer Prozess.

00:36:58.132 --> 00:37:00.592
Dein Modell musst du immer weiter trainieren, genauso wie

00:37:00.592 --> 00:37:02.572
du deinen Code

00:37:02.572 --> 00:37:04.272
auch ständig refactors

00:37:04.272 --> 00:37:04.732
und

00:37:04.732 --> 00:37:08.172
weiterentwickelst. Das ist nicht

00:37:08.172 --> 00:37:09.812
statisch. Oder eine Webseite.

00:37:10.732 --> 00:37:12.552
Du kannst eine Webseite dir entwickeln lassen,

00:37:12.552 --> 00:37:15.132
in Auftrag geben, aber die musst du halt auch updaten.

00:37:15.752 --> 00:37:17.652
Und wenn du jemanden beauftragst,

00:37:17.692 --> 00:37:18.572
dir eine Webseite zu machen,

00:37:20.632 --> 00:37:21.472
willst du

00:37:21.472 --> 00:37:22.913
normalerweise auch, dass

00:37:22.913 --> 00:37:24.552
die Webseite, dass da irgendwas

00:37:24.552 --> 00:37:27.152
eine Möglichkeit ist, dass du die auch später updaten kannst

00:37:27.152 --> 00:37:29.032
und nicht jedes Mal deinen Webmaster anrufen musst,

00:37:29.132 --> 00:37:30.992
wie in den 90ern oder so.

00:37:32.592 --> 00:37:33.312
Und deswegen,

00:37:33.433 --> 00:37:34.552
okay, einmal du hast deine Daten,

00:37:35.152 --> 00:37:37.232
meistens irgendwas geht schief, irgendwas funktioniert nicht,

00:37:37.592 --> 00:37:39.012
dann guckst du dir oft an, okay,

00:37:39.112 --> 00:37:39.812
was sind die Probleme,

00:37:39.812 --> 00:38:09.792
und Jochen unterhalten sich über die Programmiersprache Python

00:38:09.812 --> 00:38:15.092
für Stadt, Kreis, Bundesland oder so.

00:38:15.873 --> 00:38:18.092
Vielleicht mache ich es ein bisschen allgemeiner,

00:38:18.212 --> 00:38:20.632
denn oft ist das ja, vielleicht macht es so,

00:38:20.792 --> 00:38:22.632
dass die Modelle ein bisschen einfacher sagen,

00:38:22.752 --> 00:38:26.112
okay, du musst nicht nur am Kontext erkennen,

00:38:26.252 --> 00:38:28.052
handelt es sich um eine generelle Ortschaft,

00:38:29.132 --> 00:38:33.232
ein Land, ein Kontinent, ein Kreis, ein Bundesland.

00:38:34.152 --> 00:38:36.413
Und das ist oft vielleicht ein bisschen einfacher

00:38:36.413 --> 00:38:37.433
am Kontext vorher zu sagen.

00:38:37.433 --> 00:38:38.512
Und dann kannst du immer noch sagen, okay,

00:38:38.512 --> 00:38:38.992
ist, dass

00:38:38.992 --> 00:38:43.132
sobald ich weiß, da geht es um eine Lokalität,

00:38:43.812 --> 00:38:44.712
habe ich einen zweiten Prozess,

00:38:44.832 --> 00:38:46.792
der dann sagt, okay, der grenzt das ein bisschen mehr ein

00:38:46.792 --> 00:38:48.632
und so weiter. Das sind alles die Entscheidungen,

00:38:48.652 --> 00:38:50.692
die man halt treffen muss, die auch oft sehr spezifisch sind

00:38:50.692 --> 00:38:52.652
und darauf ankommen, was man halt

00:38:52.652 --> 00:38:53.452
für ein Problem lösen möchte.

00:38:56.652 --> 00:38:58.552
Naja, also in der Praxis kriegt man dann

00:38:58.552 --> 00:38:59.012
immer oft so,

00:39:00.413 --> 00:39:02.072
was ich bei

00:39:02.072 --> 00:39:03.893
Textkategorisierungen dann

00:39:03.893 --> 00:39:05.532
ganze Zeit gemacht habe, war halt so

00:39:05.532 --> 00:39:08.413
in einem Preisvergleich Angebote in Kategorien

00:39:08.413 --> 00:39:38.413
sortieren. Und da ist es halt zum Beispiel, merkt man dann, wenn man viele Angebote hat und auch viele immer neu dazukommen von irgendwelchen Shops, die man vorher noch nicht gesehen hat, dass es unter Umständen sehr sinnvoll ist, so eine Kategorie zu haben, wie alle Dinge, für die wir keine Kategorie haben, weil ansonsten verteilen die sich halt in alle Dinge, wo man eine hat und das ist gar nicht gut, weil dann denkt man sich, wo kommt dieser Kram immer her? Ja, genau. Einerseits willst du dir natürlich vorher idealerweise Gedanken machen,

00:39:38.413 --> 00:39:39.752
wie ordne ich das ein?

00:39:40.052 --> 00:39:42.192
Du möchtest auch nicht, dass du während du das annotierst, dass jeder

00:39:42.192 --> 00:39:44.373
dann einfach mal, oh hier habe ich noch eine Idee für eine Kategorie.

00:39:45.492 --> 00:39:46.352
So stellen sich das

00:39:46.352 --> 00:39:48.332
auch manchmal Leute vor, aber das ist natürlich nicht sinnvoll.

00:39:49.132 --> 00:39:50.232
Aber andererseits musst du

00:39:50.232 --> 00:39:51.772
auch überlegen, okay, wie gehe ich damit um?

00:39:51.933 --> 00:39:53.933
100 pro, du hast 1000 Beispiele

00:39:53.933 --> 00:39:56.172
annotiert und dann denkst du, ja Mist, nee, hätte ich jetzt doch

00:39:56.172 --> 00:39:58.132
nochmal eine andere Kategorie machen sollen.

00:39:58.433 --> 00:39:59.933
Und dann willst du einen Workflow haben,

00:40:00.192 --> 00:40:01.972
bei dem du das relativ easy machen kannst.

00:40:02.072 --> 00:40:03.592
Und wo du nicht sagst, ja toll, jetzt muss ich nochmal

00:40:03.592 --> 00:40:06.132
ganz von vorne anfangen oder

00:40:06.132 --> 00:40:13.012
oder, ja, jetzt, keine Ahnung, jetzt habe ich meinen ganzen Fortschritt hier verloren und so weiter.

00:40:13.132 --> 00:40:14.893
Also das ist alles richtig.

00:40:15.052 --> 00:40:18.232
Und noch ein ganz anderes, oder ein ähnliches Thema ist,

00:40:20.132 --> 00:40:25.672
du inkodierst immer eine gewisse Voreingenommenheit in dein Modell.

00:40:26.172 --> 00:40:28.972
Das liegt schon daran, dass Sprache ist voreingenommen.

00:40:29.092 --> 00:40:31.572
Und das ist ja auch nicht unbedingt schlecht.

00:40:31.572 --> 00:41:01.552
und Jochen unterhalten sich über die Programmiersprache Python

00:41:01.572 --> 00:41:04.112
Twitter-Kommentare generieren.

00:41:04.532 --> 00:41:05.572
Genau, oder auch...

00:41:05.572 --> 00:41:08.072
Oder du trainierst

00:41:08.072 --> 00:41:09.652
dein Modell für Personennamen

00:41:09.652 --> 00:41:11.732
und in deinen Beispielen, da haben alle so

00:41:11.732 --> 00:41:13.612
schöne deutsche Namen wie Jochen

00:41:13.612 --> 00:41:15.272
und das funktioniert auch total super.

00:41:15.592 --> 00:41:17.772
Und dann setzt du das

00:41:17.772 --> 00:41:19.552
in der Praxis ein, wo auf einmal

00:41:19.552 --> 00:41:22.052
Leute nicht so typisch

00:41:22.052 --> 00:41:23.692
klassische deutsche Namen haben

00:41:23.692 --> 00:41:25.072
und dann geht das nicht. Und dann

00:41:25.072 --> 00:41:27.812
können die Leute deine Tools nicht nutzen

00:41:27.812 --> 00:41:29.132
oder haben dann ganz komische

00:41:29.132 --> 00:41:30.732
Probleme,

00:41:31.572 --> 00:41:33.672
und das ist natürlich auch was,

00:41:33.772 --> 00:41:35.632
was du erst herausfindest, wenn du

00:41:35.632 --> 00:41:37.032
mit den Daten arbeitest und

00:41:37.032 --> 00:41:39.832
da tatsächlich iterierst

00:41:39.832 --> 00:41:41.552
und

00:41:41.552 --> 00:41:42.772
ja.

00:41:44.972 --> 00:41:45.492
Ja.

00:41:46.772 --> 00:41:47.632
Ja, ich glaube,

00:41:47.632 --> 00:41:49.592
das stellen

00:41:49.592 --> 00:41:51.472
sich viele Leute meistens dann

00:41:51.472 --> 00:41:52.272
so einfach vor.

00:41:53.152 --> 00:41:53.612
Ja, es ist

00:41:53.612 --> 00:41:55.332
ja.

00:41:57.192 --> 00:41:58.552
Und gute Tools an der Stelle.

00:41:59.312 --> 00:42:00.652
Sprache ist messy.

00:42:01.572 --> 00:42:11.352
und es macht es auch spannend, aber es ist durchaus, also man kommt nicht drum rum, sich auch wirklich Gedanken zu machen.

00:42:14.352 --> 00:42:15.032
Und Ärger.

00:42:16.933 --> 00:42:18.112
Künstliche Intelligenz macht das alles für uns.

00:42:19.132 --> 00:42:25.252
Nein, wenn du es benutzen möchtest und da wirklich, und nicht nur, du musst dir Gedanken machen, du solltest dir Gedanken machen.

00:42:25.252 --> 00:42:30.172
und ich finde es wichtig, dass wir uns alle Gedanken machen über das, was wir entwickeln,

00:42:31.012 --> 00:42:37.453
was wir erreichen wollen, wie wir das machen, ob es Sinn macht, was da für Probleme auftreten können

00:42:37.453 --> 00:42:39.992
und eben auch, wie es funktioniert.

00:42:40.132 --> 00:42:44.433
Ich glaube, es ist wichtig zu verstehen, grob, wie funktionieren diese Modelle,

00:42:45.552 --> 00:42:51.072
was passiert da, auf welcher Basis machen die Vorhersagen und was bedeutet das am Ende.

00:42:51.072 --> 00:42:57.772
und das bedeutet nicht, dass jeder genau im Detail Machine Learning verstehen muss,

00:42:57.893 --> 00:43:02.052
genauso wie natürlich, wenn du dein Auto fährst, musst du nicht verstehen, wie das Auto genau funktioniert,

00:43:02.212 --> 00:43:08.933
aber bis zum gewissen Grad ist es durchaus wichtig und deswegen finde ich es auch teilweise problematisch,

00:43:09.832 --> 00:43:16.172
wenn das so ein bisschen in manchen Tools oder in manchen Produkten so komplett weg abstrahiert wird,

00:43:16.172 --> 00:43:20.453
so, uh, gib irgendwas ein, unsere magische künstliche Intelligenz macht das alles für euch.

00:43:21.072 --> 00:43:22.852
und ich glaube, da das Problem ist,

00:43:22.953 --> 00:43:23.472
das ist halt

00:43:23.472 --> 00:43:26.012
schon allein

00:43:26.012 --> 00:43:28.393
für die Benutzer

00:43:28.393 --> 00:43:30.772
das deutlich intransparenter

00:43:30.772 --> 00:43:32.252
macht, was da eigentlich passiert.

00:43:33.252 --> 00:43:35.052
Obwohl eigentlich, glaube ich, auch der Endbenutzer

00:43:35.052 --> 00:43:36.873
sollte sich überlegen, okay, was geht

00:43:36.873 --> 00:43:37.272
da ab?

00:43:38.692 --> 00:43:40.692
Okay, eine KI

00:43:40.692 --> 00:43:42.632
macht das. Die erste Frage sollte sein, okay,

00:43:42.812 --> 00:43:43.792
womit wurde die trainiert?

00:43:45.572 --> 00:43:46.393
Oder auch, genau,

00:43:46.492 --> 00:43:48.893
in der Medienberichterstattung, okay, cool,

00:43:48.893 --> 00:43:49.672
irgendwas mit KI,

00:43:49.672 --> 00:43:52.152
auf welcher Basis denn? Was macht das?

00:43:53.913 --> 00:43:55.692
Und das einfach ein bisschen kritischer

00:43:55.692 --> 00:43:58.212
hinterfragen und ich glaube, dahin kommen wir nur, wenn wir halt

00:43:58.212 --> 00:44:00.312
auch dafür sorgen,

00:44:00.393 --> 00:44:01.933
dass jeder so ein bisschen grob eine Idee hat,

00:44:02.032 --> 00:44:02.292
wie das

00:44:02.292 --> 00:44:04.832
so funktioniert

00:44:04.832 --> 00:44:07.812
und das ein bisschen einschätzen kann.

00:44:09.652 --> 00:44:10.972
Ja, das ist

00:44:10.972 --> 00:44:14.413
momentan halt so eine Übergangszeit,

00:44:14.413 --> 00:44:15.992
wo teilweise

00:44:15.992 --> 00:44:18.332
die Erwartungen halt total übertrieben sind,

00:44:18.332 --> 00:44:21.212
auf der anderen Seite halt nicht klar ist, was alles an tollen Sachen schon geht.

00:44:21.332 --> 00:44:23.632
Und ich denke, wo dann Leute sagen, ja, das geht ja dann auf keinen Fall.

00:44:23.712 --> 00:44:25.953
Und man denkt so, ja doch, eigentlich schon, das geht ja schon.

00:44:28.312 --> 00:44:34.212
Das ist halt ein bisschen undiintuitiv, was auf einmal funktioniert und was halt nach wie vor schwer ist,

00:44:34.272 --> 00:44:37.152
weil es halt auch nicht immer proportional ist zu dem, was man sich so vorstellt.

00:44:37.352 --> 00:44:38.512
Und es ändert sich halt gerade.

00:44:38.592 --> 00:44:41.252
Und dann hat man mühselig gelernt, dass dies oder jenes nicht geht.

00:44:41.373 --> 00:44:43.472
Und dann ist das Wissen ja auch nur ein paar Jahre alt.

00:44:43.552 --> 00:44:45.312
Und dann plötzlich ist es aber schon veraltet.

00:44:45.453 --> 00:44:47.672
Und das geht in anderen Bereichen ja nicht so.

00:44:47.672 --> 00:44:49.933
Da stimmt das halt alles noch, wenn man das mal gelernt hat.

00:44:50.652 --> 00:44:51.893
Und ja, das macht halt

00:44:51.893 --> 00:44:53.433
viele Verwirrungen irgendwie auf allen Ebenen.

00:44:54.552 --> 00:44:54.913
Ja.

00:44:55.572 --> 00:44:55.933
Ja.

00:44:56.913 --> 00:44:58.512
Es ist auf jeden Fall eine spannende Zeit, aber ich glaube,

00:44:58.852 --> 00:45:01.433
es gibt viele Möglichkeiten und ich glaube auch,

00:45:01.532 --> 00:45:03.632
es gibt viele Anwendungsbereiche, wo

00:45:03.632 --> 00:45:05.953
auch wirklich diese neuen Technologien

00:45:05.953 --> 00:45:07.072
einen großen

00:45:07.072 --> 00:45:08.752
Unterschied machen können.

00:45:09.453 --> 00:45:11.393
Das würde mich jetzt tatsächlich auch nochmal interessieren, also was für

00:45:11.393 --> 00:45:12.933
Anwendungsbereiche es denn dafür alles gibt.

00:45:13.413 --> 00:45:15.092
Also Chatbots haben wir jetzt irgendwie schon gesagt oder

00:45:15.092 --> 00:45:45.072
und Jochen unterhalten sich über die Programmiersprache Python

00:45:45.092 --> 00:46:15.072
und Jochen unterhalten sich über die Programmiersprache Python

00:46:15.092 --> 00:46:17.413
anpassen können.

00:46:17.572 --> 00:46:18.692
Das klingt erstmal

00:46:18.692 --> 00:46:20.272
super lame,

00:46:21.712 --> 00:46:22.232
ist jetzt nicht,

00:46:22.413 --> 00:46:24.792
als Beispiel denkst du so,

00:46:24.873 --> 00:46:27.413
next, aber das ist

00:46:27.413 --> 00:46:29.492
tatsächlich was, was

00:46:29.492 --> 00:46:31.752
entsprechend auch einen sehr positiven

00:46:31.752 --> 00:46:32.772
Einfluss hat,

00:46:33.252 --> 00:46:35.312
auf die Welt,

00:46:35.312 --> 00:46:37.332
auf die Wirtschaft, unser generelles Zusammenleben,

00:46:37.472 --> 00:46:38.472
also auch komplett.

00:46:39.032 --> 00:46:40.152
Das ist noch nicht mal so ein Beispiel,

00:46:40.292 --> 00:46:43.152
hier Finance, Evil,

00:46:43.152 --> 00:46:50.112
und das ist, ja, objektiv zu sagen, okay, gut, davon haben wir eigentlich alle was.

00:46:52.453 --> 00:46:57.953
Jetzt, genau, als Beispiel, aber auch, ja, also, ich würde schon sagen,

00:46:58.393 --> 00:47:07.933
die Sachen, die relativ gut funktionieren, sind nicht immer die sexiesten, wie man so gerne sagt,

00:47:07.933 --> 00:47:08.332
aber

00:47:08.332 --> 00:47:11.373
ja.

00:47:14.032 --> 00:47:15.812
Ja, ich meine, ich kenne es halt

00:47:15.812 --> 00:47:17.752
häufig, ich weiß nicht, ob das jetzt die Welt

00:47:17.752 --> 00:47:19.252
wirklich besser macht, aber es wird viel

00:47:19.252 --> 00:47:21.832
verwendet eben in diesem ganzen Bereich Werbung

00:47:21.832 --> 00:47:23.572
irgendwie automatisieren

00:47:23.572 --> 00:47:24.852
in gewisser Weise.

00:47:25.712 --> 00:47:27.852
Da kann man sich glaube ich schon, da kann man sich tatsächlich

00:47:27.852 --> 00:47:28.373
überstreiten.

00:47:32.532 --> 00:47:33.852
Was passiert eigentlich, wenn man so etwas

00:47:33.852 --> 00:47:35.953
wie Spacy auf Python als Sprache

00:47:35.953 --> 00:47:37.632
lassen würde, also Text in Python?

00:47:37.933 --> 00:47:39.072
also eine Programmiersprache.

00:47:39.492 --> 00:47:41.712
Also es gibt, also Spacey jetzt an sich

00:47:41.712 --> 00:47:43.792
ist schwer zu sagen,

00:47:43.873 --> 00:47:45.953
weil natürlich die Implementationen,

00:47:45.953 --> 00:47:47.873
die wir jetzt entwickelt haben, die sind natürlich so ein bisschen

00:47:47.873 --> 00:47:49.772
getönt auf tatsächlich natürliche Sprache.

00:47:49.852 --> 00:47:51.572
Aber es gibt sehr interessante Projekte

00:47:51.572 --> 00:47:52.172
zu

00:47:52.172 --> 00:47:55.312
Source-Code

00:47:55.312 --> 00:47:58.032
Analyse

00:47:58.032 --> 00:47:59.812
mit Machine Learning. Ich glaube GitHub hat dazu

00:47:59.812 --> 00:48:00.373
auch was gemacht.

00:48:01.852 --> 00:48:03.433
Das war sehr spannend und

00:48:03.433 --> 00:48:05.812
ja, es gibt auch ein paar Projekte, wo du

00:48:05.812 --> 00:48:06.812
halt siehst, oh cool,

00:48:06.812 --> 00:48:20.413
dieser generative Ansatz, der funktioniert ja auch, du kannst ja auch sagen, basierend auf diesen Wörtern oder diesen Tokens im Programmierensinn, sage die nächsten voraus.

00:48:20.772 --> 00:48:32.572
Und so kannst du natürlich, du kannst natürlich sagen, was am Ende raus das Ding produzieren muss, muss natürlich gültiger Code sein, der auch läuft.

00:48:32.572 --> 00:48:39.352
und so haben auch Modelle entwickelt, die natürlich dann programmieren können,

00:48:39.453 --> 00:48:44.433
also quasi reflektieren können, was andere Leute auf GitHub gepostet haben.

00:48:44.433 --> 00:48:48.332
Oder der Super-Vergessen-Share-Auto-Competition oder sowas ist ja auch relativ nah dran.

00:48:48.332 --> 00:48:51.732
Gibt es auch einen Bereich, wo ich sage, okay, das macht natürlich Sinn,

00:48:52.072 --> 00:48:56.413
oder auch, wenn du jetzt rein theoretisch, stell dir vor, du hast eine riesen Codebase

00:48:56.413 --> 00:48:59.192
und du könntest sowas trainieren für deine eigene Codebase.

00:48:59.192 --> 00:49:11.145
und das w zum Beispiel noch mal cooler als jetzt okay auf der Basis vom ganzen Internet oder du f an mit so einem relativ generischen Modell das jetzt irgendwie auf GitHub alles m gesehen hat

00:49:11.265 --> 00:49:13.265
dann passt das so ein bisschen an mit deiner Codebase

00:49:13.265 --> 00:49:14.905
und dann könnte es zum Beispiel

00:49:14.905 --> 00:49:16.725
dein Editor sagen, ja, hier hast du aber

00:49:16.725 --> 00:49:18.385
einen Namen benutzt, der

00:49:18.385 --> 00:49:20.785
irgendwie sieht komisch aus oder diese

00:49:20.785 --> 00:49:21.245
Variable

00:49:21.245 --> 00:49:24.805
das sieht irgendwie, das passt nicht

00:49:24.805 --> 00:49:26.125
und dann kannst du sagen, ah ja, stimmt,

00:49:26.445 --> 00:49:28.245
das war nicht so guter Stil oder

00:49:28.245 --> 00:49:30.785
so machen wir das ja eigentlich nicht in dieser

00:49:30.785 --> 00:49:32.605
Codebase. Das ist zum Beispiel ganz spannend.

00:49:33.225 --> 00:49:34.025
Aber das ist auch wieder sowas,

00:49:34.165 --> 00:49:36.525
das ist cool, aber

00:49:36.525 --> 00:49:38.525
ist jetzt vielleicht nicht so hypig

00:49:38.525 --> 00:49:40.425
wie, wow, AI

00:49:40.425 --> 00:49:41.325
schreibt jetzt,

00:49:42.065 --> 00:49:43.245
programmiert jetzt für uns.

00:49:45.925 --> 00:49:46.365
Aber

00:49:46.365 --> 00:49:48.525
man muss eben auch sagen, auch selbst wenn du

00:49:48.525 --> 00:49:50.485
eben solche Modelle trainierst, die eben

00:49:50.485 --> 00:49:52.285
die nächsten Wörter

00:49:52.285 --> 00:49:54.125
fürher sagen, die können super interessante

00:49:54.125 --> 00:49:56.285
Dinge ausgeben, aber im Endeffekt

00:49:56.285 --> 00:49:58.485
dein Modell ist

00:49:58.485 --> 00:49:59.585
kein Programmierer. Dein Modell

00:49:59.585 --> 00:50:03.445
Dein Modell kopiert Programmierer.

00:50:03.525 --> 00:50:09.865
Genauso wie wenn du jetzt irgendwie so ein Modell fragst zu medizinischen Themen oder so.

00:50:10.025 --> 00:50:11.645
Auch wenn das das ganze Internet gelesen hat.

00:50:11.925 --> 00:50:15.645
Das kann sich dann als Doktor ausgeben oder so, als Arzt ausgeben.

00:50:15.805 --> 00:50:20.745
Oder es kann sich als, es kann genau diesen Text produzieren.

00:50:20.865 --> 00:50:23.805
Aber es kann nicht unbedingt Krebs heilen.

00:50:23.805 --> 00:50:25.305
weil es eben

00:50:25.305 --> 00:50:27.645
nur das repliziert

00:50:27.645 --> 00:50:30.385
was existiert

00:50:30.385 --> 00:50:31.865
an Text über

00:50:31.865 --> 00:50:33.765
die Heilung von Krebs

00:50:33.765 --> 00:50:34.205
zum Beispiel

00:50:34.205 --> 00:50:37.245
und deswegen

00:50:37.245 --> 00:50:37.785
ich glaube auch so

00:50:37.785 --> 00:50:41.165
brauchen wir bald keine Programmierer mehr

00:50:41.165 --> 00:50:42.065
ich finde das ist immer ein bisschen

00:50:42.065 --> 00:50:45.405
ich finde auch man kann sich

00:50:45.405 --> 00:50:47.465
Webentwicklung angucken, das ist ein ganz gutes Beispiel

00:50:47.465 --> 00:50:49.765
da ist einfach ein paar Jahre voraus

00:50:49.765 --> 00:50:51.385
die Tat war, dass jeder

00:50:51.385 --> 00:50:52.245
jedes Café

00:50:52.245 --> 00:50:57.385
jetzt sich eine Webseite einrichten kann, bedeutet nicht, dass wir keine Webentwickler mehr brauchen.

00:50:57.785 --> 00:51:00.565
Im Gegenteil, das ist als Beruf gefragter

00:51:00.565 --> 00:51:03.965
denn je. Es ist nur, ja,

00:51:04.065 --> 00:51:09.025
bestimmte Teile der Technologie sind halt zugänglicher, aber es gibt nach wie vor genug Leute,

00:51:09.145 --> 00:51:12.885
die daran arbeiten und es bedeutet auch, dass, okay, Firmen

00:51:12.885 --> 00:51:17.105
viel, viel mehr investieren. Jede Firma hat große Abteilungen, die sich

00:51:17.105 --> 00:51:21.445
halt mit Web, Apps, User Experience

00:51:21.445 --> 00:51:23.065
und so weiter beschäftigen. Das ist ganz normal.

00:51:24.285 --> 00:51:25.445
Und das geht auch nicht zurück,

00:51:25.545 --> 00:51:27.225
nur weil sich jeder jetzt irgendwie

00:51:27.225 --> 00:51:29.425
einen Online-Blog einrichten kann.

00:51:29.445 --> 00:51:31.065
Was sich vielleicht dann doch verändern könnte, ist halt irgendwie

00:51:31.065 --> 00:51:33.305
die Art und Weise, wie man sowas macht.

00:51:33.425 --> 00:51:35.505
Also dass man halt jetzt nicht vielleicht pure Syntax

00:51:35.505 --> 00:51:37.325
schreibt, sondern vielleicht irgendwie auch logische

00:51:37.325 --> 00:51:39.125
Gedanken irgendwie formulieren kann

00:51:39.125 --> 00:51:41.325
und die Syntax dafür dann

00:51:41.325 --> 00:51:43.465
übernommen wird vom Alkoholismus.

00:51:43.945 --> 00:51:45.365
Ich weiß nicht, ob das wirklich gehen kann.

00:51:45.365 --> 00:51:45.805
Ja, vielleicht.

00:51:46.905 --> 00:51:48.685
Ja, also ich glaube auch generell für

00:51:48.685 --> 00:51:49.625
andere

00:51:49.625 --> 00:52:19.605
und die Programmiersprache Python.

00:52:19.625 --> 00:52:21.725
von Programmieren. Und das sind auch

00:52:21.725 --> 00:52:23.685
alles Tools, die man entsprechend

00:52:23.685 --> 00:52:25.785
verbessern kann

00:52:25.785 --> 00:52:26.805
oder wo man einfach

00:52:26.805 --> 00:52:29.745
dem Nutzer bessere

00:52:29.745 --> 00:52:31.105
Tools zur Hand geben kann,

00:52:31.825 --> 00:52:33.445
um einfach

00:52:33.445 --> 00:52:35.605
besser arbeiten zu können.

00:52:35.745 --> 00:52:37.345
Und das heißt nicht unbedingt, dass man ein

00:52:37.345 --> 00:52:39.525
magisches KI-Modell hat, das auf einmal

00:52:39.525 --> 00:52:41.685
den Anwalt ersetzt oder den Arzt

00:52:41.685 --> 00:52:42.545
ersetzt oder

00:52:42.545 --> 00:52:44.905
den Buchhalter ersetzt, sondern...

00:52:44.905 --> 00:52:46.525
Ein bisschen mehr, bei anderen weniger, schade.

00:52:47.345 --> 00:52:47.705
Ja.

00:52:47.705 --> 00:52:48.225
Ja.

00:52:48.225 --> 00:52:51.265
Ja, wobei ich mich da auch manchmal frage, ob das nicht

00:52:51.265 --> 00:52:54.165
so ein Bias ist, den man hat, dass man

00:52:54.165 --> 00:52:56.185
denkt, dass da bestimmte Berufsgruppen,

00:52:56.245 --> 00:52:58.205
die halt ein traditionell

00:52:58.205 --> 00:53:00.245
hohes Ansehen haben, vielleicht gar nicht

00:53:00.245 --> 00:53:02.085
so unersetzt, also ich denke jetzt gerade an sowas wie Lehrer

00:53:02.085 --> 00:53:03.945
zum Beispiel, wo man sich sagt, ja gut,

00:53:04.325 --> 00:53:05.405
also wenn das jetzt mit dem,

00:53:06.005 --> 00:53:07.765
vorher fand man das ja vielleicht mit

00:53:07.765 --> 00:53:10.085
irgendwie Remote-Dinge unterrichten

00:53:10.085 --> 00:53:10.705
oder so,

00:53:11.065 --> 00:53:13.945
und jetzt konnte man halt nicht anders und jetzt haben die Leute gesehen,

00:53:13.945 --> 00:53:15.925
ah, es geht ja doch, ist ja gar nicht so schlecht,

00:53:16.465 --> 00:53:17.965
warum ist

00:53:17.965 --> 00:53:47.945
und Jochen unterhalten sich über die Programmiersprache Python

00:53:47.965 --> 00:53:51.185
wegfallen. Und das betrifft

00:53:51.185 --> 00:53:52.805
entsprechende Menschen.

00:53:53.025 --> 00:53:55.405
Und das betrifft auch entsprechende Bevölkerungsgruppen.

00:53:56.105 --> 00:53:57.205
Und eben

00:53:57.205 --> 00:53:59.365
leider auch entsprechende Bevölkerungsgruppen, die schon

00:53:59.365 --> 00:54:01.305
eh weniger

00:54:01.305 --> 00:54:02.325
privilegiert sind als andere.

00:54:03.005 --> 00:54:05.285
Das ist die Praxis.

00:54:05.445 --> 00:54:05.965
So ist es.

00:54:06.205 --> 00:54:08.985
Ich weiß gar nicht, ob es diesmal so unbedingt sein muss.

00:54:09.105 --> 00:54:09.865
Mich würde es freuen,

00:54:10.265 --> 00:54:12.785
wenn es auch mal andere trifft.

00:54:12.785 --> 00:54:13.805
Aber gut, keine Ahnung.

00:54:14.125 --> 00:54:15.265
Vielleicht trifft es auch immer die gleichen.

00:54:15.265 --> 00:54:17.825
Das ist halt immer

00:54:17.825 --> 00:54:19.785
ein viel tiefgehendes Problem.

00:54:19.925 --> 00:54:21.685
Natürlich, grundsätzlich ist es ja nicht schlecht.

00:54:21.765 --> 00:54:24.265
Wenn wir alle weniger arbeiten müssten, wäre das toll.

00:54:24.885 --> 00:54:25.845
Aber das Problem ist,

00:54:25.965 --> 00:54:27.705
wie alles in unserer Welt,

00:54:27.805 --> 00:54:29.765
in unserer Gesellschaft, wird sich

00:54:29.765 --> 00:54:31.785
dieser Vorteil eben nicht proportional

00:54:31.785 --> 00:54:33.425
auf uns alle verteilen.

00:54:33.545 --> 00:54:35.505
Genauso wie sich das Geld nicht proportional...

00:54:35.505 --> 00:54:37.345
Uns geht es ja viel, viel besser.

00:54:37.425 --> 00:54:39.425
Wir verdienen alle viel, viel mehr Geld im Schnitt.

00:54:40.005 --> 00:54:41.885
Aber das Geld verteilt sich leider

00:54:41.885 --> 00:54:43.505
nicht proportional auf uns alle.

00:54:43.505 --> 00:54:46.505
sondern nur auf sehr wenige

00:54:46.505 --> 00:54:48.105
das heißt und genauso wird es natürlich

00:54:48.105 --> 00:54:50.805
es ist eher naiv

00:54:50.805 --> 00:54:52.865
anzunehmen, dass sich der Vorteil

00:54:52.865 --> 00:54:54.765
aus weniger Arbeit und Automatisierung

00:54:54.765 --> 00:54:56.385
auf einmal

00:54:56.385 --> 00:54:58.745
schön gleich auf uns alle verteilt, dass wir da alle

00:54:58.745 --> 00:54:59.945
was von haben, natürlich

00:54:59.945 --> 00:55:01.845
und das ist auch was, was man nicht

00:55:01.845 --> 00:55:04.265
was man sich bewusst machen muss

00:55:04.265 --> 00:55:06.425
wenn man auch an diesen Technologien arbeitet

00:55:06.425 --> 00:55:08.185
aber was man auch andererseits nicht

00:55:08.185 --> 00:55:09.985
mit Technologie

00:55:09.985 --> 00:55:11.485
magisch lösen kann

00:55:11.485 --> 00:55:13.425
wie viele andere Probleme auch

00:55:13.505 --> 00:55:14.785
Ja.

00:55:43.505 --> 00:55:50.625
Das ist ein interessanter Bereich, da gibt es zum Beispiel auch eine Bibliothek, die auf Spacey aufbaut, die ein Entwickler, der eben auch Jurist ist, entwickelt hat.

00:55:51.425 --> 00:55:59.705
Das ist auch etwas, was ich sehr toll finde, dass halt in unserem Bereich, da wir natürlich auch, wir wollen sicher gehen, dass auf Spacey relativ, zumindest der Einstieg leicht ist.

00:55:59.785 --> 00:56:06.385
Es ist unglaublich leistungsstark, aber du kannst auf jeden Fall relativ einfach anfangen und das ermöglicht eben auch Leuten, die vielleicht aus einem anderen Bereich kommen, zu sagen,

00:56:06.385 --> 00:56:08.465
cool, ich habe mir ein bisschen Programmieren beigebracht, ich möchte

00:56:08.465 --> 00:56:10.105
jetzt anfangen, in dem Bereich zu arbeiten.

00:56:10.485 --> 00:56:12.365
Da gibt es ein paar Pakete, die halt

00:56:12.365 --> 00:56:14.545
Entwickler entwickelt haben

00:56:14.545 --> 00:56:16.585
und eins davon nennt sich

00:56:16.585 --> 00:56:18.485
Blackstone, das beschäftigt sich eben

00:56:18.485 --> 00:56:20.605
mit juristischen Texten auf Englisch.

00:56:21.205 --> 00:56:21.485
Erstmal.

00:56:22.385 --> 00:56:24.485
Da kann man auch ganz spannende Sachen

00:56:24.485 --> 00:56:26.485
machen. Ich glaube, es ist

00:56:26.485 --> 00:56:27.825
leider halt nicht so einfach, dass

00:56:27.825 --> 00:56:30.505
Juristensprache

00:56:30.505 --> 00:56:31.145
ist halt so

00:56:31.145 --> 00:56:33.425
kodiert, dass es eh

00:56:33.425 --> 00:56:35.765
über die Bereiche ist.

00:56:36.845 --> 00:56:37.585
Aber es gibt,

00:56:37.685 --> 00:56:39.425
ich glaube tatsächlich, weil es halt so eine

00:56:39.425 --> 00:56:40.905
Formel, weil es sehr

00:56:40.905 --> 00:56:43.825
formulärisch ist, sagt man das so?

00:56:44.685 --> 00:56:45.085
Formal,

00:56:45.145 --> 00:56:45.965
formalisiert.

00:56:46.985 --> 00:56:47.525
Irgendwie so.

00:56:48.785 --> 00:56:50.785
Das war jetzt so ein

00:56:50.785 --> 00:56:53.405
Anglizismus-Fail, also formulaic, wollte ich sagen.

00:56:54.205 --> 00:56:54.485
Genau.

00:56:55.405 --> 00:56:57.525
Egal, also es ist auf jeden Fall

00:56:57.525 --> 00:56:59.305
sehr spannend, aber natürlich, was man so weit wie auch

00:56:59.305 --> 00:57:01.245
im juristischen Bereich, du musst ja auch immer bedenken,

00:57:01.305 --> 00:57:02.725
am Ende sitzt da ein Richter oder so,

00:57:02.725 --> 00:57:05.325
in vielen Fällen

00:57:05.325 --> 00:57:07.065
und trifft eine Entscheidung.

00:57:07.405 --> 00:57:09.265
Und das ist auch eine Entscheidung basierend auf

00:57:09.265 --> 00:57:11.665
einer menschlichen Interpretation.

00:57:12.725 --> 00:57:13.045
Und

00:57:13.045 --> 00:57:15.345
das steht ja nach wie vor am Ende.

00:57:15.345 --> 00:57:17.025
Und klar,

00:57:17.185 --> 00:57:19.685
man kann Technik nutzen,

00:57:19.845 --> 00:57:21.185
um Fehler zu vermeiden.

00:57:21.285 --> 00:57:22.865
Es gibt viele Dinge, wo

00:57:22.865 --> 00:57:25.345
man sagen kann, okay, du hast ganz viele Dokumente,

00:57:25.505 --> 00:57:26.885
die möchtest du

00:57:26.885 --> 00:57:29.605
am Computer drüber lesen lassen, wenn da irgendein Problem ist,

00:57:29.645 --> 00:57:31.185
wenn irgendwas anders ist,

00:57:31.265 --> 00:57:32.445
wenn irgendwas verdächtig aussieht.

00:57:32.725 --> 00:57:34.705
kannst du da halt nochmal Aufmerksamkeit

00:57:34.705 --> 00:57:36.645
Ich glaube, der Algorithmus könnte

00:57:36.645 --> 00:57:38.845
an der Stelle zum Beispiel relativ genau vorhersagen,

00:57:39.025 --> 00:57:40.145
was so der Spielraum

00:57:40.145 --> 00:57:42.145
realistischerweise denn ist.

00:57:42.605 --> 00:57:44.765
Ich meine, man kann jetzt irgendwie in einem juristischen Kommentar

00:57:44.765 --> 00:57:45.705
nachschlagen und gucken,

00:57:46.305 --> 00:57:48.465
wie könnte denn der jeweilige Sachverhalt

00:57:48.465 --> 00:57:50.685
interpretierbar sein und ich glaube,

00:57:50.765 --> 00:57:52.525
sowas kann halt der Algorithmus auch recht gut.

00:57:53.465 --> 00:57:54.425
Also ich meine, man könnte vielleicht

00:57:54.425 --> 00:57:56.545
diese Recherche, die vielleicht

00:57:56.545 --> 00:57:58.125
ein Jurist machen kann, aber man muss auch wieder

00:57:58.125 --> 00:58:00.585
vorsichtig sein, denn am Ende, worauf basiert

00:58:01.165 --> 00:58:02.705
dein Modell? Dein Modell basiert

00:58:02.705 --> 00:58:07.185
vielleicht auf anderen Entscheidungen. Dein Modell kann vielleicht replizieren, was in der Vergangenheit

00:58:07.185 --> 00:58:08.745
entschieden wurde. Ist das denn immer gut?

00:58:08.925 --> 00:58:10.585
Das ist ja das Strafverkehrsrecht trainiert.

00:58:12.105 --> 00:58:19.385
Ja, ich meine, es gibt ja so ein paar Sachen, über die man liest oder Anläsbereiche auch aus dem

00:58:19.385 --> 00:58:28.085
rechts, auch aus dem behördlichen oder auch aus dem Bereich Strafverfolgung, zum Beispiel in den USA,

00:58:28.085 --> 00:58:30.425
die einem da sehr Sorgen bereiten können

00:58:30.425 --> 00:58:32.385
oder wo auch gewisse große

00:58:32.385 --> 00:58:34.345
Technologiefirmen hingegangen sind und

00:58:34.345 --> 00:58:37.025
versucht haben ihre künstliche Intelligenz

00:58:37.025 --> 00:58:38.085
sehr aggressiv

00:58:38.085 --> 00:58:40.665
zu vertreiben und dann Leuten zu erzählen

00:58:40.665 --> 00:58:42.725
die ist 99,9%

00:58:42.725 --> 00:58:44.305
korrekt oder so

00:58:44.305 --> 00:58:45.885
was natürlich

00:58:45.885 --> 00:58:48.525
schon allein wenn du sowas hörst, dann müssen die eigentlich

00:58:48.525 --> 00:58:50.225
die Alarmglocken angehen, aber

00:58:50.225 --> 00:58:51.925
Leute glauben das, weil ja

00:58:51.925 --> 00:58:54.185
es ist halt künstliche Intelligenz und

00:58:54.185 --> 00:58:56.225
dann soll

00:58:56.225 --> 00:59:00.325
diese künstliche Intelligenz entscheidet dann halt, ob jemand auf Bewährung entlassen wird oder nicht.

00:59:00.985 --> 00:59:04.145
Auf der Basis von, keine Ahnung, unklar, wird ja nicht gesagt,

00:59:04.305 --> 00:59:07.645
aber angeblich 99,9% korrekt oder so.

00:59:08.585 --> 00:59:12.185
Und da sind natürlich alle Entscheidungen, die

00:59:12.185 --> 00:59:16.345
Menschen gemacht haben, inklusive jeglicher Voreingenommenheit,

00:59:16.425 --> 00:59:19.125
ob gut oder ob schlecht, drin wiedergespiegelt.

00:59:20.665 --> 00:59:24.365
Aber andererseits gibt den Menschen das schöne Gefühl,

00:59:24.365 --> 00:59:54.345
und Jochen unterhalten sich über die Programmiersprache Python

00:59:54.365 --> 00:59:56.545
Manches funktioniert ganz gut, manches halt nicht

00:59:56.545 --> 00:59:59.105
Aber wo es gefährlich wird

00:59:59.105 --> 00:59:59.825
ist, wenn

00:59:59.825 --> 01:00:02.665
die Allgemeinheit glaubt, dass es funktioniert

01:00:02.665 --> 01:00:04.545
Das ist viel, viel gefährlicher als so eine dystopische

01:00:04.545 --> 01:00:07.025
KI-Zukunft, wo die Maschinen

01:00:07.025 --> 01:00:09.025
alles super machen

01:00:09.025 --> 01:00:10.805
und auf einmal super intelligent sind

01:00:10.805 --> 01:00:13.005
Ja, wenn sie super intelligent sind, vielleicht machen sie es dann ja auch gut

01:00:13.005 --> 01:00:13.365
Wer weiß

01:00:13.365 --> 01:00:16.905
Aber auch wenn wirklich die Idee

01:00:16.905 --> 01:00:18.505
zumindest diese Prämisse funktioniert

01:00:18.505 --> 01:00:20.705
Was gefährlich ist

01:00:20.705 --> 01:00:22.645
Du hast da ein System, was irgendjemand

01:00:22.645 --> 01:00:24.985
so zusammengehackt hat mit allem möglichen

01:00:24.985 --> 01:00:26.805
Zeugs, was so, was gar nicht

01:00:26.805 --> 01:00:27.565
wirklich funktioniert.

01:00:28.365 --> 01:00:29.905
Golden Age für gute Entwickler.

01:00:30.165 --> 01:00:32.565
Die können ja einfach dann so tun, als haben die ein gewünschtes Ergebnis

01:00:32.565 --> 01:00:34.185
und alle Leute glauben, was sie da erzählen.

01:00:34.265 --> 01:00:36.105
Ja, genau. Das ist ein unglaublich

01:00:36.105 --> 01:00:37.565
Beispiel, auch hier

01:00:37.565 --> 01:00:40.245
historisch vielleicht ganz relevant,

01:00:40.345 --> 01:00:40.865
auch so für uns.

01:00:42.225 --> 01:00:44.485
Dann kommt jemand an und holt deinen Nachbarn ab,

01:00:44.665 --> 01:00:46.925
weil das KI-System,

01:00:47.045 --> 01:00:48.405
das 99,9%

01:00:48.405 --> 01:00:50.845
korrekt legt, gesagt hat, dass der ein Terrorist

01:00:50.845 --> 01:00:52.445
ist. Dann sagst du dir, ja,

01:00:52.645 --> 01:01:12.205
Also du hoffentlich jetzt nicht, aber dann sagen sich viele Leute, ja gut, wenn das halt so ist, ist halt die Technologie, wenn die da, das ist ja 99,9 Prozent, das muss schon richtig sein. Und das ist sehr düster und das ist genauso düster, wenn das halt, was weiß ich, überhaupt nicht funktioniert und so ein komisches Modell ist, was man immer trainiert hat.

01:01:12.205 --> 01:01:14.985
Ja, aber solche Modelle gibt es ja schon.

01:01:14.985 --> 01:01:16.325
Wenn es halt gut genug funktioniert,

01:01:16.525 --> 01:01:18.885
dass man es einsetzt,

01:01:19.065 --> 01:01:21.125
aber einem dann halt egal ist,

01:01:21.165 --> 01:01:23.005
dass es halt sehr ungerecht ist und man sich dann auch

01:01:23.005 --> 01:01:24.985
nicht mehr dafür verantworten muss, weil es hat ja der Computer

01:01:24.985 --> 01:01:27.025
entschieden, dass es schon, das ist halt so ein bisschen wie eben,

01:01:27.045 --> 01:01:28.585
man geht zur Bank und die hat einem gesagt,

01:01:28.665 --> 01:01:30.185
kein Kredit für dich heute.

01:01:30.445 --> 01:01:32.265
Ja, halt eine Gruppeanscheidung,

01:01:32.465 --> 01:01:33.985
wo du halt irgendwie so Bewegungen

01:01:33.985 --> 01:01:36.145
getestet werden, wo du halt von oben

01:01:36.145 --> 01:01:37.945
so Drohnen hast, die gucken, was du halt machst

01:01:37.945 --> 01:01:40.205
und wenn du dich halt auf den Parkplatz setzt und halt dem Strom

01:01:40.205 --> 01:01:42.125
nicht folgst oder sowas, dann gehst du halt direkt

01:01:42.125 --> 01:01:45.105
in den Fokus desjenigen, der da guckt, was denn da los ist.

01:01:45.265 --> 01:01:48.165
Weil könnte ja sein, dass da irgendwas nicht in Ordnung ist.

01:01:48.225 --> 01:01:51.045
Ja, ich weiß gar nicht, wer das, von wem dieses Bild war,

01:01:51.225 --> 01:01:56.345
aber im Grunde, wenn man Leuten vermitteln möchte,

01:01:56.485 --> 01:02:01.565
was denn jetzt diese, was denn in Zukunft, wie das denn funktioniert,

01:02:02.125 --> 01:02:04.465
dann fand ich das sehr hilfreich, sich das so vorzustellen,

01:02:04.525 --> 01:02:06.245
dass man sagt, naja, so künstliche Intelligenz,

01:02:06.285 --> 01:02:09.245
wir haben es im Grunde mit denen heute auch schon täglich zu tun,

01:02:09.845 --> 01:02:11.445
so mit denen wir es dann in Zukunft zu tun kriegen,

01:02:11.445 --> 01:02:13.825
und zwar Unternehmen oder Organisationen,

01:02:13.865 --> 01:02:15.605
Behörden, die sind im Grunde schon

01:02:15.605 --> 01:02:17.665
sowas. Die sind nur halt sehr viel

01:02:17.665 --> 01:02:19.565
langsamer, aber im Grunde

01:02:19.565 --> 01:02:21.585
sind die so und

01:02:21.585 --> 01:02:23.645
man muss sich das nur vorstellen, die Dinger werden jetzt

01:02:23.645 --> 01:02:25.545
halt richtig schnell. So, dann

01:02:25.545 --> 01:02:27.585
hat man so eine Vorstellung, was da passieren

01:02:27.585 --> 01:02:29.665
wird. Das ist eigentlich

01:02:29.665 --> 01:02:31.465
eine ganz gute Analogie auch, weil

01:02:31.465 --> 01:02:33.565
momentan auch so eine Behörde, okay, da hast

01:02:33.565 --> 01:02:35.705
du entsprechende Regeln, entsprechende

01:02:35.705 --> 01:02:39.505
Abläufe und das wird

01:02:39.505 --> 01:02:41.425
halt reproduziert von Menschen,

01:02:41.565 --> 01:02:42.825
die halt da sitzen am Schreibtisch.

01:02:44.125 --> 01:02:45.285
Und am Ende

01:02:45.285 --> 01:02:47.185
ein Computer kann das genauso machen,

01:02:47.305 --> 01:02:49.505
natürlich, aber ohne...

01:02:49.505 --> 01:02:51.525
Ohne

01:02:51.525 --> 01:02:53.185
Rechtsweg. Rechtsweg ausgeschlossen.

01:02:54.185 --> 01:02:55.205
Computer irrt mich.

01:02:58.145 --> 01:02:59.565
Und natürlich

01:02:59.565 --> 01:03:01.085
gibt es Dinge, die auch

01:03:01.085 --> 01:03:01.565
natürlich

01:03:01.565 --> 01:03:04.945
ein Vorteil sein werden.

01:03:05.305 --> 01:03:07.265
Vor allem die interessanteren Sachen sind, wo

01:03:07.265 --> 01:03:09.145
eine Maschine einen Menschen unterstützen kann.

01:03:09.505 --> 01:03:11.305
oder wo zum Beispiel

01:03:11.305 --> 01:03:13.505
eine Maschine auch nochmal

01:03:13.505 --> 01:03:15.025
auf ein Röntgenbild drauf gucken kann

01:03:15.025 --> 01:03:16.985
und vielleicht ein Röntgenbild nochmal

01:03:16.985 --> 01:03:19.645
entsprechend hervorheben kann,

01:03:20.085 --> 01:03:21.485
damit sich das nochmal

01:03:21.485 --> 01:03:22.625
ein Arzt anguckt oder so.

01:03:23.885 --> 01:03:25.685
Damit halt nichts übersehen wird.

01:03:26.085 --> 01:03:27.325
Aber so muss man

01:03:27.325 --> 01:03:29.145
meiner Meinung nach auch an die Dinge rangehen.

01:03:29.265 --> 01:03:31.025
Wenn man sieht, ein neues System kann

01:03:31.025 --> 01:03:32.605
Tumore erkennen,

01:03:32.905 --> 01:03:35.465
kann genauso gut Tumore

01:03:35.465 --> 01:03:36.685
erkennen wie ein Mensch oder so.

01:03:36.685 --> 01:03:37.805
Das heißt ja erstmal,

01:03:37.805 --> 01:03:41.925
Erstmal heißt das ja nicht, dass das System überhaupt besser ist als ein Mensch.

01:03:41.925 --> 01:03:47.385
Das heißt, dass du das Datenset hast, mit dem das trainiert wurde,

01:03:47.705 --> 01:03:51.405
und dann hast du die Vergleichsdaten, an denen das ausgewertet wird.

01:03:51.645 --> 01:03:54.005
Und meistens, wenn du Menschen nochmal sowas auswerten lässt,

01:03:54.085 --> 01:03:55.745
die Menschen sind ja auch nicht hundertprozentig genau.

01:03:55.845 --> 01:03:59.125
Die Menschen kriegen dann manchmal so 90% hin oder so.

01:03:59.385 --> 01:04:01.765
Und wenn du ein System hast, das auch 90% hinkriegt,

01:04:02.105 --> 01:04:03.425
dann sagst du auch genauso gut wie ein Mensch.

01:04:03.425 --> 01:04:04.925
und

01:04:04.925 --> 01:04:07.845
in einer ganz bestimmten

01:04:07.845 --> 01:04:10.665
Aufgabe.

01:04:12.685 --> 01:04:13.745
Aber es ist ja nicht

01:04:13.745 --> 01:04:15.425
in so einem Bereich, wenn du

01:04:15.425 --> 01:04:17.445
das System einsetzt und das jetzt

01:04:17.445 --> 01:04:19.225
ausschließlich

01:04:19.225 --> 01:04:21.665
deine Röntgenbilder auswertet, das ist vielleicht nicht so geil.

01:04:21.765 --> 01:04:23.745
Aber wenn das System vielleicht irgendwas sieht,

01:04:23.745 --> 01:04:25.705
was ein Mensch übersehen hat,

01:04:26.105 --> 01:04:27.425
warum nicht? Kann auf jeden Fall

01:04:27.425 --> 01:04:30.825
sinnvoll sein.

01:04:31.365 --> 01:04:33.365
Und im Bereich so gruseliger Anwendung

01:04:33.365 --> 01:04:34.665
oder so negative Dinge.

01:04:35.345 --> 01:04:37.225
Ich finde, worüber nicht genug geredet wird, ist so

01:04:37.225 --> 01:04:39.565
Spam und Malware.

01:04:40.545 --> 01:04:41.425
Weil das ist tatsächlich

01:04:41.425 --> 01:04:43.585
schon sehr realistisch

01:04:43.585 --> 01:04:44.805
und

01:04:44.805 --> 01:04:47.165
das ist viel destruktiver

01:04:47.165 --> 01:04:49.145
als jetzt diese Idee, uh, werden uns

01:04:49.145 --> 01:04:50.245
die Maschinen versklaven.

01:04:51.445 --> 01:04:53.045
Ja. Oder

01:04:53.045 --> 01:04:55.065
wahrscheinlich eher andere Menschen, die

01:04:55.065 --> 01:04:56.805
Maschinen benutzen, um uns zu versklaven.

01:04:57.645 --> 01:04:58.905
Die haben halt eine Intention,

01:04:59.025 --> 01:04:59.865
die Maschinen gar nicht so.

01:05:01.325 --> 01:05:03.125
Ja, ich glaube, das ist

01:05:03.125 --> 01:05:05.925
viel nähere und realistischere

01:05:05.925 --> 01:05:06.405
Probleme,

01:05:07.065 --> 01:05:08.945
die wir uns stellen müssen.

01:05:09.105 --> 01:05:11.465
Wo sich auch, glaube ich, jeder Entwickler fragen muss,

01:05:11.545 --> 01:05:12.665
okay, was mache ich hier?

01:05:14.045 --> 01:05:15.405
Wozu trage ich hier bei?

01:05:16.025 --> 01:05:17.405
Ist das gut oder

01:05:17.405 --> 01:05:18.085
schlecht?

01:05:19.785 --> 01:05:21.565
Und ich glaube, das kann man nicht unbedingt

01:05:21.565 --> 01:05:22.665
voneinander trennen.

01:05:24.185 --> 01:05:25.365
Ich glaube, man kann da nicht sitzen

01:05:25.365 --> 01:05:27.645
in seinem Vakuum und sagen, oh, ist mir egal, ich schreibe nur Code.

01:05:28.025 --> 01:05:29.225
Ja, man kann auch relativ wenig

01:05:29.225 --> 01:05:31.165
gegen machen. Selbst wenn man jetzt irgendwie vernünftige

01:05:31.165 --> 01:05:34.365
für Lizenzbedingungen nimmt, ob man da irgendwie dann sich aus dem Schein da ist, das ist schwierig.

01:05:35.705 --> 01:05:39.085
Ja, das ist auch das, wo wir uns Gedanken machen müssen, okay, wenn wir jetzt zum Beispiel

01:05:39.085 --> 01:05:42.925
mehr Funktionalitäten für bestimmte Sprachen zur Verfügung stellen,

01:05:43.625 --> 01:05:44.485
wer benutzt das?

01:05:48.085 --> 01:05:50.645
Und okay, wir machen das öffentlich verfügbar, Open Source.

01:05:51.965 --> 01:05:55.165
Wie viele Menschen gibt es, die diese Sprache sprechen? Welche Regierungen gibt es?

01:05:55.725 --> 01:05:59.085
Gibt es da Problematiken, wo die Regierung vielleicht

01:05:59.085 --> 01:06:29.065
und Jochen unterhalten sich über die Programmiersprache Python

01:06:29.085 --> 01:06:31.445
und wie wir uns in unserem Alltag Gedanken drüber machen müssen.

01:06:32.645 --> 01:06:38.405
Und auch vor allem, okay, so eine Bibliothek wie Spacey ist sehr verbreitet,

01:06:38.545 --> 01:06:42.065
es ist sehr beliebt, viele Leute benutzen das.

01:06:45.185 --> 01:06:52.065
Zwei Millionen Downloads pro Monat gehen irgendwo raus an irgendwelche Systeme

01:06:52.065 --> 01:06:56.125
und an irgendwelche Server und Dinge, die Leute damit machen.

01:06:56.125 --> 01:06:58.165
und in irgendwelche

01:06:58.165 --> 01:07:00.965
tausende Firmen, die damit auch Dinge machen

01:07:00.965 --> 01:07:03.105
und wer weiß wohin noch.

01:07:06.625 --> 01:07:07.725
Ja, es ist schwierig.

01:07:09.145 --> 01:07:10.945
Ich bin nach wie vor Verkächter von

01:07:10.945 --> 01:07:12.625
Open Source und ich glaube Open Source als

01:07:12.625 --> 01:07:14.905
einerseits natürlich als

01:07:14.905 --> 01:07:16.545
Software-Modell, aber eben auch als

01:07:16.545 --> 01:07:18.785
und natürlich andererseits muss man auch sagen als

01:07:18.785 --> 01:07:20.005
Geschäftsmodell. Das ist ja eine

01:07:20.005 --> 01:07:22.965
Open Source ist ja

01:07:22.965 --> 01:07:24.845
auch weiter und weiter

01:07:24.845 --> 01:07:25.745
verbreitet als

01:07:25.745 --> 01:07:28.745
Softwarevertrieb

01:07:28.745 --> 01:07:31.225
quasi. Das ist ja auch eine Realität

01:07:31.225 --> 01:07:33.245
der Open Source Software.

01:07:33.785 --> 01:07:34.385
Irgendwie

01:07:34.385 --> 01:07:36.185
tatsächlich hat sich das so

01:07:36.185 --> 01:07:38.025
durchgesetzt irgendwie.

01:07:38.725 --> 01:07:39.625
Ich erinnere mich noch an

01:07:39.625 --> 01:07:42.825
die Halloween Papers 1997

01:07:42.825 --> 01:07:43.665
von Microsoft,

01:07:44.605 --> 01:07:46.565
wo sie geschrieben haben, oh nein, das wird uns

01:07:46.565 --> 01:07:47.965
irgendwann umbringen langfristig.

01:07:47.965 --> 01:07:49.505
Das ist tatsächlich passiert, sehr gut.

01:07:49.985 --> 01:07:51.485
Aber auf der anderen Seite, Microsoft heute ist auch wieder

01:07:51.485 --> 01:07:53.845
Microsoft ist einer der Vorreiter.

01:07:54.845 --> 01:07:56.205
im Bereich Open Source.

01:07:56.725 --> 01:07:58.785
Hätte ich mir damals nicht träumen lassen,

01:07:58.885 --> 01:08:00.325
aber es ist tatsächlich passiert.

01:08:00.765 --> 01:08:02.825
Was interessant ist, finde ich,

01:08:02.985 --> 01:08:04.405
auch da im Bereich Open Source ist,

01:08:04.705 --> 01:08:06.725
ich glaube, es wird oft missverstanden, Leute denken,

01:08:07.125 --> 01:08:09.005
Open Source ist verbreitet,

01:08:09.065 --> 01:08:10.865
weil es gratis ist. Natürlich,

01:08:11.425 --> 01:08:12.985
die Tatsache, dass es halt

01:08:12.985 --> 01:08:13.965
meist frei verfügbar ist,

01:08:15.105 --> 01:08:16.705
ist auf jeden Fall ein Aspekt

01:08:16.705 --> 01:08:18.665
im kommerziellen Bereich

01:08:18.665 --> 01:08:20.725
oder was Firmen angeht.

01:08:21.565 --> 01:08:23.105
Die Tatsache, dass es gratis

01:08:23.105 --> 01:08:24.785
ist, ist nicht unbedingt der Knackpunkt.

01:08:24.845 --> 01:08:27.125
der Knackpunkt ist, dass es offen ist

01:08:27.125 --> 01:08:29.125
und dass man

01:08:29.125 --> 01:08:30.885
damit programmieren kann, der Code

01:08:30.885 --> 01:08:33.265
ist da und wenn du diese Entwicklertools

01:08:33.265 --> 01:08:34.985
hast, die eben auch Open Source sind

01:08:34.985 --> 01:08:36.365
also Open Source Bibliotheken

01:08:36.365 --> 01:08:38.165
zur Verfügung gestellt wird

01:08:38.165 --> 01:08:40.585
und die Tatsache, dass du

01:08:40.585 --> 01:08:41.765
nicht auf eine

01:08:41.765 --> 01:08:45.085
Lösung festlegst oder auf einen

01:08:45.085 --> 01:08:46.345
Anbieter festlegen musst

01:08:46.345 --> 01:08:48.905
und dass du dich da nicht

01:08:48.905 --> 01:08:49.725
einschließen lässt

01:08:49.725 --> 01:08:52.765
und diese Autonomie bewahrst, ich glaube

01:08:52.765 --> 01:08:56.745
und das ist in der Praxis tatsächlich, was für Firmen deutlich entscheidender ist als die Tatsache, dass es

01:08:56.745 --> 01:09:00.485
0 Euro kostet. Denn es kostet ja in der Praxis nicht 0 Euro

01:09:00.485 --> 01:09:02.885
mit einer Open-Source-Bibliothek was zu entwickeln.

01:09:04.605 --> 01:09:08.225
Und da ist wieder unglaublich viel Geld rein investiert in vor allem

01:09:08.225 --> 01:09:12.185
KI, Machine Learning, die entsprechenden Entwicklungen. Das sind top bezahlte Entwickler.

01:09:13.425 --> 01:09:16.325
Weswegen auch zum Beispiel Entwicklertools und

01:09:16.325 --> 01:09:20.865
Developer Experience und Tools, die halt sowas fördern

01:09:20.865 --> 01:09:23.405
und einfach die Entwickler produktiver machen,

01:09:23.905 --> 01:09:25.665
einen großen Einfluss haben können.

01:09:25.765 --> 01:09:27.925
Weil cool, wenn dein top bezahlter

01:09:27.925 --> 01:09:29.305
Machine Learning Entwickler

01:09:29.305 --> 01:09:31.765
ein bisschen weniger rumsitzen muss

01:09:31.765 --> 01:09:32.265
und

01:09:32.265 --> 01:09:35.725
stupide Arbeit machen muss und einfach

01:09:35.725 --> 01:09:37.045
besser arbeiten kann, ist das

01:09:37.045 --> 01:09:38.705
natürlich besser für alle.

01:09:39.125 --> 01:09:41.165
Lohnt sich auf jeden Fall, aber ich weiß nicht genau.

01:09:41.285 --> 01:09:43.825
Ich habe doch häufig das Gefühl, dass es da so ein gewisses

01:09:43.825 --> 01:09:45.845
Marktversagen gibt irgendwie, weil

01:09:45.845 --> 01:09:47.945
wenn man sich zum Beispiel

01:09:47.945 --> 01:09:49.725
sowas anguckt wie Pandas oder

01:09:49.725 --> 01:10:14.285
oder Django oder Spaces weiß ich jetzt gar nicht genau, aber so halt Software, die halt als Infrastruktur unter ganz, ganz vielen Produkten und bei ganz, ganz vielen Firmen sozusagen darunter liegt, dann müsste man ja jetzt meinen, so rein aus so einem, gut, ich habe jetzt nicht so wirklich Ahnung von Ökonomie, aber so, dann wäre es doch für große Firmen allein schon aus so einem Versicherungsaspekt sinnvoll, die Projekte zu unterstützen, damit ihnen nicht plötzlich die Infrastruktur unter den Füßen wegbricht.

01:10:14.285 --> 01:10:15.045
Ja, aber das...

01:10:15.045 --> 01:10:17.085
Tatsächlich ist es aber so, dass kaum Firmen das machen.

01:10:17.085 --> 01:10:20.725
Das liegt daran, dass die Informationsasymmetrie nicht zu irgendwelchen kompetenteren

01:10:20.725 --> 01:10:24.165
oder Entscheidungsträgern durchdringend die Budgetverantwortung haben.

01:10:24.545 --> 01:10:27.505
Die wollen halt irgendwie Sachen, Projekte bekommen und die Projektmanager,

01:10:27.645 --> 01:10:29.585
die halt dann die Projekte bestellen oder bezahlen,

01:10:30.105 --> 01:10:33.525
die haben vielleicht schon mal von ihren Entwicklern irgendwie so ein bisschen was von oben zugehört,

01:10:33.585 --> 01:10:37.825
das irgendwie sinnvoll wäre, aber dann eine Ebene weiter oben sagen dann ganz viele einfach so,

01:10:37.825 --> 01:10:43.465
ja, nee, aber das bringt uns das irgendwas, das sind die nicht so, das ist schwer.

01:10:43.465 --> 01:10:46.945
Ja, aber so eine Idee, eigentlich.

01:10:47.745 --> 01:10:51.605
Also ich meine, es gibt ja verschiedene Versuche, das irgendwie zu lösen.

01:10:51.705 --> 01:10:52.605
Es ist immer ein bisschen problematisch.

01:10:53.245 --> 01:10:54.565
Es ist halt nicht einfach.

01:10:54.865 --> 01:10:58.005
Und ich glaube auch, einerseits, man sieht schon, es ändert sich was, auch in großen Firmen.

01:10:58.425 --> 01:11:05.105
Denn dieses Klischee vom alten Manager, der irgendwie kaum Computererfahrung hat,

01:11:05.205 --> 01:11:06.245
das stirbt ja langsam aus.

01:11:06.365 --> 01:11:10.965
Du hast ja Leute im Management, die sind in ihren 40ern, die programmieren seit ihrer Jugend.

01:11:10.965 --> 01:11:13.245
Das ist jetzt nicht mehr seltsam.

01:11:13.465 --> 01:11:17.685
und eben auch diese Idee von so einem dummen Management, das irgendwie keine Ahnung hat.

01:11:18.205 --> 01:11:22.525
Gibt es immer noch, natürlich, aber in vielen Bereichen hast du halt Leute, die kennen sich aus mit Technik.

01:11:23.025 --> 01:11:26.185
Und denen kannst du auch nicht mehr irgendwelchen Schwachsinn andrehen unbedingt.

01:11:26.365 --> 01:11:30.585
Und die haben da auch Meinungen zu, zum gewissen Grad.

01:11:31.465 --> 01:11:35.005
Aber ich glaube, mit Open Source, ein Problem ist, es gibt ja keine wirkliche,

01:11:36.525 --> 01:11:37.945
es ist ja alles nicht wirklich standardisiert.

01:11:37.945 --> 01:11:42.745
Es gibt verschiedene Projekte, die aus den verschiedenen Motivationen heraus entstehen.

01:11:42.745 --> 01:11:44.925
und manche

01:11:44.925 --> 01:11:46.965
sind natürlich jetzt mittlerweile

01:11:46.965 --> 01:11:48.645
gefördert von der Stiftung, das ist ja die

01:11:48.645 --> 01:11:51.265
Tatsache für viele dieser Scientific Computing

01:11:51.265 --> 01:11:52.965
Geschichten auch

01:11:52.965 --> 01:11:54.165
im Python-Ökosystem

01:11:54.165 --> 01:11:56.645
und dann gibt es aber andere Projekte, okay, das ist halt

01:11:56.645 --> 01:11:59.085
irgendjemand hat das mal entwickelt, der hatte da Spaß dran,

01:12:00.285 --> 01:12:00.825
das wurde

01:12:00.825 --> 01:12:02.505
populär und

01:12:02.505 --> 01:12:04.325
ja, jetzt

01:12:04.325 --> 01:12:06.885
sitzt da jemand mit einem erfolgreichen Projekt

01:12:06.885 --> 01:12:08.885
und aber kein

01:12:08.885 --> 01:12:09.965
nicht unbedingt im direkten

01:12:09.965 --> 01:12:11.645
Pfad zu

01:12:11.645 --> 01:12:13.705
zu, ja, etwas kommerziell draus.

01:12:13.725 --> 01:12:15.945
Das kann man ja auch dem Entwickler

01:12:15.945 --> 01:12:16.765
nicht unbedingt anlasten.

01:12:18.345 --> 01:12:19.145
Sagen, okay, gut,

01:12:21.005 --> 01:12:21.765
das ist halt

01:12:21.765 --> 01:12:23.005
nun mal so und auch, okay, die Firmen,

01:12:24.125 --> 01:12:25.385
was willst du da machen?

01:12:29.905 --> 01:12:31.605
Es kommt halt immer darauf an, auch auf die

01:12:31.605 --> 01:12:33.445
Motivation, die zu einem Open-Source-Projekt führt.

01:12:33.625 --> 01:12:35.205
Es gibt andere Projekte, wo

01:12:35.205 --> 01:12:37.565
Firmen, Entwickler

01:12:37.565 --> 01:12:39.365
speziell gesagt haben, okay, cool, ich entwickle das

01:12:39.365 --> 01:12:40.645
und ich habe eine Motivation,

01:12:40.645 --> 01:12:43.285
dass da entweder, wenn das populär wird

01:12:43.285 --> 01:12:44.925
kann ich das für meine Karriere nutzen

01:12:44.925 --> 01:12:46.065
gibt es ja auch viele Entwickler

01:12:46.065 --> 01:12:48.085
die sagen, hey

01:12:48.085 --> 01:12:50.825
da kriege ich einen besseren Job, funktioniert ja auch oft

01:12:50.825 --> 01:12:52.225
oder in unserem Bereich, wir haben es ja auch

01:12:52.225 --> 01:12:55.265
die Idee war immer, dass wir wollen

01:12:55.265 --> 01:12:56.905
eine Firma gründen

01:12:56.905 --> 01:12:58.005
und wir wollen

01:12:58.005 --> 01:13:00.945
etwas machen in dem Bereich und in diesem Bereich

01:13:00.945 --> 01:13:02.765
arbeiten und die Tatsache, okay

01:13:02.765 --> 01:13:04.425
Spacey ist Open Source und das ist auch

01:13:04.425 --> 01:13:06.405
strategisch so

01:13:06.405 --> 01:13:08.805
und das ist uns sehr wichtig, aber

01:13:08.805 --> 01:13:09.825
und das ist eben natürlich auch Teil

01:13:09.825 --> 01:13:12.365
unserer generellen Strategie und wir sagen, okay, wir bauen,

01:13:12.585 --> 01:13:14.505
wir machen jetzt nicht so ein Open-Core-Ding, wo du halt für

01:13:14.505 --> 01:13:16.605
bestimmte Features zahlen musst, sondern

01:13:16.605 --> 01:13:17.925
wir sagen, hey, hier ist unsere

01:13:17.925 --> 01:13:20.745
Open-Source-Bibliothek, die ist gut,

01:13:20.845 --> 01:13:22.565
du kannst sie testen, du kannst damit Dinge

01:13:22.565 --> 01:13:24.865
bauen, wir geben sie dir

01:13:24.865 --> 01:13:26.145
gratis, weil wir auch glauben, okay,

01:13:26.285 --> 01:13:28.285
das, wo der meiste Wert drinsteckt, sind

01:13:28.285 --> 01:13:30.645
die Daten, das ist nicht unbedingt, oder deine speziellen

01:13:30.645 --> 01:13:32.785
Daten, die man auch gar nicht unbedingt so verkaufen kann,

01:13:33.525 --> 01:13:45.178
den Algorithmus und die Bibliothek geben wir dir gratis und wenn du unsere Sachen gut findest und damit Dinge baust haben wir andere Produkte die dir auch gefallen w wenn du ein Spacey bist zum Beispiel Wenn jetzt deine Firma

01:13:45.178 --> 01:13:47.857
ein System auf Spacey aufbaut,

01:13:47.998 --> 01:13:49.958
dann willst du meistens auch deine Systeme

01:13:49.958 --> 01:13:52.058
trainieren und dann willst du Daten sammeln

01:13:52.058 --> 01:13:54.078
und dann hast

01:13:54.078 --> 01:13:55.898
du vielleicht auch Interesse an Prodigy und

01:13:55.898 --> 01:13:58.058
anderen Dingen, die wir darauf aufbauen.

01:13:58.778 --> 01:14:00.018
Kann Spacey Emotionen

01:14:00.018 --> 01:14:00.338
erkennen?

01:14:01.618 --> 01:14:02.578
Ja, klar.

01:14:04.098 --> 01:14:06.538
Das ist eine allgemeine Frage.

01:14:07.518 --> 01:14:08.698
Das ist erstmal meine Antwort.

01:14:08.857 --> 01:14:09.558
Nein, Gott.

01:14:10.458 --> 01:14:14.958
Das ist halt sehr aufgeladene

01:14:14.958 --> 01:14:16.458
Emotionen, ist halt auch immer

01:14:16.458 --> 01:14:18.158
sehr abstrakt.

01:14:19.738 --> 01:14:20.638
Und es ist auch

01:14:20.638 --> 01:14:22.278
etwas, was sich nicht sehr gut

01:14:22.278 --> 01:14:24.498
generalisieren lässt. Du kannst natürlich

01:14:24.498 --> 01:14:26.698
sagen, du kannst bestimmt ein System

01:14:26.698 --> 01:14:28.498
trainieren auf der Basis

01:14:28.498 --> 01:14:30.738
von entsprechenden Wörtern,

01:14:30.857 --> 01:14:32.338
Ausdrücken, wie Dinge

01:14:32.338 --> 01:14:33.458
präsentiert sind.

01:14:34.098 --> 01:14:35.318
vorher zu sagen,

01:14:36.618 --> 01:14:38.218
in welche emotionale

01:14:38.218 --> 01:14:39.958
Richtung ein Text geht. Ist ja auch sowas wie

01:14:39.958 --> 01:14:41.978
Sentiment Analysis, ist ja auch ein Thema, was

01:14:41.978 --> 01:14:43.938
sehr verbreitet ist,

01:14:44.738 --> 01:14:45.558
wo die Idee ist,

01:14:45.678 --> 01:14:50.318
wie steht

01:14:50.318 --> 01:14:51.998
der Sprecher zu einem

01:14:51.998 --> 01:14:54.018
bestimmten Thema, meistens natürlich in der

01:14:54.018 --> 01:14:56.098
Marktforschung oder wer jetzt eine Marke

01:14:56.098 --> 01:14:58.038
Coca-Cola möchte wissen, wie Leute

01:14:58.038 --> 01:14:59.418
über Coca-Cola reden oder keine Ahnung.

01:15:00.718 --> 01:15:01.038
Aber

01:15:01.038 --> 01:15:03.758
was ich sehr kritisch finde, sind

01:15:03.758 --> 01:15:04.258
diese

01:15:04.258 --> 01:15:07.838
General Purpose Modelle,

01:15:08.138 --> 01:15:10.058
die auch teilweise viele Cloud Services

01:15:10.058 --> 01:15:11.778
anbieten, die sagen, oh, hier ist Sentiment Analysis

01:15:11.778 --> 01:15:13.538
für alles. Denn

01:15:13.538 --> 01:15:15.998
selbst ob was positiv oder negativ

01:15:15.998 --> 01:15:17.877
ist oder welche Emotionen

01:15:17.877 --> 01:15:19.838
hinter einem etwas

01:15:19.838 --> 01:15:21.318
steht, selbst wenn du es messen könntest,

01:15:22.158 --> 01:15:23.618
ist unglaublich subjektiv

01:15:23.618 --> 01:15:25.877
und unglaublich themenspezifisch.

01:15:27.238 --> 01:15:27.498
Also

01:15:27.498 --> 01:15:29.758
ein Beispiel, was ich zum Beispiel, glaube ich, in meinen

01:15:29.758 --> 01:15:31.098
Talks manchmal verwende, ist,

01:15:31.098 --> 01:15:35.138
Du hast zwei Sätze. Ich liebe Katzen und ich hasse Katzen.

01:15:35.718 --> 01:15:38.978
Sind diese zwei Sätze ähnlich oder nicht ähnlich?

01:15:39.698 --> 01:15:43.698
Und teilweise frage ich, okay, kannst du auch gut Publikum fragen und meistens hast du so vielleicht so 50-50.

01:15:44.578 --> 01:15:46.698
Und für beides kannst du begründen.

01:15:46.698 --> 01:15:56.818
Wenn ich jetzt generell Text analysiere, relativ zu allem, was ich in der Sprache, in der deutschen Sprache sagen könnte, ist es unglaublich ähnlich.

01:15:57.058 --> 01:16:00.838
Zwei Sätze, die kurz sind und meine Haltung gegenüber Katzen ausdrücken.

01:16:00.838 --> 01:16:03.278
das ist unglaublich ähnlich, unglaublich speziell

01:16:03.278 --> 01:16:05.238
im Vergleich zu allem anderen, was ich hätte sagen können

01:16:05.238 --> 01:16:06.357
aber

01:16:06.357 --> 01:16:08.438
wenn du jetzt, was weiß ich, eine

01:16:08.438 --> 01:16:10.758
Dating-App entwickelst und du möchtest

01:16:10.758 --> 01:16:12.918
irgendwie gucken, ob zwei Leute

01:16:12.918 --> 01:16:14.918
aufgrund ihrer Profile zueinander passen

01:16:14.918 --> 01:16:16.778
möchtest du das unglaublich

01:16:16.778 --> 01:16:18.718
ja, möchtest du

01:16:18.718 --> 01:16:20.857
das als sehr unähnlich ansehen

01:16:20.857 --> 01:16:22.498
weil, ja

01:16:22.498 --> 01:16:24.758
ein Katzenhasser und ein Katzenliebhaber

01:16:24.758 --> 01:16:26.377
passen wahrscheinlich nicht zusammen, das ist komplett

01:16:26.377 --> 01:16:28.357
polare Unterschiede

01:16:28.357 --> 01:16:29.698
und so ist es auch mit

01:16:29.698 --> 01:16:32.178
eigentlich sehr, sehr vielen anderen

01:16:32.178 --> 01:16:33.718
Dingen,

01:16:34.278 --> 01:16:36.058
die man vorhersagen kann

01:16:36.058 --> 01:16:37.758
mit Hilfe von Machine Learning.

01:16:38.877 --> 01:16:39.978
Und eben auch Sentiment

01:16:39.978 --> 01:16:41.398
und Emotionen.

01:16:42.838 --> 01:16:43.438
Und ja.

01:16:44.918 --> 01:16:46.198
Ich finde, es vermittelt auch so ein bisschen das falsche

01:16:46.198 --> 01:16:48.078
Bild eben zu sagen, oh, wir können das jetzt mit

01:16:48.078 --> 01:16:50.158
einem vortrainierten Modell lösen.

01:16:50.418 --> 01:16:51.978
Du kannst das lösen, wenn du es eben

01:16:51.978 --> 01:16:54.198
wirklich speziell zuschneidest auf das,

01:16:55.018 --> 01:16:56.377
was du machst.

01:16:56.798 --> 01:16:58.518
Also ob der Nachrichteninformationswert

01:16:58.518 --> 01:17:01.798
positiv oder negativ ist, kriege ich dann für das jeweilige Unterfach...

01:17:01.798 --> 01:17:04.198
Hängt davon ab, wenn ich jetzt zum Beispiel

01:17:04.198 --> 01:17:10.458
auf was ich spekuliere, wenn ich jetzt zum Beispiel Gewinn daraus ziehen möchte, wie sich der Kurs

01:17:10.458 --> 01:17:13.818
in Zukunft von irgendeinem Unternehmen entwickelt, dann spielt es halt eine Rolle, ob ich jetzt

01:17:13.818 --> 01:17:18.718
irgendwie long sozusagen gehe oder ob ich das Ding short sellen möchte

01:17:18.718 --> 01:17:22.458
und es kann halt für mich irgendwie unter Umständen eine sehr gute

01:17:22.458 --> 01:17:26.518
Nachricht sein, wenn Privatanleger in Gangstab-Aktien jetzt plötzlich reingehen

01:17:26.518 --> 01:17:27.918
oder hat er schlecht gemacht.

01:17:28.478 --> 01:17:30.778
Das Beispiel ist eigentlich auch ganz gut,

01:17:30.857 --> 01:17:31.958
weil das illustriert auch so ein bisschen,

01:17:32.857 --> 01:17:35.038
was man mit Machine Learning gut lösen kann

01:17:35.038 --> 01:17:35.898
und was eben zum Beispiel nicht.

01:17:35.998 --> 01:17:36.998
Also wir hatten, glaube ich, mal ein Beispiel,

01:17:37.158 --> 01:17:38.877
wo jemand versucht hat, auch,

01:17:39.178 --> 01:17:43.198
ich glaube, es ging so um so Supply Chain Risk und Management,

01:17:43.357 --> 01:17:45.458
das ist auch sowas, klingt ein bisschen öde,

01:17:45.578 --> 01:17:47.918
aber ist tatsächlich was, was viel wert ist,

01:17:48.118 --> 01:17:50.758
wenn du eben sagst, okay, du hast jetzt hier einen Händler in China,

01:17:50.758 --> 01:17:55.398
von dem beziehst du Waren, mit denen du dann irgendwas machst

01:17:55.398 --> 01:17:57.278
und dann hast du hier jemanden in Russland

01:17:57.278 --> 01:17:59.538
und die importieren

01:17:59.538 --> 01:18:01.538
aber von da und da und du möchtest dann wissen,

01:18:01.838 --> 01:18:02.978
wenn jetzt da und da

01:18:02.978 --> 01:18:05.238
ein Streik ist oder hier

01:18:05.238 --> 01:18:07.438
irgendwie ein Schiff untergeht oder so,

01:18:08.118 --> 01:18:09.118
wird das in der

01:18:09.118 --> 01:18:10.958
Zukunft zum Beispiel

01:18:10.958 --> 01:18:12.278
dein

01:18:12.278 --> 01:18:15.377
Unternehmen beeinflussen oder so.

01:18:16.498 --> 01:18:17.377
Und das kannst du zum Beispiel,

01:18:17.438 --> 01:18:19.078
ein Teil davon ist, du möchtest dann

01:18:19.078 --> 01:18:21.038
Nachrichten analysieren und gucken, was ist los.

01:18:21.478 --> 01:18:23.578
Es kann ja sein, in irgendeinem

01:18:23.578 --> 01:18:24.558
kleinen Ort

01:18:25.398 --> 01:18:30.478
in was weiß ich wo, wo jetzt zufällig gerade irgendwas hergestellt wird.

01:18:30.478 --> 01:18:34.118
Ja, wenn die Nachrichtenkategorie Emotionen katastrophal werden würde,

01:18:34.218 --> 01:18:36.078
möchtest du das für den lokalen Ort dann wissen?

01:18:36.098 --> 01:18:40.038
Ja, oder irgendwie da und da passiert was, das möchtest du wissen und dann irgendwie zusammenhören.

01:18:40.418 --> 01:18:43.438
Und genau, es gab irgendeinen so ähnlichen Fall war das.

01:18:43.818 --> 01:18:46.578
Und es ging einem auch darum, die Firma wollte herausfinden,

01:18:46.658 --> 01:18:48.618
okay, was ist jetzt gut für ihr Unternehmen?

01:18:49.758 --> 01:18:51.698
Und das ist natürlich so unglaublich abstrakt.

01:18:51.978 --> 01:18:54.638
Und der erste Schritt war, okay, die haben dann Trainingsdaten erstellt,

01:18:54.638 --> 01:18:57.818
wo sie alles was gut für ihr Unternehmen ist hervorgehoben haben

01:18:57.818 --> 01:19:01.357
inklusive Sachen die komplett abstrakt waren

01:19:01.357 --> 01:19:04.338
oder Dinge die schlecht sind für das eigene Unternehmen

01:19:04.338 --> 01:19:07.278
wenn dein Konkurrent

01:19:07.278 --> 01:19:10.058
irgendwas auf den Markt bringt oder so

01:19:10.058 --> 01:19:10.998
ist das schlecht für dich

01:19:10.998 --> 01:19:12.698
und das weißt du

01:19:12.698 --> 01:19:17.578
das ist aber was du nicht unbedingt einem Modell

01:19:17.578 --> 01:19:21.418
auf Basis des lokalen Kontexts beibringen kannst

01:19:21.418 --> 01:19:25.498
und dein Modell wird nicht unbedingt in der Lage sein,

01:19:25.578 --> 01:19:27.078
so zu generalisieren und zu wissen,

01:19:27.458 --> 01:19:28.778
die und die Firma ist dein Konkurrent

01:19:28.778 --> 01:19:31.698
und die Tatsache, dass die ein Produkt veröffentlichen, ist schlecht.

01:19:32.598 --> 01:19:36.638
Aber die Tatsache, dass vielleicht dein Lieferant was veröffentlicht, ist gut.

01:19:37.798 --> 01:19:38.818
So funktioniert das einfach nicht.

01:19:39.198 --> 01:19:41.318
Das wird auch ein bisschen klarer, wenn du dir überlegst,

01:19:41.398 --> 01:19:45.278
wie funktioniert das Modell und auf welcher Basis trifft das diese Vorhersagen?

01:19:45.278 --> 01:19:48.218
Was guckt sich das an? Worauf basiert das?

01:19:48.218 --> 01:19:53.058
und wie wird quasi die Information da inkludiert.

01:19:54.078 --> 01:19:58.078
Und da geht es dann wieder zurück in so, okay, wie breche ich das runter?

01:20:00.258 --> 01:20:03.958
Oder okay, du kannst sagen, ich möchte ein Modell trainieren,

01:20:05.158 --> 01:20:11.258
das Kleidung für Erwachsene, Kleidung für Kinder,

01:20:11.538 --> 01:20:15.438
Kleidung für alte Leute oder so erkennen kann und entsprechend ordnet.

01:20:15.438 --> 01:20:18.178
funktioniert wahrscheinlich nicht so gut,

01:20:18.238 --> 01:20:19.398
wie wenn du sagst, oh, ich möchte

01:20:19.398 --> 01:20:22.198
nur generell Kleidung erkennen

01:20:22.198 --> 01:20:24.178
und hab dann andere Prozesse, die das so ein bisschen

01:20:24.178 --> 01:20:26.318
weiter runterbrechen, denn der Kontext

01:20:26.318 --> 01:20:28.118
gibt da oft nicht so viel her

01:20:28.118 --> 01:20:30.278
und viel benötigt unglaublich viel

01:20:30.278 --> 01:20:32.258
Wissen und

01:20:32.258 --> 01:20:33.598
ist noch nicht mal so eindeutig.

01:20:36.198 --> 01:20:36.598
Katastrophale

01:20:36.598 --> 01:20:37.778
Beispiele waren immer sowas,

01:20:38.238 --> 01:20:39.838
aus einer Sicht

01:20:39.838 --> 01:20:42.438
von einem Redakteur sozusagen, oder

01:20:42.438 --> 01:20:44.118
wie man das

01:20:44.118 --> 01:20:46.178
verkaufen möchte, macht das durchaus Sinn, dass man

01:20:46.178 --> 01:20:48.158
Handys mit und ohne Vertrag in zwei unterschiedliche

01:20:48.158 --> 01:20:50.178
Kategorien packt, aus Sicht von

01:20:50.178 --> 01:20:51.877
Machine Learning ist das scheiße, weil

01:20:51.877 --> 01:20:53.738
das funktioniert einfach nicht richtig.

01:20:54.218 --> 01:20:56.038
Genau, sowas, wo, okay, gut,

01:20:56.338 --> 01:20:58.078
das kannst du dann vielleicht später machen, oder du hast

01:20:58.078 --> 01:21:00.278
eine Datenbank, wo du diese Information abrufst,

01:21:00.377 --> 01:21:02.058
aber, und selbst wenn

01:21:02.058 --> 01:21:04.018
es neuere

01:21:04.018 --> 01:21:06.098
Modelle, Architekturen und

01:21:06.098 --> 01:21:06.818
eben auch vielleicht

01:21:06.818 --> 01:21:09.758
vortrainierte Gewichtungen gibt, die das eben

01:21:09.758 --> 01:21:10.778
vereinfachen,

01:21:11.298 --> 01:21:14.078
ist immer noch die Frage, okay, willst du das tatsächlich

01:21:14.078 --> 01:21:16.018
so lösen. Du kannst dein Problem unglaublich

01:21:16.018 --> 01:21:17.318
komplex formulieren,

01:21:17.738 --> 01:21:20.158
quasi von der

01:21:20.158 --> 01:21:20.857
Machine Learning Sicht,

01:21:21.357 --> 01:21:23.738
dann da so ein richtig krasses Modell

01:21:23.738 --> 01:21:25.958
draufschmeißen, das dann

01:21:25.958 --> 01:21:28.258
auf krassen Hochleistungsrechnern

01:21:28.258 --> 01:21:29.938
laufen lassen und damit ganz gute

01:21:29.938 --> 01:21:31.618
Resultate erzielen, wenn du vielleicht,

01:21:32.018 --> 01:21:33.698
wenn es eigentlich vielleicht viel einfacher gewesen wäre,

01:21:34.478 --> 01:21:35.938
das einfach ein bisschen besser

01:21:35.938 --> 01:21:38.018
zu strukturieren oder ein bisschen

01:21:38.018 --> 01:21:38.958
logischer runterzubrechen.

01:21:40.558 --> 01:21:41.838
Auch die Tatsache, dass gewisse Dinge

01:21:41.838 --> 01:21:43.698
jetzt möglich sind, heißt nicht unbedingt,

01:21:43.698 --> 01:22:13.678
und Jochen unterhalten sich über die Programmiersprache Python

01:22:13.698 --> 01:22:37.958
Ja, ja, ja, aber im Grunde so ein bisschen eben dieses Modell bei Spacey klang für mich auch so nach dem, das ist ja auch ein Modell, das viele, viele Open-Source-Projekte oder viele Leute, die dann mal ein Open-Source-Projekt, das dann erfolgreich geworden ist, gestartet haben, womit sie dann Geld verdienen, halt sozusagen so ein bisschen Consulting.

01:22:37.958 --> 01:22:39.718
also es ist bei Space ein bisschen anders mit dem

01:22:39.718 --> 01:22:41.958
Annotationstool, aber es ist halt auch im Grunde

01:22:41.958 --> 01:22:43.478
so Dienstleistungen um

01:22:43.478 --> 01:22:46.038
das Open Source Projekt

01:22:46.038 --> 01:22:47.258
herum quasi.

01:22:47.958 --> 01:22:49.598
Ja, also generell

01:22:49.598 --> 01:22:51.238
eine Sache, also wir haben

01:22:51.238 --> 01:22:52.938
anfangs mal ein bisschen Consulting gemacht, vielleicht

01:22:52.938 --> 01:22:55.398
dann haben wir uns hauptsächlich auf

01:22:55.398 --> 01:22:57.578
Produkte spezialisiert, vielleicht

01:22:57.578 --> 01:22:59.638
machen wir in Zukunft mal ein bisschen mehr, weil es eigentlich immer ganz cool

01:22:59.638 --> 01:23:01.598
ist, auch so ein bisschen die Connection

01:23:01.598 --> 01:23:03.118
zu haben zu den Nutzern, aber

01:23:03.118 --> 01:23:05.498
ja, eine Sache, die uns immer ganz wichtig war,

01:23:06.178 --> 01:23:07.478
war Support,

01:23:07.478 --> 01:23:09.758
finde ich immer bei vielen

01:23:09.758 --> 01:23:11.578
Dingen ein bisschen kritisch. Also es gibt Dinge

01:23:11.578 --> 01:23:12.938
so Infrastruktur oder so.

01:23:13.418 --> 01:23:15.538
Ja gut, da braucht es, da macht es Sinn, jemanden

01:23:15.538 --> 01:23:17.338
zu haben, dem du bezahlst, der dir das dann alles

01:23:17.338 --> 01:23:19.298
einrichtet. Aber bei anderen

01:23:19.298 --> 01:23:21.238
Tools, vor allem Entwicklertools,

01:23:22.678 --> 01:23:24.618
wir möchten ja, dass

01:23:24.618 --> 01:23:26.918
das Tool auch wirklich benutzt wird.

01:23:27.238 --> 01:23:29.398
Es ist gut für uns, wenn natürlich Leute

01:23:29.398 --> 01:23:30.618
unsere Open-Source-Tools benutzen.

01:23:31.357 --> 01:23:33.298
Aber wenn jetzt unser Hauptgeschäftszweig

01:23:33.298 --> 01:23:35.357
Support ist, bedeutet das

01:23:35.357 --> 01:23:39.498
natürlich, dass wir mehr verdienen, wenn Leute mehr Support brauchen. Aber natürlich,

01:23:39.598 --> 01:23:43.218
wenn Leute mehr Support brauchen, dann verdienen wir aber auch andererseits weniger, weil es dann

01:23:43.218 --> 01:23:47.378
natürlich viel weniger Leute das Ding nutzen. Und ich finde das ist mal ein ganz komischer Kreislauf,

01:23:48.198 --> 01:23:51.478
der meiner Meinung nach nicht so gut funktioniert

01:23:51.478 --> 01:23:55.378
für viele Entwicklertools. Aber natürlich, Dinge

01:23:55.378 --> 01:23:59.357
drumherum, Open Source ist ja auch eine gute Art und Weise zu zeigen, hey, wir können

01:23:59.357 --> 01:24:02.817
gute Software bauen. Also wenn man das

01:24:02.817 --> 01:24:04.158
und wenn man es strategisch

01:24:04.158 --> 01:24:06.857
so angeht, kann es gut sein. Also ich bin jetzt nicht der

01:24:06.857 --> 01:24:08.378
Verfechter, der sagt, oh, jeder sollte jetzt hier

01:24:08.378 --> 01:24:10.378
seine ganze Freizeit mit Open-Source-Projekten

01:24:10.378 --> 01:24:11.758
verdienen und quasi

01:24:11.758 --> 01:24:14.138
gratis für Firmen

01:24:14.138 --> 01:24:16.138
arbeiten. Aber

01:24:16.138 --> 01:24:18.338
es ist durchaus so, dass man es auch

01:24:18.338 --> 01:24:20.498
strategisch angehen kann und

01:24:20.498 --> 01:24:22.857
das auch ein Pfad sein kann,

01:24:25.518 --> 01:24:26.778
erfolgreich

01:24:26.778 --> 01:24:28.658
zu sein und auch was zu machen, was vielleicht

01:24:28.658 --> 01:24:30.078
einem Spaß macht.

01:24:30.638 --> 01:24:32.098
Im Prinzip ist das ja super, genau.

01:24:32.098 --> 01:25:02.078
und Jochen unterhalten sich über die Programmiersprache Python

01:25:02.098 --> 01:25:03.698
entweder, ja, ich

01:25:03.698 --> 01:25:06.098
hab ein Obsoles-Projekt, ich möchte, ich sage

01:25:06.098 --> 01:25:08.118
Leuten, hey, benutzt das. Das ist ja auch so eine Sache.

01:25:08.418 --> 01:25:10.158
Okay, sagst du Leuten, mein Projekt ist

01:25:10.158 --> 01:25:12.158
geil, benutzt das, ihr solltet da alles drauf aufbauen

01:25:12.158 --> 01:25:14.098
oder sagst du, oh, das ist nur so ein

01:25:14.098 --> 01:25:16.478
Nobby-Projekt, ich hab meinen Code einfach veröffentlicht

01:25:16.478 --> 01:25:18.158
und wenn jemand anders das nützlich

01:25:18.158 --> 01:25:20.038
findet, benutzt es gerne.

01:25:20.178 --> 01:25:22.158
Oder dieses ein bisschen oldschooligere Modell,

01:25:22.238 --> 01:25:23.698
wir bauen was zusammen.

01:25:24.317 --> 01:25:25.978
Das sind so für mich die drei

01:25:25.978 --> 01:25:27.878
Arten von Open Source. Einmal, okay,

01:25:28.478 --> 01:25:29.978
ich hab was gebaut, wenn jemand,

01:25:29.978 --> 01:25:32.317
ich gebe es dir umsonst, wenn du Lust hast,

01:25:32.758 --> 01:25:34.418
vielleicht findest du es ja nützlich, oder

01:25:34.418 --> 01:25:36.398
wir bauen als Community, entwickeln wir

01:25:36.398 --> 01:25:38.098
was gemeinsam, oder wir

01:25:38.098 --> 01:25:40.738
haben ein Produkt entwickelt und wir geben es euch umsonst.

01:25:42.458 --> 01:25:42.578
Und

01:25:42.578 --> 01:25:44.418
ich glaube, davon hängt es halt

01:25:44.418 --> 01:25:46.578
auch ab, wie die Erwartungen,

01:25:46.718 --> 01:25:48.578
die man als Nutzer haben sollte an das Projekt.

01:25:48.678 --> 01:25:50.298
Und ich glaube, das wird halt auch oft nicht

01:25:50.298 --> 01:25:51.058
offen kommuniziert.

01:25:52.218 --> 01:25:54.098
Und das ist, wo viele der Missverständnis

01:25:54.098 --> 01:25:54.518
passieren,

01:25:55.418 --> 01:25:57.718
wenn man eben ein

01:25:57.718 --> 01:26:01.958
so ein persönliches Projekt betrachtet wie ein kommerzielles Projekt oder ein kommerzielles Projekt

01:26:01.958 --> 01:26:03.598
betrachtet wie so ein Community.

01:26:04.817 --> 01:26:09.298
Oder wenn die Nutzer oder die Maintainer gar nicht sicher sind, was sie überhaupt sind.

01:26:09.658 --> 01:26:13.798
Das hört man dann immer von, das ist halt genau dann wahrscheinlich dieser Mismatch, dass dann die Nutzer denken,

01:26:14.178 --> 01:26:17.798
es ist ein Produkt, wo sie dann Support einfordern können und die Maintainer denken,

01:26:18.258 --> 01:26:21.938
warum, andere Leute haben Freizeit, warum habe ich eigentlich keine, warum sitze ich

01:26:21.938 --> 01:26:25.378
immer, muss irgendwie kostenlos Dienstleistungen für Leute machen,

01:26:25.378 --> 01:26:27.398
die Begleitung zu bezahlen.

01:26:27.538 --> 01:26:28.738
Ja, und das ist ja auch von vielen Firmen oder von den Nutzern,

01:26:28.857 --> 01:26:31.178
das ist ja nicht unbedingt immer der Respekt da, zu sagen,

01:26:31.278 --> 01:26:33.678
oh ja, das macht jetzt jemand in seiner Freizeit.

01:26:35.298 --> 01:26:37.038
Sondern, ja nö, ich brauche Support.

01:26:37.378 --> 01:26:39.158
Und in manchen Sachen, okay, wenn man halt

01:26:39.158 --> 01:26:41.338
Möglichkeiten schafft, die Maintainer zu

01:26:41.338 --> 01:26:43.378
bezahlen, kann das gut sein. Auch so GitHub hat ja

01:26:43.378 --> 01:26:45.418
GitHub-Sponsors und es gibt andere Möglichkeiten.

01:26:46.018 --> 01:26:47.658
Aber kann auch in manchen

01:26:47.658 --> 01:26:49.438
Situationen problematisch sein, wenn du

01:26:49.438 --> 01:26:51.398
halt, vor allem, es geht ja nicht immer

01:26:51.398 --> 01:26:53.317
um diese riesen Beträge. Wenn du jetzt ein kleiner

01:26:53.317 --> 01:26:55.158
Entwickler bist, du sagst, hey, du hast so ein Hobbyprojekt,

01:26:55.158 --> 01:26:57.518
und das hat auf einmal ein bisschen an Popularität

01:26:57.518 --> 01:26:58.978
gewonnen, das benutzen ein paar

01:26:58.978 --> 01:27:01.258
Firmen und die zahlen dir jetzt

01:27:01.258 --> 01:27:02.898
5 Euro im Monat.

01:27:04.298 --> 01:27:05.238
Davon wirst du nicht

01:27:05.238 --> 01:27:06.978
unbedingt reich und das

01:27:06.978 --> 01:27:07.998
zahlt dir jetzt auch nicht

01:27:07.998 --> 01:27:11.098
unbedingt die Zeit, die du da rein investierst.

01:27:11.158 --> 01:27:13.198
Aber auf einmal sind diese Firmen jetzt nicht nur

01:27:13.198 --> 01:27:14.978
irgendwelche nervigen User

01:27:14.978 --> 01:27:17.058
auf deinem Issue-Tracker, das sind jetzt deine Kunden quasi

01:27:17.058 --> 01:27:18.378
oder die fühlen sich zumindest so.

01:27:19.138 --> 01:27:21.158
Ob das jemand die Anforderung stellen

01:27:21.158 --> 01:27:22.958
kann an dich, weil der dir 5 Euro zahlt, ist eine andere

01:27:22.958 --> 01:27:31.738
Aber die fühlen sich, als wären sie deine Kunden und sagen, wenn die jetzt diesen Bug nicht fixen bis morgen, dann ziehe ich aber hier mein Sponsorship zurück.

01:27:33.278 --> 01:27:39.718
Das ist jetzt nicht so das Allheilmittel, das kann auch, glaube ich, durchaus Dinge noch komplizierter machen.

01:27:42.817 --> 01:27:44.238
Also ich habe jetzt keine Lösung dafür.

01:27:44.238 --> 01:27:47.898
Nö, es gibt wahrscheinlich keine einfach Lösung dafür.

01:27:47.898 --> 01:27:48.538
Ja.

01:27:50.458 --> 01:27:51.018
Tja.

01:27:51.598 --> 01:27:54.718
Ich bin der Meinung, dass

01:27:54.718 --> 01:27:56.178
Open Source

01:27:56.178 --> 01:27:58.918
quasi

01:27:58.918 --> 01:28:00.258
dass zum Beispiel

01:28:00.258 --> 01:28:03.218
Open Source staatlich gefördert werden sollte.

01:28:03.817 --> 01:28:05.198
Also zumindest, oder wenn wir

01:28:05.198 --> 01:28:06.638
in so einem System sind wie in Deutschland,

01:28:06.838 --> 01:28:09.278
finde ich, dass die Bundesregierung

01:28:09.278 --> 01:28:09.978
sollte

01:28:09.978 --> 01:28:13.138
finanzielle Mittel zur Verfügung stellen, die eben

01:28:13.138 --> 01:28:15.018
tatsächlich in die Open Source

01:28:15.018 --> 01:28:16.558
Entwicklung fließen sollen.

01:28:16.558 --> 01:28:18.238
oder wir sollten quasi

01:28:18.238 --> 01:28:19.298
Open Source als

01:28:19.298 --> 01:28:21.357
Common Good angehen.

01:28:21.357 --> 01:28:23.018
Mit der Gießkanne oder kuratiert?

01:28:25.378 --> 01:28:26.258
Das ist halt eine Frage.

01:28:26.918 --> 01:28:28.438
Das Problem ist halt auch, okay, momentan,

01:28:28.498 --> 01:28:30.378
wenn du dir das anguckst, okay, was wird so entwickelt,

01:28:30.678 --> 01:28:32.278
wer bekommt Zuschläge für

01:28:32.278 --> 01:28:34.178
die Entwicklung von was und wie funktioniert das am Ende

01:28:34.178 --> 01:28:35.138
und wie sieht das denn aus?

01:28:37.158 --> 01:28:38.138
Also ich finde,

01:28:38.278 --> 01:28:38.878
ich glaube schon,

01:28:39.758 --> 01:28:41.678
ich glaube,

01:28:41.678 --> 01:28:43.378
eine Lösung, wo

01:28:43.378 --> 01:28:45.357
da jemand sitzt, der

01:28:45.357 --> 01:28:49.578
der Open-Source-Minister sitzt und sich die Open-Source-Projekte aussucht, finde ich auch problematisch.

01:28:49.958 --> 01:28:52.538
Ich glaube nicht, dass das etwas ist, was wir möchten.

01:28:54.978 --> 01:28:58.118
Ich kann mir auch momentan keinen Open-Source-Minister vorstellen.

01:28:59.758 --> 01:29:05.718
Es gibt nur sehr wenige politisch aktive Menschen, die ich momentan vorstellen könnte als Open-Source-Minister.

01:29:07.938 --> 01:29:12.138
Andi, schau ja nicht über Impftags-Force jetzt. Schade, der wäre doch gut geeignet gewesen.

01:29:12.138 --> 01:29:15.738
Ja, ich hätte jetzt vor, du hast dann so ein

01:29:15.738 --> 01:29:17.078
Äquivalent von Horst Seehofer

01:29:17.078 --> 01:29:19.158
als Ops-Source-Minister.

01:29:19.338 --> 01:29:20.998
Ich glaube, das wollen wir alle nicht.

01:29:23.018 --> 01:29:23.418
Aber

01:29:23.418 --> 01:29:25.738
wie gesagt, ich habe jetzt noch kein

01:29:25.738 --> 01:29:27.598
politisches Programm ausgearbeitet,

01:29:27.638 --> 01:29:29.758
das ich hier präsentieren möchte, aber ich glaube,

01:29:30.338 --> 01:29:31.278
das ist auf jeden Fall eine Richtung,

01:29:32.018 --> 01:29:32.418
die ich

01:29:32.418 --> 01:29:35.178
Ich weiß nicht, ich hätte mal überlegt,

01:29:35.518 --> 01:29:36.298
das wäre doch ziemlich

01:29:36.298 --> 01:29:39.898
einfach, zumindest mal die Anforderungen

01:29:39.898 --> 01:29:41.438
von irgendwelchen öffentlichen,

01:29:41.438 --> 01:29:45.638
größeren Projekten reinzuschreiben, dass halt selbstverständlich, wenn das halt mit öffentlichen Mitteln finanziert wird,

01:29:46.138 --> 01:29:49.658
auch dann als Infrastruktur wieder zurück an die Öffentlichkeit

01:29:49.658 --> 01:29:51.998
geht. Aber ja, keine Ahnung.

01:29:52.618 --> 01:29:57.678
Ja, das würde ich auch unterstützen. Ich kann mir auch gut vorstellen, warum die das

01:29:57.678 --> 01:29:58.058
nicht möchten.

01:30:00.278 --> 01:30:03.798
Ja, klar, dass die Auftragnehmer das nicht möchten, das kann ich mir auch gut vorstellen.

01:30:05.478 --> 01:30:09.238
Ich könnte mir auch vorstellen, die jetzt vor manche dieser öffentlich finanzierten Projekte,

01:30:09.238 --> 01:30:14.558
auch die man dann so nur als Nutzer mal zu sehen kriegt, wenn man mit denen interagiert.

01:30:14.838 --> 01:30:15.378
Achso, ja.

01:30:16.538 --> 01:30:20.478
Oder so was jetzt zum Beispiel, auch selbst so eine App oder irgendein Portal, irgendwas wird entwickelt,

01:30:20.598 --> 01:30:26.138
da wird ordentlich viel Geld reingegeben und okay, es gibt auf jeden Fall ein Argument zu sagen,

01:30:26.198 --> 01:30:29.998
das sollte Open Source sein, damit wir das auch sehen können.

01:30:30.098 --> 01:30:35.898
Zumindest jetzt nicht die ganze kritische Infrastruktur oder so, aber grob, okay, wie funktioniert das?

01:30:35.898 --> 01:30:37.038
was ist da hinter?

01:30:38.338 --> 01:30:39.658
Oder vielleicht ein paar Details.

01:30:39.798 --> 01:30:41.438
Okay, wenn die jetzt irgendwelche Modelle trainieren,

01:30:42.118 --> 01:30:45.838
dann wäre es schon gut,

01:30:46.478 --> 01:30:47.438
ein bisschen mehr

01:30:47.438 --> 01:30:49.958
Informationen dazu zu haben, was da jetzt reinfließt.

01:30:50.038 --> 01:30:50.978
So wäre das gebaut.

01:30:51.158 --> 01:30:53.538
Sind da überhaupt diese ganzen Fragen, die man eigentlich mal

01:30:53.538 --> 01:30:55.598
berücksichtigen sollte, sind die denn berücksichtigt worden?

01:30:55.978 --> 01:30:56.798
Hat da sich jemand drüber nachgedacht?

01:30:56.798 --> 01:30:58.778
Ja, wahrscheinlich nicht.

01:30:59.298 --> 01:31:00.618
Das wäre schon gut.

01:31:00.618 --> 01:31:03.078
Aber ich glaube,

01:31:03.458 --> 01:31:05.278
es geht da auch

01:31:05.278 --> 01:31:07.778
ein ganz neues Genre an

01:31:07.778 --> 01:31:11.198
Technikjournalisten,

01:31:11.538 --> 01:31:13.598
die sich wahrscheinlich den ganzen Tag damit beschäftigen könnten,

01:31:14.258 --> 01:31:15.258
die Open-Source-Projekte,

01:31:15.478 --> 01:31:17.678
die staatlich geförderten Open-Source-Projekte auseinanderzunehmen

01:31:17.678 --> 01:31:18.478
und zu analysieren.

01:31:20.638 --> 01:31:22.578
Was ja auch nicht schlecht wäre.

01:31:24.798 --> 01:31:25.817
Aber ich meine, es gibt halt,

01:31:26.598 --> 01:31:28.317
wenn man sich so Machine Learning anguckt,

01:31:28.398 --> 01:31:29.658
es gibt ja nicht wirklich Standards,

01:31:31.278 --> 01:31:32.458
die man anbringen könnte.

01:31:32.518 --> 01:31:33.278
Und es ist ja auch schwierig.

01:31:33.278 --> 01:32:03.258
und Jochen unterhalten sich über die Programmiersprache Python

01:32:03.278 --> 01:32:07.998
Weißleihe sagen, relativ klarer Fall, okay, das geht natürlich nicht, wenn jetzt die Daten nicht verfügbar sind.

01:32:08.638 --> 01:32:11.317
Da geht es über andere Sachen, wo du, okay, nur wie abstrakt

01:32:11.317 --> 01:32:14.678
sollten diese Gewichtungen sein, die du trainierst,

01:32:15.118 --> 01:32:19.838
um halt das Argument machen zu können, das repliziert jetzt nicht unbedingt

01:32:19.838 --> 01:32:22.698
die Originaldaten. Kann man das überhaupt sagen?

01:32:22.698 --> 01:32:23.798
Ja, das ist halt immer die Karte.

01:32:24.578 --> 01:32:29.958
Wenn jetzt Instagram oder Facebook sagt, wir trainieren jetzt unsere Modelle anhand von

01:32:29.958 --> 01:32:31.998
Profilbildern unserer Nutzer.

01:32:32.378 --> 01:32:34.178
Geht das? Geht das nicht? Können die das dann

01:32:34.178 --> 01:32:36.098
verwenden? Kannst du einfach das Internet

01:32:36.098 --> 01:32:37.258
scrapen und

01:32:37.258 --> 01:32:39.058
dann dein Modell

01:32:39.058 --> 01:32:42.278
veröffentlichen, das dann alle möglichen Firmen benutzen?

01:32:43.378 --> 01:32:44.278
Und wenn irgendwas ist,

01:32:44.338 --> 01:32:46.298
wer ist schuld? Du? Die Firmen?

01:32:46.958 --> 01:32:48.198
Das sind alles

01:32:48.198 --> 01:32:49.398
Fragen, die haben...

01:32:49.398 --> 01:32:51.857
Da kann man sich drüber auslassen.

01:32:52.018 --> 01:32:54.118
Wie gesagt, ich bin blei.

01:32:54.518 --> 01:32:56.218
Ich habe da nur Meinungen oder Ideen

01:32:56.218 --> 01:32:58.078
zu, aber auch da kommt es ja gar nicht

01:32:58.078 --> 01:33:04.458
an. Es ist am Ende, es gibt ja keine, es gibt kaum Entscheidungen dazu, es gibt kaum Fakten dazu.

01:33:04.638 --> 01:33:05.678
Es ist halt, du musst halt gucken.

01:33:08.738 --> 01:33:11.878
Naja, das wird noch eine ganze Zeit lang dauern, bis das einigermaßen...

01:33:11.878 --> 01:33:13.538
Bis das überhaupt jemand da irgendwo verstanden hat.

01:33:13.538 --> 01:33:15.258
Ja, das wird erstmal ein bisschen...

01:33:15.258 --> 01:33:22.558
So diese Trolley-Probleme von wegen hier, okay, wer ist schuld, wenn das selbstfahrende Auto

01:33:22.558 --> 01:33:24.598
einen Menschen überfährt? Das gab es ja schon.

01:33:25.338 --> 01:33:26.638
So, wer ist da schuld?

01:33:28.078 --> 01:33:31.038
die Firma, die das Auto hergestellt hat

01:33:31.038 --> 01:33:32.998
die Person, der das Auto gehört

01:33:32.998 --> 01:33:34.718
der Entwickler, der

01:33:34.718 --> 01:33:36.938
dieses Modell trainiert hat

01:33:36.938 --> 01:33:39.398
der

01:33:39.398 --> 01:33:43.438
die Person, die

01:33:43.438 --> 01:33:45.258
auf Mechanical Turk für 3 Dollar

01:33:45.258 --> 01:33:45.817
die Stunde

01:33:45.817 --> 01:33:47.998
das falsch gelabelt hat

01:33:47.998 --> 01:33:50.198
das falsch gelabelt hat

01:33:50.198 --> 01:33:51.938
ja

01:33:51.938 --> 01:33:53.317
ja

01:33:53.317 --> 01:33:57.738
auf jeden Fall interessante Fragen

01:33:58.078 --> 01:34:13.598
Ja, ich denke, der Weg zu sinnvollen und so Common Sense irgendwie Umgang damit im Alltag wird gepflastert sein mit einem Haufen Fehlentscheidungen, absurden Situationen und komischen...

01:34:13.598 --> 01:34:16.018
Wie bei allem, ja.

01:34:19.798 --> 01:34:20.598
Ja.

01:34:21.857 --> 01:34:23.638
Das ist auch ein entspannender Ausblick in die Zukunft.

01:34:23.638 --> 01:34:25.458
und ja, es ist

01:34:25.458 --> 01:34:27.378
alles nicht

01:34:27.378 --> 01:34:29.598
ganz schlecht, es ist alles nicht

01:34:29.598 --> 01:34:31.578
super schön. Ja, ich finde solche Sachen

01:34:31.578 --> 01:34:32.058
sehr wertvoll.

01:34:33.238 --> 01:34:34.898
Schön, dass wir mal drüber geredet haben.

01:34:36.817 --> 01:34:37.498
Nein, wirklich, was ich

01:34:37.498 --> 01:34:39.438
jetzt da geschrieben habe, ist etwas, was uns

01:34:39.438 --> 01:34:40.418
irgendwie weiterbringt.

01:34:40.817 --> 01:34:43.218
Es hilft dabei, so Gefühle vorzukriegen.

01:34:43.538 --> 01:34:44.398
Ja, auf jeden Fall.

01:34:45.638 --> 01:34:47.438
Ich habe immer die Hoffnung, dass das

01:34:47.438 --> 01:34:48.638
irgendwann besser wird und nicht schlechter.

01:34:49.317 --> 01:34:51.618
Ja. Also objektiv betrachtet

01:34:51.618 --> 01:34:53.598
ist es ja auch. Dinge werden ja besser.

01:34:53.918 --> 01:34:55.338
Also natürlich ist es immer,

01:34:55.558 --> 01:34:57.578
man hat das subjektive Empfinden und es

01:34:57.578 --> 01:34:59.538
gibt natürlich andere Probleme, auch wenn du

01:34:59.538 --> 01:35:00.878
okay, wenn du

01:35:00.878 --> 01:35:03.317
der Gesellschaft es besser geht,

01:35:03.698 --> 01:35:05.498
auch dem Einzelnen geht es ja

01:35:05.498 --> 01:35:06.898
besser, wenn du so

01:35:06.898 --> 01:35:09.278
generell den Stand der Welt

01:35:09.278 --> 01:35:11.618
dir anschaust. Sagst, okay, haben wir

01:35:11.618 --> 01:35:12.378
wie viele

01:35:12.378 --> 01:35:15.418
Menschen haben wir, die unter der Armutsgrenze leben?

01:35:16.138 --> 01:35:17.718
Aber natürlich ist das nicht die einzige

01:35:17.718 --> 01:35:19.357
Art und Weise, wie du sowas

01:35:19.357 --> 01:35:21.538
quantifizieren kannst. Ja, vor 100

01:35:21.538 --> 01:35:23.378
und haben die Leute Menschen auf dem Zoo ausgestellt.

01:35:23.478 --> 01:35:24.438
Das ist halt einfach, ja.

01:35:25.958 --> 01:35:27.878
Ja, natürlich. Oder die Lebenserwartung,

01:35:27.998 --> 01:35:29.518
der generelle Lebensstandard ist

01:35:29.518 --> 01:35:31.558
natürlich besser, aber das heißt ja eben auch nicht, dass man

01:35:31.558 --> 01:35:33.638
sagen kann, ach ja, ist ja alles super, im Schnitt

01:35:33.638 --> 01:35:35.317
geht es allen besser. Oder, oh,

01:35:35.798 --> 01:35:37.638
du bist weniger arm als vorher, bist aber immer noch

01:35:37.638 --> 01:35:39.258
arm. Also,

01:35:39.598 --> 01:35:41.738
das ist ja nach wie vor ein Problem.

01:35:41.938 --> 01:35:43.598
Und wir haben, wir, wir,

01:35:43.778 --> 01:35:45.598
ja, denken uns auch immer neue

01:35:45.598 --> 01:35:47.258
Probleme aus. Ja,

01:35:47.338 --> 01:35:49.658
es eskaliert natürlich auch an einigen Stellen immer völlig.

01:35:49.658 --> 01:36:19.638
und Jochen unterhalten sich über die Programmiersprache Python

01:36:19.658 --> 01:36:21.798
Fortschritte haben die

01:36:21.798 --> 01:36:24.038
aus sich heraus schon so

01:36:24.038 --> 01:36:25.058
in sich

01:36:25.058 --> 01:36:27.357
emanzipatorisches Potenzial oder sind sie

01:36:27.357 --> 01:36:29.638
doch dann nur dazu, dass Leute irgendwie

01:36:29.638 --> 01:36:31.898
noch reicher werden, die vorher schon relativ reich waren?

01:36:32.958 --> 01:36:33.898
Schwer. Also ich meine,

01:36:34.598 --> 01:36:35.738
was man vielleicht sagen kann,

01:36:35.798 --> 01:36:37.357
ist, dass in Zeiten, in denen sich viel ändert,

01:36:37.498 --> 01:36:39.618
gibt es halt auch mehr Chancen für Leute, die halt

01:36:39.618 --> 01:36:41.857
sozusagen was machen möchten.

01:36:41.857 --> 01:36:43.498
Oder wir nehmen die Antwort, die wir immer geben können,

01:36:43.578 --> 01:36:44.238
it depends.

01:36:44.238 --> 01:37:14.218
Ja, stimmt.

01:37:14.238 --> 01:37:15.338
Deutschland läuft.

01:37:16.398 --> 01:37:18.758
Irgendjemand hört sich das an, der ist was weiß ich wo

01:37:18.758 --> 01:37:20.857
und das geht alles.

01:37:21.918 --> 01:37:22.678
Und jetzt, okay,

01:37:22.758 --> 01:37:24.938
es wird weniger wichtig, wo jemand arbeitet,

01:37:26.698 --> 01:37:28.338
wo jemand leben möchte.

01:37:28.578 --> 01:37:29.078
Ja, voll gut.

01:37:29.578 --> 01:37:30.258
Das ist auf jeden Fall

01:37:30.258 --> 01:37:32.998
theoretisch eine sehr positive

01:37:32.998 --> 01:37:35.138
Entwicklung oder kann eine sehr positive

01:37:35.138 --> 01:37:37.398
Entwicklung sein, wenn es entsprechend genutzt wird.

01:37:38.658 --> 01:37:38.978
Ich finde,

01:37:39.058 --> 01:37:41.178
das ist ein sehr tolles Schlusswort, ehrlich gesagt.

01:37:41.178 --> 01:37:41.418
Ja.

01:37:41.418 --> 01:37:43.518
Ne, klingt gut

01:37:43.518 --> 01:37:44.918
Egal wo ihr uns also hört

01:37:44.918 --> 01:37:48.538
Ob ihr nachts, tagsüber, morgens, mittags, abends

01:37:48.538 --> 01:37:50.258
im Flieger oder

01:37:50.258 --> 01:37:51.538
im Boot oder

01:37:51.538 --> 01:37:52.998
auf der Couch

01:37:52.998 --> 01:37:54.238
Zum Einschlafen

01:37:54.238 --> 01:37:57.538
Es ist der Fortschritt, der gerade durch eure Kopfhörer

01:37:58.138 --> 01:37:58.998
in euer

01:37:58.998 --> 01:38:00.538
Gehirn ausstrahlt

01:38:00.538 --> 01:38:02.638
Vielen Dank Ines, dass du heute dabei warst

01:38:02.638 --> 01:38:03.538
Ja, war sehr schön

01:38:03.538 --> 01:38:07.798
Ja, bleibt uns gewogen

01:38:07.798 --> 01:38:09.118
und schaltet wieder rein

01:38:09.118 --> 01:38:09.778
Tschüss

01:38:11.418 --> 01:38:41.398
und die Programmiersprache Python.
