WEBVTT

00:00:00.680 --> 00:00:04.860
Ja, hallo liebe Hörerinnen und Hörer, willkommen zum Python-Podcast in der heute 18. Episode.

00:00:05.480 --> 00:00:08.060
Heute geht es um die Suche. Hier ist der Dominik und neben mir ist der Jochen.

00:00:08.540 --> 00:00:09.480
Ja, hallihallo.

00:00:09.960 --> 00:00:10.280
Grüß euch.

00:00:11.160 --> 00:00:12.620
Wir sind wieder auf der Raumschiffbrücke heute.

00:00:13.000 --> 00:00:13.360
Genau.

00:00:13.480 --> 00:00:15.200
Erneut. Schön hier.

00:00:15.780 --> 00:00:20.540
Ja, genau, Volltextsuche, um es genau zu sagen.

00:00:20.840 --> 00:00:22.240
Ja, ah oh, Volltextsuche, ja.

00:00:22.240 --> 00:00:31.740
Ja, aber wollen wir das eigentlich, oder ich meine, wir können einfach ganz normal starten, so mit News und Dings, ne?

00:00:31.960 --> 00:00:34.680
Ja, ja, genau, ich würde auch sagen, wir machen jetzt wie immer unsere kleine Einleitung.

00:00:35.560 --> 00:00:37.200
Vielen Dank an unsere zahlreichen Hörer.

00:00:37.360 --> 00:00:40.240
Wir haben tatsächlich mittlerweile einige Millionen und dann die schönen Fragen, die uns immer erreichen.

00:00:40.320 --> 00:00:45.640
Wir beantworten die immer gerne und versuchen immer, euch so schön wie möglich das zu erklären, was ihr gerne hören möchtet.

00:00:45.740 --> 00:00:49.920
Also, wenn ihr Fragen habt, Lob, Anregungen, Kommentare, hallo at pythonpodcast.de,

00:00:50.560 --> 00:00:51.660
schickt uns einfach eine Mail.

00:00:51.660 --> 00:00:53.520
Oder kommentiert fleißig auf unserer Seite.

00:00:54.780 --> 00:00:56.160
Ja, News aus der Szene.

00:00:56.340 --> 00:00:58.640
Heute ist der Erscheinungstag von Python 3.8.2.

00:00:59.240 --> 00:01:00.700
Ja, ist noch nicht raus.

00:01:00.700 --> 00:01:01.000
Ist aber noch nicht da.

00:01:01.020 --> 00:01:01.540
Ist noch nicht raus.

00:01:01.820 --> 00:01:03.500
Wir haben gerade abends, es ist dunkel.

00:01:03.780 --> 00:01:04.140
Genau.

00:01:05.160 --> 00:01:06.740
Heute ist Rosenmontag übrigens auch.

00:01:07.000 --> 00:01:12.400
Ja, ja, und das wird hier wahrscheinlich auch noch eine sehr jacke Veranstaltung.

00:01:13.020 --> 00:01:14.580
Wir sind unbezahlt nach Hause gekommen, ja.

00:01:15.160 --> 00:01:19.200
Ne, ich war heute heute eine der wenigen Leute, die irgendwie im Büro saßen und so.

00:01:19.200 --> 00:01:20.920
Es war sehr angenehm, wir haben ein bisschen was geschafft gekriegt.

00:01:21.660 --> 00:01:24.160
Ja, und da da eben, wenn du auf die Straße gehst und so aussiehst, wärst du schon verkleidet,

00:01:24.220 --> 00:01:25.240
ist das auch gar nicht groß aufgefallen.

00:01:25.260 --> 00:01:25.880
Ja, ja, ja.

00:01:27.300 --> 00:01:28.020
Horror-Clown.

00:01:29.040 --> 00:01:29.820
Kann ich empfehlen.

00:01:31.240 --> 00:01:31.400
Ja.

00:01:31.580 --> 00:01:32.080
Sehr gut.

00:01:32.960 --> 00:01:35.420
Ja, wir machen heute Volltext-Suche.

00:01:35.980 --> 00:01:37.940
Und ja, News aus der Szene, ist dir noch was eingefallen?

00:01:38.020 --> 00:01:38.800
Hatten wir noch was Schönes?

00:01:42.780 --> 00:01:44.980
Tatsächlich glaube ich eigentlich nicht.

00:01:45.100 --> 00:01:46.140
War gar nicht so viel los, ne?

00:01:46.180 --> 00:01:48.760
Ja, war nicht so viel los.

00:01:48.760 --> 00:01:49.740
Gehst du hin zur Euro-Pheisen?

00:01:49.900 --> 00:01:50.540
Ja, ja, ja.

00:01:50.780 --> 00:01:51.440
Ja, schön, cool.

00:01:51.660 --> 00:01:55.380
Wir müssen uns nur noch irgendwie mit Kindergarten und so erklären.

00:01:55.880 --> 00:01:56.140
Ah, ja.

00:01:56.140 --> 00:01:58.900
Wir machen ja auch irgendwie Betriebsferien und so, aber eigentlich schon, ja.

00:02:00.680 --> 00:02:01.280
Ja, sonst musst du alleine.

00:02:01.340 --> 00:02:04.700
Ich habe mir schon eine Wohnung organisiert.

00:02:06.340 --> 00:02:08.660
Also, falls noch jemand eine WG sucht oder sowas, sag mir Bescheid.

00:02:09.380 --> 00:02:10.520
Ja, was gab es noch?

00:02:10.560 --> 00:02:12.500
Es gab so einen tollen Tweet, hast du gesagt, von Armin Ronacher.

00:02:12.660 --> 00:02:16.220
Das ist der Haupt-Dev, der Entwickler von Flach.

00:02:16.240 --> 00:02:17.660
Ja, aber das wollte ich eigentlich später erst picken.

00:02:18.000 --> 00:02:18.760
Ach, das wolltest du picken?

00:02:18.800 --> 00:02:18.980
Ja.

00:02:19.820 --> 00:02:20.380
Ach, das ist ein Modul.

00:02:21.100 --> 00:02:21.380
Ne.

00:02:21.660 --> 00:02:23.240
Ich dachte, wir picken Module, Jochen.

00:02:23.580 --> 00:02:25.540
Ja, heute nicht.

00:02:26.800 --> 00:02:27.960
Oh Gott, jetzt hat es dich ernannt.

00:02:28.060 --> 00:02:29.440
Ja, okay, dann picken wir keine Module.

00:02:29.520 --> 00:02:30.180
Dann machen wir das am Ende.

00:02:31.280 --> 00:02:35.520
Ja, aber was wir tun könnten, wäre, wir könnten ja heute mal mit dieser Tradition,

00:02:35.560 --> 00:02:38.280
die wir jetzt schon seit einigen Episoden starten wollten, tatsächlich vielleicht mal

00:02:38.280 --> 00:02:42.520
anfangen und ein Modul aus der Standard-Bibliothek uns vornehmen.

00:02:42.840 --> 00:02:43.880
Ja, gute Idee.

00:02:44.140 --> 00:02:44.340
Ja.

00:02:44.620 --> 00:02:45.520
Und das nehmen wir Parslip.

00:02:46.480 --> 00:02:47.080
Parslip, ja.

00:02:47.160 --> 00:02:47.320
Ja.

00:02:47.600 --> 00:02:47.920
Genau.

00:02:47.920 --> 00:02:47.980
Genau.

00:02:49.340 --> 00:02:50.920
Das immer wieder, wenn ich...

00:02:51.660 --> 00:02:57.120
Wenn ich halt irgendwie in Code herumnavigiere und sehe dann irgendwo so Import, ja, OS und

00:02:57.120 --> 00:03:01.980
dann halt OS-Pars und so und dann machen Leute dann Dinge, dann denke ich mir, ach, es geht

00:03:01.980 --> 00:03:03.000
zu viel schöner mit Parslip.

00:03:04.000 --> 00:03:05.460
Also vielleicht nochmal kurz, was Parslip ist.

00:03:05.500 --> 00:03:09.120
Parslip ist ein Wrapper oder ist das eine komplett neue Implementierung?

00:03:09.680 --> 00:03:11.360
Das ist ein Modul aus der Standard-Bibliothek.

00:03:11.460 --> 00:03:12.420
Ich weiß jetzt gar nicht...

00:03:12.420 --> 00:03:12.660
Über OS-Pars.

00:03:12.660 --> 00:03:14.140
Nee, das ist kein Wrapper um OS-Pars.

00:03:14.400 --> 00:03:14.560
Okay.

00:03:14.680 --> 00:03:14.980
Nee, nee.

00:03:15.100 --> 00:03:16.660
Das ist halt auch so ein bisschen...

00:03:16.660 --> 00:03:18.220
Manchmal ist es so ein bisschen unübersichtlich.

00:03:18.220 --> 00:03:21.540
Es gibt einige Module in der Standard-Bibliothek.

00:03:21.540 --> 00:03:21.580
Okay.

00:03:21.580 --> 00:03:21.620
Okay.

00:03:21.620 --> 00:03:21.640
Okay.

00:03:21.640 --> 00:03:22.980
Die halt so ein bisschen das Gleiche machen.

00:03:23.780 --> 00:03:29.040
Unter anderem halt eben OS-Pars und dann Shell-Utils, also SH-Util.

00:03:29.560 --> 00:03:33.660
Macht auch so ein bisschen das Gleiche, aber so ein bisschen eine andere Regenschmacksrichtung.

00:03:34.160 --> 00:03:36.220
Parslip macht ja jetzt auch nochmal das Gleiche, aber auch wieder ein bisschen anders.

00:03:36.920 --> 00:03:37.240
Ach ja.

00:03:38.280 --> 00:03:42.640
Aber im Grunde denke ich, wenn man jetzt mit Pfaden irgendwie Dinge macht, dann ist Parslip

00:03:42.640 --> 00:03:43.800
das, was man eigentlich haben will.

00:03:44.560 --> 00:03:45.840
Und das ist auch so richtig...

00:03:45.840 --> 00:03:50.340
Ich glaube, das ist auch jetzt seit Python 3, 4 oder so drin.

00:03:51.200 --> 00:03:51.360
Ja.

00:03:51.360 --> 00:03:51.420
Ja.

00:03:51.700 --> 00:03:52.440
Und auch...

00:03:52.440 --> 00:03:54.480
Aber auch erst seit 3.6 so richtig schön.

00:03:55.540 --> 00:03:58.040
Oder 3.7 sind auch nochmal interessante Dinge dazugekommen.

00:03:58.100 --> 00:04:00.080
Glaube ich ist Mounts dazugekommen in 3.7.

00:04:01.740 --> 00:04:04.440
Also nur in aktuelleren 3.

00:04:04.640 --> 00:04:05.740
Python 3 Versionen.

00:04:05.740 --> 00:04:10.080
Also man kann halt relativ schick irgendwelche Strings zu Verzeichnisnamen oder Dateinamen

00:04:10.080 --> 00:04:15.400
parsen und dann da Pfade, Pfadobjekte draus erstellen und dann einfach mit einem Slash

00:04:15.400 --> 00:04:20.180
dahinter dann Unterverzeichnisse wechseln oder iterieren über so Pfade und die ganzen

00:04:20.180 --> 00:04:20.740
schönen...

00:04:21.360 --> 00:04:25.560
Listen anzeigen oder Content anzeigen, gucken, ist es ein Verzeichnis, ist es kein Verzeichnis,

00:04:25.680 --> 00:04:26.240
ist es eine Datei.

00:04:26.860 --> 00:04:27.160
Ja, genau.

00:04:27.240 --> 00:04:32.700
Das Hauptfeature finde ich, dass man damit halt relativ einfach Pfade so hinschreiben

00:04:32.700 --> 00:04:38.640
kann, ohne jetzt irgendwie viel Boilerplate-Code außenrum schreiben zu müssen, wenn man jetzt

00:04:38.640 --> 00:04:41.680
aus Parse joinen und dann die Liste, das ist halt immer so ein bisschen...

00:04:41.680 --> 00:04:44.740
Und jetzt kann man halt einfach, man schreibt halt ein Slash und dann macht dieser Operator

00:04:44.740 --> 00:04:48.700
sozusagen eine Verkettung der Namen, die man da...

00:04:49.380 --> 00:04:51.040
Ja, das kann man aus dem Dateisystem eigentlich auch kennen.

00:04:51.200 --> 00:04:51.280
Ja, genau.

00:04:51.280 --> 00:04:51.280


00:04:51.280 --> 00:04:51.300
Genau.

00:04:51.300 --> 00:04:51.320
Genau.

00:04:51.320 --> 00:04:51.340
Genau.

00:04:51.360 --> 00:04:55.960
Dann sieht das halt im Code fast genauso aus, als würde man es auf die Shell schreiben.

00:04:56.520 --> 00:05:01.520
Und das ist natürlich schon deutlich kompakter und sieht einfach, ja, man sieht, was passiert.

00:05:02.800 --> 00:05:06.380
Das ist ein tolles Ding, aber halt auch solche Sachen wie so Convenience-Funktionen für Sachen,

00:05:06.460 --> 00:05:07.280
die man halt dauernd braucht.

00:05:07.460 --> 00:05:14.200
Also sowas wie, ich brauche jetzt ja irgendwie mal den Versionen des Dateinamens ohne Endung,

00:05:14.540 --> 00:05:17.320
also ohne irgendwie MP4 hinten dran oder MP3.

00:05:17.320 --> 00:05:18.440
Oder auch mit, das geht auch.

00:05:18.440 --> 00:05:20.280
Oder mit oder nur das Suffix oder so.

00:05:20.280 --> 00:05:22.340
Solche, solche Dinge braucht man ja dauernd.

00:05:23.760 --> 00:05:29.940
Und dafür gibt es halt dann eben schon eingebaute Attribute, die man einfach so verwenden kann.

00:05:30.860 --> 00:05:31.680
Ja, das fand ich auch sehr angenehm.

00:05:31.680 --> 00:05:33.160
Das ist halt total nett.

00:05:33.400 --> 00:05:33.560
Genau.

00:05:34.080 --> 00:05:36.160
Ich muss gestehen, als ich mit Python angefangen habe, gab es das schon.

00:05:36.360 --> 00:05:40.320
Und deswegen habe ich OS-Path nur ab und zu mal angesehen und gesagt, ist das hässlich,

00:05:40.400 --> 00:05:40.740
dann gesehen.

00:05:40.860 --> 00:05:40.980
Ja.

00:05:40.980 --> 00:05:42.080
Ach ja, okay, das gibt es jetzt, Pathslip.

00:05:42.920 --> 00:05:43.720
Ja, ja, ja.

00:05:44.480 --> 00:05:49.860
Ich stolper fast täglich über Code, wo halt noch OS-Path verwendet wird und nicht die Pathslip.

00:05:49.860 --> 00:05:49.940
Ja, ja, ja.

00:05:49.940 --> 00:05:50.000
Ja, ja, ja.

00:05:50.000 --> 00:05:50.060
Ja, ja, ja.

00:05:50.060 --> 00:05:50.080
Ja, ja, ja.

00:05:50.080 --> 00:05:50.120
Ja, ja, ja.

00:05:50.120 --> 00:05:50.140
Ja, ja, ja.

00:05:50.140 --> 00:05:50.460
Ja, ja, ja.

00:05:50.460 --> 00:05:53.720
Auch ganz oft in Dango ist das auch ganz oft drin in der Settings oder sowas.

00:05:54.460 --> 00:05:58.300
Ich bin erst einmal irgendwo drüber gestolpert, wo es nicht mir gelang, das zu entfernen.

00:05:58.380 --> 00:06:01.200
Ich bin mir halt nicht sicher, ob das an meinen Fähigkeiten lag oder an der Implementierung.

00:06:02.060 --> 00:06:05.280
Ja, die brach dann einfach durch, weil ich Pathslip-Objekte genommen habe.

00:06:06.060 --> 00:06:09.680
Ja, und wenn man das halt irgendwie anders gewohnt ist, dann gibt es unten auf der, wenn

00:06:09.680 --> 00:06:15.080
man die Dokumentation sich anguckt, nochmal eine Liste von, also wie man das früher mit

00:06:15.080 --> 00:06:19.380
OS-Path gemacht hat und jetzt wie man es mit Pathslip machen kann, Tabelle und da findet

00:06:19.380 --> 00:06:19.920
man dann meistens schon die Tabelle.

00:06:19.920 --> 00:06:22.040
schon die Funktion, die man sucht. Stellen wir euch in die Show los.

00:06:22.420 --> 00:06:24.140
Ja, genau. Also, genau.

00:06:24.260 --> 00:06:26.160
Damit haben wir das tatsächlich

00:06:26.160 --> 00:06:26.500
mal gemacht.

00:06:27.080 --> 00:06:29.620
Wir wollen jetzt tatsächlich das Einzeltreifen, was auch das

00:06:29.620 --> 00:06:31.880
gemein hat. Und wenn ihr irgendwie von

00:06:31.880 --> 00:06:33.900
unserem Podcast die Struktur irgendwie blöd findet, wann wir was

00:06:33.900 --> 00:06:35.960
erzählen, dann könnt ihr auch dazu gerne mal Feedback geben,

00:06:36.040 --> 00:06:37.780
wenn wir es irgendwie neu umsortieren wollen, wenn ihr

00:06:37.780 --> 00:06:39.860
immer zuerst die Pics haben wollt oder erstmal direkt das

00:06:39.860 --> 00:06:41.460
Thema, bevor wir irgendwas über News erzählen.

00:06:42.400 --> 00:06:43.940
Ja, aber trotzdem, dann machen wir

00:06:43.940 --> 00:06:45.940
Volltext-Suche weiter und ich werde dich löchern damit.

00:06:46.260 --> 00:06:47.840
Oder wollen wir noch ganz kurz

00:06:47.840 --> 00:06:49.600
ein Meta-Ding

00:06:49.600 --> 00:06:51.840
kurz, also ich überlege

00:06:51.840 --> 00:06:53.940
gerade, weil mich hatte der Katze

00:06:53.940 --> 00:06:54.200
eine Mail,

00:06:54.800 --> 00:06:57.900
wo

00:06:57.900 --> 00:07:01.760
wir

00:07:01.760 --> 00:07:02.600
packen wollen, ob wir nicht

00:07:02.600 --> 00:07:05.900
mehr Dinge erklären könnten.

00:07:06.180 --> 00:07:06.780
Ach so, stimmt.

00:07:07.080 --> 00:07:09.360
Ich kann das durchaus verstehen. Also es ist halt

00:07:09.360 --> 00:07:11.840
viele Sachen, die man einfach so

00:07:11.840 --> 00:07:13.820
vor sich hin redet und nicht

00:07:13.820 --> 00:07:15.040
drüber nachdenkt, die zu erklären, dann

00:07:15.040 --> 00:07:17.000
wird es halt schnell unverständlich.

00:07:18.480 --> 00:07:19.540
Aber auf der anderen Seite

00:07:19.540 --> 00:07:21.760
ist es halt, glaube ich, schwierig.

00:07:22.760 --> 00:07:25.400
Ja, es ist ein Trade-off. Einige Menschen, die kennen das halt schon alles und wenn man dann

00:07:25.400 --> 00:07:27.400
jeden Schnipsel erzählt, ist es vielleicht uninteressant.

00:07:27.420 --> 00:07:29.200
Dann wird es für die uninteressanter. Und die Frage,

00:07:29.480 --> 00:07:30.720
an wen wendet man sich da eigentlich?

00:07:30.720 --> 00:07:33.460
Wie Einsteiger wollen wir das Ganze machen? Ja, das ist gar nicht so einfach.

00:07:33.560 --> 00:07:35.420
Ich glaube, bestimmte Sachen muss man vielleicht selber nachgucken

00:07:35.420 --> 00:07:37.140
und man kann uns immer fragen, wenn man irgendwas nicht

00:07:37.140 --> 00:07:39.560
versteht. Wir erklären das immer gerne nochmal

00:07:39.560 --> 00:07:41.400
und nehmen das auch in einer der Folgen. Ich glaube, das ist

00:07:41.400 --> 00:07:42.020
vielleicht eine gute Idee.

00:07:43.280 --> 00:07:45.640
Und ja, tatsächlich, wenn uns irgendwas

00:07:45.640 --> 00:07:47.440
auffällt, versuchen wir es so tief

00:07:47.440 --> 00:07:48.140
wie möglich zu erklären.

00:07:48.140 --> 00:07:49.480
Ja, aber das würde mich,

00:07:49.540 --> 00:07:51.400
eben auch nochmal interessieren, wie das andere Leute sehen oder auch

00:07:51.400 --> 00:07:53.060
wie du das siehst. Das weiß ich auch gar nicht.

00:07:54.160 --> 00:07:55.400
Weil ich würde sagen, das ist ja eigentlich

00:07:55.400 --> 00:07:56.680
das Tolle an...

00:07:56.680 --> 00:07:59.260
Ich komme darauf, weil letzte... Ich höre ja auch noch

00:07:59.260 --> 00:08:01.560
viele andere Podcasts. Ich höre zum Beispiel Philosophische Radio

00:08:01.560 --> 00:08:04.200
auf WDR 5

00:08:04.200 --> 00:08:04.660
oder

00:08:04.660 --> 00:08:06.960
die Radio Business. Ich weiß jetzt gar nicht, auf welchem Sender.

00:08:07.100 --> 00:08:08.020
Ich höre es ja nur aus Podcasts.

00:08:08.200 --> 00:08:09.400
Ich höre einen tollen Hockey-Podcast.

00:08:10.000 --> 00:08:13.440
Genau, und die

00:08:13.440 --> 00:08:15.560
sind der Meinung, dass sie da auch irgendwie Podcasts

00:08:15.560 --> 00:08:17.800
machen und sagen, sie können das. Aber das ist kein Podcast,

00:08:17.800 --> 00:08:18.800
sondern das hat halt irgendwie eine...

00:08:19.540 --> 00:08:20.340
eine Zeitbegrenzung.

00:08:20.500 --> 00:08:22.540
Und dann am Schluss fangen die auch mal an so...

00:08:23.240 --> 00:08:24.580
Das müssen wir jetzt noch schnell sein.

00:08:24.820 --> 00:08:26.620
Oder jetzt sind wir ja schon fast am Ende mit der Zeit.

00:08:26.800 --> 00:08:28.540
Wo man sich denkt so, ja, warum eigentlich?

00:08:28.600 --> 00:08:30.360
Ihr könnt ja auch eigentlich einfach weitererzählen.

00:08:30.740 --> 00:08:32.560
Da ist halt ein großer Unterschied. Und dann ist

00:08:32.560 --> 00:08:34.460
auch ein Unterschied, dass die machen das nämlich so.

00:08:34.880 --> 00:08:36.460
Die versuchen das immer irgendwie

00:08:36.460 --> 00:08:40.780
sozusagen möglichst einfach zu erklären.

00:08:40.900 --> 00:08:41.820
Und sie versuchen auch immer,

00:08:42.440 --> 00:08:44.760
die Zuhörer mit einzubeziehen.

00:08:45.660 --> 00:08:46.560
Was ich auch manchmal nicht

00:08:46.560 --> 00:08:47.980
so richtig super gelungen finde.

00:08:48.160 --> 00:08:49.040
Die können nicht irgendwie

00:08:49.040 --> 00:08:49.360
veröffentlichen.

00:08:49.540 --> 00:08:52.160
Auf der Seite,

00:08:52.280 --> 00:08:53.360
wann wir die nächste Podcast-Folge aufnehmen,

00:08:53.480 --> 00:08:55.220
sind Anrufer zugelassen.

00:08:56.700 --> 00:08:58.220
Genau, das macht natürlich...

00:08:58.220 --> 00:09:00.400
Ich verstehe natürlich, dass es bei einer

00:09:00.400 --> 00:09:02.200
Live-Sendung den Reiz enorm erhöht.

00:09:02.360 --> 00:09:04.440
Oder wenn man halt irgendwie auf Twitter

00:09:04.440 --> 00:09:06.100
nebenher drüber lästern kann, was die gerade wieder

00:09:06.100 --> 00:09:09.340
erzählen. Das erhöht den

00:09:09.340 --> 00:09:10.120
Spaßfaktor deutlich.

00:09:10.480 --> 00:09:12.480
Aber ich weiß nicht.

00:09:12.580 --> 00:09:14.380
Ich glaube, das ist was anderes, als das ist dann halt

00:09:14.380 --> 00:09:15.820
eher so Radio oder Fernsehen.

00:09:15.820 --> 00:09:17.200
Aber eben nicht Podcast.

00:09:17.300 --> 00:09:19.380
Weil für mich Podcast ist eher so das, was ich dran mag.

00:09:19.540 --> 00:09:22.200
Ist halt etwas, was man eben

00:09:22.200 --> 00:09:24.780
in diesen Massenmedien-Kontexten

00:09:24.780 --> 00:09:26.520
halt nicht kriegt. Nämlich zum Beispiel,

00:09:26.600 --> 00:09:28.320
was mich eben bei so einem Thema wie jetzt Philosophie

00:09:28.320 --> 00:09:30.080
oder so eigentlich interessieren würde, wäre genau das,

00:09:30.580 --> 00:09:32.480
was wir versuchen,

00:09:32.660 --> 00:09:34.680
jetzt Bereich Python zu machen.

00:09:34.900 --> 00:09:36.320
Nämlich Leute, die das

00:09:36.320 --> 00:09:38.240
irgendwie sowieso sich damit beschäftigen,

00:09:38.320 --> 00:09:39.880
die sich einfach mal so ein bisschen drüber unterhalten,

00:09:39.920 --> 00:09:42.160
was sie da so tun. Und das gibt es halt

00:09:42.160 --> 00:09:44.120
für sowas wie Philosophie nicht. Sondern da

00:09:44.120 --> 00:09:46.140
hast du halt immer einen Moderator und dann halt

00:09:46.140 --> 00:09:47.720
vielleicht einen Studierest oder so.

00:09:48.060 --> 00:09:49.520
Und den Philosophischen Circle in der Stadt.

00:09:49.540 --> 00:09:51.300
Also, ja, vielleicht muss man

00:09:51.300 --> 00:09:52.900
da hingehen. Keine Ahnung.

00:09:54.140 --> 00:09:55.500
Und dann wird das

00:09:55.500 --> 00:09:57.360
irgendwie aufbereitet. Und dann ist da irgendwie

00:09:57.360 --> 00:09:59.520
so ein Konzept hin. Und dann will man bestimmte Punkte abarbeiten.

00:10:00.260 --> 00:10:01.500
Aber ich finde das halt eigentlich

00:10:01.500 --> 00:10:03.400
überhaupt nicht interessant. Und gerade dann immer, wenn

00:10:03.400 --> 00:10:05.660
irgendwie so Zuhörergeschichten da mit reinkommen,

00:10:05.960 --> 00:10:07.340
denke ich mir immer so, jetzt war es gerade spannend.

00:10:07.440 --> 00:10:09.500
Aber jetzt können sie da halt nicht weitermachen, weil entweder ist die Zeit vorbei

00:10:09.500 --> 00:10:11.300
oder irgendwie

00:10:11.300 --> 00:10:13.700
müssen sie nochmal auf ein anderes

00:10:13.700 --> 00:10:14.520
Ding eingehen.

00:10:15.180 --> 00:10:17.500
Und sie

00:10:17.500 --> 00:10:19.160
geben sich halt auch mal sehr viel Mühe, dass dann

00:10:19.160 --> 00:10:19.500
irgendwie

00:10:19.540 --> 00:10:20.940
so zu verpacken, dass es halt

00:10:20.940 --> 00:10:23.260
möglichst viele Leute erreichen kann. Was ja auch nichts

00:10:23.260 --> 00:10:25.460
Schlechtes sein muss. Aber ich meine, im Grunde,

00:10:25.480 --> 00:10:27.560
wenn man in einem Massenmedium ist, dann

00:10:27.560 --> 00:10:28.100
ist das natürlich

00:10:28.100 --> 00:10:31.440
das Ziel, irgendwie möglichst viele Leute zu erreichen.

00:10:31.620 --> 00:10:33.400
Sonst müsste ich ja nicht das irgendwie

00:10:33.400 --> 00:10:35.200
über Radiowellen

00:10:35.200 --> 00:10:36.120
nach draußen senden.

00:10:37.300 --> 00:10:39.460
Aber ist das eigentlich immer das, was man haben will?

00:10:39.580 --> 00:10:40.720
Da bin ich mir nämlich gar nicht so sicher.

00:10:41.140 --> 00:10:43.300
Also wir haben jetzt den kleinen Exkurs. Jochen redet nicht halber

00:10:43.300 --> 00:10:43.620
Podcast.

00:10:44.380 --> 00:10:44.740
Sorry.

00:10:46.420 --> 00:10:47.680
Ich meine, man kann ja auch auf andere

00:10:47.680 --> 00:10:49.500
Dinge optimieren. Mal so zum

00:10:49.500 --> 00:10:51.520
Beispiel, wie nützlich ist das für die Leute,

00:10:51.600 --> 00:10:53.500
die das zuhören. Es können ja weniger Leute hören, aber für die kann

00:10:53.500 --> 00:10:54.300
das ja nützlicher sein.

00:10:55.440 --> 00:10:57.720
Aber das geht jetzt eben bei einer Radiosendung

00:10:57.720 --> 00:10:59.060
nicht. Wenn ich jetzt eine Radiosendung mache

00:10:59.060 --> 00:11:01.240
und sende das halt irgendwie über den Sendemast,

00:11:01.360 --> 00:11:03.480
übers Land, dann, und das ist für

00:11:03.480 --> 00:11:05.480
100 Leute sehr, sehr relevant und für alle anderen,

00:11:05.660 --> 00:11:06.800
die das halt trotzdem abkriegen,

00:11:07.500 --> 00:11:09.600
super langweilig. Ja, also wir machen ja Podcasts und ich hoffe,

00:11:09.760 --> 00:11:11.340
dass alle unsere Hörer auch tatsächlich wegen Python

00:11:11.340 --> 00:11:13.500
und diesem und vielleicht auch, weil sie Lust drauf haben oder warum auch immer.

00:11:13.620 --> 00:11:15.400
Also keine Ahnung, kann auch sein, dass ihr unsere

00:11:15.400 --> 00:11:16.720
Stimmen so schön findet.

00:11:17.420 --> 00:11:18.540
Aber zum Einschlafen.

00:11:18.840 --> 00:11:19.460
Ja, das ist eigentlich...

00:11:19.500 --> 00:11:22.280
Das ist keine so schlechte Idee. Nur nicht beim Autofahren und Einschlafen kommen.

00:11:22.680 --> 00:11:23.200
Aber naja.

00:11:23.860 --> 00:11:26.020
Aber ja, also ich meine, das ist halt etwas,

00:11:26.200 --> 00:11:28.400
oder überhaupt bei Internetgeschichten finde ich das immer super,

00:11:28.460 --> 00:11:29.860
dass man das ja eigentlich tun kann mal.

00:11:30.000 --> 00:11:31.700
Man kann ja jetzt einfach sagen, okay, ist mir egal,

00:11:31.860 --> 00:11:34.460
ist nicht für jeden relevant, sondern für nur ein paar Leute.

00:11:34.460 --> 00:11:36.860
Ja, aber ich glaube, weil wir eigentlich mit der Frage eingestiegen sind,

00:11:37.040 --> 00:11:38.580
wie viel wir tief erklären.

00:11:38.720 --> 00:11:40.540
Also erklärt uns doch mal gerne mit,

00:11:40.680 --> 00:11:42.440
wie viel ihr denn erklärt haben wollt,

00:11:42.520 --> 00:11:44.500
ob das zu viel Erklärung ist,

00:11:44.500 --> 00:11:46.180
zu wenig Erklärung ist und ja,

00:11:46.500 --> 00:11:48.260
ich glaube, wenn ihr Begriffsfragen habt,

00:11:48.380 --> 00:11:49.140
wissen wollt, was

00:11:49.140 --> 00:11:50.680
CSS ist, Cascading Style Sheets,

00:11:50.760 --> 00:11:51.900
im Übrigen, da war eine Frage dann.

00:11:53.200 --> 00:11:55.500
Ihr klärt euch das gerne nochmal oder ihr schaut das dann kurz nach,

00:11:55.640 --> 00:11:57.380
also wie man dann das Internet

00:11:57.380 --> 00:11:58.520
betrachtbar macht.

00:11:59.040 --> 00:12:01.240
Ja, Jochen, aber jetzt hast du so viel

00:12:01.240 --> 00:12:02.320
über Meta geredet, dass

00:12:02.320 --> 00:12:05.120
unsere Absprungquote wahrscheinlich wieder

00:12:05.120 --> 00:12:07.200
in Höhen geschnallt ist. Wir fangen jetzt an mit Volltextsuche.

00:12:08.360 --> 00:12:09.280
Ja, Volltextsuche.

00:12:09.480 --> 00:12:09.780
Voll gut.

00:12:10.380 --> 00:12:12.140
Was ist das überhaupt, Volltextsuche?

00:12:12.140 --> 00:12:14.120
Also wir wollen ja ganz Basis anfangen und erklären.

00:12:14.860 --> 00:12:16.060
Was macht eine Volltextsuche?

00:12:16.160 --> 00:12:18.160
Warum heißt es Volltext und was ist daran Suche?

00:12:18.380 --> 00:12:18.500
Also,

00:12:19.140 --> 00:12:21.320
habe ich einen Text und ich gebe eine Suchmaske

00:12:21.320 --> 00:12:23.220
einen Begriff ein und der spuckt mir

00:12:23.220 --> 00:12:25.620
aus dem gesamten Text alle Treffer aus

00:12:25.620 --> 00:12:26.360
oder was ist das?

00:12:26.840 --> 00:12:27.540
Ja, also,

00:12:27.720 --> 00:12:31.740
ich meine, das ist auch ein Suchproblem,

00:12:32.020 --> 00:12:33.480
sozusagen, wenn man versucht, in einem Text

00:12:33.480 --> 00:12:34.180
irgendwas zu finden,

00:12:34.460 --> 00:12:35.680
aber

00:12:35.680 --> 00:12:38.760
Volltextsuche will das über viele Texte finden.

00:12:39.180 --> 00:12:41.380
Ja, also der entscheidende Unterschied

00:12:41.380 --> 00:12:43.120
ist eigentlich, dass man halt Dokumente hat

00:12:43.120 --> 00:12:44.700
bei einer Volltextsuche.

00:12:44.940 --> 00:12:47.220
Indizierbare Dokumente, also deren Inhalt du kennst

00:12:47.220 --> 00:12:48.860
und dann möchtest du durch eine Masse von

00:12:48.860 --> 00:12:50.800
Dokumenten bestimmte Stichworte

00:12:50.800 --> 00:12:51.520
suchen.

00:12:54.140 --> 00:12:55.200
Ja, also man hat

00:12:55.200 --> 00:12:56.560
eine Anfrage oder

00:12:56.560 --> 00:12:59.220
eine Query und dann möchte man halt die Sachen

00:12:59.220 --> 00:13:01.580
finden, die da relevant sind.

00:13:02.020 --> 00:13:03.160
Das Paper, das du benutzt, damit du

00:13:03.160 --> 00:13:05.220
deine Hausarbeit nicht zweimal schreiben musst

00:13:05.220 --> 00:13:07.340
oder einfach die nehmen kannst, die du findest.

00:13:07.580 --> 00:13:08.320
Einfach, ne?

00:13:08.580 --> 00:13:10.340
Ja, ich habe auch überlegt, wie man das am besten,

00:13:10.840 --> 00:13:12.800
ich weiß nicht, ob die Analogie oder wie weit die trägt,

00:13:12.880 --> 00:13:15.080
aber wie man sich das vorstellen kann, ist halt

00:13:15.080 --> 00:13:17.260
wie bei einem Index in einem Buch.

00:13:18.320 --> 00:13:18.700
Denke ich.

00:13:18.700 --> 00:13:19.280
Ein Glossar.

00:13:20.020 --> 00:13:22.500
Nee, nicht Glossar, erklärt ja die Begriffe, aber

00:13:22.500 --> 00:13:24.780
ein Index tatsächlich gibt es oft in Büchern.

00:13:24.780 --> 00:13:26.520
Ja, okay, also da gibt es dann noch, zu welchem Hit,

00:13:26.760 --> 00:13:27.780
welche Seile.

00:13:27.980 --> 00:13:30.800
Einfach sozusagen eine Liste der Wörter und dann auf welchen Seiten

00:13:30.800 --> 00:13:32.420
die Wörter vorkommen. Also das ist immer das Wort.

00:13:32.800 --> 00:13:34.520
Ich habe das sogar einmal in Kombination gesehen, glaube ich.

00:13:34.580 --> 00:13:36.540
Also ein Glossar kombiniert mit der Erklärung und dann

00:13:36.540 --> 00:13:38.520
die Hinweise, wo es auftaucht. Sehr schöne Sache.

00:13:38.600 --> 00:13:39.940
Kann man wahrscheinlich auch machen, aber

00:13:39.940 --> 00:13:42.520
genau, dann hast du halt eine kommaseparierte Liste

00:13:42.520 --> 00:13:44.060
der Seiten, auf denen das vorkommt.

00:13:44.160 --> 00:13:44.860
Das ist jetzt auf den

00:13:47.580 --> 00:13:48.380
Volltextsuche-Dings.

00:13:48.700 --> 00:13:50.600
Ja, wenn du es voll übertragen, wäre das halt so, dass die

00:13:50.600 --> 00:13:52.520
Seiten in dem Buch wären halt die Dokumente,

00:13:52.640 --> 00:13:54.520
die indiziert werden und der Index

00:13:54.520 --> 00:13:56.040
in dem Buch ist tatsächlich dann halt so,

00:13:56.120 --> 00:13:58.080
wie ein Volltext-Suchindex,

00:13:58.260 --> 00:14:00.560
sehr ähnlich zu dem,

00:14:00.640 --> 00:14:01.780
was man dann tatsächlich auch verwendet.

00:14:01.960 --> 00:14:03.640
Und was hat das jetzt mit Python zu tun, Jürgen?

00:14:04.340 --> 00:14:05.140
Ja, also

00:14:05.140 --> 00:14:08.380
Oh,

00:14:08.780 --> 00:14:09.460
das ist eine gute Frage.

00:14:11.180 --> 00:14:12.000
Doch hat es aber,

00:14:12.740 --> 00:14:14.700
weil man oft ja auch Suchmaschinen

00:14:14.700 --> 00:14:16.400
irgendwie verwendet von Python aus

00:14:16.400 --> 00:14:18.220
oder halt ab und zu auch mal Suchmaschinen in Python

00:14:18.700 --> 00:14:20.260
implementiert.

00:14:20.480 --> 00:14:22.480
Meiner Ansicht nach implementiert man viel zu wenig

00:14:22.480 --> 00:14:24.460
Suchmaschinen, es sind viel zu wenig

00:14:24.460 --> 00:14:25.880
Volltext-Suchmaschinen in Python implementiert.

00:14:26.440 --> 00:14:27.820
Aber so ist es halt.

00:14:28.880 --> 00:14:30.620
Aber zumindest, dass man

00:14:30.620 --> 00:14:32.300
die irgendwie ansprechen muss und dann

00:14:32.300 --> 00:14:34.500
irgendwas mit den Ergebnissen macht, das hat man ja relativ oft.

00:14:34.760 --> 00:14:36.320
Welche hatten denn Suchmaschinen? Es muss ja erstmal eine Beispiel

00:14:36.320 --> 00:14:38.120
geben für Volltext-Suchmaschinen, die man vielleicht

00:14:38.120 --> 00:14:39.260
kennt oder auch nicht, oder?

00:14:40.880 --> 00:14:42.340
Also da gibt es halt unterschiedliche,

00:14:42.600 --> 00:14:43.980
es gibt natürlich die

00:14:43.980 --> 00:14:46.560
große Google, die allwissende Müllhalde,

00:14:46.860 --> 00:14:47.840
die wir alle kennen,

00:14:47.840 --> 00:14:47.900
die wir kennen.

00:14:48.700 --> 00:14:51.100
Vielleicht mit den entsprechenden Vorgängern,

00:14:51.240 --> 00:14:52.740
so weiß ich nicht, Excite, AltaVista,

00:14:52.900 --> 00:14:53.260
Hotbot.

00:14:54.380 --> 00:14:55.580
AltaVista, das waren noch Zeiten.

00:14:55.940 --> 00:14:57.920
Ja, und

00:14:57.920 --> 00:15:00.700
das sind halt schon

00:15:00.700 --> 00:15:02.700
relativ fortgeschrittene Dinge, also gerade Google ist

00:15:02.700 --> 00:15:04.780
halt, oder auch die anderen modernen,

00:15:04.840 --> 00:15:05.700
die es halt gibt, Bing oder

00:15:05.700 --> 00:15:07.820
was gibt es da noch?

00:15:08.740 --> 00:15:09.380
Gibt es eigentlich?

00:15:09.900 --> 00:15:11.700
Du hast einen Microsoft-Suchmaschinen erwähnt, erneut.

00:15:12.880 --> 00:15:14.740
Die haben aber immer noch keinen Contract leider

00:15:14.740 --> 00:15:15.280
bekommen.

00:15:17.240 --> 00:15:17.640
Oder

00:15:17.640 --> 00:15:18.300
A9 von

00:15:18.300 --> 00:15:19.180
Amazon,

00:15:19.580 --> 00:15:22.540
wo auch einer der Experten

00:15:22.540 --> 00:15:24.240
oder die Member,

00:15:24.240 --> 00:15:25.440
hat er lange.

00:15:26.360 --> 00:15:28.260
Also ja, also die Dinger sind halt

00:15:28.260 --> 00:15:30.160
relativ fortgeschritten und haben halt,

00:15:30.220 --> 00:15:31.480
sind halt relativ einfach gestartet.

00:15:32.120 --> 00:15:34.060
Es gibt das Ganze jetzt auch als Software, sozusagen

00:15:34.060 --> 00:15:36.040
Open-Source-Software, die man irgendwie verwenden kann,

00:15:36.140 --> 00:15:37.880
oder halt auch kommerzielle Software, die das macht.

00:15:39.200 --> 00:15:40.360
Wobei ich denke,

00:15:40.500 --> 00:15:42.160
dass heutzutage wahrscheinlich die

00:15:42.160 --> 00:15:43.840
allermeisten irgendwas Open-Source-mäßiges

00:15:43.840 --> 00:15:45.780
verwenden werden, wenn sie das denn jetzt

00:15:45.780 --> 00:15:48.280
selber haben wollen für ihre Webseite.

00:15:48.300 --> 00:15:50.420
Zum Beispiel. Also das ist, denke ich, ein ganz häufiger

00:15:50.420 --> 00:15:52.280
Anwendungsfall, dass du halt eine

00:15:52.280 --> 00:15:54.540
Webseite hast und möchtest halt eine Suchfunktionität

00:15:54.540 --> 00:15:56.220
anbieten. Und ja,

00:15:56.400 --> 00:15:57.480
dann muss das halt irgendwie

00:15:57.480 --> 00:15:59.180
irgendwo passieren.

00:16:00.120 --> 00:16:02.300
Und das,

00:16:03.000 --> 00:16:03.580
was es da,

00:16:04.360 --> 00:16:06.540
das, was da sozusagen

00:16:06.540 --> 00:16:08.140
der Platzwürsch ist, ist

00:16:08.140 --> 00:16:10.780
eine Java-Bibliothek

00:16:10.780 --> 00:16:11.400
namens Lecine.

00:16:12.080 --> 00:16:13.960
Ist von Duck Cutting

00:16:13.960 --> 00:16:16.080
geschrieben worden. Der hat damit angefangen

00:16:16.080 --> 00:16:17.940
1997 oder so. Der hat irgendwie mal

00:16:17.940 --> 00:16:19.600
gearbeitet bei Excite, meine ich.

00:16:21.880 --> 00:16:22.360
Und

00:16:22.360 --> 00:16:23.760
hat dann irgendwann

00:16:23.760 --> 00:16:25.340
hat er

00:16:25.340 --> 00:16:27.820
oder meinte so, da habe ich irgendwo mal

00:16:27.820 --> 00:16:29.920
im Talk gehört,

00:16:30.260 --> 00:16:31.180
hat er so, ja, so

00:16:31.180 --> 00:16:34.020
1997, hat er so das Gefühl, die Dotcom-Bubble,

00:16:34.100 --> 00:16:35.420
die platzt jetzt demnächst.

00:16:36.300 --> 00:16:37.840
So, hat noch ein bisschen gedauert, aber war

00:16:37.840 --> 00:16:39.820
gar nicht so schlecht. Und

00:16:39.820 --> 00:16:40.780
hat sich dann

00:16:40.780 --> 00:16:43.920
sozusagen

00:16:43.920 --> 00:16:45.920
einen Teil der Woche, ich weiß nicht, ein oder zwei Tage

00:16:45.920 --> 00:16:47.120
Homeoffice

00:16:47.940 --> 00:16:51.880
setzen lassen und dann

00:16:51.880 --> 00:16:53.980
an eben der neuen Suchmaschine

00:16:53.980 --> 00:16:56.360
gebastelt. Und als dann

00:16:56.360 --> 00:16:57.720
Excite tatsächlich irgendwie

00:16:57.720 --> 00:16:59.560
so ein bisschen

00:16:59.560 --> 00:17:02.460
die Ohren angelegt hat,

00:17:03.440 --> 00:17:04.560
hat er das halt dann

00:17:04.560 --> 00:17:05.400
Open Source,

00:17:05.620 --> 00:17:08.300
eine Open Source-Geschichte überführt. Auch da,

00:17:08.480 --> 00:17:10.460
ohne groß drüber nachzudenken, was man da jetzt macht.

00:17:10.700 --> 00:17:12.320
Er hatte, glaube ich, die erste Version sogar irgendwie unter der

00:17:12.320 --> 00:17:13.840
GPL, weil er dachte, naja, gut,

00:17:14.420 --> 00:17:16.240
wenn man Open Source macht, macht man halt GPL

00:17:16.240 --> 00:17:17.920
veröffentlicht. Das war aber dann,

00:17:17.920 --> 00:17:19.860
nicht so cool. Leute haben sich

00:17:19.860 --> 00:17:21.800
beschwert, dass sie das dann nicht so richtig verwenden

00:17:21.800 --> 00:17:23.860
können und so. Und darauf

00:17:23.860 --> 00:17:25.220
ist auch, dass

00:17:25.220 --> 00:17:27.820
die Apache Software Foundation hat gerade angefangen,

00:17:27.940 --> 00:17:29.800
irgendwie dann so unter ihrem Schirm

00:17:29.800 --> 00:17:31.160
Projekte

00:17:31.160 --> 00:17:33.840
aufzunehmen und

00:17:33.840 --> 00:17:35.780
denen so ein bisschen Struktur zu geben. Und

00:17:35.780 --> 00:17:37.520
weil man das ja noch nie gemacht hat,

00:17:37.580 --> 00:17:39.100
weiß man ja nicht genau, was man da alles machen muss.

00:17:39.700 --> 00:17:41.740
Mailing-Listen und wie organisiert man diese

00:17:41.740 --> 00:17:42.960
ganze Entwicklungsgeschichte überhaupt.

00:17:43.580 --> 00:17:46.020
Und er ist dann irgendwie mit dem Lucene-Projekt

00:17:46.020 --> 00:17:47.880
dann da unter diesen Apache-

00:17:47.920 --> 00:17:49.260
Sturm der Apache Software Foundation gekommen,

00:17:49.640 --> 00:17:51.460
hat dann auch die Apache-License übernommen und

00:17:51.460 --> 00:17:53.380
meinte, seitdem hat sich nie wieder jemand

00:17:53.380 --> 00:17:55.120
über die Lizenz beschwert und es funktioniert.

00:17:55.240 --> 00:17:56.760
Also es ist halt eine sehr liberale Lizenz, so

00:17:56.760 --> 00:17:58.440
PSD-artig, MIT-artig.

00:17:58.680 --> 00:18:00.260
Lizenz müssen wir auch nochmal neu entdecken.

00:18:01.760 --> 00:18:02.740
Aber im Grunde heißt,

00:18:03.260 --> 00:18:05.360
kann man dann mehr oder weniger machen, was man will.

00:18:06.580 --> 00:18:09.580
halt auch im kommerziellen Kontext

00:18:09.580 --> 00:18:11.340
verwenden oder in Software,

00:18:11.420 --> 00:18:13.140
die man halt irgendwo hinschippt. Das ging jetzt mit der

00:18:13.140 --> 00:18:14.180
GPL zum Beispiel eher nicht.

00:18:16.500 --> 00:18:16.640
Ja.

00:18:17.400 --> 00:18:17.760
Und

00:18:17.920 --> 00:18:19.640
dann ist diese Bibliothek

00:18:19.640 --> 00:18:20.560
relativ erfolgreich

00:18:20.560 --> 00:18:23.480
geworden und heute ist es halt das Ding,

00:18:23.580 --> 00:18:24.900
was alle verwenden und

00:18:24.900 --> 00:18:27.300
eigentlich das Ding, was unter allen

00:18:27.300 --> 00:18:28.640
bekannten

00:18:28.640 --> 00:18:31.800
Suchmaschinen, Open-Source-Suchmaschinen

00:18:31.800 --> 00:18:33.220
Implementationen irgendwie darunter liegt.

00:18:33.440 --> 00:18:35.480
Also die beiden größten Dinger, die man heute so

00:18:35.480 --> 00:18:37.360
kennt, sind halt Solar und

00:18:37.360 --> 00:18:38.620
Elasticsearch.

00:18:41.060 --> 00:18:41.540
Ja.

00:18:41.680 --> 00:18:42.360
Und das weiß Lucene.

00:18:43.960 --> 00:18:45.620
Man kann das auch aus Python heraus

00:18:45.620 --> 00:18:47.440
direkt verwenden mit PyLucene.

00:18:47.920 --> 00:18:48.360
Ja.

00:18:48.680 --> 00:18:50.220
Aber das ist ein bisschen eklig.

00:18:50.480 --> 00:18:50.980
Also das ist halt,

00:18:51.600 --> 00:18:53.960
das macht halt direkt eine Anbindung

00:18:53.960 --> 00:18:56.020
an Java.

00:18:58.880 --> 00:18:59.880
Hört sich komisch an.

00:18:59.980 --> 00:19:01.620
Ja, also geht schon,

00:19:01.740 --> 00:19:02.720
aber will man vielleicht auch nicht verwenden.

00:19:02.920 --> 00:19:05.680
Eher ist es wahrscheinlich die richtige Art,

00:19:05.780 --> 00:19:07.280
wo man das dann trennt,

00:19:07.400 --> 00:19:08.620
irgendwie eine API oder so.

00:19:08.720 --> 00:19:10.500
Und das machen Solar und Elasticsearch auch so.

00:19:11.280 --> 00:19:13.240
Also meistens hast du dann Elasticsearch

00:19:13.240 --> 00:19:15.260
oder vielleicht Solar Cloud

00:19:15.260 --> 00:19:16.720
auf irgendeinem Pflaster laufen oder weiß nicht.

00:19:16.720 --> 00:19:18.940
Und auf deinem Hadoop-Cluster am besten.

00:19:19.940 --> 00:19:21.220
Und dann connectest du dahin und

00:19:21.220 --> 00:19:23.580
stellst da deine Suchquerys

00:19:23.580 --> 00:19:25.300
an Fragen.

00:19:26.480 --> 00:19:27.860
Ja, genau.

00:19:27.960 --> 00:19:29.600
So sieht es halt irgendwie momentan aus.

00:19:30.400 --> 00:19:31.580
Aber das ist natürlich,

00:19:31.800 --> 00:19:33.500
also okay, es ist das Verbreitetste.

00:19:33.600 --> 00:19:34.960
Das, was irgendwie alle, die meisten Leute verwenden,

00:19:35.280 --> 00:19:37.180
ist aber nicht das Einzige. Es gibt noch eine Menge andere Dinge

00:19:37.180 --> 00:19:39.860
und andere Software, die das halt auch kann.

00:19:42.560 --> 00:19:43.000
Andere

00:19:43.000 --> 00:19:43.720
äh

00:19:43.720 --> 00:19:46.480
Open-Source-Suchmaschinen,

00:19:46.480 --> 00:19:48.160
Suchmaschinen wären sowas wie, es gibt noch

00:19:48.160 --> 00:19:50.540
Xapien, obwohl ich weiß nicht, ob es das tatsächlich noch gibt.

00:19:50.640 --> 00:19:51.540
Das war irgendwas in C++,

00:19:52.500 --> 00:19:53.340
glaube ich, nicht mehr relevant.

00:19:53.520 --> 00:19:56.680
Sphinx gibt es noch. Das ist insofern

00:19:56.680 --> 00:19:57.260
ganz

00:19:57.260 --> 00:20:00.560
halbwegs relevant noch, weil das

00:20:00.560 --> 00:20:02.220
halt eine enge Verbindung zu MySQL hat.

00:20:02.520 --> 00:20:04.380
Und da gibt es halt irgendwie eine

00:20:04.380 --> 00:20:05.980
Heißt das MariaDB?

00:20:06.380 --> 00:20:08.700
Oder genau, wenn man heute MySQL sagt,

00:20:08.700 --> 00:20:09.820
dann meint man eigentlich mal MariaDB.

00:20:10.680 --> 00:20:12.280
Und da gibt es halt irgendwie relativ

00:20:12.280 --> 00:20:14.280
ausgefuchste Mechanismen, wie man das halt ineinander

00:20:14.280 --> 00:20:15.920
integriert und halt,

00:20:16.480 --> 00:20:18.520
wenn man die eingebaute Volltext-Suche

00:20:18.520 --> 00:20:20.380
vom MySQL nicht mehr verwenden will

00:20:20.380 --> 00:20:22.380
oder wenn man da rausgewachsen ist, dann kann man da irgendwie relativ

00:20:22.380 --> 00:20:23.360
leicht Sphinx dran bauen.

00:20:24.480 --> 00:20:25.400
Ja, ähm.

00:20:25.540 --> 00:20:27.100
Ja, da musst du gleich noch ein bisschen mehr zu sagen.

00:20:27.220 --> 00:20:30.340
Also diese Architektur, also wenn du sagst, man packt das jetzt einfach so mal eben kurz

00:20:30.340 --> 00:20:32.580
in einen Hadoop, ich sag mal, auf was bitte ist denn das?

00:20:32.860 --> 00:20:33.500
Klar, da rein.

00:20:34.220 --> 00:20:36.140
Und was das dann überhaupt macht, wo die Dokumente liegen

00:20:36.140 --> 00:20:38.260
und wie das dann überhaupt so richtig funktioniert und so.

00:20:39.440 --> 00:20:39.620
Ja.

00:20:41.140 --> 00:20:42.300
Genau, genau.

00:20:43.980 --> 00:20:44.600
Ich wollte gerade,

00:20:44.620 --> 00:20:45.440
ach genau, es gibt eine

00:20:45.440 --> 00:20:47.480
in Python implementierte

00:20:47.480 --> 00:20:50.320
Volltext-Suchmaschine

00:20:50.320 --> 00:20:51.020
namens Woosh.

00:20:52.080 --> 00:20:52.480
Woosh?

00:20:54.920 --> 00:20:56.220
Die sich auch

00:20:56.220 --> 00:20:58.320
sehr stark an Lucene irgendwie so von der Struktur

00:20:58.320 --> 00:20:59.340
intern anlehnt, aber

00:20:59.340 --> 00:21:01.740
ist halt in Python geschrieben, ist nicht so schnell,

00:21:02.100 --> 00:21:03.700
alles ein bisschen langsam, aber

00:21:03.700 --> 00:21:06.240
kann man auch mal benutzen, ist irgendwie ganz nett

00:21:06.240 --> 00:21:08.120
und dann, also lass mal überlegen, gibt es noch

00:21:08.120 --> 00:21:10.060
irgendwas, was Volltext-Suche kann, was ich jetzt,

00:21:10.300 --> 00:21:11.980
also was das irgendwie offiziell

00:21:11.980 --> 00:21:14.260
hauptsächlich

00:21:14.260 --> 00:21:15.420
tut und was ich noch nicht genannt habe?

00:21:15.440 --> 00:21:17.780
Ja, also wenn jemand

00:21:17.780 --> 00:21:18.360
noch was einfällt.

00:21:21.300 --> 00:21:21.880
Und dann

00:21:21.880 --> 00:21:23.460
gibt es halt noch Volltext-Such

00:21:23.460 --> 00:21:25.860
Features in den meisten Datenbanken.

00:21:26.740 --> 00:21:27.740
Und das ist natürlich auch nett,

00:21:27.900 --> 00:21:29.840
weil meistens hat man

00:21:29.840 --> 00:21:31.880
ja eh die Daten, in denen

00:21:31.880 --> 00:21:33.920
man irgendwas sucht, sowieso schon in der Datenbank

00:21:33.920 --> 00:21:35.840
liegen und eben wenn man

00:21:35.840 --> 00:21:37.480
sowas wie Elasticsearch zutraut,

00:21:37.660 --> 00:21:39.860
dann muss man halt irgendwie die Daten

00:21:39.860 --> 00:21:41.800
aus der Datenbank da reinkriegen und

00:21:41.800 --> 00:21:42.480
wenn man jetzt

00:21:43.480 --> 00:21:44.720
ein Suchergebnis bekommt

00:21:44.720 --> 00:21:45.420
von denen, dann muss man irgendwie,

00:21:45.440 --> 00:21:47.300
wieder zur Datenbank und dann nochmal wieder

00:21:47.300 --> 00:21:49.220
andere Informationen da rausholen. Das ist so ein bisschen

00:21:49.220 --> 00:21:51.440
umständlich. Das ist ja eigentlich schön, wenn

00:21:51.440 --> 00:21:52.620
das direkt in der Datenbank drin wäre.

00:21:53.300 --> 00:21:55.440
Und ja, die meisten Datenbanken bieten da halt

00:21:55.440 --> 00:21:56.780
auch Geschichten,

00:21:57.440 --> 00:21:58.960
wobei das halt unterschiedlich

00:21:58.960 --> 00:22:01.400
fertig oder

00:22:01.400 --> 00:22:02.800
unterschiedlich komplett

00:22:02.800 --> 00:22:04.500
das Feature-Set ist.

00:22:06.200 --> 00:22:07.520
Postgres hat relativ viel

00:22:07.520 --> 00:22:09.720
Volltext-Fähigkeiten.

00:22:11.020 --> 00:22:11.480
SQLite

00:22:11.480 --> 00:22:13.240
hat relativ viel. Das ist auch sehr, sehr

00:22:13.240 --> 00:22:13.660
interessant.

00:22:15.440 --> 00:22:18.240
SQL hat nicht so ganz so viele.

00:22:20.380 --> 00:22:21.960
Aber so ein bisschen was geht auf jeden Fall auch.

00:22:23.240 --> 00:22:23.900
Ja, und

00:22:23.900 --> 00:22:27.860
das ist auch,

00:22:28.300 --> 00:22:29.600
also ehrlich gesagt, das ist was,

00:22:29.720 --> 00:22:31.240
was ich präferieren würde momentan.

00:22:31.420 --> 00:22:33.480
Also wenn man anfängt, dann lässt man das eher

00:22:33.480 --> 00:22:34.240
die Datenbank machen.

00:22:34.460 --> 00:22:36.220
Dann macht man nicht,

00:22:36.920 --> 00:22:38.620
fängt man nicht damit an, direkt irgendwie

00:22:38.620 --> 00:22:40.520
den Elasticsearch daneben zu stellen.

00:22:40.520 --> 00:22:42.200
Ab wann macht man das? An welcher Größe oder

00:22:42.200 --> 00:22:43.540
welches Suchvolumen geht es da?

00:22:44.020 --> 00:22:45.280
Das kann man so,

00:22:45.440 --> 00:22:46.420
schwer beantworten.

00:22:46.820 --> 00:22:49.280
Also weil meine Postgres jetzt auch

00:22:49.280 --> 00:22:51.580
0,0x mehr die Antwort auf meine Frage geben kann.

00:22:51.600 --> 00:22:51.820
Ja, genau.

00:22:53.280 --> 00:22:55.420
Das heißt, ich bräuchte schon ein Dokumentenarchiv,

00:22:55.480 --> 00:22:56.960
was ich irgendwo hinlege mit

00:22:56.960 --> 00:22:59.560
mehreren hunderttausend Dokumenten,

00:22:59.760 --> 00:23:01.540
durch die ich jetzt durchiterieren

00:23:01.540 --> 00:23:03.380
müsste bei der Suche,

00:23:03.460 --> 00:23:04.900
um zu finden, was es da so gibt.

00:23:05.740 --> 00:23:07.480
Und da muss dann ein

00:23:07.480 --> 00:23:09.620
Lucin

00:23:09.620 --> 00:23:11.340
drauf springen, damit

00:23:11.340 --> 00:23:13.600
es da noch einigermaßen performant

00:23:13.600 --> 00:23:14.840
Ergebnisse rausbekommt.

00:23:15.440 --> 00:23:17.460
Ähm, ne, das ist auch, also

00:23:17.460 --> 00:23:19.480
die, die, ich würde

00:23:19.480 --> 00:23:21.320
eher sowas sagen, wie es hängt halt von der Maschine

00:23:21.320 --> 00:23:23.160
auch ab. Also wenn, sobald

00:23:23.160 --> 00:23:25.320
das, was halt in Postgres relativ

00:23:25.320 --> 00:23:27.480
schnell relativ groß wird, sind halt die Indizes.

00:23:28.780 --> 00:23:29.500
Also super

00:23:29.500 --> 00:23:31.300
optimal sind die halt nicht. Also

00:23:31.300 --> 00:23:33.460
da ist schon einiges optimiert, aber

00:23:33.460 --> 00:23:35.300
die werden halt relativ schnell relativ groß.

00:23:35.360 --> 00:23:37.340
Und wenn die zum Beispiel so groß sind, dass sie nicht mehr in den Hauptspeicher passen,

00:23:37.400 --> 00:23:38.420
dann hat man ein Problem.

00:23:40.180 --> 00:23:41.540
Und das geht wahrscheinlich

00:23:41.540 --> 00:23:43.520
dann mit Lucin oder beziehungsweise halt

00:23:43.520 --> 00:23:45.320
Solar Cloud oder Elasticsearch.

00:23:45.440 --> 00:23:47.380
Oder so dann besser. Aber da ist man schon bei

00:23:47.380 --> 00:23:49.060
wirklich vielen, vielen Dokumenten wahrscheinlich.

00:23:49.300 --> 00:23:51.240
Wie viele Hauptspeicher hat man denn dann, die man braucht,

00:23:51.340 --> 00:23:53.380
für welche Dokumentengröße hast du da so Werte?

00:23:53.820 --> 00:23:55.140
Ne, weiß ich nicht. Aber

00:23:55.140 --> 00:23:57.400
keine Ahnung, kann sein,

00:23:57.820 --> 00:23:59.340
also kommen wir halt auch drauf an, wie groß die

00:23:59.340 --> 00:24:00.960
Dokumente sind. Aber

00:24:00.960 --> 00:24:03.360
ich meine, heutige Daten haben viele Hauptspeicher

00:24:03.360 --> 00:24:05.260
und bis man da irgendwie,

00:24:05.540 --> 00:24:07.340
also ich weiß nicht, wie oft

00:24:07.340 --> 00:24:09.160
ich einen Volltextindex gesehen habe,

00:24:09.240 --> 00:24:11.080
der größer als ein paar Gigabyte war. Das

00:24:11.080 --> 00:24:13.360
kommt jetzt gar nicht so oft vor, selbst wenn du Millionen Dokumente hast.

00:24:13.360 --> 00:24:13.560
Also

00:24:13.560 --> 00:24:14.820
also

00:24:15.440 --> 00:24:45.440


00:24:45.440 --> 00:25:15.440


00:25:15.440 --> 00:25:17.440
!

00:25:17.440 --> 00:25:37.180
Was sind grundsätzliche Fragestellungen?

00:25:38.380 --> 00:25:39.400
Ja, also zum Beispiel

00:25:39.400 --> 00:25:41.480
wie macht man das jetzt eigentlich,

00:25:41.480 --> 00:25:43.720
wenn man eine Suchmaske irgendwie auf einer Webseite

00:25:43.720 --> 00:25:45.380
hat? Was ist eigentlich,

00:25:45.440 --> 00:25:48.420
wie geht das mit der Relevanz?

00:25:48.920 --> 00:25:51.080
Wie kriege ich das eigentlich raus, ob da irgendwie

00:25:51.080 --> 00:25:53.240
gute Ergebnisse kommen? Wie mache ich

00:25:53.240 --> 00:25:55.300
das? Und da ist auch leider

00:25:55.300 --> 00:25:55.840
die Antwort,

00:25:56.400 --> 00:25:59.420
es hängt davon ab und das ist je nach Anwendungsfall

00:25:59.420 --> 00:26:00.320
sehr unterschiedlich.

00:26:00.940 --> 00:26:03.260
Okay, jetzt wird es interessant. Also ich möchte

00:26:03.260 --> 00:26:05.140
suchen, auch ranken, ja, und das heißt die

00:26:05.140 --> 00:26:07.360
Trefferquote erhöhen.

00:26:07.620 --> 00:26:09.220
Die Wahrscheinlichkeit, dass das Dokument dem

00:26:09.220 --> 00:26:11.160
entspricht, was ich gerade haben möchte.

00:26:12.040 --> 00:26:13.060
Genau, wenn Leute da irgendwas

00:26:13.060 --> 00:26:15.240
eingeben, irgendeine Query eingeben, dann möchtest du, dass

00:26:15.240 --> 00:26:16.760
sie halt normalerweise oder dass sie halt

00:26:16.760 --> 00:26:19.020
möglichst vielen Fällen halt irgendwie relevante Ergebnisse

00:26:19.020 --> 00:26:20.760
haben.

00:26:21.380 --> 00:26:23.060
Ja, okay. Und wie das funktioniert, ist natürlich

00:26:23.060 --> 00:26:24.460
jetzt sehr spannend. Ja.

00:26:25.660 --> 00:26:25.920
Also

00:26:25.920 --> 00:26:29.720
wie, wie, wie, wie, wie, wie so ein Index

00:26:29.720 --> 00:26:31.060
funktioniert, ist halt im Grunde, wenn ich mir

00:26:31.060 --> 00:26:32.960
vorstelle, das wäre jetzt eine,

00:26:34.180 --> 00:26:34.780
äh,

00:26:34.840 --> 00:26:37.080
ich hätte jetzt eben dieses Buch mit dem Index

00:26:37.080 --> 00:26:38.840
hinten drin und ich würde jetzt wissen

00:26:38.840 --> 00:26:41.140
wollen, okay, ähm,

00:26:43.060 --> 00:26:45.180
wo kommt denn das Wort, was könnte ich denn für ein Wort,

00:26:45.180 --> 00:26:45.220
äh, was könnte ich denn für ein Wort, äh, was könnte ich denn für ein Wort, äh,

00:26:45.240 --> 00:26:46.400
Keyword.

00:26:47.920 --> 00:26:49.140
Keyword und, äh,

00:26:49.240 --> 00:26:51.200
Python. Und Python, ja, wo kommt

00:26:51.200 --> 00:26:53.100
denn das überall vor? Und ich hätte gerne alle Seiten, auf denen

00:26:53.100 --> 00:26:55.480
das vorkommt. Dann gehe ich einfach in den Index,

00:26:55.700 --> 00:26:57.380
äh, nehme halt, äh,

00:26:57.840 --> 00:26:58.860
suche halt das Wort

00:26:58.860 --> 00:27:01.220
Keyword, nehme die Seiten,

00:27:01.740 --> 00:27:03.200
die Nummern, packe das

00:27:03.200 --> 00:27:05.260
in ein Set und, äh,

00:27:05.840 --> 00:27:07.340
nehme das, äh, nehme das gleiche

00:27:07.340 --> 00:27:09.000
Set der Seiten von, äh,

00:27:09.040 --> 00:27:10.980
Python. Und jetzt kann ich

00:27:10.980 --> 00:27:13.000
da halt zwei Dinge machen. Ich könnte es entweder

00:27:13.000 --> 00:27:14.720
schneiden, könnte sagen, irgendwie,

00:27:15.240 --> 00:27:16.960
ich hätte gerne alle Seiten, in denen beides

00:27:16.960 --> 00:27:18.960
vorkommt, oder sozusagen, also die Schnittmenge

00:27:18.960 --> 00:27:21.100
der beiden Mengen

00:27:21.100 --> 00:27:23.020
und, äh, oder ich könnte sagen, ja, ich nehme

00:27:23.020 --> 00:27:24.520
die Vereinigung, also

00:27:24.520 --> 00:27:27.000
entweder das ist, wo Python drin vorkommt

00:27:27.000 --> 00:27:28.740
oder wo Keyword drin vorkommt, die Seiten hätte ich gerne

00:27:28.740 --> 00:27:29.780
und kriege dann einfach alle.

00:27:30.760 --> 00:27:32.960
Und das ist ja auch das, was man sozusagen in, ich glaube,

00:27:33.060 --> 00:27:34.880
Google hat da eine Syntax für, äh, das

00:27:34.880 --> 00:27:36.960
ist übrigens auch bei Postgres, kann man, ähm,

00:27:37.780 --> 00:27:39.260
die Syntax, die Google verwendet,

00:27:39.380 --> 00:27:40.540
äh, äh, äh,

00:27:40.600 --> 00:27:42.720
TS2, äh, wie heißt das,

00:27:42.800 --> 00:27:45.180
2Query, irgendwas, 2WebQuery, ach, ich weiß nicht,

00:27:45.180 --> 00:27:47.200
wie die Postgres-Funktion heißt, die übergibt

00:27:47.200 --> 00:27:48.960
man einfach diesen Query-String, den man bekommen hat

00:27:48.960 --> 00:27:50.640
und dann macht die daraus eine Anfrage,

00:27:51.180 --> 00:27:53.200
äh, nach der gleichen Logik, sodass man

00:27:53.200 --> 00:27:55.140
halt auch und oder oder verwenden

00:27:55.140 --> 00:27:55.780
kann, sozusagen.

00:27:57.160 --> 00:27:58.820
Ähm, ja,

00:27:59.080 --> 00:28:01.180
und, ähm,

00:28:02.640 --> 00:28:03.560
äh,

00:28:03.600 --> 00:28:05.100
genau, das ist eigentlich im Grunde

00:28:05.100 --> 00:28:06.940
das, was halt die Suchmaschine macht. Das Problem ist jetzt

00:28:06.940 --> 00:28:09.320
natürlich, äh, die, die, die

00:28:09.320 --> 00:28:11.280
Seiten, wie auch immer man die jetzt bekommen hat, ob man,

00:28:11.480 --> 00:28:13.040
äh, die Mengen vereinigt oder

00:28:13.040 --> 00:28:15.040
geschnitten hat, äh,

00:28:15.180 --> 00:28:16.960
äh,

00:28:17.120 --> 00:28:19.000
man hat jetzt noch keine Reihenfolge der, der Seiten

00:28:19.000 --> 00:28:21.140
irgendwie. Und die, die Frage wäre halt,

00:28:21.220 --> 00:28:22.980
wie, wie berechnet man die aus und das,

00:28:23.200 --> 00:28:25.120
was halt so, äh, von immer gemacht

00:28:25.120 --> 00:28:26.940
wird und, äh, zählen,

00:28:27.080 --> 00:28:29.040
äh, absolute Zahl sortieren,

00:28:29.180 --> 00:28:31.180
höh. Kann man, kann man und könnte man auch machen,

00:28:31.300 --> 00:28:33.020
ja, aber das, was halt, äh,

00:28:33.040 --> 00:28:34.180
was halt schon, äh,

00:28:34.800 --> 00:28:36.920
was normalerweise immer so für, für

00:28:36.920 --> 00:28:39.020
Scoring, äh, Ranking verwendet wird, ist

00:28:39.020 --> 00:28:41.040
halt TFIDF, das hatten wir, glaube ich, auch

00:28:41.040 --> 00:28:43.040
schon ein paar Mal, ist halt einfach, äh,

00:28:43.900 --> 00:28:44.940
der, die

00:28:44.940 --> 00:28:46.240
Query wird halt in einen,

00:28:46.400 --> 00:28:48.200
äh, ja,

00:28:49.040 --> 00:28:51.260
TFIDF-Faktor verwandelt und, ähm,

00:28:52.080 --> 00:28:53.000
sozusagen die,

00:28:54.100 --> 00:28:54.500
äh,

00:28:55.480 --> 00:28:57.080
Also außer Leute, die davon schon Ahnung haben,

00:28:57.160 --> 00:28:58.880
hat das jetzt niemand verstanden, deswegen musst du noch mal

00:28:58.880 --> 00:29:00.420
kurz erklären, was das denn überhaupt ist.

00:29:00.900 --> 00:29:02.760
Äh, TFIDF ist Term Frequency

00:29:02.760 --> 00:29:04.720
mal Inverse Document Frequency

00:29:04.720 --> 00:29:06.820
und das legt sozusagen

00:29:06.820 --> 00:29:08.400
Gewichte fest für die

00:29:08.400 --> 00:29:11.080
Tokens, also die

00:29:11.080 --> 00:29:13.020
Wörter aus deiner Query für Keyword

00:29:13.020 --> 00:29:14.780
und für Python jetzt in unserem Beispielfall.

00:29:14.940 --> 00:29:15.280
Ja.

00:29:16.040 --> 00:29:17.020
Und, ähm,

00:29:17.980 --> 00:29:19.900
ja, das ist halt,

00:29:20.520 --> 00:29:22.720
ich weiß nicht genau, ob man genau erklären muss, wie das, wie das

00:29:22.720 --> 00:29:24.560
ausgerechnet wird, äh,

00:29:25.080 --> 00:29:27.020
äh, also Term Frequenz

00:29:27.020 --> 00:29:29.200
wäre halt sozusagen auf dieses, äh,

00:29:29.300 --> 00:29:31.020
Seitenbeispiel, äh, übertragen,

00:29:31.500 --> 00:29:32.920
wie ist die Frequenz von dem

00:29:32.920 --> 00:29:35.000
Wort Python zum Beispiel auf dieser Seite?

00:29:35.140 --> 00:29:37.040
Das heißt, ich zähle, wie oft

00:29:37.040 --> 00:29:38.820
Python auf der Seite vorkommt und teile

00:29:38.820 --> 00:29:40.540
das durch die Anzahl aller Worte

00:29:40.540 --> 00:29:42.940
auf der Seite. Dann weiß ich halt, wie viel Prozent

00:29:42.940 --> 00:29:44.340
der Worte auf dieser Seite sind halt Python.

00:29:44.740 --> 00:29:44.800
Mhm.

00:29:44.940 --> 00:29:45.560
Das ist die Term Frequenz.

00:29:46.660 --> 00:29:48.900
Und, ähm, äh, multipliziere

00:29:48.900 --> 00:29:50.880
das mit der Inverse Document Frequency, das ist

00:29:50.880 --> 00:29:53.020
halt sozusagen, in, in wie viel

00:29:53.020 --> 00:29:54.940
äh,

00:29:55.900 --> 00:29:56.900
Seiten kommt denn

00:29:56.900 --> 00:29:58.000
dieses Wort überhaupt vor?

00:29:58.820 --> 00:30:01.000
Mhm. Äh, ein Maß dafür und,

00:30:01.180 --> 00:30:02.840
äh, je, äh,

00:30:02.860 --> 00:30:04.760
weniger das vorkommt,

00:30:05.140 --> 00:30:06.880
desto, äh, höher ist

00:30:06.880 --> 00:30:07.980
die Inverse Document Frequency.

00:30:09.240 --> 00:30:11.000
Mhm. Äh, und, äh,

00:30:11.280 --> 00:30:12.640
desto charakteristischer ist das Wort

00:30:12.640 --> 00:30:14.900
im Grunde. Für das, was da gerade

00:30:14.900 --> 00:30:16.580
steht. Ja, genau. Das heißt, du weißt

00:30:16.580 --> 00:30:18.760
nämlich genau, wenn das hoch ist auf diesem Abschnitt

00:30:18.760 --> 00:30:20.720
geht's tatsächlich jetzt um Python und es wird

00:30:20.720 --> 00:30:22.640
nicht irgendwie nur als Seitenkommentar mal kurz

00:30:22.640 --> 00:30:24.840
erwähnt oder als kurz... Genau, genau. Also Artikel

00:30:24.840 --> 00:30:26.560
sind halt zum Beispiel für Sachen, die, äh,

00:30:26.840 --> 00:30:28.760
also der, die, das, das kommt halt auf jeder Seite vor.

00:30:29.240 --> 00:30:30.680
Ja, okay, Stopwatch. Daher ist es halt

00:30:30.680 --> 00:30:32.380
einfach nicht so relevant, weil

00:30:32.380 --> 00:30:34.720
Inverse Document Frequency davon wäre halt sehr, sehr

00:30:34.720 --> 00:30:36.800
niedrig, weil, äh,

00:30:36.820 --> 00:30:38.600
naja, es kommt halt überall vor, das heißt, äh,

00:30:38.720 --> 00:30:40.840
ja. Ähm, jetzt multipliziere

00:30:40.840 --> 00:30:42.600
ich diese beiden Teile, also einmal wie oft

00:30:42.600 --> 00:30:44.780
kommt das, äh, Wort auf der Seite

00:30:44.780 --> 00:30:46.780
vor mit, äh, wie wichtig

00:30:46.780 --> 00:30:48.640
ist das üblicherweise oder wie charakteristisch ist das

00:30:48.640 --> 00:30:50.940
und das Ergebnis ist halt sozusagen

00:30:50.940 --> 00:30:52.740
ein Maß dafür, dass, also Worte,

00:30:52.900 --> 00:30:54.680
die wenig vorkommen oder

00:30:54.680 --> 00:30:56.800
sehr charakteristisch sind, aber

00:30:56.800 --> 00:30:58.760
sehr oft vorkommen, sind halt viel wichtiger als Worte,

00:30:58.920 --> 00:31:00.740
die, äh, überhaupt

00:31:00.740 --> 00:31:02.700
nicht charakteristisch sind, weil sie überall vorkommen, also der, die,

00:31:02.780 --> 00:31:04.440
das ist halt, äh, die kriegen halt sehr

00:31:04.440 --> 00:31:06.720
niedrige Gewichte und, äh, Worte, die

00:31:06.720 --> 00:31:08.660
halt sehr spezifisch sind, die kriegen halt sehr hohe Gewichte.

00:31:09.460 --> 00:31:10.820
Und das macht man jetzt auch mit der Query

00:31:10.820 --> 00:31:12.820
und macht das auch nochmal mit allen, äh,

00:31:12.820 --> 00:31:14.760
Seiten sozusagen und dann, äh,

00:31:14.780 --> 00:31:16.840
multipliziert man das miteinander, also

00:31:16.840 --> 00:31:18.820
die Kursinduzistanz. Das heißt, man muss halt

00:31:18.820 --> 00:31:20.740
tatsächlich genau diese Dinge bilden

00:31:20.740 --> 00:31:22.620
oder bauen für jeden einzelnen

00:31:22.620 --> 00:31:24.840
Textbaustein, den man untersuchen

00:31:24.840 --> 00:31:26.880
möchte. Ja, man muss, man muss

00:31:26.880 --> 00:31:28.460
da gar nicht so viel machen, tatsächlich,

00:31:28.840 --> 00:31:30.540
also das Bauen der Listen,

00:31:30.980 --> 00:31:32.800
in welchen Dokumenten welches Wort vorkommt, ist halt

00:31:32.800 --> 00:31:34.900
eigentlich das, was man hauptsächlich

00:31:34.900 --> 00:31:36.160
tut, wenn man einen Index baut.

00:31:37.080 --> 00:31:38.780
Diese ganzen Geschichten, wie oft kommt das Wort

00:31:38.780 --> 00:31:40.540
jetzt wo vor und wie, das wird,

00:31:40.540 --> 00:31:42.560
das speichert man auch in dem Index, aber das ist eigentlich

00:31:42.560 --> 00:31:44.620
nicht so schlimm, das geht eigentlich

00:31:44.620 --> 00:31:46.500
relativ einfach. Und dann am Schluss hat man diese

00:31:46.500 --> 00:31:48.460
ganzen Informationen, auch die Texte nicht mehr, sondern

00:31:48.460 --> 00:31:50.580
man kann halt sozusagen aus dem, was man im

00:31:50.580 --> 00:31:52.480
Index stehen hat, plus der Query halt diese

00:31:52.480 --> 00:31:53.980
ganzen Sachen ausrechnen.

00:31:54.240 --> 00:31:56.400
Okay. Du sagst irgendwas über den Kursinduzistanz.

00:31:56.460 --> 00:31:58.500
Ja, ja, genau. Wenn ich jetzt zwei Vektoren habe, dann

00:31:58.500 --> 00:32:00.540
ist die Kursinduzistanz dazwischen einfach

00:32:00.540 --> 00:32:02.100
nur der Winkel,

00:32:02.600 --> 00:32:04.480
äh, also der Kursinduzistanz zwischen den beiden

00:32:04.480 --> 00:32:06.440
Vektoren. Also jetzt nochmal kurz, also der

00:32:06.440 --> 00:32:08.200
Vektor ist tatsächlich dann die Information

00:32:08.200 --> 00:32:10.520
darüber, auf welchen Seiten wie viel

00:32:10.520 --> 00:32:12.380
Information über das gesuchte Wort

00:32:12.380 --> 00:32:13.600
Python oder Keyword steht.

00:32:14.620 --> 00:32:16.360
Ja, also die, genau, die Gewichte

00:32:16.360 --> 00:32:17.940
sind jetzt sozusagen die Werte in dem Vektor

00:32:17.940 --> 00:32:20.280
und, ähm, können halt

00:32:20.280 --> 00:32:21.580
niedriger oder höher sein.

00:32:22.460 --> 00:32:24.460
Das wird immer normiert auf, die Vektoren werden

00:32:24.460 --> 00:32:26.140
immer normiert auf 1,

00:32:26.580 --> 00:32:27.660
auf eine Länge 1 sozusagen.

00:32:29.000 --> 00:32:30.540
Und der Anteil von einem

00:32:30.540 --> 00:32:32.400
Wort, das halt wichtig ist, ist halt dann einfach

00:32:32.400 --> 00:32:34.360
höher als von Worten, die nicht so wichtig sind.

00:32:34.740 --> 00:32:36.280
Und die Länge der Vektoren, man normiert

00:32:36.280 --> 00:32:38.540
auch deswegen damit halt längere Vektoren nicht einen Vorteil

00:32:38.540 --> 00:32:40.540
haben, ja, oder das halt längere, wenn du

00:32:40.540 --> 00:32:41.780
das nicht normieren würdest, dann würden

00:32:41.780 --> 00:32:44.100
Seiten, auf denen viele Worte stehen oder

00:32:44.620 --> 00:32:46.420
die halt sehr, sehr lang sind, würden halt viel

00:32:46.420 --> 00:32:48.580
relevanter bei den vielen Suchabfragen sein, einfach weil

00:32:48.580 --> 00:32:49.860
die halt auch viel mehr Sachen matchen.

00:32:50.760 --> 00:32:51.820
Daher, äh,

00:32:52.280 --> 00:32:54.620
normiert man das halt auf eine Einheitslänge,

00:32:54.740 --> 00:32:56.480
sodass halt dann, wenn ein Dokument

00:32:56.480 --> 00:32:58.420
sehr lang ist, kriegen die einzelnen Worte halt weniger

00:32:58.420 --> 00:32:59.340
Gewicht.

00:33:00.380 --> 00:33:02.180
Und, ähm, ja,

00:33:02.760 --> 00:33:04.100
dann wird das halt vergleichbar.

00:33:05.380 --> 00:33:06.060
Und, ähm,

00:33:07.140 --> 00:33:08.680
äh, ja, also im Grunde ist das

00:33:08.680 --> 00:33:10.520
eben relativ einfach.

00:33:10.700 --> 00:33:12.540
Also diese TFE-DF-Distanz

00:33:12.540 --> 00:33:14.460
ist halt nichts weiter als der

00:33:14.620 --> 00:33:16.560
Kosinus zwischen dem Winkel der beiden

00:33:16.560 --> 00:33:18.760
Vektoren. Und das klingt jetzt auch irgendwie kompliziert.

00:33:18.900 --> 00:33:20.700
Tatsächlich ist es so, es ist halt super einfach

00:33:20.700 --> 00:33:22.880
auszurechnen, weil, äh,

00:33:24.240 --> 00:33:24.800
das ist einfach nur

00:33:24.800 --> 00:33:26.000
das Skalarprodukt der Vektoren.

00:33:26.660 --> 00:33:28.880
Und das wiederum ist super einfach auszurechnen.

00:33:29.000 --> 00:33:30.300
Also dieser Vektorraum, äh,

00:33:30.440 --> 00:33:32.520
in dem diese Operationen stattfinden, äh,

00:33:32.600 --> 00:33:34.540
wenn man jetzt sozusagen jedem Wort

00:33:34.540 --> 00:33:36.380
eine Dimension zuordnet, äh,

00:33:36.680 --> 00:33:38.640
Texte, also, wenn man jetzt

00:33:38.640 --> 00:33:40.440
ein Dokument-Korpus nimmt, ganz viele Dokumente,

00:33:40.560 --> 00:33:42.320
dann kann es sein, dass da so ein paar

00:33:42.320 --> 00:33:44.580
10.000 Wörter drin vorkommen oder vielleicht,

00:33:44.620 --> 00:33:46.420
wenn man jetzt, also vielleicht auch ein paar 100.000,

00:33:46.700 --> 00:33:47.960
also, und man

00:33:47.960 --> 00:33:50.360
hat jetzt sozusagen für jedes Wort eine Dimension,

00:33:51.500 --> 00:33:52.620
dann

00:33:52.620 --> 00:33:54.640
klingt das irgendwie, äh, alles ganz schrecklich.

00:33:54.700 --> 00:33:56.460
Wenn man sagt, ein 100.000-dimensionaler Vektorraum

00:33:56.460 --> 00:33:58.320
ist ja irgendwie schwer vorzustellen und dann

00:33:58.320 --> 00:34:00.580
daran irgendwie Winkel, uh, was soll denn das sein?

00:34:01.600 --> 00:34:02.660
Aber eigentlich ist es

00:34:02.660 --> 00:34:04.060
halt total, äh, total blöd.

00:34:04.280 --> 00:34:06.260
Einfach, weil, äh, das Schöne daran ist,

00:34:06.380 --> 00:34:07.640
oder das ist der Grund, warum man das macht, ist,

00:34:08.100 --> 00:34:10.620
ein Skalarprodukt an der Stelle ist halt, wenn, wenn das so spars ist,

00:34:10.660 --> 00:34:12.420
also die meisten Worte kommen ja in den meisten Texten

00:34:12.420 --> 00:34:14.580
gar nicht vor. Das heißt, wenn ich, äh,

00:34:14.620 --> 00:34:16.440
einen Dokumentvektor habe, dann ist der

00:34:16.440 --> 00:34:17.760
an den allermeisten Stellen null.

00:34:18.840 --> 00:34:20.560
Und alle Dinge, die null sind, die muss ich mir

00:34:20.560 --> 00:34:22.320
beim Skalarprodukt gar nicht angucken. Wenn die miteinander,

00:34:22.460 --> 00:34:24.760
wenn irgendwas multipliziert wird, wo eine Null drin ist,

00:34:24.860 --> 00:34:26.540
dann ist es ja sofort auch wieder null. Das heißt,

00:34:26.800 --> 00:34:28.100
ich muss mir... Könnt ihr das auch mal nachrechnen, bitte?

00:34:28.360 --> 00:34:30.560
Ja, das heißt, die Rechenoperation ist halt,

00:34:30.780 --> 00:34:33.120
ich gehe durch jedes, äh,

00:34:33.200 --> 00:34:34.140
Ding in der Query,

00:34:34.540 --> 00:34:36.420
ja, also nur durch die, die gesetzt sind, das sind ja meistens nur

00:34:36.420 --> 00:34:38.340
zwei, drei Worte, und gucke dann,

00:34:38.940 --> 00:34:40.620
existiert im Index dafür,

00:34:41.000 --> 00:34:42.660
äh, Seiten, auf denen

00:34:42.660 --> 00:34:43.240
das vorkommt,

00:34:44.240 --> 00:34:44.600
und

00:34:44.620 --> 00:34:46.780
das war's. Mehr muss ich nicht machen. Und damit habe ich ja schon,

00:34:46.860 --> 00:34:48.720
sozusagen, alle, wo ich

00:34:48.720 --> 00:34:50.260
überhaupt ein Skalarprodukt ausrechnen kann,

00:34:51.220 --> 00:34:51.540
gefunden.

00:34:53.060 --> 00:34:53.900
Und, äh,

00:34:54.860 --> 00:34:56.840
jetzt muss ich nur noch ein paar andere statistische

00:34:56.840 --> 00:34:58.640
Werte haben, um das halt wirklich ausrechnen zu können.

00:34:59.220 --> 00:35:00.380
Und das ist halt, äh,

00:35:00.420 --> 00:35:02.560
das ist halt eine total einfache Operation.

00:35:02.900 --> 00:35:04.240
Also das ist halt...

00:35:04.240 --> 00:35:06.580
Weißt du, welche anderen statistischen Werte du

00:35:06.580 --> 00:35:08.640
jetzt noch haben möchtest zum eigentlichen Ranken?

00:35:10.640 --> 00:35:11.000
Äh,

00:35:11.000 --> 00:35:11.100
äh,

00:35:11.100 --> 00:35:13.000
äh,

00:35:14.620 --> 00:35:15.440
naja,

00:35:16.680 --> 00:35:18.560
tatsächlich müsste man wahrscheinlich noch an jedem,

00:35:20.060 --> 00:35:20.860
also die, die, die Dinge

00:35:20.860 --> 00:35:22.740
im Index heißt dann Posting-Listen, dann müsste man

00:35:22.740 --> 00:35:24.740
wahrscheinlich noch irgendwie den TF-EDF-Wert

00:35:24.740 --> 00:35:26.860
tatsächlich, also ich, ich weiß es ehrlich gesagt nicht,

00:35:27.020 --> 00:35:28.140
Lucine macht das,

00:35:28.780 --> 00:35:30.880
weiß gar nicht, was Lucine da alles speichert, ich speichere noch ein paar andere Sachen,

00:35:31.800 --> 00:35:32.240
ähm,

00:35:32.800 --> 00:35:34.740
ich würde sagen, TF-EDF-Wert braucht man vielleicht,

00:35:34.920 --> 00:35:36.660
also eigentlich, also ich glaube, Lucine und so,

00:35:36.700 --> 00:35:38.640
die machen das so, dass sie das auch erst ausrechnen,

00:35:38.680 --> 00:35:39.620
wenn die Query kommt.

00:35:40.940 --> 00:35:42.800
Aber was das genau ist, weiß ich jetzt auch nicht mehr.

00:35:42.900 --> 00:35:44.100
Also man kann das Ganze auch, äh,

00:35:44.100 --> 00:35:46.420
leicht und naiv implementieren, äh,

00:35:46.640 --> 00:35:48.580
in, in Python, man kann einfach für diese

00:35:48.580 --> 00:35:50.000
Posting-Listen, das sind sozusagen die

00:35:50.000 --> 00:35:52.660
Listen, äh, der Seiten, auf denen irgendwas

00:35:52.660 --> 00:35:54.580
vorkommt, oder die IDs der Dokumente,

00:35:55.380 --> 00:35:56.540
die packt man einfach an ein Set

00:35:56.540 --> 00:35:58.040
und indizieren

00:35:58.040 --> 00:35:59.660
bedeutet einfach nur

00:35:59.660 --> 00:36:02.300
Text, die Dokumente zu tokenisieren

00:36:02.300 --> 00:36:04.820
und dann für jedes Token sozusagen

00:36:04.820 --> 00:36:06.740
einen Eintrag mit der ID des Dokuments

00:36:06.740 --> 00:36:07.900
in die Posting-Liste zu tun.

00:36:08.160 --> 00:36:08.740
Posting-Liste,

00:36:10.540 --> 00:36:12.620
so heißt das im Allgemeinen, aber in unserem Fall werden das

00:36:12.620 --> 00:36:14.080
jetzt, wenn man jetzt sozusagen als Daten-Zu-File,

00:36:14.100 --> 00:36:16.220
oder für Sets nehmen würde, Sets, und dann kannst du

00:36:16.220 --> 00:36:18.240
halt hinterher, wenn eine Query kommt, äh, irgendwie

00:36:18.240 --> 00:36:20.180
genau das machen, kannst halt irgendwie Schnittmenge

00:36:20.180 --> 00:36:21.980
und Vereinigungsmenge bilden, je nachdem, ob du

00:36:21.980 --> 00:36:24.140
deine Query mit End oder

00:36:24.140 --> 00:36:26.300
Or verknüpfen willst, und,

00:36:26.400 --> 00:36:27.940
ähm, ja, kriegst dann,

00:36:28.100 --> 00:36:29.640
kriegst damit schon mal was raus,

00:36:30.040 --> 00:36:32.200
und kannst halt auch, äh, äh, wenn du jetzt

00:36:32.200 --> 00:36:34.220
die TF-IDF-Werte

00:36:34.220 --> 00:36:36.180
noch mitgespeichert hast, kannst du auch einfach die Queries-Interessanz

00:36:36.180 --> 00:36:37.980
ausrechnen, und hast dann schon

00:36:37.980 --> 00:36:39.600
im Grunde das implementiert, was eine

00:36:39.600 --> 00:36:42.100
Suchmaschine so tut. Das geht

00:36:42.100 --> 00:36:44.020
wahrscheinlich in 30 Zeilen,

00:36:44.100 --> 00:36:46.200
Python oder sowas. Ja, ja, wir lieben

00:36:46.200 --> 00:36:48.220
Python. Also das ist, äh, das, das,

00:36:48.300 --> 00:36:50.180
das geht relativ einfach, denke ich mal.

00:36:51.460 --> 00:36:52.660
Äh, und, äh,

00:36:52.660 --> 00:36:54.180
es ist auch mit, ich hab's mit Sets auch schon mal

00:36:54.180 --> 00:36:55.760
ausprobiert, das ist auch ziemlich schnell.

00:36:56.600 --> 00:36:58.080
Das, was an Sets

00:36:58.080 --> 00:37:00.200
ein bisschen doof ist, deswegen macht man das auch

00:37:00.200 --> 00:37:01.940
dann tatsächlich, wenn man jetzt eine Suchmaschine

00:37:01.940 --> 00:37:04.120
implementiert, nicht so, ist,

00:37:04.420 --> 00:37:06.080
äh, dass die halt sehr, sehr

00:37:06.080 --> 00:37:06.980
viel Hauptspeicher verbrauchen.

00:37:07.960 --> 00:37:10.140
Mhm. Äh, und überhaupt,

00:37:10.260 --> 00:37:12.120
man muss natürlich alles, wenn man so ein

00:37:12.120 --> 00:37:14.080
Python-Set hat, muss man zum Hauptspeicher halten, weil

00:37:14.100 --> 00:37:14.860
ähm,

00:37:16.180 --> 00:37:18.040
naja, äh, es ist halt eben keine Datenstruktur,

00:37:18.200 --> 00:37:19.800
die irgendwie auf der Platte liegen kann, ja, während jetzt

00:37:19.800 --> 00:37:22.020
ein Lucene-Index ist ein Ding, das eigentlich auf der Platte liegt,

00:37:22.140 --> 00:37:24.180
und, ähm, das kann, also

00:37:24.180 --> 00:37:26.300
das kann halt auch größer als Hauptspeicher werden, ist gar kein Problem.

00:37:27.020 --> 00:37:28.520
Und, äh, das ist, äh,

00:37:28.600 --> 00:37:30.100
so gebaut, dass, äh,

00:37:31.740 --> 00:37:32.180
ähm,

00:37:33.320 --> 00:37:34.440
ja, das maximal

00:37:34.440 --> 00:37:36.140
performant ist, wenn Sachen

00:37:36.140 --> 00:37:37.900
von der Platte auch gelesen werden und so,

00:37:38.140 --> 00:37:40.300
und, äh, es ist, äh,

00:37:40.300 --> 00:37:41.880
es ist, das sind schon einige schöne Tricks dabei.

00:37:42.760 --> 00:37:43.920
Und, ähm,

00:37:44.100 --> 00:37:46.240
aber tatsächlich, wenn man das jetzt einfach so

00:37:46.240 --> 00:37:48.300
implementieren möchte, äh, kann man das mit

00:37:48.300 --> 00:37:50.740
Sets durchaus mal machen. Was dann die, ähm,

00:37:52.060 --> 00:37:52.760
großen Suchmaschinen

00:37:52.760 --> 00:37:54.480
machen, und weswegen das Ding auch

00:37:54.480 --> 00:37:56.280
Postinglist, äh, heißt, ist,

00:37:56.640 --> 00:37:58.340
dass man das eben nicht in einem Set hält, sondern

00:37:58.340 --> 00:38:00.060
in, äh,

00:38:01.380 --> 00:38:02.720
in einer, in einer Liste,

00:38:02.860 --> 00:38:03.500
die sortiert ist,

00:38:04.620 --> 00:38:06.680
äh, sozusagen, wo die,

00:38:06.820 --> 00:38:08.720
wo eben die Dokument-IDs oder jetzt, äh,

00:38:08.720 --> 00:38:10.460
äh, im Beispiel Seitenzahlen,

00:38:10.580 --> 00:38:12.660
die werden halt einfach sortiert, und dann speichert man

00:38:12.660 --> 00:38:14.080
nicht die Seitenzahlen selber,

00:38:14.100 --> 00:38:15.980
oder die IDs selber, sondern

00:38:15.980 --> 00:38:18.080
man speichert nur die Differenz dazwischen.

00:38:18.740 --> 00:38:20.180
Mhm. Weil die Differenzen zwischen

00:38:20.180 --> 00:38:21.360
den IDs sind halt viel kleiner.

00:38:22.440 --> 00:38:24.100
Und dann macht man etwas ganz

00:38:24.100 --> 00:38:25.920
Fieses, das nennt sich Variable-Wide-Encoding.

00:38:27.620 --> 00:38:27.940
Aha.

00:38:28.200 --> 00:38:29.740
Schon wieder so ein Zauberwort, ja.

00:38:30.620 --> 00:38:32.240
Äh, und,

00:38:32.320 --> 00:38:33.400
äh, das, äh,

00:38:33.920 --> 00:38:36.100
das bedeutet halt, dass du, äh,

00:38:37.020 --> 00:38:37.860
diese, äh, normalerweise

00:38:37.860 --> 00:38:40.040
in C oder so, wenn du

00:38:40.040 --> 00:38:40.820
jetzt, äh,

00:38:40.820 --> 00:38:41.380
äh,

00:38:41.380 --> 00:38:43.940
ein Array hast, ja, dann,

00:38:44.100 --> 00:38:46.120
müssen ja alle, äh, Werte in dem Array

00:38:46.120 --> 00:38:46.980
den gleichen Typ haben.

00:38:48.600 --> 00:38:50.120
Und das

00:38:50.120 --> 00:38:52.220
macht man halt nicht so,

00:38:52.340 --> 00:38:54.420
um Platz zu sparen, sondern man, äh,

00:38:54.420 --> 00:38:56.240
deswegen hat, äh, man nimmt einfach,

00:38:56.420 --> 00:38:58.160
äh, üblicherweise dann Characters,

00:38:58.300 --> 00:39:00.160
also Byte-mäßige Dinge,

00:39:00.240 --> 00:39:02.100
ich weiß gar nicht, also in C weiß ich jetzt, wie es geht, ich hab auch mal

00:39:02.100 --> 00:39:03.940
sowas, äh, glücklich mal selber

00:39:03.940 --> 00:39:06.100
implementiert, das, ja, ja.

00:39:07.580 --> 00:39:08.060
Das war

00:39:08.060 --> 00:39:10.080
fast Suchmaschine geschrieben, aus Versehen.

00:39:10.640 --> 00:39:11.640
Aber, ähm,

00:39:13.140 --> 00:39:13.940
äh, äh,

00:39:13.940 --> 00:39:15.660
ich weiß gar nicht, wie man das in Java oder so macht, ich weiß

00:39:15.660 --> 00:39:18.040
keine Ahnung, ähm, geht, geht bestimmt

00:39:18.040 --> 00:39:20.000
auch irgendwie und, äh, definiert sich

00:39:20.000 --> 00:39:22.080
die Datenstruktur selber. Also, es ist

00:39:22.080 --> 00:39:24.160
nicht so, dass man sagt, okay, das sind jetzt alles Integer-Werte

00:39:24.160 --> 00:39:25.960
oder so, sondern man sagt, okay, das ist

00:39:25.960 --> 00:39:27.180
einfach nur ein Array von Charaktern

00:39:27.180 --> 00:39:29.120
und wie viel,

00:39:29.120 --> 00:39:32.120
äh, Bytes ich sozusagen

00:39:32.120 --> 00:39:34.000
pro, ähm, oder wie viel Bit

00:39:34.000 --> 00:39:35.820
ich pro, äh,

00:39:36.580 --> 00:39:37.860
Eintrag in der Posting-Liste,

00:39:38.080 --> 00:39:39.760
äh, verwende, das, äh,

00:39:40.180 --> 00:39:42.040
das mach ich, das verwalte

00:39:42.040 --> 00:39:43.920
ich selber, weil wenn die,

00:39:43.940 --> 00:39:45.760
äh, die Abstände klein sind, dann kann ich

00:39:45.760 --> 00:39:47.640
viel weniger Bits nehmen, als wenn die Abstände groß sind,

00:39:47.660 --> 00:39:49.760
dann muss ich halt mehr Bits nehmen und

00:39:49.760 --> 00:39:51.780
deswegen heißt das Ding auch Variable Byte Encoding,

00:39:52.380 --> 00:39:54.100
weil, äh, die, ein Eintrag

00:39:54.100 --> 00:39:55.920
in der Posting-Liste halt unterschiedlich viele Bytes

00:39:55.920 --> 00:39:57.400
haben kann, je nachdem, wie groß der ist.

00:39:58.020 --> 00:39:59.440
Mhm. Oder wie der Abstand ist zwischen

00:39:59.440 --> 00:40:01.220
der vorherigen und der nächsten ID.

00:40:01.960 --> 00:40:03.760
Und, äh, wenn ich jetzt sortierte Listen habe,

00:40:03.840 --> 00:40:05.780
dann kann ich die sehr, sehr gut, da gibt's halt diverse

00:40:05.780 --> 00:40:07.760
Algorithmen für, äh, kann ich sehr gut schneiden,

00:40:07.860 --> 00:40:09.320
zum Beispiel solche Operationen wie, äh,

00:40:09.460 --> 00:40:11.280
Schnittmenge davon bilden, das geht halt toll.

00:40:11.280 --> 00:40:13.660
Äh, geht mit Sets auch, aber Sets,

00:40:13.940 --> 00:40:15.320
können ja noch viel mehr und so,

00:40:15.960 --> 00:40:17.440
äh, aber da brauch ich ja eigentlich

00:40:17.440 --> 00:40:19.380
nur diese Schnittoperation, Vereinigung ist auch, äh,

00:40:19.400 --> 00:40:21.540
total, äh, simpel und das geht

00:40:21.540 --> 00:40:23.160
halt super, wenn ich so sortierte Listen habe.

00:40:24.060 --> 00:40:25.220
Ähm, ja.

00:40:25.460 --> 00:40:27.600
Und, äh, ähm,

00:40:27.680 --> 00:40:29.500
genau, äh, das ist halt

00:40:29.500 --> 00:40:31.280
auch, das ist relativ schnell, das ist vor allen Dingen auch

00:40:31.280 --> 00:40:33.100
deswegen schnell, also

00:40:33.100 --> 00:40:35.440
die Kompression an der Stelle, die ich dadurch

00:40:35.440 --> 00:40:37.400
kriege, also ich krieg das auf ein Drittel des

00:40:37.400 --> 00:40:39.400
ursprünglichen, also wenn ich das einfach nur als Integer speichern würde,

00:40:40.040 --> 00:40:41.680
dann, äh, brauch ich,

00:40:41.980 --> 00:40:43.040
ja, äh,

00:40:43.900 --> 00:40:43.920
äh,

00:40:43.940 --> 00:40:45.940
ähm, sagen wir mal, ich brauch einen Speicher 1,

00:40:46.060 --> 00:40:47.840
ja, und wenn ich das irgendwie Variable,

00:40:48.100 --> 00:40:49.840
äh, mit Variable Byte Encoding, äh,

00:40:49.900 --> 00:40:51.320
kodiere, dann brauch ich halt nur noch 0,

00:40:51.420 --> 00:40:53.800
Speicher 0,3, also das reduziert das halt

00:40:53.800 --> 00:40:55.820
auf ein Drittel. Mhm, mhm. Und es ist

00:40:55.820 --> 00:40:57.840
auch noch viel schneller. Und der Grund, warum es viel schneller ist,

00:40:57.860 --> 00:40:59.540
ist halt einfach, dass der, das

00:40:59.540 --> 00:41:01.960
Bottleneck ist halt, äh, irgendwie

00:41:01.960 --> 00:41:03.820
das durch die CPU zu drücken,

00:41:03.880 --> 00:41:05.720
also die Speicherbandbreite ist das Problem, du musst das halt

00:41:05.720 --> 00:41:07.800
irgendwie, diese, diese Listen von Arrays musst du

00:41:07.800 --> 00:41:09.780
halt irgendwie durch die CPU kriegen und irgendwie

00:41:09.780 --> 00:41:11.620
durch den Hauptspeicher und wenn die kleiner sind, dann geht das

00:41:11.620 --> 00:41:13.760
schneller durch den Hauptspeicher, weil, äh,

00:41:13.760 --> 00:41:15.740
oder durch den Bus, weil, äh, ja,

00:41:15.840 --> 00:41:17.660
und das in der CPU dann auszupacken

00:41:17.660 --> 00:41:19.740
und, äh, miteinander, das ist ja alles kein

00:41:19.740 --> 00:41:21.580
Problem mehr, äh, aber,

00:41:21.820 --> 00:41:24.040
äh, ja, das halt aus dem Hauptspeicher

00:41:24.040 --> 00:41:25.800
durch die CPU zu quetschen, das ist halt das Problem

00:41:25.800 --> 00:41:27.480
und wenn das kleiner ist, dann geht das halt schneller,

00:41:27.680 --> 00:41:29.160
weil du hast halt nur so, so viel

00:41:29.160 --> 00:41:31.540
100, äh, oder so, so viel

00:41:31.540 --> 00:41:33.580
Gigabyte pro Sekunde, die du da durchkriegst.

00:41:34.860 --> 00:41:35.620
Und, ähm,

00:41:36.820 --> 00:41:37.080
ja,

00:41:37.900 --> 00:41:39.680
äh, genau, deswegen, deswegen macht man das so,

00:41:39.740 --> 00:41:41.200
das macht das Ganze so ein bisschen kompliziert,

00:41:42.200 --> 00:41:43.720
äh, aber

00:41:43.720 --> 00:41:45.020
ja,

00:41:45.900 --> 00:41:47.800
äh, und auch selbst, selbst so

00:41:47.800 --> 00:41:49.700
von dem, von dem Volltextindex von

00:41:49.700 --> 00:41:51.620
Postgres weiß ich, dass er das auch so macht, im Prinzip,

00:41:51.800 --> 00:41:53.600
also die, solche Sachen werden da auch schon gemacht, also

00:41:53.600 --> 00:41:55.240
kann man sich schon vorstellen, das ist schon relativ,

00:41:56.800 --> 00:41:57.140
äh,

00:41:57.580 --> 00:41:59.280
ist halt nicht so eine total naive Implementation,

00:41:59.580 --> 00:42:00.900
das ist auch ganz schön optimiert schon.

00:42:02.080 --> 00:42:03.040
Ähm, ja,

00:42:03.920 --> 00:42:04.440
äh,

00:42:06.780 --> 00:42:07.760
Jetzt haben wir eine schnelle

00:42:07.760 --> 00:42:09.580
Suchanfrage schon, aber ich hab immer noch

00:42:09.580 --> 00:42:10.920
nicht genau verstanden, warum,

00:42:11.700 --> 00:42:13.580
ähm, die Ergebnisse

00:42:13.580 --> 00:42:15.720
jetzt besonders toll sein sollen. Es gibt bestimmt noch ganz viele andere.

00:42:15.860 --> 00:42:17.300
Genau, TFR, die FS, so der Standard,

00:42:17.680 --> 00:42:19.720
äh, das hat man ganz lange gemacht, jetzt, äh,

00:42:19.760 --> 00:42:21.600
heutzutage auch nicht mehr, sondern

00:42:21.600 --> 00:42:23.500
heutzutage nimmt man eher sowas wie,

00:42:23.740 --> 00:42:24.860
äh, also es gibt halt zum Beispiel

00:42:24.860 --> 00:42:27.060
Track-Konferenzen, äh,

00:42:27.900 --> 00:42:29.440
Track, das hört sich nach, äh,

00:42:29.580 --> 00:42:31.200
einer Raumschiff-Serie an.

00:42:31.460 --> 00:42:33.520
Ja, äh, wird eher mit C

00:42:33.520 --> 00:42:35.460
geschrieben und nicht mit K, aber, äh,

00:42:35.600 --> 00:42:37.440
äh, da haben sich Leute halt Gedanken

00:42:37.440 --> 00:42:39.440
darüber gemacht, wie evaluiert man eigentlich

00:42:39.440 --> 00:42:41.720
Suchergebnis, äh,

00:42:41.800 --> 00:42:43.460
äh, äh, Performance von, von,

00:42:43.580 --> 00:42:45.360
von Suchmaschinen, da gibt's dann diverse Standard,

00:42:45.540 --> 00:42:47.360
äh, Corpora

00:42:47.360 --> 00:42:49.420
mit Dokumenten drin, wo man dann halt auch

00:42:49.420 --> 00:42:51.500
Standard-Querys halt immer drauf abfeuert und dann guckt

00:42:51.500 --> 00:42:52.800
halt, wie sind die Ergebnisse und so,

00:42:53.520 --> 00:42:55.620
und, ähm, da hat sich irgendwann,

00:42:55.940 --> 00:42:57.520
ich weiß gar nicht, wann das, äh,

00:42:57.680 --> 00:42:59.200
also, so TF-IDF

00:42:59.200 --> 00:43:01.480
hat man lange benutzt, aber dann

00:43:01.480 --> 00:43:03.200
hat man festgestellt, so kleine

00:43:03.200 --> 00:43:05.320
Multiplikationen, also die Formeln, es sieht immer

00:43:05.320 --> 00:43:07.220
so ein bisschen ähnlich aus, aber man,

00:43:07.300 --> 00:43:09.460
manchmal passt man die so ein bisschen an, manchmal kommen so konstante

00:43:09.460 --> 00:43:11.420
Faktoren dazu oder so, die man irgendwo reinbaut,

00:43:11.920 --> 00:43:13.400
und dann wird das, werden die Ergebnisse

00:43:13.580 --> 00:43:15.100
ein bisschen besser, und das, was momentan,

00:43:15.480 --> 00:43:17.260
also, das, man hat ganz viele unterschiedliche

00:43:17.260 --> 00:43:19.400
gegeneinander getestet, das, was in den

00:43:19.400 --> 00:43:21.240
meisten Fällen gut funktioniert, und das, was

00:43:21.240 --> 00:43:22.840
jetzt auch alle so als Standard, glaube ich,

00:43:22.920 --> 00:43:24.940
verwenden, äh, nennt sich

00:43:24.940 --> 00:43:27.540
BM25. BM25?

00:43:27.780 --> 00:43:28.840
Ja, oder OKAPI,

00:43:29.180 --> 00:43:31.040
äh, BM steht für

00:43:31.040 --> 00:43:32.620
Best Match. Ja.

00:43:33.040 --> 00:43:35.020
Ähm, und, äh, OKAPI.

00:43:35.280 --> 00:43:37.280
Ja. Ja. Das ist,

00:43:37.520 --> 00:43:38.640
das ist, glaube ich, ein Spektier.

00:43:39.380 --> 00:43:40.940
Ja, ja, genau, genau, daher kommt das auch.

00:43:41.300 --> 00:43:41.700
Oh, äh,

00:43:41.700 --> 00:43:41.800
äh,

00:43:43.580 --> 00:43:44.100
Entschuldigung.

00:43:44.780 --> 00:43:47.560
Mhm, und, äh,

00:43:47.920 --> 00:43:48.900
das ist, ist

00:43:48.900 --> 00:43:51.140
nicht großartig anders, äh, als

00:43:51.140 --> 00:43:53.360
TF-IDF sozusagen standardmäßig, so ein paar

00:43:53.360 --> 00:43:55.060
Dinge sind halt noch dran, das war,

00:43:55.640 --> 00:43:57.020
eigentlich sind da nur so ein paar magische

00:43:57.020 --> 00:43:58.660
Konstanten und Faktoren drin,

00:43:59.440 --> 00:44:00.640
äh, und, äh,

00:44:01.180 --> 00:44:02.200
ja, das ist halt so ein bisschen

00:44:02.200 --> 00:44:05.200
Fummelei, und, äh,

00:44:05.240 --> 00:44:07.300
ist auch nicht offensichtlich, warum das jetzt genau dieser Art

00:44:07.300 --> 00:44:09.140
besser funktioniert als die anderen, deswegen heißt es,

00:44:09.500 --> 00:44:11.480
und genau deswegen ist es auch BM25,

00:44:11.480 --> 00:44:13.480
ja, also man hat halt ganz viele Dinge ausprobiert,

00:44:13.580 --> 00:44:15.220
und das, was dann halt über ganz viele

00:44:15.220 --> 00:44:17.460
Data, äh, Datasets hinweg

00:44:17.460 --> 00:44:19.180
und Queriesets gut, am besten funktioniert hat,

00:44:19.280 --> 00:44:20.840
ist halt dieses Ding, nämlich nicht

00:44:20.840 --> 00:44:23.480
BestMatch13 oder 47,

00:44:23.660 --> 00:44:25.420
sondern BestMatch25 hat sich

00:44:25.420 --> 00:44:27.280
herausgestellt, also das funktioniert in den meisten Fällen

00:44:27.280 --> 00:44:29.480
irgendwie. Das ist doch eine tolle Zahl, übrigens, ja.

00:44:29.580 --> 00:44:31.420
Ja. Äh, also man konnte

00:44:31.420 --> 00:44:33.380
das vorher gar nicht sagen, was das jetzt, welches

00:44:33.380 --> 00:44:35.180
von denen dann wirklich gut funktionieren würde, und

00:44:35.180 --> 00:44:37.240
dieses Ding ist halt das. Und seitdem das

00:44:37.240 --> 00:44:39.360
in den, in diesen, ähm, auf dieser Konferenz

00:44:39.360 --> 00:44:41.220
halt dann, ja, das Ergebnis

00:44:41.220 --> 00:44:42.580
rausgefallen ist. Guckst du eigentlich Pika?

00:44:42.580 --> 00:44:42.700
Ja.

00:44:43.580 --> 00:44:44.500
Äh, die, die Serie?

00:44:44.700 --> 00:44:46.300
Ja, ist das eine neue Star Trek-Serie? Ja,

00:44:46.640 --> 00:44:48.620
tatsächlich hab ich jetzt auch mit angefangen, weil

00:44:48.620 --> 00:44:50.580
ich dachte, so gut. Ich hab auch schon zwei Folgen geschafft.

00:44:51.520 --> 00:44:52.560
Ja, es gibt jetzt fünf,

00:44:52.660 --> 00:44:54.860
glaub ich, ne? Kann sein, ich hab keine Ahnung.

00:44:55.620 --> 00:44:56.640
Ja, jetzt war jetzt ein

00:44:56.640 --> 00:44:58.240
verregneter Sonntag, äh,

00:44:58.860 --> 00:45:00.700
dieses, äh, da haben wir,

00:45:00.820 --> 00:45:02.280
glaub ich, tatsächlich alle geschafft.

00:45:02.620 --> 00:45:04.260
Cool. Ja, läuft grad auf Prime, sehr schön.

00:45:04.500 --> 00:45:06.480
Ja, Entschuldigung, ich wollte dich nicht von der Track-Konferenz

00:45:06.480 --> 00:45:08.900
abhalten. Ja, ja, also ansonsten

00:45:08.900 --> 00:45:10.800
bin ich ehrlich gesagt gar nicht so ein Star Trek-Fan.

00:45:11.300 --> 00:45:12.160
Aber, ja,

00:45:12.160 --> 00:45:14.260
da hat der Track-Faktor doch irgendwie

00:45:14.260 --> 00:45:15.620
mit, äh, mitgezogen.

00:45:16.960 --> 00:45:18.340
Der Flog in Flossbach, ne?

00:45:19.440 --> 00:45:19.800
Ja.

00:45:20.360 --> 00:45:22.160
Äh, jedenfalls, ähm,

00:45:23.340 --> 00:45:24.080
äh, genau, genau.

00:45:24.240 --> 00:45:26.280
Also das ist halt dabei rausgefallen, deswegen implementieren das alle.

00:45:27.080 --> 00:45:28.220
Äh, das ist auch

00:45:28.220 --> 00:45:30.180
immer irgendwie, das ist auch schon über zehn Jahre her

00:45:30.180 --> 00:45:32.200
oder so, da dachte ich dann so, ah, da hab ich davon gelesen,

00:45:32.540 --> 00:45:34.400
Best Met 25, voll gut, äh,

00:45:34.600 --> 00:45:36.040
bringt auf jeden Fall noch ein bisschen was gegenüber

00:45:36.040 --> 00:45:37.940
TFWF und so. Dazu kann man das nicht in

00:45:37.940 --> 00:45:40.120
Hüsine einbauen, ha. Und dann hab ich

00:45:40.120 --> 00:45:41.660
da so ein bisschen reingeguckt und dachte mir so, oh nein.

00:45:42.160 --> 00:45:44.060
Hahaha, das geht nicht.

00:45:44.200 --> 00:45:46.280
Ich muss so viele Klassen anfassen, das kann man

00:45:46.280 --> 00:45:47.260
einfach völlig vergessen.

00:45:48.200 --> 00:45:50.300
Und, ähm, war relativ

00:45:50.300 --> 00:45:51.940
enttäuscht und hab mir damals schon gedacht,

00:45:52.040 --> 00:45:53.780
Lysin! Dreck!

00:45:54.500 --> 00:45:56.300
So ein Unsinn. Aber, äh,

00:45:56.300 --> 00:45:58.440
mittlerweile haben das andere Leute dieses, äh,

00:45:58.520 --> 00:45:59.320
haben das implementiert.

00:45:59.980 --> 00:46:01.300
Die hatten mehr Lust da drauf, ja.

00:46:01.840 --> 00:46:04.340
Mehr Ausdauer und jetzt ist es halt drin und es funktioniert

00:46:04.340 --> 00:46:06.120
und, ähm, das ist auch das, was man, glaube ich,

00:46:06.120 --> 00:46:07.600
automatisch irgendwie kriegt als Default.

00:46:07.600 --> 00:46:09.280
Äh, ja.

00:46:10.940 --> 00:46:11.760
Was war denn damals

00:46:11.760 --> 00:46:13.480
bei den ersten Suchmaschinen? Also, äh, Alter Vista

00:46:13.480 --> 00:46:15.100
zum Beispiel war ja so mit,

00:46:15.200 --> 00:46:15.980
TFWF.

00:46:16.900 --> 00:46:19.680
Ja, oder leichte Abwandlung davon, aber wesentlich anders.

00:46:20.440 --> 00:46:21.920
Äh, das ist auch das, was, äh,

00:46:21.980 --> 00:46:23.700
irgendwie so ein bisschen diese ersten

00:46:23.700 --> 00:46:26.320
SEO-Geschichten, äh,

00:46:26.440 --> 00:46:27.080
getrieben hat.

00:46:28.440 --> 00:46:29.760
Also, wo Leute dann, also,

00:46:29.880 --> 00:46:31.720
angefangen haben, alle möglichen Worte mit in

00:46:31.720 --> 00:46:33.720
ihre, äh, Seiten zu packen.

00:46:34.140 --> 00:46:35.520
Ja, für die sie gefunden werden wollen.

00:46:35.520 --> 00:46:37.600
Ja. Weil das zielt natürlich

00:46:37.600 --> 00:46:39.460
genau darauf ab, halt irgendwie den

00:46:39.460 --> 00:46:41.620
TFWF, den TFWF-Wert,

00:46:41.620 --> 00:46:43.360
hoch zu, und das funktioniert ja auch.

00:46:43.440 --> 00:46:45.480
Also, wenn du es ganz naiv machst, kannst du damit

00:46:45.480 --> 00:46:47.640
tatsächlich, äh, irgendwie dann für alles Mögliche

00:46:47.640 --> 00:46:48.240
gut ranken.

00:46:49.340 --> 00:46:51.440
Ja, es lässt sich halt sehr leicht gamen. Aber,

00:46:51.700 --> 00:46:52.740
äh, ja,

00:46:53.900 --> 00:46:55.620
ähm, funktioniert heute natürlich

00:46:55.620 --> 00:46:57.060
alles nicht mehr so richtig toll und dann...

00:46:57.060 --> 00:46:59.480
Wird du gestraft. Hö. Ja, ja, ja.

00:47:00.580 --> 00:47:00.980
Ähm,

00:47:01.920 --> 00:47:03.260
ja, das ist auch noch so ein Thema, SEO, ne?

00:47:03.440 --> 00:47:04.560
Äh, aber,

00:47:05.560 --> 00:47:07.520
äh, genau, also, diese,

00:47:07.800 --> 00:47:09.520
aber daran sieht man schon, dass das mit der Relevanz

00:47:09.520 --> 00:47:11.340
irgendwie nicht so einfach ist, dass die ganzen,

00:47:11.340 --> 00:47:13.300
ähm, Suchmaschinen haben das auch nicht so richtig,

00:47:13.460 --> 00:47:15.360
äh, hingekriegt. Und die

00:47:15.360 --> 00:47:17.340
erste, die das halt so ein bisschen, die was fundamental

00:47:17.340 --> 00:47:19.340
Besseres gemacht hat an der Stelle, die hat halt

00:47:19.340 --> 00:47:21.600
alle anderen dann, äh,

00:47:21.800 --> 00:47:23.320
äh, wie, wie sagt man das, aus dem Wasser

00:47:23.320 --> 00:47:23.800
geblasen.

00:47:25.320 --> 00:47:27.280
Äh, ja, hinter

00:47:27.280 --> 00:47:28.980
sich gelassen und ist jetzt halt irgendwie

00:47:28.980 --> 00:47:31.260
die Größte. Ich muss mir gerade

00:47:31.260 --> 00:47:33.340
ein großes Niefährt vorstellen, das einmal in die Badewanne

00:47:33.340 --> 00:47:34.260
hüpft. Ja, genau.

00:47:35.680 --> 00:47:36.120
Ähm,

00:47:37.020 --> 00:47:39.100
ja, weil eben

00:47:39.100 --> 00:47:40.480
so ein einzelner Wert,

00:47:41.340 --> 00:47:42.980
ist halt so, ist halt problematisch, ne?

00:47:43.040 --> 00:47:45.280
Leute fangen an, dann drauf zu optimieren und dann ist

00:47:45.280 --> 00:47:47.320
auch das die Frage, was für

00:47:47.320 --> 00:47:49.320
Leute oder was, was für Fragen stellen

00:47:49.320 --> 00:47:51.280
die Leute eigentlich und kann man das eigentlich

00:47:51.280 --> 00:47:52.740
damit abbilden? Ist das, ist der Wert,

00:47:53.020 --> 00:47:55.040
so ein TFEDF, so ein Kursinus Distanzwert,

00:47:55.440 --> 00:47:57.220
ist der für alle Arten von Suchanfragen und

00:47:57.220 --> 00:47:59.160
Dokumenten immer das Richtige? Und da ist auch die

00:47:59.160 --> 00:48:01.320
Antwort relativ klar, nein, ist nicht so.

00:48:01.860 --> 00:48:03.420
Also, und das ist halt etwas,

00:48:03.500 --> 00:48:05.380
was Leute, glaube ich, oft nicht

00:48:05.380 --> 00:48:07.140
so wirklich auf dem Schirm haben,

00:48:07.280 --> 00:48:09.060
dass, äh,

00:48:09.380 --> 00:48:11.320
dass ihr Problem oft nicht ist,

00:48:11.340 --> 00:48:13.060
dass irgendwie, äh, ja,

00:48:13.300 --> 00:48:15.380
äh, eine etwas bessere TFEDF-Formel

00:48:15.380 --> 00:48:17.560
zu finden oder, äh,

00:48:17.700 --> 00:48:19.400
irgendwie was Magisches, was irgendwie

00:48:19.400 --> 00:48:21.340
anders die Relevanz gut macht, dann plötzlich

00:48:21.340 --> 00:48:23.340
magisch, sondern dass, äh, eigentlich

00:48:23.340 --> 00:48:25.300
die Zeit besser investiert wäre, sich

00:48:25.300 --> 00:48:27.440
zu überlegen, okay, was habe ich eigentlich für Dokumente,

00:48:27.520 --> 00:48:28.960
was habe ich eigentlich für Suchanfragen da drauf

00:48:28.960 --> 00:48:31.380
und was kann ich tun, um das irgendwie

00:48:31.380 --> 00:48:33.320
zu verbessern? Und da gibt es auch viele

00:48:33.320 --> 00:48:35.260
Dinge, die man machen kann, aber das sind halt, je nachdem, was

00:48:35.260 --> 00:48:36.760
man für ein Problem hat, sehr unterschiedliche Sachen.

00:48:37.540 --> 00:48:39.060
Äh, zum Beispiel, aber ich meine,

00:48:39.060 --> 00:48:41.180
es ist eigentlich, äh, ich, vielleicht kann ich einfach ein paar,

00:48:41.340 --> 00:48:42.960
äh, Beispiele dafür nennen, warum das halt, äh,

00:48:44.200 --> 00:48:45.560
äh, also TFEDF,

00:48:45.920 --> 00:48:47.220
wenn ich jetzt, äh,

00:48:47.320 --> 00:48:49.300
zum Beispiel Location-Informationen dabei habe, hilft mir halt

00:48:49.300 --> 00:48:51.380
nicht so richtig viel. Also ich suche nach einem Restaurant-Namen

00:48:51.380 --> 00:48:52.520
irgendwie, äh,

00:48:53.440 --> 00:48:54.940
auf, auf, bei Google Maps oder so.

00:48:55.360 --> 00:48:57.220
Dann hilft es mir nichts, wenn ich

00:48:57.220 --> 00:48:59.060
jetzt TFEDF die nächsten

00:48:59.060 --> 00:49:01.060
Namen irgendwie

00:49:01.060 --> 00:49:03.060
kriege von allen Restaurants in Deutschland

00:49:03.060 --> 00:49:05.020
oder weltweit, äh, sortiert.

00:49:05.160 --> 00:49:07.180
Dann wird wahrscheinlich irgendwo ein Restaurant

00:49:07.180 --> 00:49:09.180
in Kuala Lumpur vielleicht irgendwie am ähnlichsten

00:49:09.180 --> 00:49:11.040
sein oder den besten Score haben, aber

00:49:11.340 --> 00:49:13.020
hilft mir ja nichts, weil ich komme da ja gar nicht hin.

00:49:13.780 --> 00:49:15.120
Das heißt, da muss irgendwie die Information,

00:49:15.380 --> 00:49:16.740
wo ich bin und, äh,

00:49:17.260 --> 00:49:19.380
wie nah das an mir dran ist, ja auch irgendwie mit

00:49:19.380 --> 00:49:21.320
rein. Sonst, äh,

00:49:21.460 --> 00:49:22.660
geht das bestimmt nicht so toll.

00:49:23.440 --> 00:49:25.220
Ähm, oder halt,

00:49:25.340 --> 00:49:28.020
wenn ich jetzt, äh,

00:49:28.120 --> 00:49:28.980
ja, nehmen wir eben

00:49:28.980 --> 00:49:31.120
eine E-Commerce-Seite habe,

00:49:31.340 --> 00:49:33.300
äh, oder eine Hotelbuchungsgeschichte oder was auch immer,

00:49:33.360 --> 00:49:34.900
etwas, wo halt hinterher Leute dann

00:49:34.900 --> 00:49:37.260
was kaufen oder was buchen oder so,

00:49:38.360 --> 00:49:39.820
dann kriege ich ja eine ganze Menge

00:49:39.820 --> 00:49:41.240
implizite Informationen darüber,

00:49:14.200 --> 00:49:14.200


00:49:14.200 --> 00:49:41.320
äh,

00:49:41.340 --> 00:49:43.080
was die Leute relevant gefunden haben

00:49:43.080 --> 00:49:44.900
zu einer Query. Also wenn jetzt eben man nach irgendwie,

00:49:45.000 --> 00:49:46.880
keine Ahnung, äh,

00:49:47.000 --> 00:49:49.100
ähm, samtbezogene Sessel

00:49:49.100 --> 00:49:51.280
Amsterdam gesucht hat oder sowas

00:49:51.280 --> 00:49:53.200
und dann hinterher irgendein Hotelversuch hat,

00:49:53.720 --> 00:49:55.420
dann weiß ich, dann weiß ich

00:49:55.420 --> 00:49:57.340
halt, das ist wahrscheinlich relevant gewesen

00:49:57.340 --> 00:49:59.100
für diese Suchanfrage und diese

00:49:59.100 --> 00:50:01.220
Information kann ich natürlich auch wieder irgendwie,

00:50:01.320 --> 00:50:03.640
äh, mitverwenden, um das, äh,

00:50:03.740 --> 00:50:05.160
beim nächsten Mal, wenn jemand anders so eine

00:50:05.160 --> 00:50:06.940
Anfrage stellt, äh, das zu verbessern.

00:50:07.360 --> 00:50:09.220
Aber auch da hilft mir halt TF-IDF gar nicht.

00:50:09.800 --> 00:50:10.200
Also, ähm,

00:50:10.200 --> 00:50:10.200


00:50:10.200 --> 00:50:10.300
ähm,

00:50:10.300 --> 00:50:10.300


00:50:10.300 --> 00:50:10.400
ähm,

00:50:10.400 --> 00:50:10.440
ähm,

00:50:10.440 --> 00:50:10.700
ähm,

00:50:10.700 --> 00:50:10.700


00:50:10.700 --> 00:50:10.720
ähm,

00:50:10.720 --> 00:50:10.740
ähm,

00:50:10.740 --> 00:50:10.760
ähm,

00:50:10.760 --> 00:50:10.780
ähm,

00:50:11.340 --> 00:50:11.900
ähm,

00:50:11.900 --> 00:50:11.900


00:50:11.900 --> 00:50:11.900


00:50:11.900 --> 00:50:11.900


00:50:11.900 --> 00:50:11.900


00:50:11.900 --> 00:50:11.900


00:50:11.900 --> 00:50:11.900


00:50:11.900 --> 00:50:11.900


00:50:11.900 --> 00:50:11.900


00:50:11.900 --> 00:50:11.900


00:50:11.900 --> 00:50:11.900


00:50:11.900 --> 00:50:11.900


00:50:11.900 --> 00:50:11.900


00:50:11.900 --> 00:50:11.900


00:50:11.900 --> 00:50:11.900


00:50:11.900 --> 00:50:11.900


00:50:11.900 --> 00:50:11.900


00:50:11.900 --> 00:50:11.900


00:50:11.900 --> 00:50:12.980
ähm,

00:50:12.980 --> 00:50:13.140
ähm,

00:50:13.140 --> 00:50:13.280
ähm,

00:50:13.280 --> 00:50:13.620
ähm,

00:50:13.620 --> 00:50:13.620


00:50:13.620 --> 00:50:13.620


00:50:13.620 --> 00:50:13.620


00:50:13.620 --> 00:50:13.620


00:50:13.620 --> 00:50:13.620


00:50:13.620 --> 00:50:13.620


00:50:13.620 --> 00:50:13.620


00:50:13.620 --> 00:50:13.620


00:50:13.620 --> 00:50:13.620


00:50:13.620 --> 00:50:13.620


00:50:13.620 --> 00:50:13.620


00:50:13.620 --> 00:50:13.620


00:50:13.620 --> 00:50:13.620


00:50:13.620 --> 00:50:13.620


00:50:13.620 --> 00:50:13.620


00:50:13.620 --> 00:50:13.620


00:50:13.620 --> 00:50:13.620


00:50:13.620 --> 00:50:13.620


00:50:13.620 --> 00:50:13.620


00:50:13.620 --> 00:50:13.620


00:50:13.620 --> 00:50:13.620


00:50:13.620 --> 00:50:17.960
ähm,

00:50:17.960 --> 00:50:22.740
Geht es tatsächlich darum, dass die Informationen über diesen einen Menschen für alle anderen Menschen zu manipulieren?

00:50:22.740 --> 00:50:33.820
Ja, also genau, es geht nicht um die einzelne Geschichte, aber ich erfahre sozusagen über das Verhalten von Leuten etwas darüber,

00:50:34.020 --> 00:50:40.680
welche Sachen für welche Dokumente, also welches Hotelzimmer, wenn ich jetzt so eine Hotelbuchungsengine habe

00:50:40.680 --> 00:50:45.740
oder welches Produkt irgendwie, wenn ich eine E-Commerce-Seite habe, relevant war für eine bestimmte Suchanfrage.

00:50:45.740 --> 00:50:48.760
Weil wenn jemand das sucht und dann kauft, dann war es wahrscheinlich relevant.

00:50:49.660 --> 00:50:58.520
Es gibt natürlich auch Ausnahmen, es kann auch sein, dass ich, keine Ahnung, ich nach, weiß ich nicht, Dörrautomaten suche

00:50:58.520 --> 00:51:08.620
und dann aber so geflasht bin von dem, was hast du hier, einem Luftbefeuchter, den ich irgendwie sehe im Ergebnis,

00:51:08.820 --> 00:51:11.520
obwohl er völlig irrelevant ist und dann darauf klicke und ihn sofort kaufe.

00:51:11.560 --> 00:51:14.060
Direkt neben dem goldenen Schieberrad, vielleicht waren die auch zusammen in einem.

00:51:14.760 --> 00:51:15.520
Aber so.

00:51:15.740 --> 00:51:20.320
Also im Durchschnitt ist es wahrscheinlich so, wenn Leute was suchen und dann auf irgendwas aufklicken, das kaufen,

00:51:20.520 --> 00:51:22.020
dann war das wahrscheinlich relevant.

00:51:23.040 --> 00:51:30.560
Und die Informationen sozusagen, wie viele der Leute, oder wenn ich jetzt eine neue Suche,

00:51:30.680 --> 00:51:35.940
jetzt stellt jemand nochmal die gleiche Query und jetzt kann ich ja an das Suchergebnis mit ranpappen,

00:51:36.600 --> 00:51:42.300
okay, Leute, die diese Suchanfrage auch gestellt haben oder so und so viele haben das gekauft, so und so viele haben draufgeklickt.

00:51:42.780 --> 00:51:44.320
Leute, die das gekauft haben, kauften auch.

00:51:44.320 --> 00:51:44.740
Ja.

00:51:45.740 --> 00:51:49.920
Ja, ist nicht so ganz das Gleiche, aber das kann ich auch zum Ranken benutzen.

00:51:50.180 --> 00:51:50.780
Muss ich ja nicht.

00:51:51.560 --> 00:51:52.100
Kann ich auch.

00:51:52.360 --> 00:51:54.080
Nur mit TF-IDF hat das nichts zu tun.

00:51:55.080 --> 00:51:59.200
Ich muss mir halt überlegen, wie ich das so kombiniert kriege, dass es da halt irgendwie auch zum Ranken mitverwendet wird.

00:51:59.280 --> 00:52:09.660
Und tatsächlich ist es halt meistens so, dass man irgendwie andere Dinge, eben Location, irgendwie kaufen Leute das überhaupt.

00:52:11.660 --> 00:52:12.940
Ist das irgendwie interessant?

00:52:15.020 --> 00:52:15.380
Ja.

00:52:15.380 --> 00:52:15.580
Ja.

00:52:15.580 --> 00:52:15.600
Ja.

00:52:15.600 --> 00:52:21.620
Gehört das irgendwie zu den Dingen, die momentan irgendwie auf meiner Seite sowieso angefragt werden?

00:52:21.760 --> 00:52:23.340
Oder ist das halt irgendwas uraltes oder so?

00:52:25.000 --> 00:52:29.180
Diese ganze Information muss ich irgendwie zusammenpacken und das muss irgendwie in die Relevanz mit reinfließen.

00:52:30.540 --> 00:52:34.780
Und ja, das macht das Ganze natürlich so ein bisschen komplizierter.

00:52:34.860 --> 00:52:38.720
Aber wenn man das macht, dann kann man halt auch durchaus deutlich bessere Ergebnisse erzielen.

00:52:38.820 --> 00:52:40.780
Vor allen Dingen auch zum Beispiel gegenüber Google oder so.

00:52:40.780 --> 00:52:45.580
Weil Google kann halt all das im Grunde nicht machen, weil die wissen halt nicht genau, was die Leute da eigentlich suchen.

00:52:45.600 --> 00:52:49.200
Es ist halt ein viel breiteres Ding.

00:52:49.780 --> 00:52:52.560
Im gesamten Web kann ich irgendwas finden.

00:52:52.960 --> 00:52:55.340
Also Google macht ein viel schwereres Problem.

00:52:56.060 --> 00:53:03.360
Das heißt, ich kann, wenn ich das richtig mache, in einem engeren Rahmen halt viel bessere Ergebnisse unter Umständen erzielen, als jetzt Google das jemals könnte.

00:53:04.380 --> 00:53:06.340
Und das kann natürlich sehr interessant sein unter Umständen.

00:53:07.840 --> 00:53:11.080
Aber ich muss dann halt solche Sachen mir schon angucken.

00:53:11.080 --> 00:53:15.540
Es reicht nicht, wenn ich da irgendeine Elasticsearch nehme, das in der Default-Konfiguration laufen lasse.

00:53:15.600 --> 00:53:16.980
Und dann hoffe ich, dass das irgendwie gut wird.

00:53:17.700 --> 00:53:18.840
So einfach ist es leider nicht.

00:53:20.120 --> 00:53:24.840
Oder was auch total interessant ist, was Leute oft nicht machen, aber was halt so eine total einfache Geschichte ist,

00:53:24.960 --> 00:53:31.360
sich anzugucken, was für Queries geben die Leute eigentlich ein?

00:53:31.480 --> 00:53:34.220
Und was sind denn die Queries, wo kein Ergebnis kommt?

00:53:35.620 --> 00:53:39.600
Ich finde das ja sowieso immer total unverständlich, wenn ich jetzt irgendwie auf...

00:53:40.780 --> 00:53:43.600
Oft habe ich den Fall tatsächlich, ich suche...

00:53:45.600 --> 00:53:47.140
Keine Zeit zu kochen, keine Lust oder so.

00:53:47.480 --> 00:53:52.300
Okay, dann lass doch mal irgendwo was zu essen bestellen und abholen oder so.

00:53:52.800 --> 00:53:53.880
Okay, das war ganz gut.

00:53:54.580 --> 00:53:57.600
Geh mal auf die Webseite, um zu gucken, hat der Laden denn jetzt auf oder nicht?

00:53:58.120 --> 00:53:58.760
Immer wieder.

00:53:59.340 --> 00:54:02.960
Ganz viele Läden kriegen das irgendwie nicht hin, die Öffnungszeiten drauf zu schreiben.

00:54:04.100 --> 00:54:05.520
Und haben aber vielleicht ein Suchfeld.

00:54:05.620 --> 00:54:08.260
Und wenn die Leute da immer Öffnungszeiten reinschreiben und die nicht finden...

00:54:08.260 --> 00:54:11.160
Oder die Öffnungszeiten sind irgendwo versteckt, irgendwo in tiefer Struktur.

00:54:11.160 --> 00:54:12.540
Und dann kommt man ja auf die Idee, man sucht danach.

00:54:13.280 --> 00:54:15.580
Und wenn ich jetzt so eine Seite habe und die Leute immer Öffnungszeiten reinschreiben,

00:54:15.600 --> 00:54:20.000
und nie irgendwas finden, dann weiß ich, okay, hier kann ich vielleicht was verbessern.

00:54:20.800 --> 00:54:30.380
Und das ist etwas, womit relativ leicht man wahrscheinlich viele Benutzer besser zufriedenstellen kann.

00:54:30.820 --> 00:54:33.780
Und das wird irgendwie überraschend selten, wenn solche Sachen gemacht werden.

00:54:33.880 --> 00:54:35.700
Und man kann natürlich auch noch dann schummeln.

00:54:36.080 --> 00:54:37.300
Und dann sagen, okay, wenn...

00:54:37.300 --> 00:54:41.000
Wenn Öffnungszeiten eingegeben wird, zeigt immer als erstes die Öffnungszeiten an und nicht die Ergebnisse, die Suche zurückkommt.

00:54:41.440 --> 00:54:41.840
Genau.

00:54:43.040 --> 00:54:45.040
Also das ist halt so ein bisschen wie...

00:54:45.040 --> 00:54:48.160
Wenn man sich vorstellt, man hat eine Firma und die hat irgendwie so eine Support...

00:54:49.120 --> 00:54:51.640
Oder ein Helpdesk oder irgendwie eine Support-Hotline oder so.

00:54:52.380 --> 00:54:56.160
Dann hat man ja bestimmt auch irgendwie, keine Ahnung, wenn man einen neuen Mitarbeiter da einarbeitet,

00:54:56.160 --> 00:55:01.160
dann setzt man den da hin und sagt dem hier so, hier ist eine Liste mit den 50 häufigsten Fragen oder Problemen,

00:55:01.880 --> 00:55:03.060
mit denen die Leute zu dir kommen werden.

00:55:03.340 --> 00:55:04.620
Und da sind die Antworten da drauf.

00:55:05.580 --> 00:55:07.000
Das kann man ja einfach verwenden sozusagen.

00:55:07.100 --> 00:55:10.160
Man wird ja nie auf die Idee kommen, ja, die Leute rufen jetzt an und dann...

00:55:10.720 --> 00:55:12.100
Sieh halt mal zu, irgendwie.

00:55:12.760 --> 00:55:13.160
Dann nimmst du TF-IDF oder dann gehst du an den Akten...

00:55:13.160 --> 00:55:15.020
Dann nimmst du TF-IDF oder dann gehst du an den Akten...

00:55:15.040 --> 00:55:16.700
Dann schrankt hinter dir und guckst, was dabei rauskommt.

00:55:16.800 --> 00:55:17.840
Das wird halt nicht gut funktionieren.

00:55:19.420 --> 00:55:20.180
Insofern, also die...

00:55:20.740 --> 00:55:21.440
Oft ist es...

00:55:21.440 --> 00:55:22.920
Man hat so immer so Power-Law-Verteilungen.

00:55:23.340 --> 00:55:24.660
Eine Power-Law?

00:55:24.860 --> 00:55:25.900
Ja, Power-Law.

00:55:26.100 --> 00:55:28.500
Also Potenzmengen-Verteilungen.

00:55:28.620 --> 00:55:30.340
Ich weiß gar nicht, wie das deutsche Wort dafür ist.

00:55:31.540 --> 00:55:32.620
Dass du...

00:55:32.620 --> 00:55:33.680
Das hat man bei ganz vielen Sachen.

00:55:34.160 --> 00:55:35.660
Dass halt 20% der...

00:55:38.200 --> 00:55:41.800
Sozusagen Such...

00:55:41.800 --> 00:55:43.260
Also 20% der...

00:55:43.260 --> 00:55:44.920
Also bei Suchmaschinen wäre das wahrscheinlich.

00:55:45.040 --> 00:55:48.800
Ich hoffe mal, ich sehe keinen allzu offensichtlichen Unsinn.

00:55:49.380 --> 00:55:53.440
Aber das heißt, 20% der Queries machen halt 80% der Suchanfragen aus oder sowas.

00:55:55.160 --> 00:55:56.180
Kommt natürlich auch drauf an.

00:55:56.240 --> 00:55:59.820
Es gibt wahrscheinlich auch Suchmaschinen, die sehen ganz viele Queries nur einmal und dann nie wieder.

00:56:00.200 --> 00:56:00.960
Und da sind...

00:56:00.960 --> 00:56:05.440
Manchmal ist der Tail halt länger und manchmal ist der Tail auch dicker.

00:56:07.480 --> 00:56:14.020
Aber oft ist es so, dass eine kleine Anzahl von Queries macht halt schon einen großen Teil der Anfragen, die überhaupt gestellt werden, aus.

00:56:14.020 --> 00:56:14.880
Und wenn das...

00:56:14.880 --> 00:56:17.660
Wenn das halt 100 Stück sind, dann kann man die sich halt alle mal angucken und sich überlegen,

00:56:17.780 --> 00:56:22.900
okay, was könnte man den Usern, die dauernd diese Anfragen stellen, denn vielleicht mal zeigen, was sie interessieren könnte.

00:56:24.140 --> 00:56:26.020
Und das hat dann gar nichts mehr mit...

00:56:26.700 --> 00:56:28.040
Was ist dies...

00:56:28.040 --> 00:56:29.020
Was macht eigentlich die Volltext...

00:56:29.860 --> 00:56:31.240
Was macht eigentlich diese...

00:56:31.240 --> 00:56:31.680
Suchmaschine.

00:56:31.680 --> 00:56:36.200
Software, die Volltextsuche macht, sondern wie gehe ich mit diesen Problemen irgendwie um auf der Seite.

00:56:36.880 --> 00:56:39.020
Und natürlich muss ich dann halt irgendwie eine Art haben, wie ich...

00:56:40.520 --> 00:56:44.620
sicherstelle, dass wenn ich jetzt irgendwelche Änderungen mache, dass es nicht kaputt geht beim nächsten Release.

00:56:44.880 --> 00:56:46.200
Und ich muss es testen.

00:56:46.200 --> 00:56:54.980
Und all diese ätzenden Softwareentwicklungs-Past Practices und so, die man halt einhalten sollte, wenn man irgendwie Dinge programmiert.

00:56:55.780 --> 00:56:58.560
Aber wenn man das macht, kriegt man damit auch Ergebnisse, die ganz gut sind.

00:56:58.900 --> 00:57:01.440
Also du würdest dann vielleicht einen Junko bauen oder so und dann...

00:57:01.440 --> 00:57:01.920
Zum Beispiel, ja.

00:57:02.580 --> 00:57:05.220
Und dann einfach an die Suche dann bestimmte Dinge, Bedingungen knüpfen.

00:57:05.420 --> 00:57:09.800
Wenn das und das steht, dann machst du irgendeine Liste von Fragen, denen dann eine Antwort zugeordnet ist.

00:57:09.860 --> 00:57:13.640
Und wenn das kommt, dann wird die direkt ausgespuckt und ansonsten wird dann die Suchmaschine bedient oder sowas.

00:57:14.000 --> 00:57:14.360
Ja.

00:57:14.880 --> 00:57:16.880
Nur dann, wenn das nicht...

00:57:16.880 --> 00:57:22.940
Also und dann geht es halt sozusagen in eine Suchanfrage und dann wird halt gerankt nach all den anderen Dingen, die man halt auch so...

00:57:22.940 --> 00:57:25.040
Also vielleicht ist es sogar ein Modell, das irgendwas rankt.

00:57:25.160 --> 00:57:27.380
Aber gut, habe ich jetzt auch noch ein...

00:57:27.380 --> 00:57:34.300
Aber halt irgendwas, wo man sich relativ sicher sein kann, dass das sinnvoll ist.

00:57:34.580 --> 00:57:39.000
Und erst wenn das alles nicht klappt, dann fällt es zurück auf sowas wie TF-IDF.

00:57:40.320 --> 00:57:43.000
Aber mit TF-IDF anzufangen, das ist eigentlich ein...

00:57:44.880 --> 00:57:45.700
Ja.

00:57:46.580 --> 00:57:47.820
Ja, okay, keine gute Idee.

00:57:48.300 --> 00:57:53.380
Also du hast gesagt, okay, TF-IDF, das ist das Standard, was zum Beispiel ein Elasticsearch oder ein Zola als Standard machen.

00:57:53.600 --> 00:57:55.340
Weil das das Beziehen drunter ist, was das irgendwie auch kann.

00:57:55.380 --> 00:57:58.160
Obwohl das dieses BM25 macht.

00:57:58.160 --> 00:58:01.020
BM25 ist eigentlich sozusagen das, was dann wahrscheinlich verwendet wird meistens.

00:58:01.140 --> 00:58:02.900
Das ist dann schon besser, aber...

00:58:02.900 --> 00:58:04.100
Aber die Unterschiede sind nicht so groß.

00:58:04.200 --> 00:58:06.180
Also natürlich macht das in gewisser Weise einen großen Unterschied.

00:58:06.680 --> 00:58:13.240
Wenn man jetzt viele Suchanfragen hat und die Seite, wofür Umsatz ist und dann die Ergebnisse ein Prozent besser werden, dann ist das ja schon mal super.

00:58:13.760 --> 00:58:14.000
Ja.

00:58:14.000 --> 00:58:14.140
Ja.

00:58:14.140 --> 00:58:14.200
Ja.

00:58:14.200 --> 00:58:14.220
Ja.

00:58:14.220 --> 00:58:14.280
Ja.

00:58:14.280 --> 00:58:14.340
Ja.

00:58:14.340 --> 00:58:14.360
Ja.

00:58:14.360 --> 00:58:14.420
Ja.

00:58:14.420 --> 00:58:14.460
Ja.

00:58:14.460 --> 00:58:14.480
Ja.

00:58:14.880 --> 00:58:15.440
Ja.

00:58:15.440 --> 00:58:15.500
Ja.

00:58:15.500 --> 00:58:15.540
Ja.

00:58:15.540 --> 00:58:15.540


00:58:15.540 --> 00:58:15.600
Ja.

00:58:15.600 --> 00:58:15.660
Ja.

00:58:15.660 --> 00:58:15.860
Ja.

00:58:15.860 --> 00:58:15.900
Ja.

00:58:15.900 --> 00:58:15.980
Ja.

00:58:15.980 --> 00:58:16.520
Ja.

00:58:16.520 --> 00:58:17.160
Ja.

00:58:17.160 --> 00:58:17.160


00:58:17.160 --> 00:58:17.460
Ja.

00:58:17.460 --> 00:58:17.460


00:58:17.460 --> 00:58:17.600
Ja.

00:58:17.600 --> 00:58:17.620
Ja.

00:58:17.620 --> 00:58:17.680
Ja.

00:58:17.680 --> 00:58:17.700
Ja.

00:58:17.700 --> 00:58:17.900
Ja.

00:58:17.900 --> 00:58:20.340
Ohne Ohm schicting viel Geld, was dann zusätzlich reinkommt und so.

00:58:21.500 --> 00:58:22.880
Aber das sind halt so...

00:58:22.880 --> 00:58:26.280
Also die Änderungen an diesen Details, das bringt nicht so wahnsinnig viel.

00:58:26.380 --> 00:58:27.200
Ein bisschen was.

00:58:27.980 --> 00:58:29.260
Änderungen an...

00:58:29.260 --> 00:58:33.600
Man bezieht jetzt zum Beispiel implizites User-Feedback mit ein, wie zum Beispiel Klicks

00:58:33.600 --> 00:58:39.240
oder halt irgendwie welche Price-Range jemand angegeben hat oder solche Dinge, das bringt

00:58:39.240 --> 00:58:39.800
halt viel, viel mehr.

00:58:40.220 --> 00:58:40.440
Ja.

00:58:40.440 --> 00:58:40.640
Ohm schicting.

00:58:40.640 --> 00:58:40.640


00:58:40.640 --> 00:58:40.640


00:58:40.640 --> 00:58:43.500
Da kann man ganz, ganz viele tolle Informationen eigentlich sammeln und verwenden.

00:58:44.100 --> 00:58:45.320
Da kann man richtige Wissenschaft draus machen.

00:58:45.780 --> 00:58:48.480
Ich glaube, da sind auch ziemlich viele Marketeers, die sich mit sowas auseinandersetzen irgendwie.

00:58:49.000 --> 00:58:51.680
Die dann irgendwie Interesse daran haben, wie man das besser bastelt.

00:58:51.800 --> 00:58:52.320
Interessant, ja.

00:58:53.500 --> 00:58:53.880
Ja, ja.

00:58:54.020 --> 00:58:59.680
Das ist ja auch so ein Thema, wenn man jetzt selber sozusagen nicht in der Rolle von einer Suchmaschine ist,

00:58:59.680 --> 00:59:03.980
die Leuten irgendwie Sachen finden möchte,

00:59:04.140 --> 00:59:07.960
sondern umgekehrt der Rolle des Dokuments, das gefunden werden möchte, sozusagen.

00:59:07.960 --> 00:59:11.120
Also wenn man eine Webseite hat, die halt über Google zum Beispiel gefunden werden will oder so,

00:59:11.220 --> 00:59:12.260
dann hat man dieses SEO-Problem.

00:59:13.380 --> 00:59:17.960
Da gibt es ja auch ganz unterschiedliche Aspekte.

00:59:18.140 --> 00:59:26.260
Und auch da ist es halt so, dass üblicherweise wird dann halt zu sehr auf die technischen Aspekte fokussiert.

00:59:26.660 --> 00:59:30.920
Und dann wird halt irgendein Quatsch gemacht, weil der gerade halt irgendwie Mode ist oder hip.

00:59:31.140 --> 00:59:34.360
Oder wo das Gerücht geht, das kann man jetzt machen und das ist voll toll.

00:59:34.880 --> 00:59:37.040
Und dann wird man sofort bei Google super gerankt.

00:59:37.960 --> 00:59:40.240
Und das funktioniert zwei Monate, dann kommt der nächste Patch und dann ist man down.

00:59:40.580 --> 00:59:42.460
Dann werden alle gelöscht, alle Ergebnisse, die man vorher hatte.

00:59:43.120 --> 00:59:44.940
Also ich habe gehört, Content ist King.

00:59:45.120 --> 00:59:48.440
Ja, also Google versucht, also zumindest das Team versucht immer auf den besten Content zu optimieren.

00:59:48.520 --> 00:59:50.240
Die schmeißen alle Sachen drauf, die sich so Leute ausdenken.

00:59:50.660 --> 00:59:54.760
Das heißt, langfristige Strategie wäre tatsächlich, qualitativen Content aufzustellen,

00:59:54.760 --> 00:59:59.280
der dann auch gut suchbar ist, der mit solchen TF-IDF-Sachen vielleicht dann auch irgendwie klarkommt.

00:59:59.520 --> 01:00:03.100
Aber der dann durch die, also vielleicht haben die einen Qualitäts-Ranker,

01:00:03.160 --> 01:00:06.880
der sich irgendwie durch irgendwelche Daten ergibt und den sie dann damit bauen.

01:00:07.960 --> 01:00:09.760
Ja, was sie halt machen.

01:00:10.800 --> 01:00:13.400
Also Internetsuche ist ja sowieso nochmal was anderes als Volltextsuche,

01:00:13.960 --> 01:00:16.000
weil man ja da noch andere Dinge mit einbezieht.

01:00:16.180 --> 01:00:19.020
Also die Links-Struktur, wie was, also früher war es ja vielleicht immer so,

01:00:19.060 --> 01:00:22.060
dass dann man ganz viele Backlinks haben wollte oder sowas,

01:00:22.140 --> 01:00:24.260
dass man ganz viel gelenkt wurde, weil man auf irgendwelchen Seiten stand.

01:00:24.260 --> 01:00:27.200
Und wenn man dann irgendwie dieser zentralste Knoten in diesem Netz war,

01:00:27.260 --> 01:00:28.740
war man irgendwie der Relevanteste oder so.

01:00:29.240 --> 01:00:31.040
Und das ist jetzt vielleicht auch noch ein bisschen anders.

01:00:32.900 --> 01:00:37.860
Ja, aber das zeigt ja genau, dass halt die reine TF-IDF-Geschichte,

01:00:37.960 --> 01:00:43.000
ist halt nicht unbedingt, das führt halt nicht zu total super Ergebnissen,

01:00:43.080 --> 01:00:45.420
sondern Google sind halt die Ersten, die mehr Informationen reingenommen haben.

01:00:45.500 --> 01:00:49.000
Und ich würde sagen, natürlich, das ist absolut ganz normal, Volltextsuche eigentlich alles.

01:00:50.680 --> 01:00:54.320
Aber Google waren halt die Ersten, die jetzt nicht nur TF-IDF oder irgendwas,

01:00:54.480 --> 01:00:55.860
eine Variation davon verwendet haben.

01:00:55.880 --> 01:00:57.060
Google hat den PageRank eingeführt.

01:00:57.100 --> 01:00:58.800
Sondern sie haben einen PageRank, genau.

01:00:59.160 --> 01:00:59.900
Was ist denn der PageRank?

01:01:00.740 --> 01:01:02.500
Das hat gar nichts mit Seiten zu tun.

01:01:02.600 --> 01:01:03.300
Ja, genau, genau.

01:01:03.520 --> 01:01:05.920
Das heißt, könnte man denken, das ist das mit dem,

01:01:07.400 --> 01:01:07.900
so wurde es wahrscheinlich.

01:01:07.960 --> 01:01:08.740
Das wurde wahrscheinlich auch oft interpretiert.

01:01:08.760 --> 01:01:09.380
Mit dem PageRank.

01:01:09.380 --> 01:01:11.720
Mit dem Rank, der Page zu tun hat, den man halt so hat.

01:01:12.460 --> 01:01:14.080
Und es gab auch so irgendwie Browser-Plugins,

01:01:14.160 --> 01:01:16.720
die einem den eigenen PageRank auf der Seite angezeigt haben und so.

01:01:17.120 --> 01:01:20.240
Aber nein, das Wort kommt tatsächlich von Larry Page,

01:01:20.440 --> 01:01:22.600
also einem der beiden Gründer von Google,

01:01:22.740 --> 01:01:26.760
der das halt in seiner Doktorarbeit irgendwie einen neuen Algorithmus

01:01:26.760 --> 01:01:30.960
irgendwie vorgestellt hat für das Ding auszurechnen,

01:01:31.860 --> 01:01:34.900
in großen Matrizen halt Eigenwerte auszurechnen.

01:01:35.080 --> 01:01:36.740
Also ich glaube, das ist irgendwie Power Iteration oder so.

01:01:37.400 --> 01:01:37.720
Ja.

01:01:37.960 --> 01:01:39.560
Du hast gerade noch zwei Sachen gesagt.

01:01:39.720 --> 01:01:41.560
Einmal dieses Power-Dings, das habe ich jetzt schon wieder vergessen,

01:01:41.640 --> 01:01:45.260
wie es hieß, und gerade Eigenwerte berechnen aus Matrizen mit PageRank.

01:01:46.000 --> 01:01:49.780
Vielleicht erzähl mir das nochmal als einzelne kleine Subkapitel.

01:01:49.960 --> 01:01:52.040
Ja, ich weiß gar nicht, ob es so relevant ist.

01:01:52.260 --> 01:01:54.880
Ich glaube, man kann das auch, wenn man das in Detail irgendwie,

01:01:55.180 --> 01:01:57.420
dann wird das relativ trocken und langweilig.

01:01:57.420 --> 01:02:02.360
Also ich meine, im Grunde ist, was es tut, ist relativ einfach erklärt.

01:02:03.160 --> 01:02:06.680
Es hat was zu tun mit, also man kann den Link grafen,

01:02:06.860 --> 01:02:07.420
das Web, also das Web.

01:02:07.960 --> 01:02:08.840
Das Web ist im Grunde ein Graph.

01:02:09.060 --> 01:02:13.100
Eine verknüpfte Knotenpunkte, die durch Linien wieder einer verknüpft sind.

01:02:13.440 --> 01:02:14.560
Die Linien sind links.

01:02:15.040 --> 01:02:16.940
Ja, die Graph-Mathematik-Refinitionen sind länger aus Knoten und Kanten

01:02:16.940 --> 01:02:18.860
und irgendwie, keine Ahnung, es gibt gerichtete,

01:02:19.100 --> 01:02:20.800
und das Web ist ein gerichteter Graph.

01:02:21.280 --> 01:02:22.820
Also ich kann halt auf eine Seite linken

01:02:22.820 --> 01:02:23.840
und die linken nicht auf mich zurück.

01:02:25.200 --> 01:02:28.160
Und ja, es gibt jetzt,

01:02:28.780 --> 01:02:30.420
das Ding hat bestimmte Eigenschaften,

01:02:30.460 --> 01:02:31.400
die es halt besonders machen.

01:02:31.660 --> 01:02:33.860
Also zum Beispiel der Link-Graph des Webs ist halt super spars.

01:02:33.860 --> 01:02:37.800
Das ist halt, die meisten Seiten haben nur Verbindungen zu ganz,

01:02:37.800 --> 01:02:38.540
ganz wenigen anderen.

01:02:38.940 --> 01:02:40.700
Ja, aber, also es gibt ja auch Graphen,

01:02:40.760 --> 01:02:42.200
wo alle miteinander irgendwie verbunden sind.

01:02:42.300 --> 01:02:42.980
Das ist beim Web nicht so.

01:02:43.260 --> 01:02:45.080
Zu den allermeisten Seiten habe ich eben keine Links.

01:02:46.440 --> 01:02:48.780
Und ich kann den als Matrix darstellen,

01:02:48.860 --> 01:02:51.280
indem ich sage, okay, alle Webseiten oder Knoten

01:02:51.280 --> 01:02:54.340
sind halt irgendwie die Zeilen und Spalten der großen Matrix.

01:02:55.680 --> 01:02:58.020
Und ja, wenn ich einen Link habe,

01:02:58.140 --> 01:03:00.020
dann trage ich da jetzt zum Beispiel eine 1 ein

01:03:00.020 --> 01:03:03.100
in der entsprechenden Zeile und Spalte.

01:03:03.100 --> 01:03:04.760
Also wenn ich jetzt von X nach Y...

01:03:04.760 --> 01:03:05.320
Also in der Zeit kommt dann eine 1,

01:03:05.380 --> 01:03:07.580
wenn ich von meiner Seite auf deiner Seite link höre,

01:03:07.640 --> 01:03:07.780
das steht.

01:03:07.800 --> 01:03:08.220
Da 1.

01:03:08.380 --> 01:03:08.540
Genau.

01:03:09.820 --> 01:03:11.820
Ja, und das kann ich für das gesamte Web machen

01:03:11.820 --> 01:03:12.940
und das in eine Matrix packen.

01:03:13.520 --> 01:03:14.720
Was natürlich ein bisschen schwierig ist.

01:03:15.460 --> 01:03:16.820
Auch da kann ich halt nutzen,

01:03:16.960 --> 01:03:17.780
dass das Ding spars ist

01:03:17.780 --> 01:03:19.120
und dass die allermeisten Werte 0 sind.

01:03:19.220 --> 01:03:19.840
Und die, die 0 sind,

01:03:19.900 --> 01:03:21.020
die schreibe ich halt einfach nur irgendwo hin.

01:03:21.880 --> 01:03:23.940
Und da kann ich mir ganz sparen,

01:03:24.060 --> 01:03:25.180
die irgendwo muss ich nicht speichern.

01:03:25.800 --> 01:03:27.360
Das heißt, ich muss ja tatsächlich sozusagen nur da,

01:03:27.480 --> 01:03:28.460
wo Links sind, irgendwas speichern.

01:03:29.680 --> 01:03:32.800
Und ja, dann kann ich zum Beispiel im PageRank ausrechnen,

01:03:33.780 --> 01:03:37.380
ist einfach nur sozusagen ein Maß

01:03:37.380 --> 01:03:37.740
für die,

01:03:37.800 --> 01:03:39.540
Wahrscheinlichkeit,

01:03:39.620 --> 01:03:40.580
wenn ich einen Random Walk

01:03:40.580 --> 01:03:42.620
über diesen Graphen mache,

01:03:43.580 --> 01:03:44.080
auf diesem,

01:03:44.640 --> 01:03:46.560
auf dem Ding vorbeizukommen.

01:03:46.640 --> 01:03:48.700
Also wenn ich zufällig irgendwo durchs Internet surfe,

01:03:48.960 --> 01:03:50.480
mit irgendeiner zufälligen URL,

01:03:50.580 --> 01:03:51.480
mit der ich angefangen habe,

01:03:51.580 --> 01:03:53.440
komme ich dann dahin, wo ich hin will.

01:03:53.840 --> 01:03:53.960
Ja.

01:03:54.400 --> 01:03:55.300
Oder gibt es einen Startpunkt?

01:03:55.320 --> 01:03:56.280
Ja, laufe ich da drüber.

01:03:56.700 --> 01:03:56.980
Ja, genau.

01:03:57.520 --> 01:03:57.720
Also...

01:03:57.720 --> 01:03:58.620
Laufe ich über diese Seite, ja genau.

01:03:58.860 --> 01:03:59.700
Also gibt es einen Startpunkt?

01:04:00.660 --> 01:04:02.220
Nö, das fängt halt irgendwo an.

01:04:02.240 --> 01:04:03.100
Klickt sich einfach irgendwo durch.

01:04:03.220 --> 01:04:04.280
Ja, random, ja.

01:04:04.380 --> 01:04:04.680
Ja, okay.

01:04:04.780 --> 01:04:06.240
Wikipedia-Artikel 1, 2, 3, 4, 5,

01:04:06.320 --> 01:04:07.720
dann Querverweis auf irgendeine Quelle,

01:04:07.720 --> 01:04:08.840
die bei einem Nachrichtenportal,

01:04:08.880 --> 01:04:09.460
das sind auch irgendeine...

01:04:09.460 --> 01:04:09.620
Ja.

01:04:10.660 --> 01:04:13.720
Und was das Ding im Grunde,

01:04:14.960 --> 01:04:15.720
sozusagen abbildet,

01:04:16.480 --> 01:04:16.580
ist,

01:04:17.180 --> 01:04:17.900
wie wichtig,

01:04:18.060 --> 01:04:18.800
wie zentral,

01:04:19.280 --> 01:04:20.780
ist eigentlich eine Seite.

01:04:23.340 --> 01:04:23.660
Und...

01:04:23.660 --> 01:04:25.440
Also wie tief in diesen Knoten,

01:04:25.460 --> 01:04:26.440
wenn man sich das Web jetzt doch wieder

01:04:26.440 --> 01:04:27.620
als Knoten vorstellt oder sowas,

01:04:28.060 --> 01:04:29.360
und dann der zentrale Knoten,

01:04:29.380 --> 01:04:29.840
welche Seite ist das?

01:04:29.840 --> 01:04:30.920
Ist das wahrscheinlich mittlerweile Google?

01:04:31.040 --> 01:04:31.620
Ich weiß es nicht.

01:04:31.820 --> 01:04:32.320
Gibt es da,

01:04:32.420 --> 01:04:32.960
weißt du das?

01:04:33.320 --> 01:04:33.820
Gibt es das?

01:04:33.840 --> 01:04:35.000
Naja, keine Ahnung.

01:04:35.040 --> 01:04:35.700
Mit dem größten Page-Rank

01:04:35.700 --> 01:04:36.860
müsste dann ja eigentlich

01:04:36.860 --> 01:04:37.700
Google selbst,

01:04:37.720 --> 01:04:38.080
selber sein.

01:04:38.940 --> 01:04:40.220
Ja, Wikipedia ist immer weiter oben,

01:04:40.400 --> 01:04:40.880
aber Google,

01:04:41.080 --> 01:04:42.180
nee, glaube ich gar nicht mal.

01:04:43.260 --> 01:04:43.520
Google,

01:04:43.700 --> 01:04:46.080
die Links,

01:04:46.280 --> 01:04:48.640
die Google ausgibt,

01:04:48.840 --> 01:04:49.240
sind auch nicht,

01:04:49.480 --> 01:04:49.860
genau,

01:04:49.940 --> 01:04:51.220
die gehen da nicht mit in den Graphen rein.

01:04:51.400 --> 01:04:51.820
Ja, okay.

01:04:52.320 --> 01:04:52.600
Also,

01:04:52.980 --> 01:04:54.220
ich weiß es nicht.

01:04:55.040 --> 01:04:56.560
Aber ist auch eigentlich egal.

01:04:57.740 --> 01:04:58.140
Spannend.

01:04:58.580 --> 01:04:58.800
Ja.

01:04:59.640 --> 01:05:00.980
Aber wenn man das jetzt kombiniert

01:05:00.980 --> 01:05:02.220
mit eben TF-EDF

01:05:02.220 --> 01:05:03.140
aufgeschickt,

01:05:03.400 --> 01:05:05.360
dann ist das halt viel besser,

01:05:05.460 --> 01:05:06.320
als wenn ich das nur

01:05:07.720 --> 01:05:08.920
wenn ich nur TF-EDF nehme,

01:05:09.040 --> 01:05:10.700
weil es ist halt in gewisser Weise

01:05:10.700 --> 01:05:11.460
ein Maß dafür,

01:05:13.680 --> 01:05:14.120
ja, sozusagen,

01:05:14.260 --> 01:05:15.780
wie wichtig ist diese Seite eigentlich

01:05:15.780 --> 01:05:16.840
insgesamt.

01:05:16.980 --> 01:05:17.780
Und dann kombiniere ich halt

01:05:17.780 --> 01:05:18.520
eine lokale Geschichte,

01:05:18.780 --> 01:05:19.840
TF-EDF mit irgendwie

01:05:19.840 --> 01:05:21.420
so einer eher globalen Geschichte.

01:05:22.680 --> 01:05:24.380
Und das funktioniert dann schon ganz gut.

01:05:24.520 --> 01:05:25.560
Und das führt halt dazu,

01:05:25.660 --> 01:05:27.500
dass ich eben solche simplen,

01:05:27.600 --> 01:05:29.940
ich schreibe jetzt fünfmal

01:05:29.940 --> 01:05:31.020
ein Keyword auf eine Seite,

01:05:31.180 --> 01:05:31.720
Spiele reinhalten,

01:05:31.800 --> 01:05:32.580
dann nicht mehr funktionieren.

01:05:33.040 --> 01:05:34.360
Weil dadurch werde ich halt nicht

01:05:34.360 --> 01:05:35.320
zentral im Graph,

01:05:35.400 --> 01:05:35.960
dass ich das tue.

01:05:36.640 --> 01:05:37.700
Und aber auf der anderen Seite,

01:05:37.700 --> 01:05:38.440
das ist halt das,

01:05:38.580 --> 01:05:39.500
was dann die Leute mit den Backlinks

01:05:39.500 --> 01:05:39.880
immer meinen.

01:05:40.040 --> 01:05:42.120
Also wenn du halt ganz viele Links hast,

01:05:42.160 --> 01:05:42.780
die auf dich zeigen,

01:05:42.900 --> 01:05:44.140
dann bist du natürlich zentraler.

01:05:44.880 --> 01:05:45.700
Aber jetzt kannst du die Links

01:05:45.700 --> 01:05:46.480
natürlich auch wieder gewächen

01:05:46.480 --> 01:05:48.020
und das ist ein Katz-und-Maus-Spiel

01:05:48.020 --> 01:05:49.420
und keine Ahnung.

01:05:49.920 --> 01:05:51.840
Aber Google verwendet jetzt

01:05:51.840 --> 01:05:52.760
auch nicht nur PageRank

01:05:52.760 --> 01:05:55.340
und irgendwie sowas TF-EDF-artiges

01:05:55.340 --> 01:05:55.740
oder so,

01:05:55.840 --> 01:05:56.580
sondern die verwenden halt

01:05:56.580 --> 01:05:57.220
ganz, ganz viele.

01:05:57.220 --> 01:05:57.460
Ich habe es gerade mal auch gemacht.

01:05:57.620 --> 01:05:59.800
Der PageRank gibt es jetzt irgendwie

01:05:59.800 --> 01:06:00.520
neun und zehn.

01:06:00.700 --> 01:06:01.380
Also das ist irgendwie

01:06:01.380 --> 01:06:02.500
nummerlich gestellt.

01:06:02.720 --> 01:06:03.860
Und PageRank 10 ist tatsächlich

01:06:03.860 --> 01:06:04.420
Google.com

01:06:04.420 --> 01:06:06.700
und The Government of India,

01:06:06.700 --> 01:06:07.420
India GovN.

01:06:07.700 --> 01:06:08.100
Aha.

01:06:08.440 --> 01:06:08.760
CNN.

01:06:10.160 --> 01:06:11.080
Und ja,

01:06:11.720 --> 01:06:12.060
was hast du,

01:06:12.200 --> 01:06:12.820
wie drei Kontos hast du?

01:06:12.880 --> 01:06:13.740
Und dann gibt PageRank 9

01:06:13.740 --> 01:06:15.600
ist auch Python dabei,

01:06:15.780 --> 01:06:16.460
also Python.org.

01:06:16.720 --> 01:06:17.880
Also wenn du einen Link

01:06:17.880 --> 01:06:20.700
von Python.org kriegst,

01:06:21.380 --> 01:06:23.240
dann voll gut.

01:06:23.600 --> 01:06:24.080
Ja, genau.

01:06:25.020 --> 01:06:26.080
Das zählt was.

01:06:26.300 --> 01:06:27.700
Naja, also tatsächlich

01:06:28.300 --> 01:06:29.960
heutzutage ist es so,

01:06:30.020 --> 01:06:30.800
es wird ganz, ganz viel,

01:06:31.080 --> 01:06:32.500
also nicht nur diese beiden Werte,

01:06:32.760 --> 01:06:33.220
also nehmen wir an,

01:06:33.700 --> 01:06:34.860
würdest jetzt nur TF-EDF

01:06:34.860 --> 01:06:35.560
und den PageRank haben,

01:06:35.640 --> 01:06:36.080
dann hättest du zwei,

01:06:36.080 --> 01:06:37.580
oder die sind,

01:06:37.700 --> 01:06:38.480
im Suchmaschinenbereich

01:06:38.480 --> 01:06:39.340
nennt man das mal Signale,

01:06:39.920 --> 01:06:40.540
im Machine Learning Bereich

01:06:40.540 --> 01:06:41.400
würde man das Features nennen,

01:06:42.360 --> 01:06:45.200
sondern Google

01:06:45.200 --> 01:06:47.460
sammelt eher so hundert,

01:06:47.660 --> 01:06:49.300
sagen sie so,

01:06:49.460 --> 01:06:50.240
aber tatsächlich sind es

01:06:50.240 --> 01:06:50.940
wahrscheinlich noch ein paar mehr.

01:06:52.120 --> 01:06:54.140
Und das Ranking ergibt sich daraus,

01:06:54.240 --> 01:06:55.180
dass jetzt diese

01:06:55.180 --> 01:06:56.960
Signale,

01:06:57.060 --> 01:06:57.940
von denen ein paar

01:06:57.940 --> 01:06:59.940
aus der Query kommen

01:06:59.940 --> 01:07:01.480
und möglicherweise auch aus dem User,

01:07:01.560 --> 01:07:02.500
der die Query gestellt hat,

01:07:02.600 --> 01:07:03.760
ein paar kommen aus dem Dokument,

01:07:04.080 --> 01:07:06.280
eben wie sowas wie PageRank

01:07:06.280 --> 01:07:06.540
oder

01:07:06.540 --> 01:07:06.640
so.

01:07:07.700 --> 01:07:08.200
Ähm,

01:07:08.560 --> 01:07:09.820
kommt die Query irgendwie

01:07:09.820 --> 01:07:10.580
in der Domain vor

01:07:10.580 --> 01:07:11.160
oder sowas.

01:07:11.940 --> 01:07:12.120
Äh,

01:07:12.140 --> 01:07:13.220
ein paar kommen aus einer Kombination

01:07:13.220 --> 01:07:13.940
von Query

01:07:13.940 --> 01:07:15.020
und Dokument.

01:07:15.400 --> 01:07:16.500
TF-EDF wäre so ein Fall,

01:07:16.640 --> 01:07:16.700
ne,

01:07:16.740 --> 01:07:17.940
da multipliziert man das ja miteinander.

01:07:19.140 --> 01:07:20.440
Und jetzt hat man halt

01:07:20.440 --> 01:07:22.040
sozusagen für jedes Suchergebnis

01:07:22.040 --> 01:07:23.080
äh,

01:07:23.180 --> 01:07:24.680
so ein Vektor

01:07:24.680 --> 01:07:25.360
mit irgendwie

01:07:25.360 --> 01:07:26.440
vielleicht 100 Einträgen

01:07:26.440 --> 01:07:27.280
oder 200

01:07:27.280 --> 01:07:27.960
oder 500

01:07:27.960 --> 01:07:28.480
oder so.

01:07:29.000 --> 01:07:29.940
Und dann hat man halt

01:07:29.940 --> 01:07:31.400
üblicherweise ein Modell,

01:07:31.600 --> 01:07:32.160
ist auch völlig egal,

01:07:32.220 --> 01:07:33.300
ob das jetzt ein Machine Learning

01:07:33.300 --> 01:07:34.200
trainiertes Modell ist

01:07:34.200 --> 01:07:35.280
oder ob das ein Modell ist,

01:07:35.280 --> 01:07:36.720
das Leute von Hand getunt haben.

01:07:36.980 --> 01:07:37.680
Es kommt aufs,

01:07:37.700 --> 01:07:38.180
das gleiche raus,

01:07:38.300 --> 01:07:38.680
letztlich,

01:07:40.160 --> 01:07:40.560
ähm,

01:07:40.920 --> 01:07:42.280
dass diese Vektoren halt

01:07:42.280 --> 01:07:43.320
in Reihenfolge bringt

01:07:43.320 --> 01:07:44.980
und irgendwie halt ein,

01:07:44.980 --> 01:07:48.080
ein endgültigen Score halt

01:07:48.080 --> 01:07:48.600
ausgerechnet.

01:07:48.900 --> 01:07:48.960
Ja.

01:07:49.940 --> 01:07:50.220
Äh,

01:07:50.300 --> 01:07:51.600
im simpelsten Fall könnte das

01:07:51.600 --> 01:07:52.680
einfach eine gewichtete Summe

01:07:52.680 --> 01:07:53.320
sein zum Beispiel.

01:07:54.080 --> 01:07:54.240
Mhm.

01:07:54.720 --> 01:07:55.080
Äh,

01:07:55.400 --> 01:07:55.800
du sagst halt,

01:07:55.860 --> 01:07:56.700
wie wichtig ist mir

01:07:56.700 --> 01:07:57.580
jedes einzelne Feature,

01:07:58.020 --> 01:07:58.640
dann machst du halt

01:07:58.640 --> 01:07:59.260
die Summe drüber

01:07:59.260 --> 01:08:01.020
und,

01:08:01.140 --> 01:08:01.580
äh,

01:08:02.200 --> 01:08:02.840
normierst das vielleicht

01:08:02.840 --> 01:08:03.720
noch irgendwie oder so.

01:08:04.060 --> 01:08:04.820
Und, ähm,

01:08:04.820 --> 01:08:05.720
dann sortierst du halt

01:08:05.720 --> 01:08:06.080
nach der,

01:08:06.480 --> 01:08:06.860
äh,

01:08:06.900 --> 01:08:07.360
nach der Summe.

01:08:07.700 --> 01:08:08.020
Äh,

01:08:08.660 --> 01:08:09.820
könnte man machen.

01:08:09.880 --> 01:08:10.500
Oder man kann's halt

01:08:10.500 --> 01:08:11.160
dieses Modell halt auch

01:08:11.160 --> 01:08:11.720
irgendwie trainieren.

01:08:12.900 --> 01:08:13.260
Äh,

01:08:13.360 --> 01:08:14.100
und, ähm,

01:08:14.200 --> 01:08:14.320
ja,

01:08:14.440 --> 01:08:15.300
kriegst dann halt irgendwie

01:08:15.300 --> 01:08:16.340
am Schluss, äh,

01:08:16.360 --> 01:08:17.300
eine Sortierreihenfolge.

01:08:17.920 --> 01:08:18.720
Und, äh,

01:08:18.900 --> 01:08:19.080
ja,

01:08:19.280 --> 01:08:20.160
das ist halt eher so

01:08:20.160 --> 01:08:21.120
das, was heute gemacht wird.

01:08:21.300 --> 01:08:21.520
Äh,

01:08:21.600 --> 01:08:23.260
das ist lustigerweise

01:08:23.260 --> 01:08:24.080
aber in den ganzen,

01:08:24.720 --> 01:08:25.100
also zumindest,

01:08:25.240 --> 01:08:25.520
ich weiß nicht,

01:08:25.540 --> 01:08:26.620
ob es kommerzielle Suchmaschinen

01:08:26.620 --> 01:08:26.880
gibt,

01:08:27.120 --> 01:08:28.040
die das implementen,

01:08:28.100 --> 01:08:28.920
die sowas ähnliches machen.

01:08:29.680 --> 01:08:31.220
Die ganzen, ähm,

01:08:31.720 --> 01:08:32.600
Open Source Suchmaschinen

01:08:32.600 --> 01:08:33.200
können das nicht.

01:08:33.980 --> 01:08:34.160
Mhm.

01:08:34.160 --> 01:08:34.640
Nicht so,

01:08:34.740 --> 01:08:35.620
also so ein bisschen.

01:08:35.840 --> 01:08:36.600
Also man kann so ein bisschen

01:08:36.600 --> 01:08:36.980
was machen,

01:08:37.700 --> 01:08:38.540
aber so richtig.

01:08:38.540 --> 01:08:39.020
Ein bisschen woosh,

01:08:39.160 --> 01:08:39.560
aber so richtig.

01:08:39.600 --> 01:08:40.640
Aber so richtig toll

01:08:40.640 --> 01:08:41.420
können die das,

01:08:41.560 --> 01:08:42.800
also so cool wie irgendwie

01:08:42.800 --> 01:08:43.840
die großen dazu machen,

01:08:43.880 --> 01:08:44.700
machen die das eigentlich nicht.

01:08:45.060 --> 01:08:45.520
Das ist auch so etwas.

01:08:46.040 --> 01:08:46.500
mich, mich,

01:08:46.500 --> 01:08:47.680
mich ärgert ja so ein bisschen

01:08:47.680 --> 01:08:48.220
oder mich wundert,

01:08:48.320 --> 01:08:49.060
dass es da so wenig,

01:08:49.520 --> 01:08:50.080
also es ist viele Dinge,

01:08:50.180 --> 01:08:50.820
die halt so im

01:08:50.820 --> 01:08:52.920
Bereich Websuche oder so

01:08:52.920 --> 01:08:53.500
halt, äh,

01:08:53.540 --> 01:08:53.840
irgendwie

01:08:53.840 --> 01:08:56.120
schon lange gemacht werden,

01:08:56.320 --> 01:08:56.640
äh,

01:08:56.740 --> 01:08:57.900
oder da, äh,

01:08:58.020 --> 01:08:59.480
das kommt halt nie

01:08:59.480 --> 01:09:00.280
so richtig an.

01:09:01.300 --> 01:09:02.100
Also was mich zum Beispiel

01:09:02.100 --> 01:09:02.700
wundert ist,

01:09:02.880 --> 01:09:03.040
äh,

01:09:03.040 --> 01:09:04.280
was Google seit 2004,

01:09:04.420 --> 01:09:04.640
glaube ich,

01:09:04.680 --> 01:09:05.100
macht oder so,

01:09:05.140 --> 01:09:06.260
die halten ihre NTCs

01:09:06.260 --> 01:09:07.200
alle nur noch im Hauptspeicher.

01:09:07.700 --> 01:09:08.620
Die gehen gar nicht mehr

01:09:08.620 --> 01:09:09.040
auf die Platte,

01:09:09.100 --> 01:09:09.780
weil Platte ist immer

01:09:09.780 --> 01:09:10.440
so ein bisschen blöd,

01:09:10.600 --> 01:09:11.380
weil, äh,

01:09:11.740 --> 01:09:12.760
du kriegst halt Latenzen,

01:09:12.940 --> 01:09:14.100
werden halt unvorhersehbar.

01:09:14.380 --> 01:09:14.500
Mhm.

01:09:14.820 --> 01:09:15.060
Äh,

01:09:15.120 --> 01:09:15.940
plötzlich, äh,

01:09:16.000 --> 01:09:16.900
liegen halt deine Sektoren

01:09:16.900 --> 01:09:17.840
ungünstig, äh,

01:09:17.900 --> 01:09:18.640
irgendwie du musst warten,

01:09:18.720 --> 01:09:19.660
bis das da vorbeikommt

01:09:19.660 --> 01:09:21.060
und du musst aber viele Sachen

01:09:21.060 --> 01:09:22.280
miteinander, äh,

01:09:22.340 --> 01:09:23.400
mergen und jetzt

01:09:23.400 --> 01:09:26.640
liegen die Kombinationen

01:09:26.640 --> 01:09:26.740
von,

01:09:27.500 --> 01:09:28.120
es ist halt,

01:09:28.180 --> 01:09:28.800
die Sektoren sind halt

01:09:28.800 --> 01:09:29.540
ungünstig korreliert

01:09:29.540 --> 01:09:30.180
und plötzlich musst du halt

01:09:30.180 --> 01:09:30.620
auf eine Querie

01:09:30.620 --> 01:09:31.200
sehr lange warten.

01:09:32.080 --> 01:09:32.620
Das ist eigentlich

01:09:32.620 --> 01:09:33.280
totaler Mist.

01:09:33.280 --> 01:09:33.940
Du willst eigentlich

01:09:33.940 --> 01:09:35.040
relativ sicher sein können,

01:09:35.180 --> 01:09:36.300
dass es halt nach so und so viel,

01:09:36.520 --> 01:09:37.540
äh,

01:09:37.540 --> 01:09:38.500
Millisekunden oder so

01:09:38.500 --> 01:09:39.100
halt durch ist

01:09:39.100 --> 01:09:39.940
und das kannst du eigentlich

01:09:39.940 --> 01:09:40.620
nur dann garantieren,

01:09:40.680 --> 01:09:41.240
wenn das ganze Zeug

01:09:41.240 --> 01:09:42.120
immer im Hauptspeicher liegt

01:09:42.120 --> 01:09:42.880
und wenn du noch ein paar

01:09:42.880 --> 01:09:43.780
andere Sachen irgendwie

01:09:43.780 --> 01:09:44.540
berücksichtigt hast

01:09:44.540 --> 01:09:44.920
und Google,

01:09:45.440 --> 01:09:45.900
ich glaube auch,

01:09:45.940 --> 01:09:46.280
das ist der Grund,

01:09:46.400 --> 01:09:47.140
warum Google das so macht,

01:09:47.280 --> 01:09:47.620
äh,

01:09:47.740 --> 01:09:48.460
die möchten halt wissen,

01:09:49.220 --> 01:09:49.420
okay,

01:09:49.480 --> 01:09:50.400
wenn jemand eine Suchanfrage

01:09:50.400 --> 01:09:50.980
eingegeben hat

01:09:50.980 --> 01:09:51.340
und, äh,

01:09:51.360 --> 01:09:51.940
dann das an die,

01:09:52.060 --> 01:09:53.180
an diese tausend, äh,

01:09:53.180 --> 01:09:53.440
Server,

01:09:53.540 --> 01:09:54.260
die halt jeweils nur

01:09:54.260 --> 01:09:55.240
einen Teil vom Index haben,

01:09:55.780 --> 01:09:56.460
schicken und dann kommt

01:09:56.460 --> 01:09:56.920
ein Ergebnis zurück,

01:09:56.920 --> 01:09:57.400
dann wissen wir halt,

01:09:57.520 --> 01:09:58.200
nach 20 Millisekunden

01:09:58.200 --> 01:09:58.820
ist das halt durch.

01:09:59.740 --> 01:10:01.160
Wenn da Platten im Spiel wären,

01:10:01.240 --> 01:10:01.800
könnte man das überhaupt

01:10:01.800 --> 01:10:02.480
nicht mehr garantieren,

01:10:02.480 --> 01:10:03.340
weil, äh,

01:10:03.680 --> 01:10:03.820
ja,

01:10:04.000 --> 01:10:04.560
da hast du halt Pech

01:10:04.560 --> 01:10:05.800
und irgendwo musst du halt

01:10:05.800 --> 01:10:06.520
auf eine Platte warten,

01:10:07.320 --> 01:10:07.580
äh,

01:10:07.700 --> 01:10:08.840
und die Seek Time da ist halt,

01:10:08.920 --> 01:10:09.080
äh,

01:10:09.100 --> 01:10:09.660
bei Platten auch,

01:10:09.780 --> 01:10:10.900
sind halt mal 10 Millisekunden

01:10:10.900 --> 01:10:11.320
oder noch mehr,

01:10:12.280 --> 01:10:12.560
äh,

01:10:12.680 --> 01:10:14.000
und dann wird das Gesamtergebnis

01:10:14.000 --> 01:10:14.820
halt langsam dadurch,

01:10:14.920 --> 01:10:15.600
das ist halt irgendwie Kacke.

01:10:15.700 --> 01:10:16.080
Aber jetzt,

01:10:16.320 --> 01:10:17.420
wenn man sowas wie Lucene hat

01:10:17.420 --> 01:10:18.400
oder irgendwie Elasticsearch

01:10:18.400 --> 01:10:18.760
oder Solar,

01:10:19.240 --> 01:10:20.420
da kann dann das durchaus passieren.

01:10:20.560 --> 01:10:20.660
Also,

01:10:20.780 --> 01:10:21.360
wenn man Pech hat,

01:10:21.400 --> 01:10:22.660
dann ist eine Query halt langsam

01:10:22.660 --> 01:10:24.380
und zwar auch nicht deterministisch

01:10:24.380 --> 01:10:25.320
irgendwie bestimmte Queries,

01:10:25.440 --> 01:10:26.260
sondern halt irgendeine,

01:10:27.000 --> 01:10:28.020
was halt, äh,

01:10:28.160 --> 01:10:28.420
naja,

01:10:29.040 --> 01:10:30.620
aber das ist halt so designt.

01:10:30.620 --> 01:10:30.820
Also,

01:10:30.820 --> 01:10:31.980
es kann auch sein,

01:10:32.060 --> 01:10:32.920
dass man mittlerweile sagen kann,

01:10:33.100 --> 01:10:33.240
okay,

01:10:33.360 --> 01:10:34.440
nur, äh,

01:10:34.760 --> 01:10:36.720
dieser Index soll in Memory liegen

01:10:36.720 --> 01:10:37.080
oder so,

01:10:37.160 --> 01:10:38.000
aber ich weiß es nicht so genau.

01:10:38.300 --> 01:10:38.960
In dem Fall mich wundert,

01:10:39.060 --> 01:10:39.520
dass das halt,

01:10:39.740 --> 01:10:40.940
weil bei den Hauptspeichergrößen

01:10:40.940 --> 01:10:41.720
heutzutage sollte das

01:10:41.720 --> 01:10:42.620
auch überhaupt kein Problem sein,

01:10:42.680 --> 01:10:43.120
dass man halt

01:10:43.120 --> 01:10:44.740
den Index, äh,

01:10:44.760 --> 01:10:45.960
halt im Hauptspeicher hält,

01:10:46.060 --> 01:10:46.100
ne,

01:10:46.100 --> 01:10:46.720
und wenn das nicht reicht,

01:10:46.760 --> 01:10:48.140
dann vielleicht mal mehr Maschinen dazu,

01:10:48.240 --> 01:10:48.540
ist auch,

01:10:49.040 --> 01:10:49.320
warum,

01:10:49.520 --> 01:10:51.760
warum muss das auf,

01:10:52.040 --> 01:10:52.260
äh,

01:10:52.640 --> 01:10:53.780
wie legt man das auf die Platte,

01:10:53.900 --> 01:10:54.080
äh,

01:10:54.120 --> 01:10:54.700
optimiert sein?

01:10:54.800 --> 01:10:55.740
Das macht auch heutzutage

01:10:55.740 --> 01:10:56.680
eigentlich keinen großen Sinn mehr.

01:10:56.980 --> 01:10:57.140
Oh,

01:10:57.140 --> 01:10:58.240
da hab ich noch was vergessen,

01:10:58.820 --> 01:10:58.980
äh,

01:10:59.020 --> 01:10:59.320
bei den,

01:10:59.320 --> 01:11:01.000
äh,

01:11:01.320 --> 01:11:01.660
äh,

01:11:01.760 --> 01:11:02.420
es gibt ein Ding,

01:11:02.620 --> 01:11:02.960
Redis,

01:11:03.140 --> 01:11:04.100
äh,

01:11:04.200 --> 01:11:05.240
das hatten wir jetzt auch schon ein paar Mal,

01:11:05.520 --> 01:11:06.440
das kann auch Fulltext,

01:11:06.580 --> 01:11:06.780
äh,

01:11:06.780 --> 01:11:08.300
Volltextsuche mittlerweile ganz gut.

01:11:08.540 --> 01:11:08.660
Mhm.

01:11:09.940 --> 01:11:10.700
Also Redis ist ein,

01:11:10.740 --> 01:11:11.140
äh,

01:11:11.220 --> 01:11:11.520
Cache,

01:11:11.700 --> 01:11:11.780
ein,

01:11:11.840 --> 01:11:12.060
ein,

01:11:12.460 --> 01:11:13.640
für bestimmte Dinge,

01:11:13.880 --> 01:11:15.940
die als Key-Value kombiniert sind.

01:11:15.940 --> 01:11:16.060
Ja,

01:11:16.160 --> 01:11:18.100
Key-Value ist aber nicht nur das,

01:11:18.180 --> 01:11:19.520
es kann auch ein paar andere Datenstrukturen

01:11:19.520 --> 01:11:20.180
und,

01:11:20.340 --> 01:11:20.600
ähm,

01:11:21.500 --> 01:11:22.820
das liegt tatsächlich nur im Hauptspeicher

01:11:22.820 --> 01:11:24.180
und das kann auch Volltextsuche

01:11:24.180 --> 01:11:25.540
und das wollte ich mir auch schon immer mal angucken,

01:11:25.540 --> 01:11:26.480
aber hab ich es,

01:11:26.520 --> 01:11:26.760
äh,

01:11:27.220 --> 01:11:28.140
letzter Zeit nicht geschafft,

01:11:28.340 --> 01:11:28.740
äh,

01:11:28.860 --> 01:11:29.300
kann sein,

01:11:29.380 --> 01:11:31.400
dass das mittlerweile vielleicht ein bisschen sogar das erfüllt,

01:11:31.480 --> 01:11:32.380
was ich irgendwie gerne hätte.

01:11:33.700 --> 01:11:34.100
Ähm,

01:11:34.680 --> 01:11:34.900
ja,

01:11:35.280 --> 01:11:35.660
äh,

01:11:36.420 --> 01:11:36.800
aber,

01:11:37.020 --> 01:11:37.300
äh,

01:11:37.320 --> 01:11:38.140
Lucid ist halt,

01:11:38.240 --> 01:11:38.440
äh,

01:11:38.480 --> 01:11:39.860
tatsächlich eher so drauf optimiert,

01:11:39.940 --> 01:11:41.100
dass es auf der Platte gut aussieht.

01:11:42.160 --> 01:11:42.560
Und,

01:11:42.660 --> 01:11:43.040
ähm,

01:11:43.500 --> 01:11:43.720
ja,

01:11:44.660 --> 01:11:44.940
hm,

01:11:45.260 --> 01:11:45.660
also da,

01:11:45.700 --> 01:11:47.060
da hängt das irgendwie so ein bisschen hinterher

01:11:47.060 --> 01:11:49.300
und es hängt halt auch hinterher bei solchen Sachen wie,

01:11:49.500 --> 01:11:49.640
äh,

01:11:49.680 --> 01:11:49.880
ähm,

01:11:49.960 --> 01:11:52.160
also im Machine Learning Bereich läuft dieses ganze Thema immer,

01:11:52.300 --> 01:11:53.200
äh,

01:11:53.260 --> 01:11:54.520
unter dem Namen Learning to Rank.

01:11:55.140 --> 01:11:55.540
Mhm.

01:11:55.540 --> 01:11:56.000
Also sozusagen,

01:11:56.140 --> 01:11:56.460
dass du halt,

01:11:57.200 --> 01:11:58.060
machst halt Features,

01:11:58.360 --> 01:11:58.660
äh,

01:11:58.780 --> 01:11:59.140
und,

01:11:59.320 --> 01:11:59.460
äh,

01:11:59.500 --> 01:12:00.120
du hast halt jetzt,

01:12:00.220 --> 01:12:00.540
die Training,

01:12:00.600 --> 01:12:01.780
deine Trainingsdaten sehen immer so aus,

01:12:01.860 --> 01:12:02.100
dass du,

01:12:02.200 --> 01:12:03.280
äh,

01:12:03.320 --> 01:12:04.240
Mengen hast von Queries

01:12:04.240 --> 01:12:04.780
und dann

01:12:04.780 --> 01:12:06.540
Ergebnislisten,

01:12:06.840 --> 01:12:07.700
wo halt Leute,

01:12:08.080 --> 01:12:08.280
also,

01:12:08.700 --> 01:12:09.900
redaktionell annotiert ist,

01:12:09.980 --> 01:12:10.560
wie gut waren,

01:12:10.680 --> 01:12:11.860
wie relevant sind die Ergebnisse,

01:12:12.020 --> 01:12:12.160
also,

01:12:12.520 --> 01:12:14.540
wo Leute meistens auf einer Skala von 0 bis 4

01:12:14.540 --> 01:12:15.540
oder 0 bis 3,

01:12:16.220 --> 01:12:16.920
0 für,

01:12:17.140 --> 01:12:18.060
ist überhaupt nicht relevant,

01:12:18.200 --> 01:12:18.380
äh,

01:12:18.380 --> 01:12:18.880
zu 3,

01:12:19.100 --> 01:12:19.280
äh,

01:12:19.320 --> 01:12:19.960
oder 4 oder 6,

01:12:20.040 --> 01:12:21.820
ist halt super relevant für diese Anfrage,

01:12:22.340 --> 01:12:22.700
äh,

01:12:22.740 --> 01:12:23.440
ähm,

01:12:24.260 --> 01:12:24.500
äh,

01:12:24.620 --> 01:12:25.980
Ergebnislisten annotiert haben

01:12:25.980 --> 01:12:27.120
und du dann halt hinterher,

01:12:28.040 --> 01:12:28.340
äh,

01:12:28.620 --> 01:12:28.960
sozusagen,

01:12:28.960 --> 01:12:29.660
testen kannst,

01:12:29.780 --> 01:12:30.220
wenn du jetzt

01:12:30.220 --> 01:12:31.900
was an deiner Suchmaschine geändert hast

01:12:31.900 --> 01:12:32.840
und

01:12:32.840 --> 01:12:34.460
fütterst die halt mit den Queries

01:12:34.460 --> 01:12:34.860
und guckst dir,

01:12:35.020 --> 01:12:35.320
äh,

01:12:35.320 --> 01:12:36.220
die Resultlisten an,

01:12:36.300 --> 01:12:36.780
dann kannst du halt

01:12:36.780 --> 01:12:38.060
einen Score ausrechnen.

01:12:39.340 --> 01:12:40.500
Da gibt's dann unterschiedliche Master,

01:12:40.540 --> 01:12:41.480
die man benutzen kann,

01:12:41.760 --> 01:12:42.220
äh,

01:12:43.000 --> 01:12:43.280
ja,

01:12:43.600 --> 01:12:44.640
Mean Average Precision,

01:12:45.080 --> 01:12:45.620
Normalized,

01:12:45.740 --> 01:12:47.080
Cumulative Discounted Gain,

01:12:47.360 --> 01:12:47.760
äh,

01:12:49.160 --> 01:12:50.540
Expected Reciprocal Rank

01:12:50.540 --> 01:12:51.140
oder was auch immer,

01:12:51.440 --> 01:12:51.680
äh,

01:12:51.700 --> 01:12:52.600
Ich wundere dich jetzt dabei,

01:12:52.740 --> 01:12:53.080
mal kurz,

01:12:53.160 --> 01:12:53.660
wie alle drei,

01:12:53.740 --> 01:12:54.000
äh,

01:12:54.000 --> 01:12:54.020
ja,

01:12:54.020 --> 01:12:54.160
ja,

01:12:54.160 --> 01:12:54.260
ja,

01:12:54.260 --> 01:12:54.280
ja,

01:12:54.280 --> 01:12:54.300
ja,

01:12:54.300 --> 01:12:54.360
ja,

01:12:54.360 --> 01:12:54.380
ja,

01:12:54.380 --> 01:12:54.500
ja,

01:12:54.500 --> 01:12:54.560
ja,

01:12:54.560 --> 01:12:54.580
ja,

01:12:54.580 --> 01:12:54.600
ja,

01:12:54.600 --> 01:12:56.240
Aber im Grunde sind das alles Master dafür,

01:12:56.660 --> 01:12:57.420
wie gut,

01:12:57.640 --> 01:12:57.920
äh,

01:12:58.000 --> 01:12:59.100
ist jetzt sozusagen die,

01:12:59.380 --> 01:12:59.640
äh,

01:13:00.440 --> 01:13:00.700
dieses,

01:13:00.840 --> 01:13:01.040
diese,

01:13:01.280 --> 01:13:01.620
äh,

01:13:01.620 --> 01:13:02.000
dieses,

01:13:02.240 --> 01:13:02.660
äh,

01:13:03.220 --> 01:13:04.700
Ergebnis für die Anfrage

01:13:04.700 --> 01:13:06.120
und,

01:13:06.340 --> 01:13:06.660
ähm,

01:13:07.740 --> 01:13:07.940
ja,

01:13:08.040 --> 01:13:08.220
wenn,

01:13:08.360 --> 01:13:10.140
wenn ich halt über viele schaffe,

01:13:10.220 --> 01:13:11.400
besser zu sein als ein anderes,

01:13:11.680 --> 01:13:11.880
äh,

01:13:11.880 --> 01:13:12.340
Verfahren,

01:13:12.520 --> 01:13:12.740
dann,

01:13:12.860 --> 01:13:13.160
äh,

01:13:13.220 --> 01:13:13.860
denke ich halt besser.

01:13:14.680 --> 01:13:14.860
Dann,

01:13:14.860 --> 01:13:15.860
dann hab ich halt ein besseres Ergebnis

01:13:15.860 --> 01:13:17.080
und das ist ja etwas,

01:13:17.160 --> 01:13:18.020
was sich dann auch direkt,

01:13:18.080 --> 01:13:18.360
äh,

01:13:18.440 --> 01:13:19.860
bemerkbar macht in User-Zufriedenheit

01:13:19.860 --> 01:13:21.700
oder Geld oder was auch immer man halt

01:13:21.700 --> 01:13:22.740
aus mir möchte.

01:13:23.840 --> 01:13:24.240
Ähm,

01:13:24.520 --> 01:13:24.580
ähm,

01:13:24.580 --> 01:13:24.660
ähm,

01:13:24.860 --> 01:13:25.320
und,

01:13:25.440 --> 01:13:25.840
ähm,

01:13:26.960 --> 01:13:27.680
naja,

01:13:28.020 --> 01:13:28.300
äh,

01:13:29.440 --> 01:13:29.780
ähm,

01:13:30.760 --> 01:13:30.980
äh,

01:13:31.020 --> 01:13:31.220
genau,

01:13:31.460 --> 01:13:32.060
äh,

01:13:32.320 --> 01:13:32.500
den,

01:13:32.780 --> 01:13:33.260
normalerweise,

01:13:33.320 --> 01:13:33.800
wenn ich jetzt so ein,

01:13:33.900 --> 01:13:34.020
also,

01:13:34.180 --> 01:13:35.760
Maschinen-Learning-Modelle funktionieren da wirklich besser.

01:13:35.900 --> 01:13:35.920
Also,

01:13:36.000 --> 01:13:36.060
das,

01:13:36.180 --> 01:13:36.800
es gibt da schon,

01:13:37.100 --> 01:13:37.260
äh,

01:13:37.260 --> 01:13:37.700
es gab da schon,

01:13:37.800 --> 01:13:39.000
gibt da schon lange auch Wettbewerbe.

01:13:39.360 --> 01:13:39.600
Ich glaube,

01:13:39.640 --> 01:13:41.380
ich hab mal in einer Learning-for-Rank-Challenge mitgemacht,

01:13:41.460 --> 01:13:43.340
das war 2009 oder so,

01:13:45.020 --> 01:13:45.600
äh,

01:13:45.780 --> 01:13:46.160
und,

01:13:46.380 --> 01:13:47.440
wenn man das vergleicht,

01:13:47.540 --> 01:13:47.620
also,

01:13:47.800 --> 01:13:47.940
was,

01:13:47.940 --> 01:13:49.060
das ist schon über 10 Jahre her,

01:13:49.100 --> 01:13:49.600
das ist schon klar.

01:13:49.820 --> 01:13:50.020
Ja,

01:13:50.100 --> 01:13:50.420
das ist krass,

01:13:50.500 --> 01:13:50.540
ne?

01:13:51.020 --> 01:13:51.560
Und es ist immer,

01:13:51.560 --> 01:13:52.320
aber was ich dann,

01:13:52.620 --> 01:13:53.360
ich dachte eigentlich,

01:13:53.660 --> 01:13:54.860
wenn man mich damals gefragt hätte,

01:13:55.880 --> 01:13:56.340
ähm,

01:13:57.100 --> 01:13:57.620
was glaubst du,

01:13:57.660 --> 01:13:59.240
wann können Suchmaschinen,

01:13:59.240 --> 01:14:00.520
ist das so ein Standard-Feature von,

01:14:00.520 --> 01:14:00.860
von,

01:14:00.860 --> 01:14:01.700
von Volltext-Suchmaschinen,

01:14:01.760 --> 01:14:02.060
hätte ich gedacht,

01:14:02.120 --> 01:14:02.220
ja,

01:14:02.280 --> 01:14:03.160
so in zwei Jahren oder so,

01:14:03.200 --> 01:14:03.780
können die das alle.

01:14:04.960 --> 01:14:06.120
Wir machen das aber immer noch nicht,

01:14:06.240 --> 01:14:06.360
ja,

01:14:06.440 --> 01:14:06.560
also,

01:14:06.620 --> 01:14:06.920
das ist jetzt,

01:14:07.100 --> 01:14:08.640
also,

01:14:08.740 --> 01:14:09.120
das ist so ein bisschen,

01:14:09.300 --> 01:14:09.420
hm,

01:14:10.100 --> 01:14:10.400
naja,

01:14:11.040 --> 01:14:14.920
aber wahrscheinlich braucht man ja da doch irgendwie auch einen Markt dafür,

01:14:15.300 --> 01:14:15.860
und irgendwie,

01:14:16.640 --> 01:14:17.200
äh,

01:14:18.860 --> 01:14:19.180
äh,

01:14:19.180 --> 01:14:20.560
und wenn es einfach keinen interessiert,

01:14:20.560 --> 01:14:20.800
dann,

01:14:20.840 --> 01:14:21.160
äh,

01:14:21.160 --> 01:14:21.980
passiert das halt auch nicht,

01:14:22.040 --> 01:14:22.800
und wenn es keinen Grund gibt,

01:14:22.820 --> 01:14:23.460
das zu implementieren,

01:14:23.540 --> 01:14:23.620
na,

01:14:23.640 --> 01:14:25.520
und den gibt es halt nur bei den großen Suchmaschinen,

01:14:25.620 --> 01:14:26.360
und die machen das wahrscheinlich,

01:14:26.620 --> 01:14:26.800
aber,

01:14:26.960 --> 01:14:27.160
äh,

01:14:27.160 --> 01:14:28.420
die geben ihren Kram halt nicht raus.

01:14:30.400 --> 01:14:30.820
Ach ja,

01:14:31.300 --> 01:14:31.940
aber,

01:14:31.940 --> 01:14:32.740
aber im Grunde,

01:14:32.840 --> 01:14:33.680
so könnte man halt,

01:14:34.540 --> 01:14:35.180
man kann halt,

01:14:35.540 --> 01:14:35.580
äh,

01:14:35.680 --> 01:14:35.800
also,

01:14:36.180 --> 01:14:36.980
wenn man jetzt zum Beispiel,

01:14:37.220 --> 01:14:37.320
also,

01:14:37.560 --> 01:14:38.340
daher weiß ich das auch noch,

01:14:38.440 --> 01:14:38.500
ich,

01:14:39.160 --> 01:14:39.180
äh,

01:14:39.680 --> 01:14:42.120
TF-IDF-Vergleich mit einem einfachen Machine Learning-Modell,

01:14:42.180 --> 01:14:42.920
wo man halt ein paar,

01:14:43.120 --> 01:14:43.560
äh,

01:14:43.680 --> 01:14:45.220
Signale nimmt und die kombiniert,

01:14:45.260 --> 01:14:46.480
und das halt dann optimiert hat,

01:14:47.080 --> 01:14:49.620
das ist halt schon wirklich deutlich besser,

01:14:50.100 --> 01:14:50.560
und,

01:14:50.680 --> 01:14:51.000
ähm,

01:14:51.160 --> 01:14:52.660
das heißt,

01:14:52.720 --> 01:14:53.960
man kann ja relativ viel rausholen,

01:14:54.180 --> 01:14:54.480
äh,

01:14:54.560 --> 01:14:56.200
was die Qualität von Suchergebnissen angeht,

01:14:56.740 --> 01:14:58.920
und das wäre eigentlich alles gar nicht so schlimm.

01:14:59.600 --> 01:14:59.720
Na,

01:15:00.060 --> 01:15:00.360
na ja,

01:15:01.160 --> 01:15:01.660
ähm,

01:15:02.360 --> 01:15:02.680
ja,

01:15:02.800 --> 01:15:02.860
also,

01:15:02.980 --> 01:15:04.100
falls du eine neue Suchmaschine brauchst,

01:15:04.160 --> 01:15:05.040
dann sag dir einfach mal Bescheid.

01:15:06.140 --> 01:15:06.460
Ja,

01:15:06.500 --> 01:15:08.620
das ist halt dummerweise auch irgendwie nicht so ganz so super,

01:15:08.680 --> 01:15:09.060
äh,

01:15:09.140 --> 01:15:09.900
leistungsvoll mit Tiana,

01:15:10.140 --> 01:15:11.640
das kann man auch nicht so an einem Wochenende machen.

01:15:12.820 --> 01:15:13.100
Na ja,

01:15:13.500 --> 01:15:13.740
aber,

01:15:13.880 --> 01:15:14.180
ähm,

01:15:14.320 --> 01:15:14.460
also,

01:15:14.540 --> 01:15:14.780
ich glaube,

01:15:14.900 --> 01:15:15.400
wenn man jetzt,

01:15:15.600 --> 01:15:15.980
äh,

01:15:16.380 --> 01:15:16.880
äh,

01:15:17.320 --> 01:15:18.920
beispielsweise Postgres nimmt oder so,

01:15:19.160 --> 01:15:19.460
und,

01:15:19.640 --> 01:15:20.720
äh,

01:15:20.780 --> 01:15:21.020
halt,

01:15:21.160 --> 01:15:21.480
irgendwie,

01:15:22.500 --> 01:15:22.780
Django,

01:15:23.120 --> 01:15:23.600
und dann,

01:15:23.820 --> 01:15:24.200
äh,

01:15:24.560 --> 01:15:25.440
Volltextsuche drauf macht,

01:15:25.540 --> 01:15:26.000
und dann halt,

01:15:26.420 --> 01:15:28.240
kann man natürlich auch die eingebaute Rank-Funktion nehmen,

01:15:28.300 --> 01:15:29.940
die halt auch was TF-IDF-Methods macht.

01:15:30.000 --> 01:15:30.140
Und,

01:15:30.140 --> 01:15:30.880
und Redis dazu.

01:15:32.000 --> 01:15:32.360
Äh,

01:15:32.440 --> 01:15:32.640
ja,

01:15:32.700 --> 01:15:33.000
Redis,

01:15:33.140 --> 01:15:33.400
äh,

01:15:33.460 --> 01:15:35.580
oder man kann auch mal Redis ausprobieren,

01:15:35.680 --> 01:15:36.140
muss ich mal,

01:15:36.200 --> 01:15:36.740
muss ich mal testen.

01:15:37.320 --> 01:15:37.680
Äh,

01:15:38.800 --> 01:15:40.120
dann ist man da schon,

01:15:40.680 --> 01:15:41.320
wenn man jetzt was,

01:15:41.700 --> 01:15:42.760
wenn man das nochmal selber sortiert,

01:15:42.860 --> 01:15:43.040
äh,

01:15:43.040 --> 01:15:43.900
schon relativ weit vorne,

01:15:43.900 --> 01:15:44.760
wenn man das dann richtig macht,

01:15:44.820 --> 01:15:44.940
ja.

01:15:46.180 --> 01:15:46.540
Genau.

01:15:47.300 --> 01:15:47.660
Ja,

01:15:47.660 --> 01:15:47.800
ich glaube,

01:15:47.980 --> 01:15:48.620
du hast eine Sache,

01:15:48.840 --> 01:15:50.100
irgendwas mit dem PAU,

01:15:50.420 --> 01:15:50.920
irgendwas gesagt,

01:15:51.020 --> 01:15:51.100
da hat,

01:15:51.160 --> 01:15:52.420
du wolltest nur kurz drauf eingehen,

01:15:52.480 --> 01:15:52.940
ich weiß jetzt nicht,

01:15:52.980 --> 01:15:53.660
ob das noch wichtig ist,

01:15:53.740 --> 01:15:53.960
ob das,

01:15:54.120 --> 01:15:55.060
oder jeder schon vergessen hat.

01:15:56.320 --> 01:15:56.720
Ähm,

01:15:56.940 --> 01:15:57.200
PAU,

01:15:57.280 --> 01:15:57.420
PAU,

01:15:57.420 --> 01:15:58.140
irgendeine Methode,

01:15:59.180 --> 01:15:59.800
zum Ranken,

01:16:01.300 --> 01:16:02.080
ähm,

01:16:03.740 --> 01:16:04.300
was ist,

01:16:04.400 --> 01:16:04.480
äh,

01:16:04.480 --> 01:16:05.200
die exponentielle,

01:16:05.740 --> 01:16:06.860
der,

01:16:07.920 --> 01:16:08.960
du meinst die Potenzmenge,

01:16:09.140 --> 01:16:09.320
also,

01:16:09.480 --> 01:16:10.080
du meinst,

01:16:10.200 --> 01:16:10.300
äh,

01:16:10.300 --> 01:16:10.560
ja,

01:16:11.280 --> 01:16:12.740
äh,

01:16:12.840 --> 01:16:13.140
ich glaube,

01:16:13.200 --> 01:16:13.400
das hat,

01:16:13.600 --> 01:16:13.880
also,

01:16:14.000 --> 01:16:14.380
das halt,

01:16:14.520 --> 01:16:14.720
äh,

01:16:14.760 --> 01:16:14.900
ja,

01:16:15.020 --> 01:16:15.140
also,

01:16:15.360 --> 01:16:16.100
kommt drauf an,

01:16:16.200 --> 01:16:17.460
ist halt unterschiedlich für jede,

01:16:17.740 --> 01:16:19.160
ähm,

01:16:20.180 --> 01:16:20.460
Seite,

01:16:20.560 --> 01:16:21.020
oder für jede Suchmaschine,

01:16:21.020 --> 01:16:22.420
hängt halt von,

01:16:22.580 --> 01:16:23.520
ab welcher Anfragenstelle,

01:16:23.600 --> 01:16:24.220
aber was man oft sieht,

01:16:24.260 --> 01:16:24.500
ist halt,

01:16:24.560 --> 01:16:25.920
dass eine kleine Anzahl von Anfragen,

01:16:26.660 --> 01:16:27.460
kleine Menge von Anfragen,

01:16:27.540 --> 01:16:28.020
Großteil,

01:16:28.840 --> 01:16:28.980
also,

01:16:29.160 --> 01:16:31.180
eine kleine Anzahl unterschiedlicher Anfragen,

01:16:31.240 --> 01:16:31.540
macht dann Großteil,

01:16:31.540 --> 01:16:32.020
Entschuldigung,

01:16:32.080 --> 01:16:34.080
das hattest du doch tatsächlich schon einigermaßen erwähnt,

01:16:34.120 --> 01:16:34.200
ja.

01:16:34.260 --> 01:16:34.880
Das ist das,

01:16:35.060 --> 01:16:35.540
äh,

01:16:35.640 --> 01:16:35.820
genau,

01:16:35.940 --> 01:16:36.080
genau,

01:16:36.180 --> 01:16:37.140
das Problem hat man auch.

01:16:37.640 --> 01:16:37.780
Ja,

01:16:37.840 --> 01:16:38.280
ansonsten,

01:16:38.360 --> 01:16:38.820
ich weiß nicht,

01:16:38.960 --> 01:16:39.100
äh,

01:16:39.100 --> 01:16:39.220
was,

01:16:39.340 --> 01:16:39.460
äh,

01:16:39.500 --> 01:16:39.840
oder genau,

01:16:39.960 --> 01:16:41.480
wir hatten ja so SEO schon so ein bisschen,

01:16:41.760 --> 01:16:41.940
aber,

01:16:42.080 --> 01:16:42.360
äh,

01:16:42.420 --> 01:16:42.560
da,

01:16:42.560 --> 01:16:43.800
da würde ich auch noch gerne,

01:16:44.080 --> 01:16:44.200
also,

01:16:44.240 --> 01:16:44.980
was man halt da,

01:16:45.540 --> 01:16:45.480
äh,

01:16:45.480 --> 01:16:46.720
du sagst Content,

01:16:46.920 --> 01:16:47.380
das klingt ja aber,

01:16:47.620 --> 01:16:48.100
genau,

01:16:48.340 --> 01:16:48.440
die,

01:16:48.700 --> 01:16:48.900
das,

01:16:49.040 --> 01:16:49.860
was sich Leute oft nicht,

01:16:50.060 --> 01:16:51.040
äh,

01:16:51.100 --> 01:16:51.560
klar machen,

01:16:51.640 --> 01:16:52.040
ist halt,

01:16:52.280 --> 01:16:52.680
ähm,

01:16:53.800 --> 01:16:54.000
was,

01:16:54.000 --> 01:16:54.800
was das heißt,

01:16:55.220 --> 01:16:55.960
würdest du sagen,

01:16:56.060 --> 01:16:57.180
jetzt geht darum,

01:16:57.480 --> 01:16:57.840
ähm,

01:16:58.000 --> 01:16:58.980
die optimale,

01:16:59.120 --> 01:17:00.880
den optimalen Text zu schreiben für irgendeine,

01:17:02.000 --> 01:17:02.520
ich glaube es,

01:17:02.640 --> 01:17:02.960
ähm,

01:17:03.000 --> 01:17:04.280
oder wie würdest du sagen,

01:17:04.420 --> 01:17:04.900
was ist das,

01:17:05.060 --> 01:17:06.180
was Content gut macht?

01:17:06.600 --> 01:17:06.760
Also,

01:17:06.760 --> 01:17:07.140
ich würde sagen,

01:17:07.180 --> 01:17:08.000
Content macht gut,

01:17:08.120 --> 01:17:08.440
dass man,

01:17:09.100 --> 01:17:09.380
zumindest,

01:17:09.500 --> 01:17:10.400
wenn man Google fragt,

01:17:10.840 --> 01:17:11.700
dass man Absätze hat,

01:17:11.740 --> 01:17:13.000
die tatsächlich mit Inhalten gefüllt sind,

01:17:13.060 --> 01:17:14.760
die halt eine Wortdiversität,

01:17:15.360 --> 01:17:15.400
äh,

01:17:15.400 --> 01:17:16.620
beinhalten,

01:17:16.740 --> 01:17:18.240
die zu dem Thema einigermaßen passt,

01:17:18.800 --> 01:17:19.000
ja,

01:17:19.080 --> 01:17:19.420
dass halt,

01:17:19.500 --> 01:17:20.400
dass die Worte da,

01:17:20.520 --> 01:17:22.520
irgendwie schon einen Kontextbezug zu haben,

01:17:22.580 --> 01:17:23.360
dass die vielleicht auch,

01:17:23.860 --> 01:17:24.800
bestimmte Dinge beschreiben,

01:17:24.860 --> 01:17:26.260
dass man halt nicht immer irgendwelche Keywords benutzt,

01:17:26.320 --> 01:17:26.400
ja,

01:17:26.460 --> 01:17:26.600
sondern,

01:17:26.740 --> 01:17:27.680
dass man halt tatsächlich versucht,

01:17:27.720 --> 01:17:28.580
einen Text so darzustellen,

01:17:28.960 --> 01:17:29.920
und Google hat es irgendwie geschafft,

01:17:29.960 --> 01:17:30.900
so ein Maß dafür zu finden,

01:17:31.000 --> 01:17:31.900
ob so ein Text tatsächlich,

01:17:32.020 --> 01:17:32.860
gut ist,

01:17:33.200 --> 01:17:33.720
ja,

01:17:33.780 --> 01:17:34.540
in dem Sinne oder nicht,

01:17:34.980 --> 01:17:35.840
und wenn man da halt,

01:17:35.840 --> 01:17:37.120
ich weiß nicht,

01:17:37.160 --> 01:17:38.800
mehrere Seiten vielleicht zu hat,

01:17:38.920 --> 01:17:39.480
zu seinem Post,

01:17:39.660 --> 01:17:42.080
dann wird das als guter Content irgendwie bewertet.

01:17:42.180 --> 01:17:43.620
Ich kenne tatsächlich jetzt auch nicht im Detail,

01:17:43.700 --> 01:17:44.380
so die Bewertung für,

01:17:44.480 --> 01:17:45.300
was ist jetzt guter Content,

01:17:45.500 --> 01:17:46.900
und das bewegt sich vielleicht noch ein bisschen,

01:17:47.080 --> 01:17:49.100
und ob man das jetzt alles schön mit Bildern machen muss,

01:17:49.160 --> 01:17:49.940
mit Alttexten und so,

01:17:50.720 --> 01:17:50.820
ne,

01:17:50.880 --> 01:17:51.780
dass man halt dann,

01:17:51.880 --> 01:17:54.800
das qualitativ hochwertig implementiert hat,

01:17:54.880 --> 01:17:55.740
also die Implementierung ist,

01:17:55.840 --> 01:17:55.960
glaube ich,

01:17:55.960 --> 01:17:56.700
auch nicht ganz unwichtig,

01:17:57.300 --> 01:17:58.100
und wenn man das aber,

01:17:58.240 --> 01:17:58.600
glaube ich,

01:17:58.680 --> 01:17:59.600
wenigstens so tut,

01:17:59.660 --> 01:18:01.380
als hätte man das qualitativ hochwertig implementiert,

01:18:01.440 --> 01:18:02.240
indem man einigermaßen,

01:18:02.320 --> 01:18:03.240
so taktisch sinnvolle Sätze,

01:18:03.640 --> 01:18:04.600
zu einem Thema hinschreibt,

01:18:04.600 --> 01:18:05.700
die dann auch so aussehen,

01:18:05.780 --> 01:18:06.480
als gehören die zum Thema,

01:18:06.640 --> 01:18:07.660
weil die halt da mit dem,

01:18:08.100 --> 01:18:08.240
ne,

01:18:08.400 --> 01:18:08.740
TF,

01:18:08.820 --> 01:18:09.080
RDF,

01:18:09.160 --> 01:18:10.520
hätte irgendwie dann zu dem Thema gut passen,

01:18:10.600 --> 01:18:10.820
irgendwie,

01:18:10.940 --> 01:18:11.700
gibt es dann irgendwie einen Index,

01:18:12.240 --> 01:18:12.520
dann,

01:18:12.520 --> 01:18:13.280
glaube ich,

01:18:13.300 --> 01:18:15.260
ist das schon einigermaßen ansprechender Content,

01:18:15.360 --> 01:18:16.020
zumindest für Google,

01:18:16.400 --> 01:18:17.660
und wenn man das dann halt schafft,

01:18:17.780 --> 01:18:18.280
da so eine,

01:18:18.960 --> 01:18:19.220
ja,

01:18:19.300 --> 01:18:20.240
Content-Pyramide,

01:18:20.360 --> 01:18:21.000
wie man das so sagt,

01:18:21.060 --> 01:18:21.440
aufzubauen,

01:18:21.520 --> 01:18:21.740
das heißt,

01:18:21.820 --> 01:18:22.420
zu einem Oberthema,

01:18:22.500 --> 01:18:23.860
viele verschiedene Bereiche,

01:18:23.920 --> 01:18:25.180
die eigentlich zu dem Oberthema gehören,

01:18:25.400 --> 01:18:25.500
also,

01:18:25.900 --> 01:18:27.560
vielleicht machen wir das ja mit unserem Podcast zum Beispiel,

01:18:27.700 --> 01:18:27.760
ja,

01:18:28.180 --> 01:18:30.460
dass wir halt tatsächlich verschiedene Themen zu Python haben,

01:18:30.500 --> 01:18:31.340
das aber alles Python ist,

01:18:31.340 --> 01:18:32.840
und das hat irgendwie alles einen Bezug zu Python,

01:18:33.340 --> 01:18:33.620
dann,

01:18:33.720 --> 01:18:36.720
kommen wir tatsächlich in dieser Content-Pyramide Python,

01:18:37.080 --> 01:18:38.340
immer wieder ein Stück weiter oben,

01:18:38.420 --> 01:18:38.740
nach oben,

01:18:38.860 --> 01:18:39.900
natürlich haben wir jetzt keine Texte,

01:18:39.940 --> 01:18:40.940
die man so analysieren kann,

01:18:41.000 --> 01:18:41.600
per Volltextsuche,

01:18:42.040 --> 01:18:42.500
und nachdem man,

01:18:42.520 --> 01:18:42.960
und winken kann,

01:18:43.060 --> 01:18:44.120
und wir haben halt nur irgendwelche Snippets,

01:18:44.140 --> 01:18:44.640
oder Sonos,

01:18:44.720 --> 01:18:45.520
mit denen man das tun kann,

01:18:45.940 --> 01:18:46.220
aber,

01:18:46.380 --> 01:18:47.560
ich glaube so,

01:18:48.220 --> 01:18:48.400
also,

01:18:48.600 --> 01:18:49.460
das funktioniert so ein bisschen,

01:18:49.580 --> 01:18:50.640
so was halt Content bedeutet.

01:18:52.060 --> 01:18:52.300
Ja,

01:18:52.460 --> 01:18:53.200
aber das ist jetzt auch,

01:18:53.340 --> 01:18:54.160
würde ich eher sagen,

01:18:54.420 --> 01:18:54.840
sehr auf der,

01:18:54.960 --> 01:18:55.860
auf einer sehr technischen,

01:18:56.160 --> 01:18:57.680
Ebene,

01:18:58.100 --> 01:18:58.240
ja,

01:18:58.400 --> 01:19:00.560
und,

01:19:00.720 --> 01:19:01.820
man kann,

01:19:01.960 --> 01:19:02.180
glaube ich,

01:19:02.200 --> 01:19:02.460
aber auch,

01:19:02.560 --> 01:19:02.660
also,

01:19:02.740 --> 01:19:03.060
ich würde sagen,

01:19:03.160 --> 01:19:03.320
okay,

01:19:03.560 --> 01:19:03.660
also,

01:19:03.740 --> 01:19:05.040
der technische Teil ist,

01:19:05.540 --> 01:19:07.680
macht auch einen nicht unerheblichen Teil aus,

01:19:07.760 --> 01:19:07.840
also,

01:19:07.840 --> 01:19:09.180
man kann halt auch furchtbare Fehler machen,

01:19:10.060 --> 01:19:10.380
aber,

01:19:10.660 --> 01:19:12.400
ein großer,

01:19:12.520 --> 01:19:13.060
anderer Teil,

01:19:13.060 --> 01:19:14.300
ist halt auch ein inhaltlicher,

01:19:14.680 --> 01:19:15.580
und der ist halt eben,

01:19:15.680 --> 01:19:15.920
zum Beispiel,

01:19:16.280 --> 01:19:16.380
also,

01:19:16.460 --> 01:19:17.080
was dann eben,

01:19:17.360 --> 01:19:18.540
ich bin überrascht,

01:19:19.120 --> 01:19:20.800
man kann zum Beispiel auch,

01:19:20.800 --> 01:19:22.060
unterschiedliche Seiten haben,

01:19:22.120 --> 01:19:23.160
für unterschiedliche Anfragen,

01:19:23.260 --> 01:19:24.140
und für unterschiedliche User,

01:19:24.460 --> 01:19:25.100
man muss halt erstmal,

01:19:25.300 --> 01:19:26.040
überhaupt rauskriegen,

01:19:26.120 --> 01:19:26.780
was sind das für Leute,

01:19:26.860 --> 01:19:27.620
die auf meine Seite kommen,

01:19:27.940 --> 01:19:28.880
und möglicherweise gibt es da,

01:19:29.000 --> 01:19:29.880
unterschiedliche Leute,

01:19:30.020 --> 01:19:30.740
möglicherweise stellen die,

01:19:30.800 --> 01:19:31.760
unterschiedliche Suchanfragen,

01:19:32.200 --> 01:19:32.820
und dann kann das zum Beispiel,

01:19:33.140 --> 01:19:34.340
gut sein,

01:19:34.460 --> 01:19:34.520
ich,

01:19:34.680 --> 01:19:35.160
das ist auch etwas,

01:19:35.420 --> 01:19:36.600
das kennen bestimmt viele Leute,

01:19:36.740 --> 01:19:37.040
wenn man,

01:19:37.260 --> 01:19:38.080
man sucht nach irgendwas,

01:19:38.280 --> 01:19:38.760
dann ist,

01:19:39.100 --> 01:19:39.920
landet man auf einer Seite,

01:19:39.940 --> 01:19:40.460
von irgendeiner Firma,

01:19:40.460 --> 01:19:41.180
die irgendwas anbietet,

01:19:41.320 --> 01:19:41.600
oder so,

01:19:42.520 --> 01:19:44.100
und scrollt da die ganze Zeit rum,

01:19:44.160 --> 01:19:44.540
und denkt sich so,

01:19:44.580 --> 01:19:46.060
was wollen die mir eigentlich erzählen,

01:19:46.260 --> 01:19:47.320
was wollen die mir jetzt wieder anbieten,

01:19:47.400 --> 01:19:48.880
fünf Stockfotos,

01:19:49.020 --> 01:19:49.580
und dann irgendwie,

01:19:49.660 --> 01:19:50.120
die gleichen,

01:19:50.620 --> 01:19:51.420
Buzzword,

01:19:51.520 --> 01:19:51.760
Bingo,

01:19:51.880 --> 01:19:52.060
Dinger,

01:19:52.200 --> 01:19:53.180
die auf allen Seiten sind,

01:19:53.300 --> 01:19:53.580
und ich,

01:19:54.000 --> 01:19:56.200
scroll da eine Viertelstunde drauf rum,

01:19:56.340 --> 01:19:57.360
und ich verstehe nicht,

01:19:57.480 --> 01:19:58.780
was das eigentlich ist,

01:19:59.220 --> 01:19:59.380
was,

01:19:59.660 --> 01:19:59.800
ja,

01:19:59.880 --> 01:20:00.880
das hat man,

01:20:00.920 --> 01:20:01.420
hat man oft,

01:20:01.540 --> 01:20:03.560
aber die Frage ist,

01:20:03.660 --> 01:20:04.760
warum müssen die eigentlich,

01:20:04.860 --> 01:20:06.240
allen die gleiche Landingpage zeigen,

01:20:06.320 --> 01:20:07.140
das müssen die doch gar nicht,

01:20:07.520 --> 01:20:07.680
ja,

01:20:07.800 --> 01:20:08.820
aber das kommt dabei raus,

01:20:08.860 --> 01:20:09.360
wenn du sagst,

01:20:09.760 --> 01:20:09.940
okay,

01:20:09.940 --> 01:20:10.960
ich mache eine Landingpage,

01:20:11.120 --> 01:20:12.360
für alle die gleiche,

01:20:12.520 --> 01:20:13.260
dann,

01:20:13.260 --> 01:20:14.560
kriegst du halt sowas,

01:20:14.800 --> 01:20:16.100
aber das müsste eigentlich,

01:20:16.200 --> 01:20:16.560
gar nicht sein,

01:20:16.640 --> 01:20:16.980
sondern das,

01:20:17.080 --> 01:20:18.100
was sie sich überlegen müssten,

01:20:18.140 --> 01:20:18.440
ist halt,

01:20:18.920 --> 01:20:19.060
okay,

01:20:19.140 --> 01:20:19.580
wenn jetzt jemand,

01:20:19.760 --> 01:20:20.740
nach bestimmten technischen,

01:20:20.840 --> 01:20:23.340
Geschichten sucht,

01:20:24.400 --> 01:20:24.580
dann,

01:20:24.760 --> 01:20:26.380
geben wir dem,

01:20:26.520 --> 01:20:26.640
doch,

01:20:26.740 --> 01:20:28.420
ja,

01:20:28.700 --> 01:20:31.380
geben wir dem vielleicht,

01:20:31.380 --> 01:20:31.840
doch eine Seite,

01:20:32.020 --> 01:20:32.940
wo tatsächlich steht,

01:20:33.000 --> 01:20:33.400
was wir machen,

01:20:33.600 --> 01:20:34.120
und wenn jetzt,

01:20:34.420 --> 01:20:34.820
irgendwie,

01:20:34.900 --> 01:20:35.280
keine Ahnung,

01:20:35.360 --> 01:20:36.580
eher ein Business orientierter,

01:20:37.620 --> 01:20:39.420
User halt,

01:20:39.420 --> 01:20:39.800
nach den,

01:20:39.880 --> 01:20:41.140
nach den üblichen Buzzwords sucht,

01:20:41.180 --> 01:20:41.400
oder so,

01:20:41.460 --> 01:20:41.720
den gut,

01:20:41.760 --> 01:20:42.500
dem kannst du ja dann vielleicht,

01:20:42.520 --> 01:20:42.760
irgendwie,

01:20:42.880 --> 01:20:43.640
vielleicht kriegst du den,

01:20:43.760 --> 01:20:43.980
irgendwie,

01:20:44.100 --> 01:20:45.720
mit Stockfotos glücklich gemacht.

01:20:45.820 --> 01:20:46.220
Ich weiß auch nicht,

01:20:46.220 --> 01:20:46.440
warum,

01:20:46.580 --> 01:20:46.680
aber,

01:20:46.700 --> 01:20:47.920
das führt überhaupt dazu,

01:20:48.000 --> 01:20:49.560
dass wir diese Datenkrake brauchen,

01:20:49.700 --> 01:20:50.960
wenn wir damit Geld verdienen wollen.

01:20:51.040 --> 01:20:51.820
Das ist der Grund dafür,

01:20:51.900 --> 01:20:53.480
warum man so sehr interessiert ist,

01:20:53.500 --> 01:20:54.520
an dem Typen von Nutzer,

01:20:54.580 --> 01:20:55.640
den man jetzt da vor der Kiste hat,

01:20:55.700 --> 01:20:55.900
weil,

01:20:56.260 --> 01:20:57.140
es geht ja eigentlich darum,

01:20:57.200 --> 01:20:57.980
dass man den irgendwie,

01:20:58.240 --> 01:20:59.240
emotionalisiert,

01:20:59.300 --> 01:20:59.620
und nicht nur,

01:20:59.700 --> 01:21:00.880
dass man dem den tollen Content teilt,

01:21:01.200 --> 01:21:01.340
sondern,

01:21:01.480 --> 01:21:02.160
dass man den dann,

01:21:02.300 --> 01:21:02.440
also,

01:21:02.640 --> 01:21:04.300
wenn wir jetzt von der ganzen Geldmaschine ausgehen,

01:21:04.300 --> 01:21:04.900
den dazu bringt,

01:21:05.040 --> 01:21:05.920
dass er irgendwas kaufen soll.

01:21:06.380 --> 01:21:07.800
Wenn der schöne Kapitalismus halt so ist,

01:21:07.860 --> 01:21:08.300
der möchte dich emotionalisieren,

01:21:08.300 --> 01:21:09.960
und dir jetzt darfst zeigen,

01:21:10.040 --> 01:21:10.400
was du willst.

01:21:10.700 --> 01:21:10.980
Ja,

01:21:11.360 --> 01:21:12.120
weil ich kann,

01:21:12.200 --> 01:21:12.520
ich weiß nicht,

01:21:12.640 --> 01:21:13.560
aber ich meine jetzt,

01:21:13.640 --> 01:21:15.320
um rein aus dem Suchmaschinen-Kontext,

01:21:15.480 --> 01:21:15.700
äh,

01:21:16.000 --> 01:21:17.520
was man jetzt damit macht,

01:21:17.580 --> 01:21:18.500
ist ja nochmal eine andere Frage.

01:21:18.640 --> 01:21:18.800
Klar,

01:21:19.360 --> 01:21:21.060
will ich eventuell Leute hinterher,

01:21:21.180 --> 01:21:21.580
äh,

01:21:21.780 --> 01:21:22.380
will ich da irgendwie,

01:21:22.800 --> 01:21:23.860
die konvertieren zu was auch immer,

01:21:23.980 --> 01:21:24.820
Umsatz, äh.

01:21:25.260 --> 01:21:26.380
Die konvertieren zu,

01:21:26.580 --> 01:21:27.440
das ist total schön,

01:21:27.520 --> 01:21:28.200
wenn man von Leuten redet,

01:21:28.260 --> 01:21:29.120
wir möchten die gerne konvertieren.

01:21:29.340 --> 01:21:31.200
Wir möchten unsere Hörer übrigens konvertieren,

01:21:31.200 --> 01:21:32.860
zu besseren Pythonistas.

01:21:34.360 --> 01:21:34.800
Genau,

01:21:34.900 --> 01:21:35.460
man muss sich halt überlegen,

01:21:35.520 --> 01:21:37.420
was man für Ziele eigentlich erreichen will,

01:21:37.940 --> 01:21:38.200
aber,

01:21:38.300 --> 01:21:38.540
äh,

01:21:38.660 --> 01:21:39.840
damit das überhaupt funktionieren kann,

01:21:39.900 --> 01:21:40.900
damit ich überhaupt die Chance kriege,

01:21:41.100 --> 01:21:41.380
äh,

01:21:41.720 --> 01:21:42.860
muss ich ja irgendwie,

01:21:43.400 --> 01:21:43.620
vielleicht,

01:21:43.820 --> 01:21:45.400
oder macht es vielleicht in den Leuten halt,

01:21:45.800 --> 01:21:46.640
etwas zu zeigen,

01:21:46.680 --> 01:21:47.760
was sie dann halt auch verwenden können,

01:21:47.860 --> 01:21:48.440
was sie verstehen können,

01:21:48.480 --> 01:21:49.620
was relevant für sie ist,

01:21:49.680 --> 01:21:49.760
ja,

01:21:49.800 --> 01:21:50.800
und das passiert oft nicht,

01:21:51.240 --> 01:21:52.480
sondern ganz oft,

01:21:52.560 --> 01:21:53.540
ist es halt so,

01:21:53.640 --> 01:21:54.540
alle kriegen das Gleiche,

01:21:54.720 --> 01:21:54.960
egal,

01:21:55.360 --> 01:21:56.100
wonach sie gesucht haben,

01:21:56.160 --> 01:21:56.340
dabei,

01:21:57.360 --> 01:21:58.140
das weiß ich doch,

01:21:58.160 --> 01:21:58.840
wonach sie gesucht haben,

01:21:58.840 --> 01:22:00.260
ich muss ja jetzt nicht irgendwie wissen,

01:22:00.380 --> 01:22:00.720
wer das ist,

01:22:00.820 --> 01:22:01.620
das interessiert mich gar nicht.

01:22:02.000 --> 01:22:02.600
Ich weiß doch,

01:22:02.680 --> 01:22:03.400
wonach die gesucht haben,

01:22:03.480 --> 01:22:03.560
ja,

01:22:03.660 --> 01:22:05.180
warum zeige ich denen alle das Gleiche,

01:22:05.260 --> 01:22:05.920
das macht überhaupt keinen Sinn.

01:22:06.560 --> 01:22:06.860
Aber,

01:22:06.860 --> 01:22:07.920
es gibt die Vorstellung,

01:22:08.120 --> 01:22:09.180
dass das halt so sein muss,

01:22:09.400 --> 01:22:10.280
woher auch immer die kommt,

01:22:11.000 --> 01:22:11.220
und,

01:22:11.300 --> 01:22:11.860
ähm,

01:22:12.100 --> 01:22:13.400
dass es halt dann so ein,

01:22:13.460 --> 01:22:13.640
eben,

01:22:13.720 --> 01:22:14.620
technisches Ding ist,

01:22:15.360 --> 01:22:16.080
welche Farbe,

01:22:16.180 --> 01:22:16.460
äh,

01:22:16.460 --> 01:22:16.900
nehme ich da,

01:22:16.980 --> 01:22:17.880
oder welche Fotos,

01:22:17.940 --> 01:22:19.260
wie ist der Anteil von Fotos zu Text,

01:22:19.600 --> 01:22:20.720
dass das dann irgendwie gut macht,

01:22:20.780 --> 01:22:21.020
aber das,

01:22:21.560 --> 01:22:22.360
wenn da nicht steht,

01:22:22.460 --> 01:22:22.720
äh,

01:22:22.760 --> 01:22:23.540
was mich interessiert,

01:22:23.640 --> 01:22:25.100
dann kriege ich das nicht wieder gut gemacht,

01:22:25.160 --> 01:22:26.000
durch irgendeine Farbe,

01:22:26.100 --> 01:22:26.720
das ist einfach,

01:22:27.260 --> 01:22:27.380
das,

01:22:27.520 --> 01:22:28.760
da hast du mich schon verloren,

01:22:28.880 --> 01:22:29.220
im Grunde.

01:22:29.280 --> 01:22:29.420
Also,

01:22:29.480 --> 01:22:29.580
das,

01:22:29.660 --> 01:22:30.540
was du gerade gesagt hast,

01:22:30.580 --> 01:22:30.680
ist,

01:22:30.680 --> 01:22:32.940
dass der Content King eigentlich bedeuten sollte,

01:22:33.040 --> 01:22:33.780
ich kriege genau das,

01:22:33.920 --> 01:22:34.260
was ich möchte,

01:22:34.260 --> 01:22:36.040
weil es so prä-invertisiert,

01:22:36.340 --> 01:22:37.120
und gefiltert ist,

01:22:37.180 --> 01:22:38.920
dass deine eigene Blase so gut zu dir passt,

01:22:39.020 --> 01:22:40.120
dass du da genau das findest,

01:22:40.180 --> 01:22:40.720
was du machst.

01:22:41.140 --> 01:22:41.340
Das ist,

01:22:41.440 --> 01:22:41.580
nein,

01:22:41.700 --> 01:22:43.000
es müsste sich jemand Gedanken drüber gemacht haben,

01:22:43.240 --> 01:22:44.420
das ist halt das Entscheidende,

01:22:44.480 --> 01:22:44.880
jemand muss sich,

01:22:45.240 --> 01:22:45.620
zum Beispiel,

01:22:45.680 --> 01:22:46.180
angeguckt haben,

01:22:46.200 --> 01:22:48.300
Also bessere Kuratierung durch den Suchalgorithmus.

01:22:49.120 --> 01:22:49.280
Nee.

01:22:50.620 --> 01:22:52.180
Jemand sollte sich überlegt haben,

01:22:52.640 --> 01:22:52.860
zum Beispiel,

01:22:53.040 --> 01:22:55.020
wir sind das Dokument nicht,

01:22:55.120 --> 01:22:55.740
wir sind die Suchmaschine,

01:22:56.720 --> 01:22:57.260
was Google macht,

01:22:57.280 --> 01:22:57.900
ist nochmal ein anderes Ding,

01:22:58.000 --> 01:22:58.080
aber,

01:22:59.620 --> 01:22:59.760
ne,

01:22:59.860 --> 01:23:01.120
es müsste sich jemand überlegt haben,

01:23:01.240 --> 01:23:01.400
okay,

01:23:01.460 --> 01:23:02.340
wonach suchen die Leute,

01:23:03.280 --> 01:23:04.240
wenn die Leute auf der Seite landen,

01:23:04.240 --> 01:23:04.240


01:23:04.240 --> 01:23:04.240


01:23:04.240 --> 01:23:04.240


01:23:04.240 --> 01:23:04.240


01:23:04.240 --> 01:23:05.040
wonach haben die gesucht,

01:23:05.140 --> 01:23:05.760
ist das wirklich das,

01:23:05.880 --> 01:23:06.240
was sie suchen?

01:23:07.280 --> 01:23:08.840
Wenn sie danach gesucht haben,

01:23:08.940 --> 01:23:09.520
kriegen die Seite,

01:23:10.180 --> 01:23:10.840
wäre es nicht sinnvoll,

01:23:10.880 --> 01:23:11.920
ihnen eine andere Seite zu zeigen?

01:23:13.200 --> 01:23:13.300
Ja,

01:23:13.440 --> 01:23:14.020
solche Sachen.

01:23:15.180 --> 01:23:16.440
Das ist überhaupt so etwas,

01:23:16.720 --> 01:23:16.720


01:23:16.960 --> 01:23:17.860
was ich glaube,

01:23:17.940 --> 01:23:19.000
was tatsächlich sehr sinnvoll wäre,

01:23:19.060 --> 01:23:19.540
unter Umständen,

01:23:19.640 --> 01:23:20.240
dass halt Unternehmen,

01:23:21.180 --> 01:23:22.460
halt für unterschiedliche Zielgruppen,

01:23:22.520 --> 01:23:23.140
unterschiedliche Leute,

01:23:23.680 --> 01:23:24.560
unterschiedliche Suchanfragen,

01:23:24.680 --> 01:23:25.560
unterschiedliche Seiten haben,

01:23:25.680 --> 01:23:26.640
das gibt es praktisch nicht,

01:23:26.760 --> 01:23:28.020
weil irgendwie die Vorstellung ist,

01:23:28.960 --> 01:23:30.940
das ist wie in einer physikalischen Welt,

01:23:31.020 --> 01:23:32.100
du hast halt ein Schaufenster,

01:23:32.140 --> 01:23:33.160
und das ist halt für alle gleich,

01:23:33.160 --> 01:23:34.220
aber das muss man,

01:23:34.240 --> 01:23:35.020
ja gar nicht so machen,

01:23:35.120 --> 01:23:35.600
unter Umständen,

01:23:35.680 --> 01:23:35.820
also,

01:23:36.380 --> 01:23:37.800
aber das ist halt sehr schwer zu vermitteln,

01:23:38.040 --> 01:23:39.820
aber wenn du jetzt zum SEO gehst,

01:23:39.900 --> 01:23:41.140
der so die Content-Strategie macht,

01:23:41.200 --> 01:23:41.440
oder so,

01:23:41.500 --> 01:23:42.620
dann sagt er dir vielleicht einfach,

01:23:42.880 --> 01:23:43.080
boah,

01:23:43.460 --> 01:23:44.220
kann das auch anders machen,

01:23:44.980 --> 01:23:45.780
aber wenn du jetzt zum,

01:23:45.980 --> 01:23:48.380
zu einer technischen SEO-Agentur gehst,

01:23:48.420 --> 01:23:48.820
die dir sagt,

01:23:48.940 --> 01:23:49.120
okay,

01:23:49.200 --> 01:23:50.280
ich verkaufe dir so und so viel Backlinks,

01:23:50.440 --> 01:23:52.520
dann hilft dir das,

01:23:52.760 --> 01:23:52.900
also,

01:23:53.140 --> 01:23:53.480
sagen wir mal so,

01:23:53.580 --> 01:23:54.700
es gibt halt nicht nur den technischen Teil,

01:23:54.780 --> 01:23:56.820
sondern halt auch den inhaltlichen Teil,

01:23:56.920 --> 01:23:57.960
und der wird halt,

01:23:58.040 --> 01:23:58.940
der inhaltliche Teil wird,

01:23:59.420 --> 01:24:00.280
soweit ich hinweise,

01:24:00.640 --> 01:24:01.460
üblicherweise mitbekomme,

01:24:01.600 --> 01:24:02.560
immer sehr vernachlässigt,

01:24:02.560 --> 01:24:03.600
vernachlässigt,

01:24:03.740 --> 01:24:03.880
also,

01:24:03.960 --> 01:24:05.800
die Leute kümmern sich immer um technische Details,

01:24:05.900 --> 01:24:06.660
sondern oft auch um Sachen,

01:24:06.780 --> 01:24:07.220
die eigentlich,

01:24:08.060 --> 01:24:08.200
ja,

01:24:08.240 --> 01:24:08.780
fragwürdig sind,

01:24:09.000 --> 01:24:09.220
und,

01:24:09.260 --> 01:24:13.180
lassen halt eine ganze Menge gute Gelegenheiten einfach so liegen,

01:24:13.800 --> 01:24:14.000
ja,

01:24:14.380 --> 01:24:14.660
aber,

01:24:15.140 --> 01:24:15.580
es klingt halt,

01:24:15.620 --> 01:24:16.180
als wäre es auch,

01:24:16.280 --> 01:24:16.540
wenn nicht,

01:24:16.620 --> 01:24:17.300
das zu implementieren,

01:24:17.380 --> 01:24:17.480
ja,

01:24:17.540 --> 01:24:17.740
ist es,

01:24:18.040 --> 01:24:18.620
ist es tatsächlich,

01:24:18.780 --> 01:24:19.060
also,

01:24:19.120 --> 01:24:19.540
das ist halt auch,

01:24:19.620 --> 01:24:20.680
das ist vielleicht auch der Grund,

01:24:20.760 --> 01:24:21.440
warum das keiner macht,

01:24:21.540 --> 01:24:21.700
ja,

01:24:21.780 --> 01:24:22.020
genau,

01:24:22.020 --> 01:24:22.620
und was die Leute,

01:24:22.760 --> 01:24:23.500
die das halt implementieren,

01:24:23.640 --> 01:24:23.740
auch so,

01:24:23.780 --> 01:24:24.920
und denen halt dann die Content machen,

01:24:25.020 --> 01:24:26.520
vielleicht auch dann nicht auf dieser technischen Seite sind,

01:24:26.600 --> 01:24:27.020
beziehungsweise,

01:24:27.180 --> 01:24:27.840
dass dann,

01:24:28.280 --> 01:24:28.960
ich sage einfach mal,

01:24:28.960 --> 01:24:29.660
relativ teuer wird,

01:24:29.760 --> 01:24:30.920
und mal das zu implementieren,

01:24:31.100 --> 01:24:31.860
ja,

01:24:32.140 --> 01:24:33.660
nicht so einfach ist für die Zielgruppe,

01:24:33.760 --> 01:24:35.140
die dann gerne ihren kleinen,

01:24:35.140 --> 01:24:39.220
Straßenlädchen optimieren möchte,

01:24:39.360 --> 01:24:40.420
das vielleicht auch so ein Problem ist,

01:24:40.420 --> 01:24:40.560
ja,

01:24:40.780 --> 01:24:41.860
aber die großen Kunden,

01:24:42.020 --> 01:24:42.660
hast du das schon mal gesehen,

01:24:42.820 --> 01:24:42.920
also,

01:24:43.000 --> 01:24:43.960
dass so wirklich so diese Pages,

01:24:44.020 --> 01:24:44.540
wirklich dann,

01:24:45.180 --> 01:24:45.800
sich ändern,

01:24:46.080 --> 01:24:46.740
je nach Suchanfrage,

01:24:47.540 --> 01:24:47.760
ja,

01:24:48.560 --> 01:24:48.740
wo,

01:24:48.740 --> 01:24:48.960
nein,

01:24:49.020 --> 01:24:49.960
du packst einfach,

01:24:50.180 --> 01:24:51.160
das ist überhaupt nicht schwer,

01:24:51.500 --> 01:24:51.580
nein,

01:24:51.660 --> 01:24:51.920
ich sage nur,

01:24:52.080 --> 01:24:52.800
hast du ein Beispiel,

01:24:52.980 --> 01:24:53.560
wo du sagst,

01:24:53.660 --> 01:24:53.880
nicht,

01:24:53.880 --> 01:24:53.900
nicht,

01:24:53.900 --> 01:24:54.080
nicht,

01:24:54.080 --> 01:24:55.300
das ändert sich nach Suchanfrage,

01:24:55.620 --> 01:24:55.860
sondern,

01:24:56.060 --> 01:24:58.880
du hast halt unterschiedliche Pages im Google Index,

01:24:59.300 --> 01:25:00.420
und bei unterschiedlichen Anfragen,

01:25:00.480 --> 01:25:01.360
werden unterschiedliche Seiten gefunden,

01:25:02.060 --> 01:25:02.140
ja,

01:25:02.220 --> 01:25:02.320
okay,

01:25:02.420 --> 01:25:02.620
okay,

01:25:02.660 --> 01:25:04.100
das kannst du machen,

01:25:04.220 --> 01:25:04.820
das ist gar kein Problem,

01:25:05.000 --> 01:25:05.080
ja,

01:25:05.120 --> 01:25:05.360
das habe ich,

01:25:05.500 --> 01:25:05.680
ja,

01:25:05.740 --> 01:25:05.820
okay,

01:25:05.880 --> 01:25:06.260
das ist natürlich,

01:25:06.540 --> 01:25:06.740
ja,

01:25:08.460 --> 01:25:08.660
ja,

01:25:10.480 --> 01:25:10.780
also,

01:25:10.880 --> 01:25:13.340
man hittet quasi für jedes schöne Keyword-Kombination,

01:25:13.500 --> 01:25:14.600
seine eigene Ländepage raus,

01:25:15.000 --> 01:25:15.140
ja,

01:25:15.240 --> 01:25:15.340
oder,

01:25:15.580 --> 01:25:16.800
du musst nicht für jede Kombination,

01:25:16.840 --> 01:25:17.000
aber,

01:25:17.040 --> 01:25:17.660
du musst halt gucken,

01:25:17.900 --> 01:25:18.020
also,

01:25:18.140 --> 01:25:19.320
man würde damit anfangen zu gucken,

01:25:19.780 --> 01:25:20.880
was suchen die Leute eigentlich,

01:25:21.160 --> 01:25:21.320
welche,

01:25:21.540 --> 01:25:23.000
mit welchen Anfragen landen sie,

01:25:23.100 --> 01:25:23.220
oder,

01:25:23.620 --> 01:25:23.860
auch,

01:25:23.980 --> 01:25:25.720
wenn ich jetzt mich dafür interessiere,

01:25:25.860 --> 01:25:26.760
was würde ich denn suchen,

01:25:27.080 --> 01:25:28.300
und wie schaffe ich es dann,

01:25:28.420 --> 01:25:28.940
dass ich dann auch,

01:25:28.960 --> 01:25:29.940
dann da gerankt werde,

01:25:30.340 --> 01:25:30.860
und,

01:25:31.260 --> 01:25:31.320
dieser,

01:25:31.400 --> 01:25:31.760
dieser Schritt,

01:25:31.800 --> 01:25:32.340
das ist ja das aller,

01:25:32.520 --> 01:25:33.420
aller simpelste,

01:25:33.580 --> 01:25:34.300
dass man halt anfängt,

01:25:34.360 --> 01:25:34.800
sich zu überlegen,

01:25:34.900 --> 01:25:35.020
okay,

01:25:35.260 --> 01:25:36.520
wie kommen Leute eigentlich hin,

01:25:36.520 --> 01:25:37.420
das machen die meistens nicht,

01:25:38.020 --> 01:25:38.280
sondern,

01:25:38.680 --> 01:25:39.640
die gehen halt umgekehrt,

01:25:39.760 --> 01:25:40.700
von der Seite aus,

01:25:40.740 --> 01:25:41.340
die sie halt bauen,

01:25:42.300 --> 01:25:43.020
und sagen dann,

01:25:43.160 --> 01:25:43.300
okay,

01:25:43.360 --> 01:25:44.220
ich habe jetzt diese Seite,

01:25:45.140 --> 01:25:46.620
völlig unabhängig davon,

01:25:46.700 --> 01:25:47.580
ob das irgendjemand interessiert,

01:25:47.620 --> 01:25:47.800
oder nicht,

01:25:47.920 --> 01:25:49.260
wie kriege ich die denn jetzt hochgerankt,

01:25:50.360 --> 01:25:52.440
und dann packen sie da irgendwie komische Warte rein,

01:25:52.580 --> 01:25:52.760
oder,

01:25:52.980 --> 01:25:53.660
kaufen Links,

01:25:53.820 --> 01:25:53.960
oder,

01:25:54.080 --> 01:25:55.080
machen irgendwie seltsame Dinge,

01:25:55.640 --> 01:25:56.380
ändern die Farben,

01:25:56.900 --> 01:25:56.960
äh,

01:25:56.960 --> 01:25:58.940
verstecken weißen Text auf weißem Hintergrund,

01:25:58.960 --> 01:25:59.200
ja,

01:25:59.260 --> 01:26:00.560
oder kaufen Hellhits bei Google,

01:26:00.640 --> 01:26:00.760
oder so,

01:26:00.780 --> 01:26:01.960
und wundern sich dann,

01:26:02.060 --> 01:26:02.940
dass die Leute irgendwie,

01:26:03.040 --> 01:26:04.660
wenn sie halt quasi da landen,

01:26:04.740 --> 01:26:05.920
dann irgendwie enttäuscht sind,

01:26:06.000 --> 01:26:06.440
also,

01:26:07.100 --> 01:26:07.920
ja,

01:26:08.140 --> 01:26:08.280
ja,

01:26:08.340 --> 01:26:09.160
aber diese ganzen Tricks,

01:26:09.280 --> 01:26:10.200
also mit den Sachen verstecken,

01:26:10.240 --> 01:26:11.020
hinter weißem Hintergrund,

01:26:11.140 --> 01:26:12.360
und mit den extra Keywords,

01:26:12.420 --> 01:26:12.960
und mit den zu vielen Links,

01:26:13.020 --> 01:26:13.220
das hat,

01:26:13.320 --> 01:26:13.520
glaube ich,

01:26:13.520 --> 01:26:14.780
Google mit den ganzen neuen Pads,

01:26:14.780 --> 01:26:14.820
ja,

01:26:15.060 --> 01:26:15.160
ja,

01:26:15.160 --> 01:26:15.900
die sind da sehr gut,

01:26:16.000 --> 01:26:16.080
also,

01:26:16.180 --> 01:26:17.260
das wird alles nicht so richtig,

01:26:17.340 --> 01:26:17.560
äh,

01:26:17.560 --> 01:26:17.920
richtig funktionieren,

01:26:17.940 --> 01:26:17.980
ja,

01:26:17.980 --> 01:26:18.560
es wird sogar bestraft,

01:26:18.660 --> 01:26:18.760
also,

01:26:18.780 --> 01:26:19.960
du wirst tatsächlich abgerankt,

01:26:19.960 --> 01:26:20.520
wenn du sowas machst,

01:26:20.640 --> 01:26:20.740
also,

01:26:21.260 --> 01:26:22.140
wenn die solche Methoden finden,

01:26:22.140 --> 01:26:22.960
die können die identifizieren,

01:26:23.060 --> 01:26:23.860
dann schmeißt du dich für raus,

01:26:23.920 --> 01:26:25.140
das wird bestraft.

01:26:25.980 --> 01:26:26.520
Würde ich jetzt,

01:26:26.680 --> 01:26:27.000
finde ich,

01:26:27.760 --> 01:26:28.040
weil,

01:26:28.040 --> 01:26:28.240
weil,

01:26:28.480 --> 01:26:29.460
ich wüsste jetzt nicht genau,

01:26:29.500 --> 01:26:30.300
warum man das machen sollte,

01:26:30.420 --> 01:26:31.180
weil im Grunde ist es ja,

01:26:31.220 --> 01:26:31.420
ich würde,

01:26:31.600 --> 01:26:32.240
wenn ich Google wäre,

01:26:32.420 --> 01:26:32.960
das ignorieren,

01:26:33.040 --> 01:26:33.200
weil,

01:26:33.320 --> 01:26:33.500
nö,

01:26:33.560 --> 01:26:33.700
also,

01:26:33.840 --> 01:26:34.620
ich habe gehört,

01:26:34.660 --> 01:26:35.300
dass das tatsächlich drinsteht,

01:26:35.360 --> 01:26:35.560
ich weiß nicht,

01:26:35.600 --> 01:26:36.260
was das für Google bedeutet,

01:26:36.540 --> 01:26:36.800
oder was,

01:26:36.880 --> 01:26:38.240
ja,

01:26:38.320 --> 01:26:39.660
das ist halt nur noch Sachen gerankt,

01:26:39.700 --> 01:26:41.300
wenn die halt diesen Content-Qualitätsding

01:26:41.300 --> 01:26:42.360
besser machen können,

01:26:42.440 --> 01:26:42.680
das heißt,

01:26:42.760 --> 01:26:43.720
weil die halt auf diese Qualitätssachen

01:26:43.720 --> 01:26:44.760
und Leute,

01:26:44.940 --> 01:26:45.660
die halt dann versuchen,

01:26:45.880 --> 01:26:47.520
mit Keywords das einzubinden,

01:26:48.000 --> 01:26:49.200
die legen nicht so viel Wert

01:26:52.140 --> 01:26:53.560
und dann würdest du sagen,

01:26:53.680 --> 01:26:54.840
du kannst eine Regel aufstellen,

01:26:55.060 --> 01:26:55.640
die funktioniert,

01:26:55.780 --> 01:26:56.180
du sagst,

01:26:56.360 --> 01:26:56.560
Leute,

01:26:56.820 --> 01:26:58.500
die irgendwie so shady Geschichten machen

01:26:58.500 --> 01:26:59.480
oder die halt die falsche,

01:27:00.380 --> 01:27:02.780
sich halt von der falschen SEO-Agentur

01:27:02.780 --> 01:27:04.300
übers Ohr haben hauen lassen,

01:27:04.800 --> 01:27:07.200
die sind halt prinzipiell nicht gut.

01:27:07.600 --> 01:27:07.840
Genau.

01:27:08.820 --> 01:27:09.340
Da weiß ich nicht,

01:27:09.420 --> 01:27:10.200
ob diese Regel wirklich stimmt,

01:27:10.300 --> 01:27:12.500
ich würde tatsächlich das eher

01:27:12.500 --> 01:27:14.260
dann aus Trainingsdaten lernen lassen,

01:27:14.580 --> 01:27:15.540
ob das so ist oder nicht,

01:27:15.660 --> 01:27:17.940
weil diese Annahme muss ja nicht richtig sein.

01:27:18.140 --> 01:27:18.620
Es kann ja sein,

01:27:18.720 --> 01:27:19.000
tatsächlich,

01:27:19.220 --> 01:27:20.580
dass irgendwie der Hotdog-Stand

01:27:20.580 --> 01:27:20.940
um die Ecke,

01:27:20.940 --> 01:27:22.120
der eigentlich total super Hotdogs macht,

01:27:22.140 --> 01:27:24.340
hat aber jetzt nicht so die perfekte

01:27:24.340 --> 01:27:25.140
SEO-Auswahlkompetenz

01:27:26.360 --> 01:27:28.100
und greift da halt ins Klo,

01:27:28.800 --> 01:27:29.480
dann würde ich den gar nicht

01:27:29.480 --> 01:27:30.400
dafür bestrafen wollen,

01:27:30.480 --> 01:27:31.000
unbedingt dafür,

01:27:31.180 --> 01:27:33.000
dass halt seine SEO-Agentur kacke ist,

01:27:33.620 --> 01:27:34.660
sondern ich würde das ignorieren.

01:27:35.080 --> 01:27:35.200
Okay,

01:27:35.320 --> 01:27:36.140
aber ich weiß es nicht.

01:27:36.920 --> 01:27:37.260
Aber ich glaube,

01:27:37.380 --> 01:27:38.320
Google hat das tatsächlich gemacht,

01:27:38.400 --> 01:27:39.820
das steht irgendwie in den Rules da drin,

01:27:39.980 --> 01:27:40.600
aber ja,

01:27:41.920 --> 01:27:43.560
sollte man vielleicht nochmal drüber nachdenken

01:27:43.560 --> 01:27:44.240
und das ist sowieso,

01:27:44.400 --> 01:27:44.660
also ja,

01:27:44.900 --> 01:27:45.200
ja gut,

01:27:45.420 --> 01:27:46.820
aber ich hoffe jetzt,

01:27:47.240 --> 01:27:48.040
also Rest muss bewerten,

01:27:48.400 --> 01:27:49.480
aber das haben wir,

01:27:49.540 --> 01:27:49.740
glaube ich,

01:27:49.740 --> 01:27:51.040
heute nicht mehr die Zeit für

01:27:51.040 --> 01:27:52.100
und das ist auch nicht unser Thema.

01:27:52.140 --> 01:27:52.500
Ja.

01:27:52.820 --> 01:27:53.180
Warum,

01:27:53.300 --> 01:27:53.400
wieso,

01:27:53.520 --> 01:27:53.900
weshalb dann,

01:27:53.980 --> 01:27:55.420
welche Sternchen vergeben werden sollen,

01:27:55.500 --> 01:27:55.720
sollten,

01:27:55.800 --> 01:27:56.060
sollten,

01:27:56.160 --> 01:27:56.720
nicht sollten,

01:27:56.840 --> 01:27:57.020
oder?

01:27:57.540 --> 01:27:57.840
Ja,

01:27:58.300 --> 01:27:59.100
aber genau,

01:27:59.300 --> 01:28:00.040
zum Beispiel,

01:28:00.640 --> 01:28:04.800
haben wir noch irgendwie ein großes Thema

01:28:04.800 --> 01:28:06.180
oder sowas da drin ist,

01:28:06.240 --> 01:28:08.400
was wir noch gar nicht angeschnitten haben

01:28:08.400 --> 01:28:09.300
oder was irgendwie?

01:28:11.520 --> 01:28:11.880
Ich glaube,

01:28:11.920 --> 01:28:13.140
die großen Sachen haben wir einigermaßen durch.

01:28:13.140 --> 01:28:13.900
Wir haben so ein bisschen erklärt,

01:28:13.960 --> 01:28:14.480
wie es funktioniert,

01:28:14.620 --> 01:28:15.860
was für Algorithmen dahinter stecken.

01:28:15.960 --> 01:28:17.480
Wir sind jetzt nicht ganz so detailliert eingegangen

01:28:17.480 --> 01:28:20.440
auf diese ganze mathematische Komponente

01:28:20.440 --> 01:28:21.140
von den Wertserechnungen,

01:28:21.400 --> 01:28:22.120
aber das ist,

01:28:22.140 --> 01:28:24.480
vielleicht auch einfach hier an der Stelle too much.

01:28:24.920 --> 01:28:26.200
Wir haben vielleicht noch wieder mal,

01:28:26.240 --> 01:28:27.820
leider ein bisschen wenig erzählt,

01:28:27.980 --> 01:28:28.920
wie man das in Python macht.

01:28:29.040 --> 01:28:29.080
Also,

01:28:29.140 --> 01:28:29.680
aus der gesagt haben,

01:28:29.740 --> 01:28:31.300
dass es irgendwie so Pylusin und Woosh gibt,

01:28:31.340 --> 01:28:31.820
habe ich jetzt,

01:28:32.220 --> 01:28:33.200
und natürlich Postgres,

01:28:33.520 --> 01:28:35.060
und dass man das in Django implementieren kann.

01:28:36.080 --> 01:28:36.200
also,

01:28:36.360 --> 01:28:37.280
genau,

01:28:37.440 --> 01:28:37.560
vielleicht,

01:28:37.680 --> 01:28:37.820
wenn man,

01:28:38.000 --> 01:28:38.080
also,

01:28:38.260 --> 01:28:40.720
ich finde auch gerade Python ist super geeignet dafür,

01:28:40.800 --> 01:28:42.360
weil dann kann man diese beiden Dinge halt

01:28:42.360 --> 01:28:43.620
total gut miteinander kombinieren.

01:28:43.720 --> 01:28:44.320
Man kann halt zum Beispiel

01:28:44.320 --> 01:28:46.820
irgendwie diese ganzen

01:28:46.820 --> 01:28:49.140
Ranking-Geschichten

01:28:50.280 --> 01:28:50.820
halt wahrscheinlich,

01:28:50.820 --> 01:28:51.080
also,

01:28:51.220 --> 01:28:52.100
ich denke mal,

01:28:52.140 --> 01:28:53.000
es müsste eigentlich,

01:28:53.140 --> 01:28:54.260
so Python ist wahrscheinlich die Sprache,

01:28:54.380 --> 01:28:55.320
mit der das am besten geht,

01:28:56.220 --> 01:28:57.580
wenn man halt eben diese ganze

01:28:57.580 --> 01:28:58.320
NumPy,

01:28:58.480 --> 01:28:59.140
SciPy,

01:28:59.820 --> 01:29:01.200
Machine Learning-Geschichte

01:29:01.200 --> 01:29:02.060
mit dranhängen hat.

01:29:02.920 --> 01:29:03.460
Das heißt jetzt,

01:29:03.520 --> 01:29:04.300
wenn man jetzt nicht unbedingt

01:29:04.300 --> 01:29:05.400
ein Machine Learning-Modell verwendet,

01:29:05.480 --> 01:29:06.740
aber halt diese Listen,

01:29:07.600 --> 01:29:08.160
oder sagen wir mal so,

01:29:08.200 --> 01:29:08.920
Vektoren von

01:29:08.920 --> 01:29:12.260
Features halt irgendwie

01:29:12.260 --> 01:29:13.400
auch mit Handgedenken

01:29:13.400 --> 01:29:14.860
halt in Listen schnell zu lenken,

01:29:15.120 --> 01:29:16.980
das geht mit Python wahrscheinlich sehr, sehr gut.

01:29:17.840 --> 01:29:18.860
Und bei anderen Sprachen

01:29:18.860 --> 01:29:20.180
hätte man da wahrscheinlich so ein bisschen,

01:29:21.720 --> 01:29:21.960
na ja,

01:29:21.960 --> 01:29:22.120
aber,

01:29:22.120 --> 01:29:22.820
man hört sich an,

01:29:22.840 --> 01:29:23.960
das braucht man auf jeden Fall erstmal Content,

01:29:24.140 --> 01:29:24.600
bevor man irgendwie

01:29:24.600 --> 01:29:25.700
eine vernünftige Suche implementiert.

01:29:26.980 --> 01:29:27.940
Ja, tatsächlich,

01:29:28.060 --> 01:29:29.100
das ist wahrscheinlich auch nicht so schlecht.

01:29:29.340 --> 01:29:30.320
Weil sonst kann man ja selber aussuchen,

01:29:30.380 --> 01:29:31.000
was dann da rauskommt.

01:29:32.700 --> 01:29:33.900
Ja, und genau,

01:29:34.300 --> 01:29:34.980
und das ist halt,

01:29:35.760 --> 01:29:36.440
ich weiß jetzt gar nicht,

01:29:36.500 --> 01:29:37.620
ob es ein großartiges anderes,

01:29:39.140 --> 01:29:41.520
also ist das alles Web heutzutage?

01:29:41.720 --> 01:29:42.020
Ja, ne?

01:29:42.840 --> 01:29:43.740
Gibt es irgendwie noch eine...

01:29:43.740 --> 01:29:44.580
Es gibt bestimmt noch irgendwelche

01:29:44.580 --> 01:29:45.820
Studierenden-Datenbanken,

01:29:45.940 --> 01:29:46.700
wo man dann nach

01:29:46.700 --> 01:29:48.180
wissenschaftlichen Texten suchen kann,

01:29:48.320 --> 01:29:50.240
oder Juristen sind sehr gerne dabei

01:29:50.240 --> 01:29:51.380
mit irgendwelchen Volltext-Sachen,

01:29:51.500 --> 01:29:52.000
irgendwelchen,

01:29:52.000 --> 01:29:52.100
die man dann auch so,

01:29:52.120 --> 01:29:53.220
die Gesetzestexten

01:29:53.220 --> 01:29:54.120
und Urteilsverkündungsgeschichten,

01:29:55.440 --> 01:29:56.080
was gleich ist.

01:29:56.200 --> 01:29:57.200
Aber das wird auch alles

01:29:57.200 --> 01:29:57.880
eher mehr oder weniger

01:29:57.880 --> 01:29:58.700
webbasiert laufen.

01:30:00.620 --> 01:30:00.860
Ja.

01:30:01.620 --> 01:30:02.560
Es gibt bestimmt noch mehr,

01:30:02.640 --> 01:30:03.640
wenn ich noch genug nachdenke.

01:30:04.640 --> 01:30:05.780
Ja, aber es ist, glaube ich,

01:30:05.860 --> 01:30:07.300
heutzutage eigentlich das meiste

01:30:07.300 --> 01:30:08.260
irgendwie Web,

01:30:08.320 --> 01:30:09.020
was man da so macht.

01:30:10.060 --> 01:30:11.220
Ja, oder selbst wenn es irgendwie

01:30:11.220 --> 01:30:12.400
auf Mobilgeräten ist oder so,

01:30:12.460 --> 01:30:13.380
dann wird man wahrscheinlich

01:30:13.380 --> 01:30:14.260
eine API-Anfrage machen

01:30:14.260 --> 01:30:14.960
und also letztlich

01:30:14.960 --> 01:30:15.860
wird es auch wieder Web sein.

01:30:17.420 --> 01:30:17.680
Ja.

01:30:19.260 --> 01:30:19.660
Genau.

01:30:20.080 --> 01:30:20.660
Ja, ich wollte eigentlich

01:30:20.660 --> 01:30:21.340
auch schon immer mal,

01:30:21.340 --> 01:30:22.060
das mache ich auch vielleicht,

01:30:22.060 --> 01:30:23.100
mal irgendwie einfach irgendwo

01:30:23.100 --> 01:30:24.200
ein Repository anlegen

01:30:24.200 --> 01:30:26.000
und dann mal Dinge miteinander vergleichen.

01:30:26.080 --> 01:30:27.400
Zum Beispiel einfach

01:30:27.400 --> 01:30:28.720
einen Standard-Korpus

01:30:28.720 --> 01:30:29.180
von irgendwie

01:30:29.180 --> 01:30:29.600
oder mehr

01:30:29.600 --> 01:30:31.960
irgendwelchen Dokumenten

01:30:31.960 --> 01:30:34.060
halt in Postgres reinhauen,

01:30:34.980 --> 01:30:35.940
in Redis reinhauen,

01:30:36.060 --> 01:30:37.080
in Elasticsearch reinhauen

01:30:37.080 --> 01:30:37.500
und mal gucken,

01:30:37.620 --> 01:30:38.580
was sind so die Unterschiede

01:30:38.580 --> 01:30:39.360
und was macht irgendwie

01:30:39.360 --> 01:30:40.280
großartig schmerzen

01:30:40.280 --> 01:30:41.220
und was halt nicht so,

01:30:41.760 --> 01:30:42.480
was ist angenehm.

01:30:42.840 --> 01:30:43.620
Gut, dass du das jetzt

01:30:43.620 --> 01:30:44.980
bei einer Stunde 30 gesagt hast,

01:30:45.060 --> 01:30:46.140
wo vielleicht einige Hörer

01:30:46.140 --> 01:30:47.120
schon eingeschlafen sind.

01:30:48.820 --> 01:30:49.880
Aber das Versprechen

01:30:49.880 --> 01:30:50.560
ist aufgeschrieben.

01:30:50.980 --> 01:30:51.940
Ja, vielleicht

01:30:51.940 --> 01:30:53.360
genau.

01:30:53.960 --> 01:30:55.800
Dann sage ich nochmal Bescheid.

01:30:55.920 --> 01:30:56.340
Also ich meine,

01:30:56.440 --> 01:30:57.120
es ist auch teilweise

01:30:57.120 --> 01:30:57.720
nicht so einfach.

01:30:57.900 --> 01:30:58.680
Bei Django ist es so,

01:30:58.740 --> 01:30:59.120
dass es halt,

01:30:59.380 --> 01:31:00.400
wenn man da einfach nur das macht,

01:31:00.460 --> 01:31:01.280
was in der Dokumentation steht,

01:31:01.340 --> 01:31:02.140
funktioniert es auch nicht so richtig.

01:31:03.000 --> 01:31:03.900
Das ist schon so ein bisschen

01:31:03.900 --> 01:31:04.860
hakliger.

01:31:05.760 --> 01:31:05.900
Ja.

01:31:07.800 --> 01:31:09.620
Aber das muss ich mir nochmal,

01:31:09.900 --> 01:31:11.740
muss ich mir auch nochmal genau angucken.

01:31:11.980 --> 01:31:12.660
Ja, du fragst ja Fragen,

01:31:12.760 --> 01:31:13.560
da stell mir die gerne

01:31:13.560 --> 01:31:13.960
wie der PM.

01:31:14.100 --> 01:31:14.300
Hallo,

01:31:14.380 --> 01:31:15.160
Faisal Podcast.de.

01:31:15.880 --> 01:31:16.420
Ich würde sagen,

01:31:16.460 --> 01:31:17.320
wir sind aber jetzt mit der Dupe

01:31:17.320 --> 01:31:18.560
so quasi durch

01:31:18.560 --> 01:31:20.100
und wollten jetzt noch

01:31:20.100 --> 01:31:21.180
ein bisschen Woche machen

01:31:21.180 --> 01:31:21.500
und so.

01:31:21.500 --> 01:31:21.560
Ja,

01:31:21.940 --> 01:31:22.420
ja, ja.

01:31:22.700 --> 01:31:22.820
Ja.

01:31:23.440 --> 01:31:24.300
Oder hast du noch was,

01:31:24.340 --> 01:31:25.280
was du zur Suche sagen willst?

01:31:26.680 --> 01:31:26.880
Ja.

01:31:27.560 --> 01:31:27.840
Gut.

01:31:28.860 --> 01:31:29.480
Ja, also dann,

01:31:29.520 --> 01:31:30.860
ich nehme jetzt deinen Pick weg.

01:31:31.680 --> 01:31:31.840
Mhm.

01:31:32.440 --> 01:31:33.240
Den musst du später machen.

01:31:33.320 --> 01:31:33.420
Also,

01:31:33.840 --> 01:31:34.780
Armin Ronacher

01:31:34.780 --> 01:31:36.400
von Flask,

01:31:36.540 --> 01:31:37.380
der Mensch,

01:31:37.520 --> 01:31:38.000
der Creator,

01:31:38.840 --> 01:31:41.700
hat etwas Schönes vorgestellt

01:31:41.700 --> 01:31:43.760
und hat da einen kleinen Patch eingebaut.

01:31:43.860 --> 01:31:44.080
Das heißt,

01:31:44.140 --> 01:31:45.320
er nimmt einfach die Buildings

01:31:45.320 --> 01:31:48.900
und packt da Sachen dran.

01:31:48.980 --> 01:31:49.540
Und zwar True,

01:31:49.980 --> 01:31:50.760
False und Null,

01:31:50.860 --> 01:31:51.920
jeweils in kleinen,

01:31:51.940 --> 01:31:52.100
in kleinen,

01:31:52.340 --> 01:31:53.160
geschrieben

01:31:53.160 --> 01:31:54.040
und setzt sie auf True,

01:31:54.100 --> 01:31:55.140
False und Null.

01:31:56.440 --> 01:31:57.260
Und dann kann man einfach

01:31:57.260 --> 01:31:57.940
JSON lesen.

01:31:58.840 --> 01:31:59.020
Ja,

01:31:59.060 --> 01:32:00.300
beziehungsweise halt reinpasten.

01:32:00.500 --> 01:32:00.840
Ja, genau.

01:32:01.120 --> 01:32:01.060
Also,

01:32:01.160 --> 01:32:01.560
halt direkt.

01:32:01.720 --> 01:32:02.440
Pasten und das ist direkt

01:32:02.440 --> 01:32:03.320
ein Dictionary-Objekt.

01:32:03.600 --> 01:32:04.300
Das ist schon

01:32:04.300 --> 01:32:05.420
relativ interessant.

01:32:06.400 --> 01:32:06.760
Das ist schon eine

01:32:06.760 --> 01:32:07.500
kleine Hack-Idee.

01:32:07.660 --> 01:32:08.000
Ich wusste gar nicht,

01:32:08.040 --> 01:32:08.780
dass man das so machen kann

01:32:08.780 --> 01:32:09.560
und war,

01:32:09.740 --> 01:32:10.140
sag ich mir so,

01:32:10.260 --> 01:32:10.980
das geht.

01:32:11.180 --> 01:32:11.680
War cool.

01:32:12.200 --> 01:32:13.100
Der erste Kommentar

01:32:13.100 --> 01:32:14.120
über diesen Twitter-Feed,

01:32:14.180 --> 01:32:15.180
von dem du das gefunden hast,

01:32:15.240 --> 01:32:15.640
ist übrigens,

01:32:15.780 --> 01:32:16.520
I strongly recommend

01:32:16.520 --> 01:32:17.460
not doing this.

01:32:17.540 --> 01:32:18.400
It opens up a huge

01:32:18.400 --> 01:32:19.280
security hole.

01:32:19.980 --> 01:32:20.620
Ja, ja.

01:32:20.620 --> 01:32:20.860
Ja.

01:32:20.860 --> 01:32:23.260
Es ist völlig überbewertet.

01:32:24.340 --> 01:32:24.900
Aber ja,

01:32:24.980 --> 01:32:25.780
es ist sehr interessant

01:32:25.780 --> 01:32:27.540
und lustige Sachen

01:32:27.540 --> 01:32:28.060
sind da möglich,

01:32:28.160 --> 01:32:28.820
wenn man was wie die

01:32:28.820 --> 01:32:29.820
Build-Ins einfach überschreibt.

01:32:30.880 --> 01:32:31.180
Ja.

01:32:32.920 --> 01:32:33.120
Ja.

01:32:33.520 --> 01:32:33.760
Also,

01:32:34.000 --> 01:32:34.880
ich habe diesmal

01:32:34.880 --> 01:32:36.400
tatsächlich kein Modul

01:32:36.400 --> 01:32:36.740
zum Picken,

01:32:36.860 --> 01:32:37.400
aber ich habe ein

01:32:37.400 --> 01:32:38.680
wunderschönes GitHub-Repository

01:32:38.680 --> 01:32:38.980
entdeckt,

01:32:39.180 --> 01:32:40.900
was die Algorithms heißt.

01:32:41.260 --> 01:32:41.760
Und da gibt es

01:32:41.760 --> 01:32:42.820
einen Folder

01:32:42.820 --> 01:32:43.540
mit Python.

01:32:43.660 --> 01:32:44.380
Da gibt es quasi

01:32:44.380 --> 01:32:45.160
alle Algorithmen,

01:32:45.220 --> 01:32:45.760
die man so

01:32:45.760 --> 01:32:47.040
irgendwann mal

01:32:47.040 --> 01:32:47.800
verpastet und gebaut hat.

01:32:47.860 --> 01:32:48.260
Die sind jetzt alle

01:32:48.260 --> 01:32:49.360
nicht perfekt implementiert

01:32:49.360 --> 01:32:50.360
oder in

01:32:50.360 --> 01:32:50.840
besonders

01:32:50.840 --> 01:32:51.180
schnell,

01:32:51.600 --> 01:32:52.560
aber man sieht so ein bisschen,

01:32:52.720 --> 01:32:53.300
wie das Prinzip

01:32:53.300 --> 01:32:53.820
dahinter steckt.

01:32:53.920 --> 01:32:54.000
Also,

01:32:54.080 --> 01:32:54.340
ob ihr jetzt

01:32:54.340 --> 01:32:55.160
Suchalgorithmen habt,

01:32:55.400 --> 01:32:56.400
Suchalgorithmen,

01:32:56.480 --> 01:32:56.620
ja,

01:32:56.900 --> 01:32:58.000
oder Sortieralgorithmen

01:32:58.000 --> 01:32:59.040
oder für

01:32:59.040 --> 01:32:59.480
Webpringing

01:32:59.480 --> 01:33:00.180
oder Matrizen

01:33:00.180 --> 01:33:01.460
oder mathematische Sachen

01:33:01.460 --> 01:33:02.340
und Machine Learning

01:33:02.340 --> 01:33:03.340
oder Algebra

01:33:03.340 --> 01:33:03.800
oder wie man

01:33:03.800 --> 01:33:04.520
Images was macht,

01:33:04.580 --> 01:33:05.820
wie man Hashes errechnet

01:33:05.820 --> 01:33:06.440
oder so,

01:33:06.520 --> 01:33:07.540
welche gut sein sollen.

01:33:08.120 --> 01:33:08.260
So,

01:33:08.340 --> 01:33:09.040
das steht alles drin.

01:33:10.200 --> 01:33:10.420
Zahl,

01:33:10.460 --> 01:33:10.960
Verschlusslogen,

01:33:11.020 --> 01:33:11.340
Kompression.

01:33:11.980 --> 01:33:12.360
Könnt ihr euch

01:33:12.360 --> 01:33:12.880
alles mal angucken.

01:33:13.000 --> 01:33:13.940
Es ist eine tolle Bibliothek.

01:33:14.180 --> 01:33:14.460
Einfach so

01:33:14.460 --> 01:33:14.980
Algorithms,

01:33:15.100 --> 01:33:15.760
Python und GitHub.

01:33:16.500 --> 01:33:16.960
Sehr interessant.

01:33:17.700 --> 01:33:17.960
Ach so,

01:33:18.060 --> 01:33:18.700
und was ich noch

01:33:18.700 --> 01:33:19.500
fast ganz vergessen habe,

01:33:19.500 --> 01:33:20.360
wir haben ja letztes Mal

01:33:20.360 --> 01:33:21.360
über Environments gesprochen

01:33:21.360 --> 01:33:22.960
und ich habe es tatsächlich

01:33:22.960 --> 01:33:23.360
geschafft,

01:33:23.520 --> 01:33:24.500
nach ein bisschen Struggle,

01:33:24.620 --> 01:33:25.440
meine Environment,

01:33:25.540 --> 01:33:26.460
ich habe ja eine große

01:33:26.460 --> 01:33:27.600
Windows-Entwicklungs-Environment,

01:33:28.180 --> 01:33:29.060
umzustellen

01:33:29.060 --> 01:33:30.600
auf PyEnf und Poetry

01:33:30.600 --> 01:33:32.020
und habe das auch

01:33:32.020 --> 01:33:33.460
auf GitHub mal dokumentiert,

01:33:33.500 --> 01:33:34.160
wie das denn eigentlich geht.

01:33:34.840 --> 01:33:35.300
Falls ihr das irgendwie

01:33:35.300 --> 01:33:35.600
vorhabt,

01:33:35.720 --> 01:33:36.140
ich empfehle,

01:33:36.260 --> 01:33:36.960
wenn ihr das mit Poetry

01:33:36.960 --> 01:33:37.340
machen wollt,

01:33:37.400 --> 01:33:38.180
schmeißt alles Python,

01:33:38.260 --> 01:33:38.880
was ihr schon drauf habt,

01:33:38.940 --> 01:33:39.380
einmal weg,

01:33:40.140 --> 01:33:40.860
weil es sonst

01:33:40.860 --> 01:33:41.740
Hakeligkeiten mit

01:33:41.740 --> 01:33:42.820
auf dem Pfad geben kann.

01:33:42.900 --> 01:33:43.320
Dann müsst ihr vielleicht

01:33:43.320 --> 01:33:43.920
auch einmal komplett

01:33:43.920 --> 01:33:44.780
aufräumen und putzen,

01:33:45.360 --> 01:33:45.600
weil,

01:33:45.680 --> 01:33:46.360
ja,

01:33:46.860 --> 01:33:48.060
die Dementierung

01:33:48.060 --> 01:33:49.120
PyEnf,

01:33:49.120 --> 01:33:49.380
Win,

01:33:49.500 --> 01:33:50.620
das so ein bisschen

01:33:50.620 --> 01:33:51.220
komisch löst,

01:33:51.280 --> 01:33:51.900
die wird eure,

01:33:52.940 --> 01:33:53.340
ja,

01:33:53.480 --> 01:33:54.320
Windows-Libraries

01:33:54.320 --> 01:33:56.360
mit einem grafischen

01:33:56.360 --> 01:33:57.240
Installer dann installieren,

01:33:57.340 --> 01:33:58.180
also die Python-Version,

01:33:58.280 --> 01:33:58.740
das ist ein bisschen

01:33:58.740 --> 01:33:59.160
anstrengend,

01:33:59.240 --> 01:33:59.820
aber dann passiert

01:33:59.820 --> 01:34:00.720
das alles automatisch

01:34:00.720 --> 01:34:01.720
und ihr habt diesen

01:34:01.720 --> 01:34:02.420
ganzen Struggle nicht

01:34:02.420 --> 01:34:02.900
und dann könnt ihr

01:34:02.900 --> 01:34:04.480
Poetry und PyEnf

01:34:04.480 --> 01:34:05.640
wunderbar kombinieren,

01:34:06.200 --> 01:34:06.520
auch mit,

01:34:06.680 --> 01:34:07.840
ja,

01:34:07.960 --> 01:34:08.480
eurer PowerShell.

01:34:08.600 --> 01:34:09.220
Es geht aber leider

01:34:09.220 --> 01:34:09.920
nicht so gut mit Toko,

01:34:10.020 --> 01:34:10.380
also nehmt nicht

01:34:10.380 --> 01:34:10.960
die Toko-Version,

01:34:11.080 --> 01:34:11.700
sondern versucht das

01:34:11.700 --> 01:34:12.800
auf das GitHub-Repository

01:34:12.800 --> 01:34:13.140
zu ziehen.

01:34:13.440 --> 01:34:13.960
Kann ich empfehlen.

01:34:14.000 --> 01:34:14.320
Ich habe da auch

01:34:14.320 --> 01:34:15.080
ein paar Skripte geschrieben,

01:34:15.180 --> 01:34:15.780
die das automatischer

01:34:15.780 --> 01:34:16.380
machen können.

01:34:16.380 --> 01:34:18.320
Wollte ich nochmal

01:34:18.320 --> 01:34:19.760
so kurz für die Menschen,

01:34:19.980 --> 01:34:20.640
die tatsächlich noch

01:34:20.640 --> 01:34:21.360
mit Windows arbeiten.

01:34:21.860 --> 01:34:22.780
Ich habe in

01:34:22.780 --> 01:34:23.940
NixOS reingeschaut,

01:34:24.020 --> 01:34:24.700
das gefällt mir recht gut.

01:34:24.700 --> 01:34:24.960
Ach, okay,

01:34:25.120 --> 01:34:25.260
ja,

01:34:25.340 --> 01:34:26.000
das ist auch eine

01:34:26.000 --> 01:34:26.540
sehr coole Idee,

01:34:26.720 --> 01:34:26.880
ja.

01:34:27.880 --> 01:34:28.120
Ja,

01:34:28.200 --> 01:34:28.820
dann bin ich aber noch

01:34:28.820 --> 01:34:29.040
dabei,

01:34:29.100 --> 01:34:29.860
meine Python-Implementierung

01:34:29.860 --> 01:34:30.160
zu bauen,

01:34:30.260 --> 01:34:30.520
mal gucken,

01:34:30.600 --> 01:34:31.200
ob ich das so

01:34:31.200 --> 01:34:33.600
weiterführe.

01:34:34.280 --> 01:34:34.540
Ja,

01:34:34.580 --> 01:34:35.240
aber das hat relativ

01:34:35.240 --> 01:34:35.880
wenig mit Suchmaschinen

01:34:35.880 --> 01:34:36.080
zu tun,

01:34:36.120 --> 01:34:36.600
aber das war so

01:34:36.600 --> 01:34:37.240
für den Pick der Woche.

01:34:37.620 --> 01:34:38.180
Haben wir irgendwas

01:34:38.180 --> 01:34:38.480
vergessen?

01:34:39.820 --> 01:34:40.120
Ja,

01:34:40.440 --> 01:34:41.220
mir ist jetzt doch

01:34:41.220 --> 01:34:41.500
eingefallen,

01:34:41.640 --> 01:34:42.920
also in dem Moment,

01:34:43.000 --> 01:34:43.600
wo ich gesagt habe,

01:34:43.660 --> 01:34:44.040
so haben wir nicht

01:34:44.040 --> 01:34:44.560
noch irgendwas vergessen.

01:34:44.700 --> 01:34:45.700
Ich hatte schon das Gefühl,

01:34:45.700 --> 01:34:46.520
wir haben irgendwas vergessen,

01:34:46.620 --> 01:34:46.760
ja,

01:34:46.880 --> 01:34:47.140
haben wir auch,

01:34:47.380 --> 01:34:47.740
aber egal.

01:34:48.780 --> 01:34:49.740
Und zwar gibt es halt noch

01:34:49.740 --> 01:34:50.100
einen ganz,

01:34:50.240 --> 01:34:52.240
nicht unerheblich großen Teil

01:34:52.240 --> 01:34:55.060
Volltext-Suche,

01:34:55.280 --> 01:34:56.880
wo es nicht um Dinge geht,

01:34:57.080 --> 01:34:57.500
die jetzt,

01:34:59.460 --> 01:35:00.260
ja,

01:35:00.360 --> 01:35:01.660
so traditionellerweise da so,

01:35:02.000 --> 01:35:02.160
also,

01:35:02.480 --> 01:35:03.260
dass man Queries hat,

01:35:03.280 --> 01:35:04.060
die man so gut in Tokens

01:35:04.060 --> 01:35:04.720
zerlegen kann,

01:35:04.860 --> 01:35:05.460
oder wo man halt

01:35:05.460 --> 01:35:06.700
Tokens sucht,

01:35:08.400 --> 01:35:09.000
sondern

01:35:09.000 --> 01:35:11.520
solche Sachen wie

01:35:11.520 --> 01:35:14.860
Autocomplete in der Suchbox.

01:35:15.280 --> 01:35:15.480
Ja,

01:35:15.480 --> 01:35:15.680
also,

01:35:15.700 --> 01:35:15.840
okay.

01:35:16.000 --> 01:35:16.980
Oder wo man halt einfach

01:35:16.980 --> 01:35:17.980
nur ein paar Buchstaben hat

01:35:17.980 --> 01:35:18.980
und möchte das halt finden.

01:35:20.340 --> 01:35:21.420
Oder man möchte halt

01:35:21.420 --> 01:35:22.180
irgendwie einen Teil

01:35:22.180 --> 01:35:23.020
von einem Wort finden,

01:35:23.100 --> 01:35:23.600
irgendwo drin.

01:35:24.580 --> 01:35:25.560
Und das ist halt nochmal

01:35:25.560 --> 01:35:26.400
so ein bisschen

01:35:26.400 --> 01:35:27.200
ein anderes Problem

01:35:27.200 --> 01:35:27.900
und braucht halt ein bisschen

01:35:27.900 --> 01:35:29.200
andere Datenstrukturen dafür.

01:35:32.140 --> 01:35:32.500
Und,

01:35:32.600 --> 01:35:34.500
ja,

01:35:35.060 --> 01:35:35.400
das,

01:35:38.120 --> 01:35:38.920
vielleicht machen wir das

01:35:38.920 --> 01:35:39.320
auch einfach mal

01:35:39.320 --> 01:35:40.100
in anderen Dingen.

01:35:40.720 --> 01:35:40.920
Okay,

01:35:41.080 --> 01:35:42.640
machen wir dieses Fass

01:35:42.640 --> 01:35:43.280
nicht nochmal auf.

01:35:43.800 --> 01:35:44.960
aber das hätte eigentlich

01:35:44.960 --> 01:35:45.580
ja eventuell auch noch

01:35:45.580 --> 01:35:46.040
dazu gehört,

01:35:46.120 --> 01:35:46.520
weil das ist auch

01:35:46.520 --> 01:35:47.860
ein nicht unerheblich großer Teil,

01:35:47.980 --> 01:35:48.980
der halt auch im Grunde,

01:35:49.080 --> 01:35:49.220
ja,

01:35:49.300 --> 01:35:50.380
das ist ja auch Volltextsuche,

01:35:50.520 --> 01:35:51.520
das ist nur ein bisschen anders.

01:35:52.120 --> 01:35:52.300
Ja,

01:35:52.400 --> 01:35:52.640
okay.

01:35:53.140 --> 01:35:53.420
Naja.

01:35:54.160 --> 01:35:54.360
Ja,

01:35:54.460 --> 01:35:55.160
dann das nächste Mal.

01:35:55.300 --> 01:35:55.420
Also,

01:35:55.460 --> 01:35:56.300
wenn ihr Fragen dazu habt,

01:35:56.460 --> 01:35:57.660
dann gerne wieder an

01:35:57.660 --> 01:35:58.580
highlightpricemodcast.de,

01:35:58.680 --> 01:35:59.140
das haben wir schon

01:35:59.140 --> 01:35:59.720
gerade gesagt.

01:36:00.360 --> 01:36:01.140
Mögt uns und folgt uns

01:36:01.140 --> 01:36:02.040
auf allen Dingen,

01:36:02.240 --> 01:36:03.060
die wir so posten.

01:36:03.740 --> 01:36:04.120
Schreibt uns,

01:36:04.400 --> 01:36:04.960
freut uns auf euch,

01:36:05.080 --> 01:36:05.740
bleibt uns gewogen,

01:36:05.820 --> 01:36:06.640
hört uns immer morgens,

01:36:06.720 --> 01:36:06.980
mittags,

01:36:07.060 --> 01:36:07.200
nachts,

01:36:07.280 --> 01:36:07.580
abends.

01:36:08.420 --> 01:36:08.660
Und,

01:36:08.660 --> 01:36:09.260
ja,

01:36:10.020 --> 01:36:10.800
bis zum nächsten Mal.

01:36:11.180 --> 01:36:11.320
Jo,

01:36:11.480 --> 01:36:11.860
alles klar.

01:36:12.040 --> 01:36:12.540
Tschüss.
