Mit KI Erzählt: Beeinträchtigter Robert lernt Drechseln Artwork

KI für Helfer

Künstliche Intelligenz Anwendungsfälle für die Helfer (Pfleger, Betreuuer, Mediziner) in einfacher Sprache. Lass uns zusammen in die Zukunft einsteigen und dir helfen noch mehr helfen zu können.
In der ersten Saison besprechen wir Betreutes Wohnen und wie Klienten und Betreuer KI Nutzen finden können.

Support Material, so wohl wie Blogartikel zu den Episoden, gibt es auf ai-for-healthcare.org. Teile uns in den Kommentaren deine Meinungen und Wünsche mit, oder melde dich zum Newsletter an, um ständig am laufenden zu bleiben.

Viel Spaß beim zuhören!

All Episodes

KI für Helfer

Mit KI Erzählt: Beeinträchtigter Robert lernt Drechseln

June 11, 2024 • Season 1 • Episode 21

Projekt Robert findest du hier.

Wir besprechen die Herausforderungen bei der Generierung von Bildern und Videos und wie die KI-Tools an ihre Grenzen stoßen. Wir versuchen eine reale Geschichte aus dem Arbeitsalltag mit KI in ein Video umzuwandeln, um zu demonstrieren, wie z. B. eine Soziale Wohneinrichtung, mit Hilfe von KI und Storytelling, ihre Social-Media Kanäle leichter befüllen kann.

Takeaways

Storytelling ist entscheidend für ein gutes Video
Verschiedene KI-Tools wie ChatGPT, Dalle, Runway, Pika, Clipchamp, CapCut und Canva können bei der Erstellung von Videos helfen.
Es gibt noch viele Herausforderungen bei der Generierung realistischer Szenen und der Animation von Bewegungen.
Die Charakterkonsistenz und die Darstellung von Händen sind besonders schwierig
Das Erstellen von Videos mit KI-Tools ist noch nicht perfekt, aber es gibt Möglichkeiten, emotionale Geschichten für soziale Medien zu erstellen.
Authentische Videos aus der realen Arbeit können mit generierten Szenen kombiniert werden, um eine Geschichte zu erzählen.

Danke fürs zuhören. Hast du Fragen, Kommentare oder Wünsche für uns? Schicke uns eine Nachricht auf WhatsApp, oder besuche unsere Webseite. Für freuen uns auf dein Feedback!

Katja & René

René (00:05)
Hallo, ihr Lieben und herzlich willkommen zu unserem Podcast KI für Helfer.

Katja (00:10)
Hallo, wir sind Katja und René, zwei zertifizierte KI Trainer und auf Mission euch einfache KI Anwendungsfälle zu präsentieren. Wer letztes Mal dabei war, weiß, dass wir uns vorgenommen haben, Videos zu generieren. Wir haben ein paar Tools vorgestellt, mit denen wir das am liebsten machen, sowie Pika zum Beispiel oder Runway oder auch die Video Generierungsoption, die Canva schon drinnen hat oder die Möglichkeit aus schon vorhandenen Templates Videos zusammenzuschneiden.

Da haben wir auch erwähnt, dass es ein Video gibt, das wirklich Popularität gewonnen hat in den letzten, was ist es, ein paar Monate. Es nennt sich Airhead by Shy Kids. Shy Kids ist die Produktionsfirma und Sora ist das Videomodell darunter, der ist von OpenAI, die gleiche Firma, die Chachu Beti hat. Und wir haben dort darauf hingedeutet, dass das Video Generieren nicht das Ding ist, das uns in die Geschichte mitnimmt. Es ist tatsächlich das Storytelling dahinter.

Der Narrator, das Lachen, das Weinen, das Mitfühlen mit dem Hauptcharakter, das eine gute Geschichte macht. Und seit wir letztens schon gezeigt haben, wie kann man Videos einfach, gratis und schnell mit KI generieren, zeigen wir euch heute, wie packt man da eine Geschichte dazu. Und dafür haben wir uns natürlich von der besten Geschichten inspirieren lassen, die es gibt.: die richtigen Geschichten. René wird euch erzählen, was unsere Inspiration war.

René (01:47)
Ich habe in einer Institution gearbeitet, in einer Einrichtung für beeinträchtigte Menschen und hatte dort eine Bezugsperson. Wir nennen sie jetzt mal Robert als fiktiven Namen. Die Bezugsperson von mir, der Klient hatte eine kognitive Beeinträchtigung und zwar Fragiles X Syndrom. Falls sich das interessiert, könnt ihr mal googeln, was das so bedeutet für die Menschen. Auf jeden Fall hatte der selber so ein paar Beeinträchtigungen, paar Blockaden.

Es fing damit an, er hat dort gewohnt und über den Tag sind sie dann arbeiten gegangen und er hat in der Holzwerchstatt gearbeitet. Seine Schwierigkeit war, die Schwelle zu übertreten, also in den Raum, durch die Tür in den Raum reinzukommen. Eine weitere Schwierigkeit für ihn war zum Beispiel Werkzeuge zu halten mit beiden Händen. Das hat er manchmal mit einer Hand gewohnt und dann war das schwierig, natürlich wenn du gewisse Sachen machen musst aus Sicherheitsgründen.

Was habe ich mit ihm gemacht? Mein großes Projekt war dann in der Abschlussarbeit, dass ich mit ihm mir vorgenommen habe zu dreckseln. Es war sein Wunsch, er hat es selber gesagt, er möchte dreckseln. Und dann habe ich mit ihm zusammen das von Grund auf ihm beigebracht, gelernt, auf was er achten muss, was er als erste Schritte machen muss und so weiter und so fort. Und das wollen wir mal so ein bisschen, haben wir gedacht, wollen wir so ein bisschen in dieser Geschichte mit einbauen und am Schluss natürlich sein großes Erfolgserlebnis, dass er seinem Vater das zeigen konnte, was er alles dort kann, was er gelernt hat, weil der ihm das nie geglaubt hat, wenn er das erzählt hat. Also auch für mich, immer noch weniger, wenn ich wieder darüber erzähle, doch ein recht emotionaler Moment und schöner Moment natürlich.

Katja (03:25)
Ich sehe, du hast so einen halben Tränen im Auge, jetzt wenn du darüber erzählst. Man spürt die Emotion dahinter und genauso eine Geschichte haben wir gebraucht. Da haben wir uns vorgenommen, mit ChatGPT diese Geschichte in Storytelling in einen Skript zu verwandeln. Mit einer kurzen Beschreibung von diesen Klienten und wie es ihm gegangen ist und da habe ich ChatGPT gebeten, mir für den Narrator einen Skript zu geben.

Also der, der da hinten die Geschichte erzählt und auch Videoprompts für jede einzelne Szene. Da haben wir gesagt, machen wir so zehn Szenen, jede its 4 Sekunden, das wird dann etwas zwischen einer halben Minute und einer Minute rauskommen. Und das hat mal überhaupt nicht funktioniert.

René (04:14)
Die Emotionalität, die fehlt da oder?

Katja (04:18)
Ich habe gerade heute irgendwo gehört, dass Claude als Modell da viel besser drinnen ist in Storytelling. Was mich da gestört hat, ist, wir wollen ja den Robert präsentieren. Wir haben das Projekt Robert genannt und unter dem Namen wird das auf unserem YouTube Kanal auch zu finden sein, das fertige Produkt. Und ich wollte, dass es nach Robert klingt. Und Robert ist jemand, der einfache Sprache benutzt.

Auch wenn ich ChatGPT sage, benutze einfache Sprache, es ist trotzdem, die Sätze sind zu lang. Ich wollte Sätze, die aus zwei, drei Wörtern bestehen. Jemand, der kaum redet, jemand, der versucht krampfartig seine Geschichte zu erzählen. Und auf so einem Level, ChatGPT runterzuschrauben, so kognitiv niedrig, ist nicht gegangen.

René (05:07)
Da kann ich mir vorstellen, dass es schwierig ist, dass es wie sozusagen gar nicht auf diese Sprache trainiert ist. Einfache Sprache vielleicht schon, aber nicht Sprache von beeinträchtigten Menschen.

Katja (05:18)
Ja, wahrscheinlich der Sample Size wird da zu klein sein. Ist nicht in den Trainingdaten drinnen. Wie redet jemand mit einer kognitiven Beeinträchtigung?

René (05:30)
Was war das für eine Geschichte? Was hat er denn ausgespuckt?

Katja (05:33)
Naja, ich habe ihm gesagt, mache eine Geschichte von jemandem, der die Schwelle nicht übertreten kann. Und da hat er einen großen Satz gebaut von, ich möchte da in diese Tür hinein, aber ich kann nicht, weil ich Schwierigkeiten habe mit Schwellenangst und deswegen kann ich den ersten Schritt nicht machen. Das habe ich umgeschrieben in, ich kann nicht durch die Tür.

So wie er es sagen würde oder vielleicht sogar nicht, das ist eher dein Klient. Wäre er fähig, so einen Satz zu bilden?

René (06:09)
Nein, natürlich nicht. Dieses Ausdrücken in langen Sätzen ist weniger gewesen, sondern eben kurze, prägnante Sätze. Und dann ist das für viele nicht immer ganz klar gewesen, was er ausdrücken will. Das ist so.

Katja (06:23)
Ja, und wieso wir diese Geschichte für den Narrator gemacht haben, ist weil wir es, wir wollten diesen Voice Over machen. Kannst mal kurz erklären, was ich damit meine.

René (06:37)
Also, dass wir jetzt sozusagen aus Text Stimmen erstellen. Also keine realen Stimmen, sondern da gibt es Tools dafür, die können aus Text Audio erzeugen. So erkläre ich es mal einfach. Also Stimmen. Du kannst ihm bestimmte Stimmen vorgeben. Du kannst zum Beispiel auch deine eigene Stimme aufnehmen und er gibt dir den Text sozusagen mit deiner eigenen Stimme wieder.

Für Leute, die noch nie etwas von gehört haben, können sie mir vorstellen, dass es ein bisschen creepy ist. Aber so kann man das machen.

Katja (07:07)
Nein, es ist auch creepy. Es öffnet so viele Scam Möglichkeiten.

René (07:12)
Genau. Du kannst eben ganz verschiedene Stimmen natürlich nehmen. Deine eigene oder halt irgendwie vorgefertigte Stimmen kannst du. Also man könnte, das sollt ihr jetzt nicht nachmachen, liebe Zuhörer, aber man könnte direkt auch jemand anderen aufnehmen und deren Stimme verwenden. Die hören sich manchmal aus meiner Sicht, weiß nicht, was deine Erfahrung ist, so ein bisschen generisch an. Also noch nicht ganz hundertprozentig würde ich sagen menschenähnlich. Oder vielleicht sage ich das nur aus meiner Sicht, weil ich es kenne und das dann so aushöre.

Katja (07:44)
Ich glaube, das Problem ist nicht genug Trainingsdaten. Wenn du mit ElevenLabs 30 Sekunden von deiner Stimme trainierst, dann hat es nur den Sample Size von diesen 30 Sekunden und da warst du vielleicht traurig, vielleicht emotional, vielleicht müde und dann klingst du über das Ganze müde. Es hat aber auch die Möglichkeit, wenn man zahlt, dass man, glaube ich, 20 Stunden von seiner eigenen Stimme hochlädt.

Und dann wird es wirklich gut. Dann lernt man, wie man verschiedene Wörter in verschiedenen emotionalen Stadien spricht. Und dann kann es dich wirklich gut nachmachen.

René (08:23)
Genau, und in der Kostenversion ist das alles auf 10 Minuten beschränkt. Also man kann das mal ausprobieren auf jeden Fall, zum Mal gucken, was das so kann. Aber seid euch bewusst, dass es wirklich auf 10 Minuten beschränkt ist.

Katja (08:33)
Also der Prozess war, die Geschichte zu besprechen, die reale Geschichte, sie aus der Sicht von Robert zu schreiben, das mit Eleven Labs zu ein Audio vertonen. Ja, okay, mit Eleven Labs vertonen, ja. Und dann drauf diese Videoszenen zu basteln.

René (08:47)
Vertonen würde ich mal sagen.

Genau, eben. Und das ist nachher wirklich emotional. Also von der Sprache her emotional sich anhört. Die Bilder, die bewegten Bilder, die Videos dann auch emotional sind. So, dass das beim Zuschauer eben auch was auslöst.

Katja (09:13)
Und wie dieser Narrator redet und was die Szene dahinter ist, das haben wir auch mit der menschlichen Intelligenz machen müssen.

Wir haben uns tausend Ideen geben lassen und keine von denen war so gut, wie die Geschichte tatsächlich passiert ist. Da war dieses Gimmick mit dem Spielzeug.

René (09:32)
Genau, der Klient hat meistens Playmobilierfiguren oder andere Spielzeuge darüber gehabt. Das hat ihm ein bisschen Sicherheit gegeben. Wenn man das mit in die Werkstatt genommen hat, konnte man ihn da sozusagen reinlocken. Das sage ich mal so einfach beschrieben. Weil er sich dann auf das zu konzentriert hat und nicht auf diese Schwelle mehr konzentriert hat.

Katja (09:57)
Genau, und dieses Spielzeug haben wir dann verfilmt. Ich habe damit gestern herumgespielt, habe mir Tausende von diesen Fotos und Videos generieren lassen und sie in Bewegung gebracht und dafür haben wir die Tools benutzt, die wir beim letzten Mal schon vorgestellt haben. Nämlich Pika, Runway oder was sehr praktisches war auch Bilder in ChatGPT mit Dalle zu generieren und dann Runway als Tool zu benutzen, um diese Bilder zu animieren.

René (10:30)
Mhm.

Katja (10:31)
Du hast versucht mit ChatGPT ein Bild von einem Jungen mit fragilen X Syndrom zu generieren.

René (10:40)
Genau, ich habe es nicht nur versucht, sondern ich habe das auch gemacht. Wir mussten ein bisschen rumprobieren mit dem Prompt, also mit dem Befehl, die wir da eingegeben haben, dass ChatGPT wirklich versteht, was wir da machen wollen. Aber wir haben wirklich ein paar Beispiele rausgekriegt, wo ich erstaunt war, dass er den Menschen so optisch so abbildet. Also es gibt ja bestimmt bei dem fragilen X Syndrom gibt es auch so bestimmte optische Merkmale. Und das muss man natürlich wissen. Also.

Häufig sind es größere abstehende Ohren, längerer Hals, großer Kehlkopf. Der Kopf ist so ein bisschen bisschen zurückversetzt, also ein bisschen anatomische, wie soll ich es jetzt nennen? Unstimmigkeit hört sich so negativ an. Aber eben da erklärt man es ganz klar. Und ich habe wirklich erstaunt, dass Dalle das teilweise so abgebildet hat. Nicht jedes Bild, aber bei vielen Bildern hat er sich auf das bezogen und hat das abgebildet.

Katja (11:20)
Phänotyp.

René (11:37)
Fand ich schon echt interessant.

Katja (11:40)
Das erste war die Szene von einem jungen Robert, der traurig und einsam durchs Fenster schaut. Und da, glaube ich, hat es sich noch an den Phänotypen gehalten. Von langer Hals, niedriger, große Ohren, so einem komisch-, oder seltsamformigen Kopf. Aber dann haben wir versucht, diese Szene abzubilden von Robert steht vor einer Tür und wagt es nicht oder schafft es nicht die Schwelle zu übertreten.

René (12:13)
Da muss man ein bisschen rumprobieren. Da hat er teilweise einen kleinen Jungen angezeigt. Teilweise würde ich sagen, einfach ein Mensch, der ganz normal aussieht, würde ich einfach sagen. Also nicht wie die ersten Bilder, die wir da rauskriegen. Also man muss einfach ein bisschen probieren, den Prompt einfach ein bisschen anpassen.

Katja (12:30)
Nach einer Weile ist es viel besser, wenn man weiß, was man will oder wie man beschreiben wird, was man will, weil nach einer Weile sagt es dann, ok, du hast deinen Limit erreicht, probier in ein paar Stunden wieder.

René (12:44)
das haben wir auch schon ein paar Mal erlebt.

Katja (12:48)
Auf der anderen Seite, wenn ich versucht habe mit Pika oder mit Runway ein Video von einem Jungen mit Fragilen X Syndrom herzukriegen, das hat überhaupt nicht funktioniert.

René (13:00)
Also, wieso hat nicht funktioniert. Erklär mal, was hast du genau gemacht?

Katja (13:03)
Also gar nicht. Es war nicht mal die menschliche Form. Es war irgendein Kopf, das am Boden gelegen ist mit Händen, die niemandem hingehören. Und das habe ich in dem Endprodukt nicht drinnen inkludiert. Ich habe das Gefühl, diese Videogenerierungstools sind nicht so gemacht, dass sie erst ein Bild gut generieren würden und es dann bewegen würden, sondern gehen direkt in diese Videoframes machen. Und da ist die Qualität jetzt, wie würde man es nennen? Schlecht ist das falsche Wort dafür.

René (13:31)
Mhm. Also ich sag's mal aus meiner Sicht, der momentane Stand ist, was interessant ist, dass überhaupt so was möglich ist, dass du aus dem Bild sozusagen ein Video, sag ich mal ganz einfach beschrieben, ein Video machen kannst. Aber wenn du das Video natürlich genau anguckst, vor allem wenn Menschen darin vorkommen, siehst du da ganz klar irgendwelche Unstimmigkeiten in der Bewegung, wenn jetzt sich Füße bewegen. Wir haben zum Beispiel gehabt von Playmobil Männchen, was so läuft und du siehst, dass dann die Füße ein bisschen, die kommen durcheinander. Das ist nicht der rechte vor dem linken, sondern unterwegs, kreuz und quer. Oder eben bei Händen. Eins war dabei, das war nicht so schlecht, aber bei Händen siehst du, du siehst zum Beispiel, jetzt sag ich mal, eine Schürze zu binden. Der Klient kommt in der Werkstatt, muss eine Schürze anziehen und das haben wir versucht nachzubilden. Wenn du die Schürze zu bindest, kommen die Hände auch ein bisschen durcheinander. Oder Schuhe anziehen, Arbeitsschuhe anziehen. Du siehst ganz klar, das funktioniert noch nicht so gut. Wahrscheinlich funktioniert es einfacher, wenn du ihn nur in der Landschaft bildest, wo eine Wiese ist.

Du hast einen leuchten Baum, oben sind Wolken und du bringst die Wolken sozusagen, die Bewegung aus dem Bild.

Katja (14:46)
Wolken hin und her schieben, das funktioniert großartig.

René (14:48)
Ja. Alle, die einen Kinofilm selber machen wollen, das ist noch nicht möglich. Und dann müssen auch Regisseure und Filmemacher, müssen sich noch keine Sorgen machen. Aber ich glaube, in Zukunft werden da schon echt wirklich krasse Sachen möglich sein. Man braucht natürlich immer noch das Know-how und zu wissen, wie macht man das so wie wir, wie baut man diese Story auf und die Geschichte. Das braucht man alles schon noch, das wirklich auch gut zu machen. Momentan würde ich sagen, ist noch nicht möglich.

Katja (15:15)
Aber auch das weiß ich nur, weil ich vom Shy Kids dieses Behind the Scenes Video von wie sie den Balloonhead, den Airhead gemacht haben, geschaut habe und wo sie geredet haben, was die größten Herausforderungen waren. Wir waren ein bisschen vorbereitet auf was zu erwarten ist. Und ja, eben schon gleich am Anfang, das erste Bild von jemandem mit fragilen X Syndrom ist gegangen, aber dann das zweite Bild, wenn diese Person vor einer Tür steht und Angst hat oder blockiert ist, da war es schon ein anderer Charakter. Das nennt man Character Consistency und das ist etwas, was bis jetzt noch nicht zum erreichen ist.

René (15:54)
Das kann man vielleicht mit anderen Bilderstellungstools machen, aber hier...

Katja (15:57)
Es ist mittlerweile schon möglich. MidJourney ist das Bilderstellungstool, das alle schön reden und MidJourney hat mittlerweile schon die Option, Charakter konsistent abzubilden. Das heißt, wenn du einen flauschigen Bären hast, der blau ist und eine weiße Nase hat und dann willst du, dass er mit einem Ball spielt, dann wirst du ungefähr diesen Bären rauskriegen. Es wird nicht auf einmal ein schwarzer Bär sein, nur weil du Bär gesagt hast.

René (16:27)
Der Bär sieht immer gleich aus, egal in welcher Szene er drin ist. Ob er im Haus sitzt, ob er auf der Wiese spielt oder so. Der Bär wird eigentlich ziemlich visuell immer ähnlich oder fast gleich aussehen.

Katja (16:42)
Das ist ein Feature, das sehr stark verlangt worden ist, vor allem von Leuten, die so was wie Kinderbücher machen und sie mit einem Tool wie Mid Journey zum Beispiel illustrieren möchten.

Okay, gehen wir mal weiter. Charakterkonsistenz war ein Problem. Das nächste Problem, das ich hatte, war, dass dieses Spielzeug überquert die Schwelle und leitet den Robert in die Werkstatt hinein. Und die nächste Szene war, dass der nette, freundliche René auf der anderen Seite ihm die Hand hinreicht und ihn so rein begleitet.

Ich habe versucht mit diesen Videogeneratoren zu sagen, eine Hand wird mir hingereicht oder eine Hand greift zur Kamera hin oder eine freundliche Hand ist vor mir. Nee, unmöglich. Das sind entweder keine Finger oder 10 davon oder der Finger statt irgendwie nach vorne zu gehen, wird auf der Seite breiter und dann auf einmal ist es ins Holz geworden. Diese Fails, ich habe so lange herum probiert mit dem Ding, das habe ich nicht in dem fertigen Produkt drin inkludiert, weil es war nicht mal erkennbar als eine Hand.

René (18:04)
Ja, das ist ja auch ganz klar, Katja. Wir wollen ja auch den Zuhörern sagen, nicht nur mal schwärmen, was alles geht, sondern auch sagen, okay, wo stoßen vielleicht Tools auch an ihre Grenzen. Und hier hast du eben ganz klassisch so ein paar Beispiele, wo gewisse Sachen möglich sind, die nicht so schlecht aussehen, aber auch viele Sachen, wo das eben noch nicht perfekt abgebildet wird. Ganz einfach.

Katja (18:23)
Ich kann ja auch sagen, wie ich das Problem dann am Ende gelöst habe.

René (18:26)
Na erzähl mal. Hast du Computer ausgeschaltet, oder?

Katja (18:28)
Ich habe ChatGPT einfach gesagt, er soll mir eine Person abbilden, die freundlich ausschaut, in einer Werkstatt drinnen steht und zu mir die Hand abreicht. Und ich habe den René beschrieben, habe gesagt, er soll wie ein René ausschauen. Der René ist ziemlich hübsch, aber das was Dalle dahingestellt hat, das war viel hübscher. Das war wirklich ein Model.

René (18:56)
Ja, ja.

Katja (18:57)
Mittlerweile, das muss man auch dazu sagen: diese Hand war anatomisch korrekt und hatte alle fünf Finger. Der Augenblick war auch in die Kamera gerichtet, das Lächeln war passend. Es schaut halt zu perfekt aus. Aber die Hand war richtig.

René (19:21)
Genau. Und die Geschichte dahinter. Die Idee war einfach, es soll einfach eine Person darstellen, die was ausstrahlt, was in dem Fall den Robert sozusagen in der Werkstatt willkommen heißen soll, dass er dann eben Vertrauen fasst und in die Werkstatt geht. Also ich baue die Bezugsperson und habe ihm das Vertrauen gegeben. Das sollte es ja abbilden und das hat es ja gemacht.

Genau, dann wird da sozusagen in der Werkstatt willkommen geheißen. Die ist natürlich laut und da ist es schwierig, viel in die Schwelle zu überschreiten, aber ich bin ja da und heiße ihn sozusagen willkommen.

Dann haben wir uns überlegt, wie machen wir den Übergang zu dieser Drehbank. Er sieht die immer wieder, interessiert an dieser Drehbank, geht hin, guckt, schaltet die ab und zu ein, wenn er sich traut, und wieder aus, und findet langsam Vertrauen. Das haben wir auch versucht, abzubilden. Und ... Genau. Der Drehbank macht das so aus, er festet Holz an, macht sich langsam vertraut mit diesen Sachen, festes Drechselmesser an, hält es in der Hand, das Witz kennenzulernen.

Angst sozusagen auch davon, ein bisschen abzubauen. Genau, und das haben wir natürlich auch ein bisschen versucht abzubilden oder mehr oder weniger. Du Katja, du hast da auch ein paar Bilder erstellt und die nach einer Bewegung gebracht. Erzähl mal darüber ein bisschen.

Katja (20:36)
Ja, aber auch nicht wirklich. Ich habe versucht, mit Dalle in ChatGPT ein Bild zu generieren von jemandem, der Drechselt. Das ist nicht wirklich gegangen. Eine Drechselbank hat ein Holzprodukt, ein Holzstamm, das waagerecht ist. Es ist auch gerade. Du kommst mit dem Messer dahin, dazu. Dieses Holzstück war hochgestellt.

Also logische Fehler sind drinnen. Es schaut vielleicht von der Ästhetik visuell her aus, als ob es irgendetwas richtiges abbildet, aber wenn man darüber nachdenkt, so funktioniert die Drechselbank nicht.

René (21:19)
Oder wenn man mit der Drechselbank, so wie ich ja schon gearbeitet habe, da sieht man ganz klar, was da, wenn das so, da wird nichts mehr rauskommen, da wird nichts funktionieren, da fliegt alles auseinander.

Katja (21:29)
Was ich am Ende für diese Szene genommen habe, war das Canva Template, das wir letztes Mal benutzt haben von einem Mann, der dreckselt. Das ist wirklich ein Film von einem richtigen Mann beim richtigen Drechseln, weil alles andere einfach nicht funktioniert hat. Was schwierig war auch einfach nur Lichterschalten sich ein. Das hat auch nicht funktioniert.

René (21:54)
Ja, vielleicht dann zu viele sich bewegende Elemente drin sind. Vielleicht wird es dann für die Tools schwierig.

Katja (22:00)
Da war ich wirklich überrascht, dass sowas nicht geht. Wieso ist es nicht möglich, so industrielle Lampen beim Blinken abzubilden? Licht schaltet sich ein von einer Werkstatt.

René (22:15)
Ja, vielleicht müssen wir einfach noch ein bisschen mehr üben.

Katja (22:18)
Ja, also ich habe nicht gewusst, wie ich das herkriegen soll oder was ich auch sehr lange versucht habe, ist abzubilden, wie jemand einen On Switch anmacht.

René (22:31)
So ein Schalter sozusagen.

Ja genau, das hast du noch gemacht. Und du wolltest noch was eben Holz dreht, das hast du ja gesagt gehabt. Und Kerzenständer hatten wir auch noch. Das sollte so das Endprodukt sozusagen, oder war das Endprodukt, was der Klient dann hergestellt hat. Da haben wir ein Bild zu generiert, das haben wir in Canva gemacht, das hat er auch hingekriegt. Wir haben das im Nachhinein zwar dann noch bearbeitet, weil der Kerzenständer ein bisschen anders, ein bisschen falsch aussah. Was haben wir dafür genommen, Katja? Welches Tool? Runway oder?

Oder haben wir das in Canva selber gemacht, glaube ich.

Katja (23:04)
Kann ich mich nicht mehr erinnern, aber was man auf jeden Fall dazu sagen muss ist, es ist unmöglich einen Kerzenständer abgebildet zu kriegen ohne Kerze.

René (23:14)
Okay, ja logisch. Aber muss ja erkennbar sein, sonst eben wenn eine Kerze drin ist, dann weißt du ganz klar, alles klar Kerzenständer. So versteht's.

Katja (23:21)
Ja, kriegst keinen ohne Kerze und du kriegst auch keine Kerze ohne Feuer.

René (23:28)
Okay.

Katja (23:28)
Es geht auch nicht. Da sieht man wirklich, das ist trainiert an Bildern von Kerzenständern, die haben immer eine Kerze drinnen und die ist immer an.

René (23:40)
Die brennt immer, genau. Auf jeden Fall haben wir das gemacht. Also während das Bild erstellt. Wir haben das in Canva noch sozusagen bearbeitet. Und zwar kannst du, du hast dort eine Funktion, dass du Sachen kennzeichnen kannst und dann einen Prompt eingeben kannst. Und der die Teile aus diesem Bild, die du markiert hast, dann ändert. Er hat vorher so einen Kerzenständer in der Hand gehabt, der war glaube ich aus Metall.

Katja (24:01)
Genau.

René (24:05)
war auch riesengroß und sah komisch irgendwie aus. Dann haben wir ihm ja beschrieben, er soll einfach in Kerzenstände aus Holz nehmen. Und das fand ich, das hat er ganz gut gemacht. Und du hast dieses Bild ja nachher weiterverwendet und hast es dann in Bewegung gebracht.

Katja (24:18)
Ja, Canva hat diese Option, wenn man auf ein Bild draufklickt und auf Edit Image geht, kriegt man diese Seitenleiste mit allen Pro Optionen, mit einem Pro Account, was man alles mit diesen Bildern machen kann. Und eins davon nennt sich Magic Edit. Das heißt, man markiert einen Teil von dem Bild und dann beschreibt man mit Text, was will ich denn stattdessen auf dieser Stelle generiert haben.

Bei anderen Tools nennt sich diese Funktion "inpainting". Und es ist eine Option schon bei sehr, sehr, sehr vielen Tools und ich sehe es kommen, dass es in den nächsten Monaten bei ziemlich allen Fotobearbeitungstools dabei sein wird, dass man die Möglichkeit hat, irgendetwas zu markieren und es zu verändern. Oder sogar, wie in Canva, Magic Eraser, dass du etwas markieren kannst und sagen, das will ich löschen.

Als nächstes wollten wir dann abbilden, wie Robert seinem Vater dieses Produkt zeigt. Und das ist sehr schwierig, weil immer wenn man mehrere Sachen auf einem Bild oder in einem Video abbilden will, wird irgendwo ein Fehler drinnen sein.

René (25:35)
Deswegen haben wir uns dafür entschieden, wir nehmen nur ein Bild, wo Robert drauf ist, mit dem Kerzenständer und einem Lächeln im Gesicht, dass er da steht, gerade, er ist stolz, hat seinem Vater gezeigt, guck hier, das habe ich hergestellt, das ist jetzt nicht gedacht. Sein Selbstbewusstsein ist gestärkt. Und er sagt dann am Schluss noch, ich bin Robert, ich bin Holzarbeiter und ich bin der Schöpfer von hier. Ich mache das und das.

Katja (26:01)
Diese letzte Szene ist wirklich gut geworden, aber nicht weil es als Video generiert worden ist, sondern weil das... Das war ziemlich so das erste Bild, das wir geschafft haben und das hast du mit Dalle, mit ChatGPT gemacht und ich hab es dann genommen und hab's im... Ich hab's Pika gegeben im Discord und hab Pika gefragt, ob sie dieses Ding animieren kann, so dass dieser Junge glücklich ausschaut. Und irgendwie statt ihm beim Lachen oder beim Lächeln oder beim Jubeln zu generieren, hat es ihm zum Reden gebracht. Aber das Geredete, so wie die Mundbewegung dort ist, es zieht sich am Ende in ein Lächeln hinein. Was, glaube ich, passend ist, weil Leute mit einem Fragilen X Syndrom gehen ja nicht so ha ha ha ha lachen.

René (26:51)
Auch da sind die unterschiedlich. Kann man natürlich nicht pauschalisieren. Also da gibt es unterschiedliche Verhaltensmuster. Aber auf jeden Fall ist es schön, das war ja aber trotzdem die Idee von der Geschichte war eben, dass er ja, er soll nachher glücklich sein. Er soll mit dem Projekt, was er macht, soll er Selbstbewusstsein gewinnen, soll seinem Vater zeigen, hier, ich hab dir schon immer davon erzählt, dass ich das mache. Ihr habt mir als Eltern nie geglaubt. Jetzt komm her und ich zeig dir das. Und nachher steht er da und sagt hier: ich,

Katja (26:58)
Okay, ich hab's irgendwie passend gefunden.

René (27:20)
ich nicht Du.

Und was wir dann nachher gemacht haben, wir haben eben die ganzen Bilder erstellt, wir haben dann diese Videos erstellt, haben versucht, das mit Emotionen zu versehen, wir haben die Story erstellt hin und her. Jetzt hatten wir natürlich die ganzen einzelnen Bauteile und damit es ein Video wird, was irgendwie auch einen Sinn macht, einen vernünftigen Ablauf, haben wir das Video natürlich, wie ich sage jetzt mal, für einfacheres Beispiel, zusammengebaut, geschnitten und Musik dazu gegeben.

Katja (27:49)
Also, jetzt haben wir hunderte von diesen Bildern generiert und versucht sie zu animieren und noch mehr von diesen Videos, kurzen generiert und die 90 Prozent davon weggeworfen. Das meiste in Pika im Discord Kanal, weil man da unendlich viel machen kann und ein paar davon im Runway, bis mir die Kredite ausgegangen sind, was ziemlich lange gedauert hat. Ich hab schon ein paar Stunden damit gespielt, bevor Runway gesagt hat, jetzt reicht's aber.

René (28:25)
Das glaube ich 50, glaube ich, habe ich mal gelesen, 50 Kredite.

Katja (28:29)
Aber einzelne Szenen, die Vertonung und die Geschichte machen noch kein Video.

René (28:39)
Stimmt. Du musst das Video, du musst es zusammenstellen irgendwie, so dass es einen gewissen Ablauf hat und Sinn macht. Das haben wir natürlich gemacht.

Katja (28:50)
Auch dafür gibt es KI Tools oder normale Tools. Ich habe Clipchamp verwendet. Das ist das Ding, das mit Windows 11 vorinstalliert kommt. Und es war mein erstes Mal mit Clipchamp. Und ich habe auch nicht sehr viel Energie reingesteckt, da rein, dass diese Übergänge zwischen den Videos irgendwie besser wären oder dass es da Überschriften geben würde.

Ich habe mich nicht wirklich bemüht, weil das nicht Sinn der Sache war, jetzt diesmal. Wenn ich das machen würde, glaube ich, würde ich CapCut nehmen.

René (29:31)
die beiden Tools, das ist meine Erfahrung, ich hab die auch schon mal ausprobiert, du musst dich schon ein klein wenig, denke ich mal, im Video editieren auskennen. Also die sind schon ein bisschen, denke ich, für, ich sag jetzt nicht für Anfänger, sondern sozusagen so fortgeschrittene Anfänger. CapCut, so nenne ich es mal, also nicht ganz ohne Vorkenntnisse, sondern wenn man so ein bisschen Vorkenntnisse hat, dann geht das ein bisschen besser.

René (29:58)
CapCut ist ähnlich wie Clipchamp. Du hast dort verschiedene Template, wie bei anderen Tools auch.

Du kannst Sound unter deinen Videos drunter liegen. Du kannst automatische Captions zu dem Video erstellen lassen. Er generiert dir dann Text dazu. Du kannst in allen möglichen Formaten darstellen. Wenn du das jetzt für Social Media verwenden willst oder zum Beispiel stellst, hast du eine Auswahlmöglichkeit.

Du kannst die Videos so machen, dass du eben Filter darüber legen kannst, über die Videos. Du kannst schöne Übergänge machen und Effekte dazu geben. Man muss sich erstmal ein bisschen einen Überblick verschaffen, wo sind die ganzen Einstellungsmöglichkeiten und das alles mal ein bisschen ausprobieren.

Katja (30:36)
Man könnte, ich hab's nicht gemacht, aber es war ziemlich intuitiv, dass man diese erstellten Videos irgendwie hoch lädt, also rein zieht und dann, wenn man sie hochgeladen hat, kann man sie auf der Timeline verteilen. Und ich hab's auch ziemlich intuitiv gefunden, einzustellen, wie lange ist jede einzelne Szene. Weil das haben wir ja auch machen müssen. Wir müssten diesen Narrator, die Stimme,

René (30:45)
Mhm.

Mhm.

Katja (31:05)
die Vertonung irgendwie mit den Szenen zusammenbilden, sodass wenn er sagt Schützausrüstung anziehen, dass dort die Szene ist von Schützausrüstung anziehen.

René (31:19)
nicht von den schuhen oder von was auch noch das hast du recht

Katja (31:23)
Ja genau, das war dann ein bisschen eine Spielerei. Man wird auch merken, am Ende war ich schon ein bisschen müde, als ich den Video erstellt habe und da ein bisschen geschummelt und habe ein paar von denen verdoppelt oder einmal ein Bild genommen und es mit zwei verschiedenen Tools ins Leben gebracht und sie als Vergleich dort drinnen gelassen. Auf jeden Fall das Video fertig erstellte ist auf YouTube. Unter dem Namen Projekt Robert auf unserem YouTube Kanal zu finden, werden wir natürlich in der Beschreibung auch verlinken.

CapCut und ClipChamp sind natürlich nicht die einzigen Tools, die für Videoediting existieren. Es gibt Tausende.

René (32:05)
Ich will auch nicht vergessen, Canva zu erwähnen. Machen wir jetzt ja fast jedes Mal hier. Aber auch da, einfach nur, ich will jetzt keine Werbung machen, aber einfach ganz da, da ist auch ganz viele Sachen, die eben schon KI basiert sind, wo die KI dich da unterstützt, gewisse Dinge zu machen.

Katja (32:08)
Hehehehe

Wir haben jetzt sehr viele Tools besprochen und sie ziemlich technisch und schnell so vorgestellt, aber ein guter Umweg den ich mache, wenn ich nicht weiß wie ich ein Tool benutzen soll ist, ich frag ChatGPT

René (32:37)
Der kann dir ganz viele Ideen, zumindest erste Ideen liefern. Da kommt das einige Höhlen ein bisschen in den Schwung und man kann die ganzen Sachen ein bisschen mehr ausarbeiten.

Katja (32:46)
Nicht nur das, auch wenn du eine Frage hast, wie erstelle ich das? Zum Beispiel, ich habe gefragt, wie mache ich mein Logo für meine Firma? Welches Tool soll ich benutzen und gib mir eine Schritt-für-Schritt Anleitung zu, wie mache ich jeden von diesen einzelnen Schritten? Und es ist so wie ein eingebautes Tutorial drinnen. Manchmal ist es outdated, manchmal ist es falsch, aber man kann einfach fragen, was wären die Schritte, ein Video zu produzieren?

René (33:17)
Unsere Idee war heute, dass wir euch zeigen, wie man Videos erstellen kann, das für zum Beispiel für eure Einrichtung zu nutzen, für eure Social Media Kanäle, dort emotionale Geschichten abzubilden. Was wir aber heute auch selber gelernt haben, ist, dass das mit KI, also Videos erstellen mit KI, aus der heutigen Sicht noch nicht hundertprozentig möglich ist. Aber wir wollten einfach für euch abbilden.

Was für Möglichkeiten gibt es mit KI schon, was man machen kann, eben Videos herzustellen für Social Media Kanäle und eben nicht unbedingt sich ein Filmteam zu holen, was Tausende von Euros kostet, um das Video für euch zu erstellen.

Katja (34:03)
Am Ende des Tages wird man authentische Videos aus der Einrichtung von Klienten, von tatsächlicher Arbeit kombinieren mit vielleicht einzelnen Szenen, die KI generiert sind. Irgendetwas Simples, so wie die Sonne geht runter am Ende des Tages oder die Lichter drehen sich an. Solche dramatische Szenen, die man zwischen den Szenen einbildet, die Story zu verbinden, die Story zu veratonen, was wir auch mit KI gemacht haben.

Wir wollten euch einfach nur zeigen, wie sehr KI dabei helfen kann und wie schlecht das Resultat am Ende ist, wenn man sich überhaupt nicht auskennt, keine Erfahrung hat und mit dem Technikstand, den wir heute haben, das seht ihr auf unserem YouTube Kanal.

René (34:49)
Genau. Falls ihr noch weitere Fragen dazu habt oder auch noch mehrere Informationen habt, seid nicht schüchtern, meldet euch bei uns und wir erklären euch das natürlich ganz gerne. Also.

Katja (34:59)
Und bitte teilt uns eure Meinung auf dem YouTube Video in den Kommentaren mit.

René (35:04)
Genau, ganz wichtig, habe ich fast vergessen. Danke Katja. Also, schön, dass ihr dabei wart. Ich hoffe, ihr konntet etwas mitnehmen aus dem heutigen Podcast und bis zum nächsten Mal. Ciao.

Katja (35:16)
Tschüss!

People on this episode

Katja

Host

Rene

Host