Aufgabe 07

BA Inhaltsanalyse: Inhalte öffentlicher Kommunikation KF G
Wintersemester 2024/2025
Dozent
Raum

Felix Dietrich

01 501

Beispiel: Zero-Shot Klassifikation

Wir laden zunächst wieder den Kommentaredatensatz…

library(tidyverse)
library(arrow)

comments <- read_parquet("http://data.felix-dietrich.de/comments.parquet.gzip")

und erstellen ein Subsample von 10 Kommentaren. Bitte verwenden Sie alle den Code anbei und führen Sie ihn mit dem gleichen Seed aus, damit wir alle das gleiche Test-Sample erhalten. Führen Sie beide Befehle (zunächst set.seed() und dann dann die Erstellung des Subsamples) direkt hintereinander aus!)

set.seed(05122024)

subsample <- 
  comments |> 
  slice_sample(n = 10)

Nun legen wir (wie im Vorbereitungsskipt dokumentiert) eine Funktion an, die alle Schritte der Zero-Shot-Klassifikation in einem Schritt vereint…

library(tidyllm)

classify_text <- function(text, task) {
  prompt <- paste(task, text, sep = "\n\n")
  tidyllm::llm_message(prompt) |>
    tidyllm::ollama(
      .ollama_server = "https://llm.ifp.uni-mainz.de",
      .model = "gemma2",
      .temperature = 0
    ) |>
    tidyllm::last_reply() |>
    str_squish()
}

…und erstellen anschließend über die mutate()-Funktion eine neue Spalte in unserem Datensatz, in welcher das jeweilige Ergebnis der Klassifikation eingetragen wird.

Warnung

Wichtig: Bitte wenden Sie diesen Befehl nicht bedenkenlos auf eine sehr große Menge Daten an (wie z.B. den gesamten Kommentar-Datensatz). Dies würde sehr lange dauern und könnte im schlimmsten Fall sogar den Server überlasten. Wenn Sie größere Datenmengen klassifizieren wollen, stimmen Sie dies zuvor mit mir ab. Außerdem wir die Ausführung des Befehls dann sehr lange dauern. Es wäre sehr ärgerlich, wenn bei der Klassifikation von 200.000 Kommentaren nach 100.000 Kommentaren ein Fehler auftritt und alle 99.999 zuvor bereits erfolgten Klassifikationen verloren wären. In einem solchen Fall sollten wir uns also zusätzlich eine Strategie zur Aufteilung der Klassifikation in kleinere Arbeitspakete, die einzeln gespeichert werden, überlegen.

task <- "Does this YouTube comment directly address a person in the video"

classified_sample <- 
  subsample |> 
  rowwise() |> 
  mutate(
    direct_address = classify_text(text = comment, task = task)
  ) |> 
  ungroup()

classified_sample |> 
  select(comment, direct_address)
# A tibble: 10 × 2
   comment                                                        direct_address
   <chr>                                                          <chr>         
 1 Merry Christmas Crosbys! This is one of my favorite Christmas… "Yes, the You…
 2 My baby mama🤣🤣🤣🤣🤣🤣is that really the name lexi is going… "Yes, this Yo…
 3 Omg do you need to go back to LA stay where you are  can you … "Yes, this Yo…
 4 I thought this was new i was so excited... Youtube bein shady… "No, this You…
 5 take it out first then burn box it's just harsh 😕😕😕😕😕     "No, this You…
 6 Awwww this is awesome beautiful vidio. Congratulations to you… "No, the YouT…
 7 Lol you’re so funny!! 😆😂But this situation is still sad. ☹️L… "Yes, the You…
 8 Claire gives me peace too ... she is such an adorable little … "Yes, the com…
 9 Omg i love you so much! You Are an incredible person !!!!!!! … "Yes, this Yo…
10 No @bramty throwing shade at Luis “I have back pain “ hahhaa   "Yes, this Yo…
classified_sample |> 
  select(comment, direct_address) |> 
  slice_head(n = 1) |> 
  pull(comment)
[1] "Merry Christmas Crosbys! This is one of my favorite Christmas hymns because it tells us that Jesus came to earth to die for our sins and take the punishment that we deserve upon Himself because of His love, mercy and grace. Amazing!"
classified_sample |> 
  select(comment, direct_address) |> 
  slice_head(n = 1) |> 
  pull(direct_address)
[1] "Yes, the YouTube comment directly addresses the people in the video by using \"Crosbys!\" This indicates they are addressing a family or group named Crosby who created the video."

Übung

Überlegen Sie sich, wie Sie eine der Kategorien aus Ihrem Codebuch in einen Task übertragen können, der von einem LLM gelöst werden kann. Testen Sie dies mit dem Testsample von 10 Kommentaren und verbessern Sie Ihren Ansatz iterativ.