Reddit hat seine API geschlossen um das Aufbauen von Datenbanken für Sprachmodelle zu verhindern. Da stellt sich die Frage: wie steht das Fediverse und insbesondere Lemmy dazu? Dürfte ich für einen freien Assistenten (z.B. für https://open-assistant.io/) Datensätze auf Basis der subs hier auf Lemmy zusammenstellen?

  • @nottheengineer
    link
    fedilink
    2811 months ago

    Es ist ein öffentliches Forum, daher kein Problem. Reddit glaubt, die Nutzerdaten zu besitzen und dafür Geld verlangen zu dürfen. Hier glaubt das niemand, die Daten werden frei zwischen Instanzen verteilt.

    Bei großen Datenmengen würde ich aber mit den Admins in Kontakt treten, sonst kann durch scraping schon mal die ganze Instanz in die Knie gehen.

      • @aard
        link
        fedilink
        811 months ago

        Public Domain existiert in Deutschland nicht.

        Die meisten Beitraege hier duerften aber die Schoepfungshoehe die fuer urheberrechtlichen Schutz noetig ist nicht erreichen.

        • @gigachad
          link
          fedilink
          1311 months ago

          Ich weiß zwar wies gemeint ist aber irgendwie fühle ich mich trotzdem angegriffen

  • Treasure
    link
    fedilink
    1511 months ago

    Es ist schwierig, das zu unterdrücken. Du kannst schließlich jederzeit deine eigene Lemmy-Instanz aufsetzen und von allen anderen Instanzen, die Föderation angeschaltet haben und dich nicht explizit deföderiert haben, die Daten sammeln. Dazu musst du nicht mal scrapen.

  • @kat
    link
    fedilink
    1211 months ago

    Ich glaube technisch kann man es eh nicht verhindern und illegal wäre es meines Wissens auch nicht. Aber vielleicht zielt Deine Frage auch eher auf ethische Aspekte ab? Da finde ich es schon etwas schwierig, weil die Leute, deren Posts dann benutzt würden, ja nicht wirklich um Erlaubnis gefragt wurden. Auf der anderen Seite machen Suchmaschinen auch nichts anderes (und würden sonst gar nicht funktionieren). Schwieriges Thema.

    Es wäre praktisch wenn man in seinem Account ein Optin-Flag oder sowas setzen könnte, dass dann ebenfalls über die API auslesbar wäre.

      • @taladar
        link
        fedilink
        611 months ago

        Egal was ethisch dabei raus kommt und auch für andere Quellen, achte bitte beim Scraping darauf entsprechendes Rate Limiting zu machen damit die Seite nicht zu sehr belastet wird.

    • Treasure
      link
      fedilink
      611 months ago

      Ich finde so ein “Opt-In” Flag zwar keine schlechte Idee, aber fraglich, wer sich dann daran hält. Wer für möglichst viele und diverse Daten scrapen möchte, macht das in der Regel ohne Rücksicht auf Verluste.

      • @kat
        link
        fedilink
        6
        edit-2
        11 months ago

        Klar, so ein Flag wäre nur ein Hinweis für Leute, die sich schon von sich aus “ethisch” verhalten wollen, aber niemand wird dadurch von irgendwas abgehalten. Ähnlich wie die do-not-track header im Browser.