Generative KI kann Daten verschmutzen
Posted by corafriendbook
from the Technology category at
23 Sep 2024 03:33:08 am.
Das Projekt Wordfreq zur Analyse des menschlichen Sprachgebrauchs wird eingestellt, da generative KI die im Internet frei verfügbaren Daten verunreinigt. Robyn Speer, der Initiator des Projekts, berichtete dies auf Github.
Im Rahmen des Projekts wurde zunächst das Internet durchsucht, um die sich verändernde Prävalenz verschiedener Wörter im menschlichen Sprachgebrauch zu analysieren.
Da mittlerweile zu viele große Sprachmodelle das Internet mit Inhalten geflutet hätten, die nicht von Menschen geschrieben seien, verzerrten diese die gesammelten Daten zu stark, erklärte Speer. Sie glaube nicht, dass irgendjemand zuverlässige Informationen über die Sprachverwendung nach dem Jahr 2021 habe.
>>>>>>>>>>Ersatz Akku BHX212 für DJI Osmo Pocket 3
Auch vor dem Jahr 2021 habe es mit Sicherheit Spam in den Datenquellen gegeben. Dieser sei aber überschau- und identifizierbar gewesen. Als Beispiel nannte Speer ChatGPT, welches dazu neigt, das englische Wort delve (vertiefen) besonders häufig zu verwenden. Dieses hat dadurch in seiner Gesamthäufigkeit sehr stark zugenommen, ohne dass Menschen es tatsächlich vermehrt verwenden.
Daten werden nur noch gesammelt, um KI-Modelle zu trainieren
>>>>>>>>>>Ersatz Akku 623758-1S2P für DJI Mavic 2 pro Remote Control
Neben dem offenen Internet sammelte Wordfreq Daten zur Umgangssprache auch von Twitter (ab 2023 X) und Reddit. Die Daten von Twitter durften aufgrund der Nutzungsbedingungen ohnehin nicht außerhalb des Unternehmens verteilt werden und durch die Abschaltung der öffentlichen APIs fielen sie ohnehin als Datenquelle weg. Zudem sei Twitter seit der Übernahme durch Elon Musk mit Spam verseucht und könne daher keine wertvollen Informationen mehr liefern, erklärte Speer.
Reddit stellt ebenfalls keine Datenarchive mehr öffentlich bereit und verkauft diese nun zu so hohen Preisen, dass laut Speers Meinung nur OpenAI dazu bereit wäre, diese zu zahlen.
Sie forscht im Bereich der Verarbeitung natürlicher Sprache, die heutzutage nur noch schwer zu finden ist. Stattdessen können alle Tools zur Analyse von Texten im Internet nur dazu verwendet werden, generative KI-Modelle aus geschlossenen Daten zu trainieren, die von Unternehmen wie OpenAI und Google kontrolliert werden.
Aus diesen Gründen möchte der Forscher nicht mehr Teil dieser Szene sein und erklärt, dass Wordfreq keine Updates mehr erhalten wird.
>>>>>>>>>>Ersatz Akku GB-S10-355468 für DJI GB-S10-355468
0 Comments