StartSenza categoriaInterviewsReddit-Daten-DAO und alles, was man über das Training von Gen-AI-Modellen wissen muss

Reddit-Daten-DAO und alles, was man über das Training von Gen-AI-Modellen wissen muss

Der Cryptonomist interviewte Anna Kazlauskas, CEO und Mitbegründerin von Vana’s, die Reddit Data DAO, die in der ersten Woche 140.000 Benutzer verzeichnete, die sich mit verifizierten Reddit-Konten anmeldeten. Anna arbeitet jetzt mit Entwicklern zusammen, um Data DAOs für andere Plattformen wie LinkedIn und ChatGPT zu erstellen. 

Zusätzlich zu DAOs haben sie andere Möglichkeiten für Benutzer, ihre Daten in Datensätze zu bündeln, die dann für das GenAI-Modelltraining verwendet werden können, wie zum Beispiel das Erstellen von Porträts oder Avataren.

Abgesehen davon, was Vana tut, haben Anna und ich über das Wachstum des dezentralisierten KI-Bereichs gesprochen, da Plattformen den Menschen helfen, ihre Daten für neue Anwendungen zu nutzen und zu monetarisieren. 

Summary

Können Sie einen Überblick über Vana und seine Mission im dezentralisierten KI-Bereich geben?

Vana ist eine benutzergeführte KI-Plattform, die von benutzereigenen Daten angetrieben wird. Unsere Mission ist es, dass Benutzer ihre Daten und den Wert, den sie durch KI-Modelle schaffen, besitzen. Es gibt einen wachsenden Bedarf an mehr Trainingsdaten, um die Leistung von KI-Modellen zu verbessern, da KI-Modelle letztendlich nur so gut sind wie ihre Daten. 

Zum Beispiel wird LLaMA 3 mit etwa 15 Billionen Wörtern trainiert, was ungefähr der Menge an Daten entspricht, die im öffentlichen Internet verfügbar sind. Unternehmen versuchen nun, mehr Daten zu erwerben und zahlen manchmal Hunderte von Millionen Dollar dafür. Große Technologieplattformen horten wertvolle Benutzerdaten und entwickeln neue Technologien, ohne die Erlaubnis der Benutzer zu berücksichtigen, was die Innovation hemmt. 

Bei Vana befreien wir Daten aus diesen abgeschotteten Gärten, indem wir sie unter die Kontrolle der Benutzer stellen. Wir ermöglichen es den Benutzern, direkt zu AI-Modellen beizutragen, zu wählen, wie ihre Daten verwendet werden und wie AI verwendet wird. Wir glauben, dass wir die führenden Modelle tatsächlich übertreffen können, wenn wir auf die besten Daten zugreifen können – die Leistung von Modellen wie GPT-6 übertreffen, indem wir auf Daten zugreifen, die nur direkt von Benutzern verfügbar sind. Vana ist als Layer-1-Blockchain konzipiert, die von Grund auf für private, benutzereigene Daten entwickelt wurde. 

Die Reddit Data DAO sah 140k Benutzer, die sich in der ersten Woche anmeldeten. Was denken Sie, hat diese schnelle Annahme vorangetrieben, und welche Lektionen haben Sie aus diesem Start gelernt?

Das Reddit Data DAO war aus Sicht der Akzeptanz ein unglaublicher Erfolg, mit über 140.000 Benutzern, die sich in der ersten Woche angemeldet haben. Dieses Maß an Akzeptanz ist für DAOs ungewöhnlich – es ist jetzt das größte Data DAO in der Geschichte. 

Eines der Dinge, die die schnelle Akzeptanz vorangetrieben haben, ist, dass ein Großteil der Geschichte bereits festgelegt war, da den Nutzern durch die Berichterstattung über Datenverkäufe immer mehr der Wert ihrer Daten bewusst wird. Zu erkennen, dass Reddit Ihre Daten für 200 Millionen Dollar verkauft oder dass Apple Daten für 50 Millionen Dollar aufkauft, macht Ihnen den Wert viel bewusster. 

Es gibt auch eine starke Nachfrage nach benutzergeführten Produkten, die in web3 gebaut sind und über die vertrauten DeFi-Produkte hinaus zu einer neuen Grenze des Eigentums gehen. Wir sehen diesen Trend in Projekten wie Farcaster, DePIN-Netzwerken und Daten-DAOs, die auf Vana aufgebaut sind und eine neue Welle von benutzergeführten Produkten repräsentieren.

Eine wichtige Lektion war die Notwendigkeit von Nachweisen für Beitragsanforderungen. Über eine Million Menschen versuchten, dem Reddit Data DAO beizutreten, aber viele erfüllten nicht die Kriterien, ein Reddit-Konto zu haben, das seit einer bestimmten Zeit besteht und eine Mindestmenge an Daten aufweist. Dies unterstreicht die Bedeutung von Mechanismen zur Sicherstellung qualitativ hochwertiger Beiträge.

Sie erwähnten Pläne zur Erstellung von Data DAOs für Plattformen wie LinkedIn und Chat GPT. Welche einzigartigen Herausforderungen und Chancen sehen Sie bei der Erweiterung auf diese Plattformen?

Vana ist ein Peer-to-Peer-Netzwerk für benutzereigene Daten, und Entwickler haben verschiedene Daten-DAOs wie das Reddit Data DAO, LinkedIn Data DAO und ChatGPT Data DAO erstellt. 

Diese verschiedenen Datenquellen sind unglaublich wertvoll für das Training von AI-Modellen, aber sie sind derzeit in geschlossenen Systemen eingeschlossen. Jede dieser Plattformen kann schwierig sein, um Daten herauszubekommen, aber es ist immer möglich aufgrund von Datenregulierung.

Wie befähigt Vana Benutzer, ihre Daten zu monetarisieren, und was sind einige Beispiele dafür, wie Benutzer davon profitiert haben?

Unser Ziel ist es, den Nutzern zu helfen, ihre Daten gleichzeitig zu monetarisieren und zu schützen. Zum Beispiel trainieren sie mit dem Reddit Data DAO jetzt ein nutzereigenes Modell (das sich in diesem Stadium hauptsächlich auf Shitposting konzentriert, aber es ist ein Anfang). Nutzer werden jedes Mal bezahlt, wenn das Modell verwendet wird, was einen wirtschaftlichen Anreiz für den gemeinsamen Besitz des Modells schafft. 

Und Benutzerdaten bleiben vollständig privat – anstatt Daten zu verkaufen, werden die Daten nur „vermietet“, wobei die zugrunde liegenden Daten die sichere Umgebung niemals verlassen. 

Mit der wachsenden Besorgnis über den Datenschutz, wie stellt Vana sicher, dass Benutzerdaten sicher und ethisch innerhalb von Data DAOs verwendet werden?

Datenschutz hat sich von einer rein ideologischen oder Präferenzfrage zu einer wirtschaftlichen Frage gewandelt. Wenn jemand Ihre Daten hat, kann er möglicherweise eine AI-Version von Ihnen erstellen, die wirtschaftlich wertvoll ist, Einnahmen generiert und möglicherweise mit Ihnen konkurriert. Deshalb ist Datenschutz so wichtig und zentral für Vana. 

Wir haben ein Konzept namens „nicht-verwahrte Daten“ erfunden, das ähnlich wie eine nicht-verwahrte Wallet ist, aber für Ihre persönlichen Daten. Es hält Ihre Daten unter Ihrer vollständigen Kontrolle, genehmigt durch Ihren privaten Schlüssel. Dies ermöglicht es, Ihre Daten portabel über Anwendungen hinweg zu machen und fügt eine native finanzielle Schicht hinzu, die es ermöglicht, Dinge wie Daten-DAOs zu erstellen.

Wie verbessern die durch Vana’s Data DAOs erstellten Datensätze das Training von generativen KI-Modellen, und welche Vorteile bieten sie gegenüber traditionellen Datensätzen?

Typischerweise werden KI-Modelle mit Daten trainiert, die aus dem öffentlichen Internet stammen – Daten, die ohne Anmeldung verfügbar sind. Aber wenn man es aus der Perspektive betrachtet, einem Kind etwas über die Welt beizubringen, würde man nicht wollen, dass es zufällig im öffentlichen Internet herumwandert. Man würde ihm qualitativ hochwertige Informationen geben wollen, die möglicherweise nicht öffentlich zugänglich sind – Dinge wie qualitativ hochwertiges Schreiben, Denkprozesse oder Nachrichten. KI wird hauptsächlich mit öffentlichen Daten trainiert, aber sie benötigt wirklich private Daten, um die Grenzen zu erweitern. Dies ist es, was Daten-DAOs ermöglichen: Benutzer, die ihre privaten Daten beitragen, um benutzergeführte KI zu erstellen. 

Wir glauben, dass KI mehr wie Open-Source-Software von einer Gemeinschaft erstellt werden sollte. Unser Ziel ist es, Forschern Zugang zu den besten Datensätzen zu geben, die derzeit in geschlossenen Systemen gefangen gehalten werden, um die Grenzen der KI-Leistung zu erweitern.

Welche Trends sehen Sie im dezentralisierten KI-Bereich in den nächsten 5-10 Jahren, und wie positioniert sich Vana, um in diesem sich entwickelnden Umfeld führend zu sein?

Der dezentralisierte KI-Bereich hat sich im vergangenen Jahr wirklich beschleunigt. Zum Beispiel gab es auf der EthCC in diesem Jahr fast jeden Tag eine dezentrale KI-Veranstaltung, verglichen mit keiner im letzten Jahr. Die Leute finden heraus, wie man souveräne Technologien, die sich im Finanzwesen bewährt haben, auf den KI-Bereich anwenden kann. Bei Vana glauben wir, dass die Kernbasis all dessen Daten sind. Um benutzergeführte KI und souveräne KI zu entwickeln, benötigt man benutzergeführte Daten, daher liegt unser Fokus auf diesem Datenstück.

In den nächsten 5-10 Jahren freue ich mich auf einige Meilensteine: 1) Ein von Nutzern besessenes Foundation-Modell, das kollektiv von 100 Millionen Menschen besessen wird. 2) Mehr autonome KI-Agenten, die eigenständig verdienen können, und sicherstellen, dass diese Agenten wirklich den Nutzern gehören, die zu ihrer Ausbildung beigetragen haben. 

Da KI eine immer wichtigere wirtschaftliche Rolle spielt, ist es wichtig, dass die Macht sowohl aus technischer als auch aus sozialer Perspektive breit verteilt wird. 

Können Sie mehr über Ihre Zusammenarbeit mit Entwicklern zum Aufbau von Data DAOs erzählen? Was sind einige der innovativen Projekte, die derzeit in der Pipeline sind?

Vana ist ein erlaubnisloses Netzwerk, sodass jeder ein Daten-DAO erstellen kann. Es ist eine Layer-One-Blockchain, die von Grund auf für private, benutzereigene Daten entwickelt wurde. Heute sind über 100 Daten-DAOs auf dem Satori-Testnetzwerk bereitgestellt. Viele der Ersteller sind frühe Teilnehmer im Bittensor-Ökosystem, die das Zusammenspiel von Krypto und KI tief verstehen. Einige bemerkenswerte Projekte umfassen das Twitter Data DAO, LinkedIn Data DAO und GitHub Data DAO. Wir arbeiten auch mit Projekten im ZK-Bereich und DAO-Tooling-Bereich zusammen, um Daten-DAOs noch einfacher zu erstellen und zu verwalten.

Welche ethischen Überlegungen sind bei der Entwicklung von dezentraler KI am dringendsten, und wie geht Vana mit diesen Problemen um?

Ich denke, eine der größten Fragen in der heutigen KI ist, wer die Modelle besitzen und entscheiden sollte, welche Daten in sie einfließen. Da wir uns immer mehr auf KI für Informationen verlassen, werden sie zu unserer Quelle der Wahrheit. Wer entscheidet, was in die KI einfließt, entscheidet im Wesentlichen über die Wahrheit. Es ist beängstigend, eine einzelne Entität dies kontrollieren zu lassen. Unsere Ansicht bei Vana ist, dass die Gemeinschaft, nicht ein einzelnes Unternehmen, diese Entscheidungen treffen sollte.

Eine weitere Frage, die bei dezentralisierter KI aufkommt, ist: Wenn die KI vollständig dezentralisiert ist, was passiert, wenn die KI außer Kontrolle gerät und es keinen Ausschaltknopf gibt? Die Art und Weise, wie wir dies bei Vana angehen, ist, dass KI-Modelle letztendlich den Nutzern gehören, die zu ihnen beigetragen haben, sodass sie immer die volle Kontrolle behalten. 

Welchen Rat würden Sie angehenden Unternehmern geben, die in den dezentralisierten KI-Bereich einsteigen möchten, basierend auf Ihren Erfahrungen mit Vana und Data DAOs?

Es ist eine großartige Zeit, um im dezentralisierten KI-Bereich zu beginnen. Es gibt viele Möglichkeiten, einige der kryptoökonomischen Primitiven, die sich für DeFi bewährt haben, auf die neue aufstrebende Kategorie von dezentralisierten Daten und KI anzuwenden. Ich würde auch empfehlen, etwas Zeit damit zu verbringen, in den nicht-krypto, Open-Source-KI-Bereich einzutauchen, um mehr über einige der Ansätze zu erfahren, die Menschen außerhalb eines Krypto-Kontexts verfolgen. Ich würde mich praktisch in einige der bestehenden Projekte vertiefen, um zu sehen, welche Art von Primitiven zum Bauen verfügbar sind, einschließlich des Versuchs, eine Daten-DAO auf Vana zu starten. 

RELATED ARTICLES

MOST POPULARS