Les données sont des actifs : DataFi ouvre un nouvel océan bleu.

2025-07-23 02:06:53

Auteur : contributeur principal de Biteye @anci_hu49074

« Nous sommes dans une ère de compétition mondiale pour construire les meilleurs modèles de base. La puissance de calcul et l'architecture des modèles sont importantes, mais le véritable atout est les données d'entraînement »

—Sandeep Chinchali, Chief AI Officer, Story

Parlons du potentiel du suivi des données AI du point de vue de Scale AI.

Le plus grand potin dans le cercle de l'IA ce mois-ci est la démonstration des capacités financières de Meta. Zuckerberg a recruté des talents partout et a formé une équipe d'IA Meta luxueuse composée principalement de talents de recherche scientifique chinois. Le responsable de l'équipe est Alexander Wang, qui n'a que 28 ans et a fondé Scale AI. Il a fondé Scale AI, qui est actuellement évaluée à 29 milliards de dollars américains. Les objets de service incluent l'armée américaine, ainsi qu'OpenAI, Anthropic, Meta et d'autres géants concurrents de l'IA, tous s'appuyant sur les services de données fournis par Scale AI. Le cœur de métier de Scale AI est de fournir une grande quantité de données étiquetées précises.

Pourquoi Scale AI peut-il se démarquer d'un groupe de licornes ?

La raison en est qu'elle a découvert l'importance des données dans l'industrie de l'IA dès le début.

La puissance de calcul, les modèles et les données sont les trois piliers des modèles d'IA. Si le grand modèle est comparé à une personne, alors le modèle est le corps, la puissance de calcul est la nourriture et les données sont la connaissance/l'information.

Depuis l'essor des LLM, l'orientation du développement de l'industrie a également changé, passant des modèles à la puissance de calcul. Aujourd'hui, la plupart des modèles ont établi les transformateurs comme cadre de modèle, avec des innovations occasionnelles telles que MoE ou MoRe. Les grands acteurs ont soit construit leurs propres Super Clusters pour compléter le Grand Mur de la puissance de calcul, soit signé des accords à long terme avec des services cloud puissants tels qu'AWS. Une fois que la puissance de calcul de base est satisfaite, l'importance des données est progressivement devenue prédominante.

Contrairement aux entreprises de big data BtoB traditionnelles ayant une réputation bien établie sur le marché secondaire comme Palantir, Scale AI, comme son nom l'indique, s'engage à construire une base de données solide pour les modèles d'IA. Son activité ne se limite pas à l'exploitation des données existantes, mais se concentre également sur une activité de génération de données à plus long terme. Elle tente également de former une équipe d'entraîneurs d'IA à travers des experts artificiels dans différents domaines pour fournir des données d'entraînement de meilleure qualité pour l'entraînement des modèles d'IA.

Si vous n'êtes pas d'accord avec cette entreprise, examinons comment le modèle est entraîné.

L'entraînement du modèle est divisé en deux parties : pré-entraînement et ajustement.

La partie de pré-formation est un peu comme le processus par lequel les bébés humains apprennent progressivement à parler. Ce dont nous avons généralement besoin, c'est de fournir au modèle d'IA une grande quantité de texte, de code et d'autres informations obtenues à partir de crawlers en ligne. Le modèle apprend ces contenus par lui-même, apprend à parler la langue humaine (appelée académiquement langue naturelle), et possède des compétences de communication de base.

La partie de l'ajustement fin est similaire à aller à l'école, où il y a généralement des réponses et des directions claires. Les écoles formeront les étudiants en différentes compétences en fonction de leur positionnement respectif. Nous utiliserons également des ensembles de données prétraitées et ciblées pour former le modèle afin qu'il possède les capacités que nous attendons.

À ce stade, vous avez peut-être compris que les données dont nous avons besoin sont également divisées en deux parties.

Certaines données n'ont pas besoin d'être trop traitées, juste ce qu'il faut suffit, généralement à partir des données de crawlers de grandes plateformes UGC telles que Reddit, Twitter, Github, bases de données de littérature publique, bases de données privées d'entreprises, etc.
L'autre partie, comme les manuels professionnels, nécessite une conception et un filtrage soigneux pour garantir que les qualités spécifiques et excellentes du modèle peuvent être cultivées. Cela nécessite que nous effectuions certains travaux nécessaires tels que le nettoyage des données, le filtrage, l'étiquetage et le retour d'information manuel.

Ces deux ensembles de données constituent le cœur de la piste des données AI. Ne sous-estimez pas ces ensembles de données apparemment peu technologiques. Le point de vue actuel dominant est qu'à mesure que l'avantage de la puissance de calcul dans les lois de mise à l'échelle devient progressivement inefficace, les données deviendront le pilier le plus important pour les différents fabricants de grands modèles afin de maintenir leur avantage concurrentiel.

À mesure que les capacités des modèles continuent de s'améliorer, des données d'entraînement plus sophistiquées et professionnelles deviendront des variables clés influençant les capacités des modèles. Si nous comparons davantage l'entraînement des modèles à la culture des maîtres d'arts martiaux, alors des ensembles de données de haute qualité sont les meilleurs secrets des arts martiaux ( pour compléter cette métaphore, nous pouvons également dire que la puissance de calcul est la panacée et que le modèle est la qualification elle-même ).

D'un point de vue vertical, les données d'IA représentent également une piste à long terme avec la capacité de s'accumuler. Avec l'accumulation des travaux antérieurs, les actifs de données auront également la capacité de composer et deviendront plus populaires avec le temps.

Web3 DataFi : Le terrain fertile choisi pour les données AI

Comparé à l'équipe de labellisation manuelle à distance de Scale AI composée de centaines de milliers de personnes aux Philippines, au Venezuela et dans d'autres endroits, Web3 a un avantage naturel dans le domaine des données d'IA, et le nouveau terme DataFi est né.

Idéalement, les avantages de Web3 DataFi sont les suivants :

Souveraineté des données, sécurité et confidentialité garanties par des contrats intelligents

À un stade où les données publiques existantes sont sur le point d'être développées et épuisées, comment explorer davantage des données non divulguées, voire des données privées, est une direction importante pour obtenir et élargir les sources de données. Cela pose un enjeu de choix de confiance important : choisissez-vous un système d'achat de contrat d'une grande entreprise centralisée et vendez vos données ; ou choisissez-vous la méthode blockchain, continuez à détenir la propriété intellectuelle des données entre vos mains et comprenez clairement, grâce aux contrats intelligents : qui utilise vos données, quand et dans quel but.

En même temps, pour les informations sensibles, vous pouvez utiliser zk, TEE et d'autres méthodes pour garantir que vos données privées ne sont traitées que par des machines qui gardent le silence et ne seront pas divulguées.

Avantage d'arbitrage géographique naturel : architecture distribuée gratuite pour attirer la main-d'œuvre la plus adaptée

Il est peut-être temps de remettre en question la relation traditionnelle de production du travail. Au lieu de rechercher une main-d'œuvre bon marché à travers le monde comme Scale AI, il est préférable de tirer parti des caractéristiques distribuées de la blockchain et de permettre à la main-d'œuvre dispersée dans le monde de participer à la contribution de données grâce à des incitations ouvertes et transparentes garanties par des contrats intelligents.

Pour des tâches intensives en main-d'œuvre telles que l'annotation de données et l'évaluation de modèles, l'utilisation de Web3 DataFi favorise davantage la diversité des participants que l'approche centralisée d'établissement de usines de données, ce qui a également une signification à long terme pour éviter le biais des données.

Les avantages clairs d'incitation et de règlement de la blockchain

Comment éviter la tragédie de la "Fabrique de Cuir de Jiangnan" ? Naturellement, nous devrions utiliser un système d'incitation avec des étiquettes de prix claires dans les contrats intelligents pour remplacer l'obscurité de la nature humaine.

Dans le contexte de la déglobalisation inévitable, comment pouvons-nous continuer à réaliser un arbitrage géographique à faible coût ? Il est évidemment plus difficile d'ouvrir des entreprises partout dans le monde, alors pourquoi ne pas contourner les barrières du vieux monde et adopter la méthode de règlement sur chaîne ?

Il est propice à la création d'un marché de données "tout-en-un" plus efficace et ouvert.

"Les intermédiaires tirant profit de l'écart de prix" est une douleur éternelle pour les deux côtés de l'offre et de la demande. Au lieu de laisser une entreprise de données centralisée agir comme intermédiaire, il est préférable de créer une plateforme sur la chaîne, à travers un marché ouvert comme Taobao, afin que les côtés de l'offre et de la demande de données puissent se connecter de manière plus transparente et efficace.

Avec le développement de l'écosystème d'IA sur la chaîne, la demande de données sur la chaîne deviendra plus vigoureuse, segmentée et diversifiée. Seul un marché décentralisé peut digérer efficacement cette demande et la transformer en prospérité écologique.

Pour les investisseurs de détail, DataFi est également le projet d'IA le plus décentralisé qui soit le plus propice à la participation des investisseurs de détail ordinaires.

Bien que l'émergence des outils d'IA ait réduit le seuil d'apprentissage dans une certaine mesure, et que l'intention originale de l'IA décentralisée soit de briser le monopole actuel des entreprises géantes dans le domaine de l'IA ; il faut cependant admettre que de nombreux projets actuels ne sont pas très accessibles aux investisseurs de détail sans formation technique - participer au minage dans un réseau de calcul décentralisé est souvent accompagné d'un investissement initial en matériel coûteux, et le seuil technique du marché des modèles peut toujours décourager facilement les participants ordinaires.

En revanche, c'est l'une des rares opportunités que les utilisateurs ordinaires peuvent saisir dans la révolution de l'IA. Web3 vous permet de participer en accomplissant diverses tâches simples, y compris fournir des données, étiqueter et évaluer des modèles en fonction de l'intuition et de l'instinct du cerveau humain, ou utiliser davantage des outils d'IA pour réaliser quelques créations simples, participer à des transactions de données, etc. Pour les vieux conducteurs du Parti Mao, la valeur de difficulté est essentiellement nulle.

Le potentiel des projets DataFi Web3

Là où l'argent circule, il y a la direction. En plus de Scale AI recevant un investissement de 14,3 milliards de dollars de Meta et du prix des actions de Palantir grimpant de plus de 5 fois en un an dans le monde Web2, DataFi a également très bien performé dans le financement Web3. Ici, nous donnons une brève introduction à ces projets.

Sahara AI, @SaharaLabsAI, a levé 49 millions de dollars

L'objectif ultime de Sahara AI est de construire une super infrastructure d'IA décentralisée et un marché de trading. Le premier secteur à être testé est les données d'IA. La version bêta publique de sa plateforme de services de données DSP ( sera lancée le 22 juillet. Les utilisateurs peuvent obtenir des récompenses en tokens en contribuant des données, en participant à l'étiquetage des données et à d'autres tâches.

Lien : app.saharaai.com

)# Yupp, @yupp_ai, a levé 33 millions de dollars

Yupp est une plateforme de rétroaction sur les modèles d'IA qui collecte les retours des utilisateurs sur les résultats des modèles. La tâche principale actuelle est que les utilisateurs peuvent comparer les résultats de différents modèles pour le même prompt, puis sélectionner celui qu'ils jugent meilleur. Compléter la tâche permet de gagner des points Yupp, qui peuvent être échangés contre des stablecoins fiat tels que l'USDC.

Lien :

Vana, @vana, a levé 23 millions de dollars

Vana se concentre sur la conversion des données personnelles des utilisateurs ### telles que les activités sur les réseaux sociaux, l'historique de navigation, etc.( en actifs numériques monétisables. Les utilisateurs peuvent autoriser le téléchargement de leurs données personnelles dans le pool de liquidité de données correspondant )DLP( dans les DataDAOs. Ces données seront regroupées et utilisées pour participer à des tâches telles que l'entraînement de modèles d'IA, et les utilisateurs recevront également des récompenses en tokens correspondantes.

Lien :

)# Chainbase, @ChainbaseHQ, lève 16,5 millions de dollars

L'activité de Chainbase se concentre sur les données on-chain, et couvre actuellement plus de 200 blockchains, transformant les activités on-chain en actifs de données structurés, vérifiables et monétisables pour le développement de dApps. L'activité de Chainbase est principalement obtenue par l'indexation multi-chain et d'autres méthodes, et les données sont traitées par son système Manuscript et le modèle AI Theia. Les utilisateurs ordinaires ne sont actuellement pas très impliqués.

Sapien, @JoinSapien, a levé 15,5 millions de dollars

Sapien vise à convertir les connaissances humaines en données d'entraînement IA de haute qualité à grande échelle. Quiconque peut effectuer l'annotation des données sur la plateforme et assurer la qualité des données grâce à la vérification par les pairs. En même temps, les utilisateurs sont encouragés à établir une réputation à long terme ou à faire des engagements par le biais du staking pour gagner plus de récompenses.

Lien :

Prisma X, @PrismaXai, lève 11 millions de dollars

Prisma X veut devenir une couche de coordination ouverte pour les robots, où la collecte de données physiques est essentielle. Ce projet en est actuellement à ses débuts. Selon le livre blanc récemment publié, la participation peut inclure l'investissement dans des robots pour collecter des données, l'exploitation à distance des données des robots, etc. Actuellement, un quiz basé sur le livre blanc est ouvert, et vous pouvez participer pour gagner des points.

Lien:

Masa, @getmasafi, a levé 8,9 millions de dollars

Masa est l'un des principaux projets de sous-réseaux dans l'écosystème Bittensor, et opère actuellement le sous-réseau de données n° 42 et le sous-réseau d'agents n° 59. Le sous-réseau de données s'engage à fournir un accès en temps réel aux données. Actuellement, les mineurs se concentrent principalement sur le crawl de données en temps réel sur X/Twitter via du matériel TEE. Pour les utilisateurs ordinaires, la difficulté et le coût de la participation sont relativement élevés.

Irys, @irys_xyz, a levé 8,7 millions de dollars

Irys se concentre sur le stockage de données et le calcul programmables, visant à fournir des solutions efficaces et à faible coût pour l'IA, les applications décentralisées ###dApps( et d'autres applications intensives en données. En termes de contribution des données, les utilisateurs ordinaires ne peuvent pas beaucoup participer pour le moment, mais il existe de multiples activités auxquelles participer lors de la phase actuelle du testnet.

Lien:

)# ORO, @getoro_xyz, a levé 6 millions de dollars

Ce que ORO veut faire, c'est permettre aux gens ordinaires de participer à la contribution à l'IA. Les méthodes de soutien incluent : 1. Liez votre compte personnel pour contribuer des données personnelles, y compris des comptes sociaux, des données de santé, des comptes de commerce électronique et financiers ; 2. Complétez des tâches de données. Le réseau de test est maintenant en ligne et vous pouvez participer.

Lien : app.getoro.xyz

Gata, @Gata_xyz, a levé 4 millions de dollars

Positionné comme une couche de données décentralisée, Gata dispose actuellement de trois produits clés pour y participer : 1. Data Agent : une série d'agents IA qui peuvent automatiquement exécuter et traiter des données tant que l'utilisateur ouvre la page Web ; 2. AII-in-one Chat : un mécanisme similaire à l'évaluation de modèle de Yupp pour gagner des récompenses ; 3. GPT-to-Earn : un plug-in de navigateur qui collecte les données de conversation des utilisateurs sur ChatGPT.

Lien :

Comment voyez-vous ces projets actuels ?

Actuellement, les barrières à l'entrée pour ces projets ne sont généralement pas élevées, mais il faut reconnaître qu'une fois que les utilisateurs et l'adhérence écologique sont accumulés, les avantages de la plateforme s'accumuleront rapidement. Par conséquent, dans les premières étapes, les efforts doivent se concentrer sur les incitations et l'expérience utilisateur. Ce n'est qu'en attirant suffisamment d'utilisateurs que l'activité de big data pourra être réalisée.

Cependant, en tant que projets intensifs en main-d'œuvre, ces plateformes de données devraient également considérer comment gérer la main-d'œuvre et garantir la qualité de la production de données tout en attirant des travailleurs. Après tout, un problème commun à de nombreux projets Web3 est que la plupart des utilisateurs de la plateforme ne sont que des profiteurs impitoyables. Ils sacrifient souvent la qualité pour des bénéfices à court terme. S'ils sont autorisés à devenir les principaux utilisateurs de la plateforme, la mauvaise monnaie chassera inévitablement la bonne monnaie, et finalement, la qualité des données ne pourra pas être garantie et les acheteurs ne pourront pas être attirés. Actuellement, nous avons vu que des projets tels que Sahara et Sapien ont souligné la qualité des données et ont lutté pour établir une relation de coopération à long terme et saine avec la main-d'œuvre sur la plateforme.

De plus, le manque de transparence est un autre problème des projets on-chain actuels. En effet, le triangle impossible de la blockchain a contraint de nombreux projets à emprunter le chemin de "la centralisation conduit à la décentralisation" lors de la phase de démarrage. Mais maintenant, de plus en plus de projets on-chain donnent aux gens l'impression de "anciens projets Web2 sous une peau Web3" - il y a très peu de données publiques pouvant être suivies sur la chaîne, et même la feuille de route est difficile à voir en ce qui concerne la détermination à long terme de l'ouverture et de la transparence. Cela est sans aucun doute toxique pour le développement sain à long terme de Web3 DataFi, et nous espérons également que davantage de projets garderont toujours leurs intentions originales et accéléreront le rythme de l'ouverture et de la transparence.

Enfin, le chemin de l'adoption massive de DataFi devrait également être divisé en deux parties : l'une consiste à attirer suffisamment de participants B2C pour rejoindre le réseau, formant une nouvelle force pour l'ingénierie de collecte/génération de données et les consommateurs de l'économie de l'IA, formant une boucle écologique fermée ; l'autre consiste à obtenir la reconnaissance des entreprises B2B actuellement mainstream. Après tout, à court terme, elles sont la principale source de grandes commandes de données avec leurs poches profondes. À cet égard, nous avons également constaté que Sahara AI, Vana, etc. ont fait de bons progrès.

Conclusion

Pour être plus fataliste, DataFi consiste à utiliser l'intelligence humaine pour nourrir l'intelligence machine à long terme, tout en utilisant des contrats intelligents comme contrat pour garantir que le travail de l'intelligence humaine est rentable et bénéficie finalement des retours de l'intelligence machine.

Si vous êtes anxieux face à l'incertitude de l'ère de l'IA, et si vous avez toujours des idéaux blockchain au milieu des hauts et des bas du monde des cryptomonnaies, alors suivre les traces d'un groupe de géants du capital et rejoindre DataFi est un bon choix pour aller avec la tendance.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

Récompense
J'aime
Commentaire
Partager

Commentaire

0/400

Aucun commentaire

Rubrique
1/3
1Simple Earn Annual Rate 24.4%
5k Popularité
2Gate Launchpad List IKA
16k Popularité
3ETH Trading Volume Surges
9k Popularité
4Gate ETH 10th Anniversary Celebration
20k Popularité
5Trump’s AI Strategy
19k Popularité

Épingler