データの質が王となる時代において、データの価値配分問題を解決できる者が、最も優れたデータ資源を引き付けることができる。
作者: Haotian
データアノテーションというこの「辛い仕事」が、静かに人気を集めている?Polychainがリードした、1,120万ドル以上の資金調達を受けた @OpenledgerHQ は、PoA+infini-gram の独自のメカニズムを用いて、長らく無視されてきた「データ価値の分配」という痛点を狙っています。さあ、技術的な視点から解説しましょう:
1)正直なところ、現在のAI業界最大の「原罪」はデータ価値の配分の不公平です。OpenLedgerのPoA(貢献証明)が目指すのは、データ貢献に対して「著作権追跡システム」を構築することです。
具体的に言えば:データ提供者は特定の分野のDataNetsにコンテンツをアップロードし、各データポイントは提供者のメタデータとコンテンツのハッシュと共に永久的に記録されます。
モデルがこれらのデータセットに基づいてトレーニングされると、帰納プロセスは推論段階、つまりモデルが出力を生成する瞬間に行われます。PoAは、マッチング範囲または影響スコアを分析することによって、どのデータポイントがその出力に影響を与えたかを追跡し、これらの記録は各貢献者のデータの割合的影響を決定します。
モデルが推論を通じて費用を発生させるとき、PoAは各貢献者の影響に応じて利益が正確に配分されることを保証します——透明で公正、かつオンチェーンの報酬メカニズムを作成します。
言い換えれば、PoAはデータ経済学の根本的な矛盾を解決します。過去のロジックは非常に単純で粗野でした——AI企業は大量のデータを無料で取得し、モデルの商業化によって大きな利益を得る一方で、データ提供者は何も得られませんでした。しかし、PoAは技術的手段を通じて「データの私有化」を実現し、各データポイントが明確な経済的価値を生み出すことを可能にしました。
私は、この「白嫖モード」から「労働に応じた分配」への転換メカニズムが一度うまく機能すれば、データ貢献のインセンティブロジックが完全に変わると感じています。
さらに、PoAは異なる規模のモデルの帰属問題を解決するために階層的な戦略を採用しています:数百万のパラメータを持つ小さなモデルは、モデル影響関数を分析することによって各データポイントの影響度を推定することができ、計算量もなんとか耐えられますが、中規模から大規模のパラメータモデルではこの方法は計算上不可能かつ非効率的になります。この時、Infini-gramという大技を発揮しなければなりません。
2)問題が来ました、infini-gram技術とは何ですか?それが解決しようとしている問題は非常に異常に聞こえます:中大型パラメータのブラックボックスモデルにおいて、各出力トークンのデータソースを正確に追跡すること。
従来の帰属方法は主にモデルの影響関数を分析することに依存していますが、大規模モデルの前では基本的に機能しません。その理由は簡単です:モデルが大きくなるほど、内部計算が複雑になり、分析コストが指数関数的に増加し、計算上非現実的かつ非効率的になります。これは商業アプリケーションでは完全に現実的ではありません。
Infini-gramは全く新しいアプローチを採用しました:モデル内部が非常に複雑であるため、原始データの中で直接一致を探します。これはサフィックス配列に基づいてインデックスを構築し、動的に選択された最長一致サフィックスで従来の固定ウィンドウn-gramを置き換えます。簡単に言えば、モデルが特定のシーケンスを出力するとき、Infini-gramは各トークンのコンテキストにおいて、トレーニングデータの中で最も長い正確な一致を識別します。
このように、もたらされる性能データは驚異的で、1.4兆のトークンデータセットがあり、クエリにはわずか20ミリ秒、各トークンのストレージはわずか7バイトです。さらに重要なのは、モデルの内部構造を分析する必要もなく、複雑な計算も必要なく、正確な帰属が可能であることです。モデルを商業機密と見なすAI企業にとって、これはまさに彼らのために作られたソリューションです。
知っておくべきことは、市場に出回っているデータ帰属ソリューションは、効率が悪かったり、精度が足りなかったり、モデル内部にアクセスする必要があったりすることです。Infini-gram はこの3つの次元すべてでバランスを見つけたと言えます。
3)そのほかに、OpenLedgerが提案したdataNetsのオンチェーンデータセットの概念が特に革新的だと感じます。従来のデータ取引の一回限りの売買とは異なり、DataNetsはデータ提供者がデータが使用される際の推論における収益分配を持続的に享受できるようにします。
過去のデータアノテーションは苦役で、利益はわずかで一回限りでした。今では持続的な収益を生む資産となり、インセンティブのロジックは完全に異なります。
ほとんどのAI+Cryptoプロジェクトが計算力のレンタルやモデルのトレーニングといった比較的成熟した方向に取り組んでいる中、OpenLedgerはデータの帰属という最も難しい課題に挑戦しました。この技術スタックは、AIデータの供給側を再定義する可能性があります。
結局、データの質が王である時代において、データの価値配分問題を解決できる者が、最も優れたデータリソースを引き寄せることができる。
上。
全体として、OpenLedgerPoA + Infini-gram の組み合わせは、技術的な問題を解決するだけでなく、業界全体に新しい価値配分のロジックを提供することが重要です。
計算力の軍拡競争が次第に冷却し、データ品質競争がますます激化している中で、この種の技術路線は決して孤立したものではありません。この分野では、さまざまなソリューションが並行して競争する状況が生まれるでしょう。中には帰属精度に特化したものもあれば、コスト効率を重視するもの、使いやすさに重点を置くものもあります。それぞれがデータ価値の配分の最適解を探求しています。
最終的にどの会社が成功するかは、結局のところ、十分な数のデータ提供者や開発者を本当に引きつけられるかどうかにかかっています。
307k 投稿
272k 投稿
179k 投稿
83k 投稿
70k 投稿
69k 投稿
64k 投稿
62k 投稿
53k 投稿
51k 投稿
1千万ドルのOpenLedgerはどのようにデータ価値の分配を再構築するのか?
作者: Haotian
データアノテーションというこの「辛い仕事」が、静かに人気を集めている?Polychainがリードした、1,120万ドル以上の資金調達を受けた @OpenledgerHQ は、PoA+infini-gram の独自のメカニズムを用いて、長らく無視されてきた「データ価値の分配」という痛点を狙っています。さあ、技術的な視点から解説しましょう:
1)正直なところ、現在のAI業界最大の「原罪」はデータ価値の配分の不公平です。OpenLedgerのPoA(貢献証明)が目指すのは、データ貢献に対して「著作権追跡システム」を構築することです。
具体的に言えば:データ提供者は特定の分野のDataNetsにコンテンツをアップロードし、各データポイントは提供者のメタデータとコンテンツのハッシュと共に永久的に記録されます。
モデルがこれらのデータセットに基づいてトレーニングされると、帰納プロセスは推論段階、つまりモデルが出力を生成する瞬間に行われます。PoAは、マッチング範囲または影響スコアを分析することによって、どのデータポイントがその出力に影響を与えたかを追跡し、これらの記録は各貢献者のデータの割合的影響を決定します。
モデルが推論を通じて費用を発生させるとき、PoAは各貢献者の影響に応じて利益が正確に配分されることを保証します——透明で公正、かつオンチェーンの報酬メカニズムを作成します。
言い換えれば、PoAはデータ経済学の根本的な矛盾を解決します。過去のロジックは非常に単純で粗野でした——AI企業は大量のデータを無料で取得し、モデルの商業化によって大きな利益を得る一方で、データ提供者は何も得られませんでした。しかし、PoAは技術的手段を通じて「データの私有化」を実現し、各データポイントが明確な経済的価値を生み出すことを可能にしました。
私は、この「白嫖モード」から「労働に応じた分配」への転換メカニズムが一度うまく機能すれば、データ貢献のインセンティブロジックが完全に変わると感じています。
さらに、PoAは異なる規模のモデルの帰属問題を解決するために階層的な戦略を採用しています:数百万のパラメータを持つ小さなモデルは、モデル影響関数を分析することによって各データポイントの影響度を推定することができ、計算量もなんとか耐えられますが、中規模から大規模のパラメータモデルではこの方法は計算上不可能かつ非効率的になります。この時、Infini-gramという大技を発揮しなければなりません。
2)問題が来ました、infini-gram技術とは何ですか?それが解決しようとしている問題は非常に異常に聞こえます:中大型パラメータのブラックボックスモデルにおいて、各出力トークンのデータソースを正確に追跡すること。
従来の帰属方法は主にモデルの影響関数を分析することに依存していますが、大規模モデルの前では基本的に機能しません。その理由は簡単です:モデルが大きくなるほど、内部計算が複雑になり、分析コストが指数関数的に増加し、計算上非現実的かつ非効率的になります。これは商業アプリケーションでは完全に現実的ではありません。
Infini-gramは全く新しいアプローチを採用しました:モデル内部が非常に複雑であるため、原始データの中で直接一致を探します。これはサフィックス配列に基づいてインデックスを構築し、動的に選択された最長一致サフィックスで従来の固定ウィンドウn-gramを置き換えます。簡単に言えば、モデルが特定のシーケンスを出力するとき、Infini-gramは各トークンのコンテキストにおいて、トレーニングデータの中で最も長い正確な一致を識別します。
このように、もたらされる性能データは驚異的で、1.4兆のトークンデータセットがあり、クエリにはわずか20ミリ秒、各トークンのストレージはわずか7バイトです。さらに重要なのは、モデルの内部構造を分析する必要もなく、複雑な計算も必要なく、正確な帰属が可能であることです。モデルを商業機密と見なすAI企業にとって、これはまさに彼らのために作られたソリューションです。
知っておくべきことは、市場に出回っているデータ帰属ソリューションは、効率が悪かったり、精度が足りなかったり、モデル内部にアクセスする必要があったりすることです。Infini-gram はこの3つの次元すべてでバランスを見つけたと言えます。
3)そのほかに、OpenLedgerが提案したdataNetsのオンチェーンデータセットの概念が特に革新的だと感じます。従来のデータ取引の一回限りの売買とは異なり、DataNetsはデータ提供者がデータが使用される際の推論における収益分配を持続的に享受できるようにします。
過去のデータアノテーションは苦役で、利益はわずかで一回限りでした。今では持続的な収益を生む資産となり、インセンティブのロジックは完全に異なります。
ほとんどのAI+Cryptoプロジェクトが計算力のレンタルやモデルのトレーニングといった比較的成熟した方向に取り組んでいる中、OpenLedgerはデータの帰属という最も難しい課題に挑戦しました。この技術スタックは、AIデータの供給側を再定義する可能性があります。
結局、データの質が王である時代において、データの価値配分問題を解決できる者が、最も優れたデータリソースを引き寄せることができる。
上。
全体として、OpenLedgerPoA + Infini-gram の組み合わせは、技術的な問題を解決するだけでなく、業界全体に新しい価値配分のロジックを提供することが重要です。
計算力の軍拡競争が次第に冷却し、データ品質競争がますます激化している中で、この種の技術路線は決して孤立したものではありません。この分野では、さまざまなソリューションが並行して競争する状況が生まれるでしょう。中には帰属精度に特化したものもあれば、コスト効率を重視するもの、使いやすさに重点を置くものもあります。それぞれがデータ価値の配分の最適解を探求しています。
最終的にどの会社が成功するかは、結局のところ、十分な数のデータ提供者や開発者を本当に引きつけられるかどうかにかかっています。