La fusión interdisciplinaria de la IA y los Activos Cripto: cómo el aprendizaje profundo está remodelando el panorama de la industria

IA y Crypto: De cero a la cima

El desarrollo reciente de la industria de la IA ha sido visto por algunos como la cuarta revolución industrial. La aparición de modelos grandes ha mejorado significativamente la eficiencia en diversas industrias; Boston Consulting estima que GPT ha aumentado la eficiencia laboral en Estados Unidos en aproximadamente un 20%. Al mismo tiempo, la capacidad de generalización que traen los modelos grandes es vista como un nuevo paradigma de diseño de software; el diseño de software en el pasado se basaba en código preciso, mientras que el diseño de software actual implica la incorporación de un marco de modelo grande más generalizado en el software, lo que permite un mejor rendimiento y soporte para entradas y salidas de modalidades más amplias. La tecnología de aprendizaje profundo ha llevado indudablemente a la cuarta prosperidad en la industria de la IA, y esta tendencia también se ha extendido a la industria de las criptomonedas.

Este informe explorará en detalle la historia del desarrollo de la industria de la IA, las categorías tecnológicas y el impacto de la invención de la tecnología de aprendizaje profundo en la industria. Luego, se analizarán en profundidad la cadena de suministro de la industria de aprendizaje profundo, incluidos GPU, computación en la nube, fuentes de datos y dispositivos perimetrales, así como su estado de desarrollo y tendencias. Posteriormente, discutiremos en detalle la relación entre Crypto y la industria de la IA, y se hará un análisis del panorama de la cadena de suministro de IA relacionada con Crypto.

Nueva introducción丨AI x Crypto: De cero a la cima

La historia del desarrollo de la industria de la IA

La industria de la IA comenzó en la década de 1950. Para lograr la visión de la inteligencia artificial, el mundo académico y la industria han desarrollado muchas corrientes para implementar la inteligencia artificial en diferentes épocas y contextos disciplinarios.

La tecnología moderna de inteligencia artificial utiliza principalmente el término "aprendizaje automático", cuya idea es permitir que las máquinas mejoren el rendimiento del sistema mediante la iteración repetida en tareas basadas en datos. Los pasos principales son enviar datos al algoritmo, entrenar el modelo con esos datos, probar y desplegar el modelo, y utilizar el modelo para completar tareas de predicción automatizadas.

Actualmente, hay tres grandes corrientes en el aprendizaje automático: el conexionismo, el simbolismo y el conductismo, que imitan respectivamente el sistema nervioso, el pensamiento y el comportamiento humano.

Y actualmente, el conexionismo representado por redes neuronales domina, ( también conocido como aprendizaje profundo ), la razón principal es que esta arquitectura tiene una capa de entrada, una capa de salida, pero múltiples capas ocultas. Una vez que el número de capas y neuronas ( parámetros ) se vuelve lo suficientemente alto, entonces hay suficientes oportunidades para ajustar tareas generales complejas. A través de la entrada de datos, se pueden ajustar continuamente los parámetros de las neuronas, y al final, después de haber pasado por múltiples datos, esa neurona alcanzará un estado óptimo ( parámetros ), esto es lo que llamamos "gran esfuerzo produce milagros", y esta también es la razón de la palabra "profundo" - suficientes capas y neuronas.

Por ejemplo, se puede entender simplemente como la construcción de una función, donde al introducir X=2, Y=3; y al introducir X=3, Y=5. Si queremos que esta función funcione para todos los X, entonces necesitamos seguir añadiendo el grado de esta función y sus parámetros. Por ejemplo, en este momento puedo construir una función que satisfaga esta condición como Y = 2X -1. Sin embargo, si hay un dato donde X=2, Y=11, necesitaré reconstruir una función adecuada para estos tres puntos de datos. Usando GPU para un ataque de fuerza bruta, encontramos que Y = X² -3X +5 es bastante adecuada, pero no es necesario que coincida completamente con los datos, solo necesita cumplir con el equilibrio y proporcionar una salida aproximadamente similar. Aquí, X², X y X₀ representan diferentes neuronas, y 1, -3, 5 son sus parámetros.

En este momento, si introducimos grandes cantidades de datos en la red neuronal, podemos aumentar los neuronas y ajustar los parámetros para ajustar los nuevos datos. De esta manera, podremos ajustar todos los datos.

La tecnología de aprendizaje profundo basada en redes neuronales también ha tenido múltiples iteraciones y evoluciones, como las primeras redes neuronales en la imagen anterior, redes neuronales de alimentación hacia adelante, RNN, CNN, GAN, que finalmente evolucionaron hacia modelos modernos como GPT, que utilizan la tecnología Transformer. La tecnología Transformer es solo una dirección de evolución de las redes neuronales, que añade un convertidor ( Transformer ), utilizado para codificar datos de todos los modos ( como audio, video, imágenes, etc., en valores numéricos correspondientes. Luego, estos datos se ingresan en la red neuronal, lo que permite que la red neuronal ajuste cualquier tipo de datos, logrando así la multimodalidad.

![Nuevos conceptos丨IA x Cripto: De cero a la cima])https://img-cdn.gateio.im/webp-social/moments-c50ee5a87373c6cd6c4dc63adc2cf47c.webp(

El desarrollo de la IA ha pasado por tres olas tecnológicas. La primera ola tuvo lugar en la década de 1960, diez años después de la propuesta de la tecnología de IA. Esta ola fue provocada por el desarrollo de la tecnología del simbolismo, que resolvió problemas de procesamiento de lenguaje natural y diálogo humano-máquina. En el mismo periodo, surgieron los sistemas expertos, como el sistema experto DENRAL completado por la Universidad de Stanford. Este sistema posee un conocimiento químico muy fuerte y puede inferir respuestas similares a las de un experto en química a través de preguntas. Este sistema experto en química puede considerarse como una combinación de una base de conocimientos químicos y un sistema de inferencia.

Después de los sistemas expertos, en la década de 1990 Judea Pearl ) propuso las redes bayesianas, que también se conocen como redes de creencias. En la misma época, Brooks propuso la robótica basada en el comportamiento, marcando el nacimiento del conductismo.

En 1997, IBM Deep Blue derrotó al campeón de ajedrez Garry Kasparov 3.5:2.5, esta victoria se considera un hito para la inteligencia artificial, marcando el auge de la segunda ola de desarrollo de la tecnología de IA.

La tercera ola de la tecnología AI ocurrió en 2006. Los tres grandes del aprendizaje profundo, Yann LeCun, Geoffrey Hinton y Yoshua Bengio, propusieron el concepto de aprendizaje profundo, un algoritmo que utiliza redes neuronales artificiales como arquitectura para el aprendizaje de representaciones de datos. Posteriormente, los algoritmos de aprendizaje profundo evolucionaron gradualmente, desde RNN, GAN hasta Transformer y Stable Diffusion; estos dos algoritmos moldearon conjuntamente esta tercera ola tecnológica, y también fue la época dorada del conexionismo.

Muchos eventos emblemáticos también han surgido gradualmente acompañados por la exploración y evolución de la tecnología de aprendizaje profundo, incluyendo:

  • En 2011, IBM Watson( ganó el campeonato en el programa de preguntas y respuestas "Jeopardy)" al vencer a humanos.

  • En 2014, Goodfellow propuso la red generativa adversarial GAN(, Generative Adversarial Network), que aprende a través de un proceso de competencia entre dos redes neuronales, lo que permite generar fotos que son prácticamente indistinguibles de las reales. Al mismo tiempo, Goodfellow también escribió un libro titulado "Deep Learning", conocido como el libro de flores, que es uno de los libros de introducción más importantes en el campo del aprendizaje profundo.

  • En 2015, Hinton y otros propusieron un algoritmo de aprendizaje profundo en la revista "Nature", lo que provocó una gran repercusión en el ámbito académico y en la industria.

  • En 2015, OpenAI fue creado, Musk, el presidente de YC Altman, el inversor ángel Peter Thiel ( y otros anunciaron una inversión conjunta de 1,000 millones de dólares.

  • En 2016, AlphaGo, basado en tecnología de aprendizaje profundo, se enfrentó al campeón mundial de Go y jugador profesional de nueve dan, Lee Sedol, ganando con un marcador total de 4 a 1.

  • En 2017, la empresa Hanson Robotics) desarrolló el robot humanoide Sophia, que se conoce como el primer robot en la historia en obtener la ciudadanía de primer nivel, con una rica gama de expresiones faciales y capacidad de comprensión del lenguaje humano.

  • En 2017, Google publicó el artículo "Attention is all you need" que presentó el algoritmo Transformer, dando inicio a la aparición de modelos de lenguaje a gran escala.

  • En 2018, OpenAI lanzó el GPT( Generative Pre-trained Transformer), construido sobre el algoritmo Transformer, que era uno de los modelos de lenguaje más grandes de la época.

  • En 2018, el equipo de Google Deepmind lanzó AlphaGo, basado en aprendizaje profundo, capaz de predecir la estructura de proteínas, considerado un gran hito en el campo de la inteligencia artificial.

  • En 2019, OpenAI lanzó GPT-2, que cuenta con 1.5 mil millones de parámetros.

  • En 2020, OpenAI desarrolló GPT-3, que tiene 175 mil millones de parámetros, 100 veces más que la versión anterior GPT-2. Este modelo utilizó 570 GB de texto para el entrenamiento y puede alcanzar un rendimiento de vanguardia en múltiples tareas de NLP(, incluyendo respuesta a preguntas, traducción y redacción de artículos).

  • En 2021, OpenAI lanzó GPT-4, un modelo con 1.76 billones de parámetros, que es 10 veces el de GPT-3.

  • En enero de 2023 se lanzó la aplicación ChatGPT basada en el modelo GPT-4, y en marzo ChatGPT alcanzó cien millones de usuarios, convirtiéndose en la aplicación que más rápido ha llegado a cien millones de usuarios en la historia.

  • En 2024, OpenAI lanzará GPT-4 omni.

Nota: Debido a que hay muchos artículos sobre inteligencia artificial, muchas corrientes y una evolución técnica diversa, aquí principalmente se sigue la historia del desarrollo del aprendizaje profundo o del conexionismo, mientras que otras corrientes y tecnologías todavía están en un proceso de rápido desarrollo.

Nuevos conceptos丨AI x Crypto: de cero a la cima

Cadena de la industria de aprendizaje profundo

Los modelos de lenguaje actuales se basan en métodos de aprendizaje profundo basados en redes neuronales. Liderados por GPT, los grandes modelos han generado una ola de entusiasmo por la inteligencia artificial, atrayendo a numerosos jugadores a este campo. También hemos observado que la demanda del mercado por datos y potencia de cálculo ha aumentado significativamente. Por lo tanto, en esta parte del informe, exploramos la cadena de suministro de algoritmos de aprendizaje profundo. En la industria de IA dominada por algoritmos de aprendizaje profundo, ¿cómo se componen sus partes interesadas, y cuál es la situación actual de la cadena de suministro, así como la relación entre la oferta y la demanda y su desarrollo futuro?

Primero, necesitamos aclarar que, al llevar a cabo el entrenamiento de modelos grandes LLMs basados en la tecnología Transformer encabezados por GPT(, se divide en tres pasos.

Antes del entrenamiento, debido a que se basa en Transformer, el convertidor necesita transformar la entrada de texto en valores numéricos, este proceso se denomina "Tokenización". Después, estos valores se denominan Token. Según la regla general, una palabra o carácter en inglés puede considerarse aproximadamente como un Token, mientras que cada carácter chino puede ser considerado aproximadamente como dos Tokens. Esta también es la unidad básica utilizada para la valoración de GPT.

Primer paso, preentrenamiento. Al proporcionar suficientes pares de datos a la capa de entrada, similar a los ejemplos dados en la primera parte del informe )X,Y(, se busca encontrar los mejores parámetros para cada neurona bajo este modelo. En este momento, se requiere una gran cantidad de datos, y este proceso también es el que más potencia de cálculo consume, ya que se deben iterar repetidamente las neuronas para probar varios parámetros. Después de completar el entrenamiento de un lote de pares de datos, generalmente se utiliza el mismo lote de datos para un segundo entrenamiento con el fin de iterar los parámetros.

El segundo paso, el ajuste fino. El ajuste fino consiste en proporcionar un conjunto de datos más pequeño pero de muy alta calidad para el entrenamiento; este cambio permitirá que la salida del modelo tenga una mayor calidad, ya que el preentrenamiento requiere grandes cantidades de datos, pero muchos de esos datos pueden contener errores o ser de baja calidad. El paso de ajuste fino puede mejorar la calidad del modelo a través de datos de alta calidad.

El tercer paso, el aprendizaje por refuerzo. Primero se establecerá un modelo completamente nuevo, que llamamos "modelo de recompensa", cuyo propósito es muy simple: clasificar los resultados de salida. Por lo tanto, la implementación de este modelo es relativamente sencilla, ya que el escenario de negocio es bastante vertical. Luego, utilizamos este modelo para determinar si la salida de nuestro gran modelo es de alta calidad, lo que nos permite usar un modelo de recompensa para iterar automáticamente los parámetros del gran modelo. ) Sin embargo, a veces también es necesaria la participación humana para evaluar la calidad de la salida del modelo (.

En resumen, durante el proceso de entrenamiento de un gran modelo, el preentrenamiento tiene una demanda muy alta de cantidad de datos, y la potencia de cálculo de GPU requerida también es la máxima, mientras que el ajuste fino necesita datos de mayor calidad para mejorar los parámetros. El aprendizaje por refuerzo puede iterar los parámetros repetidamente a través de un modelo de recompensas para obtener resultados de mayor calidad.

Durante el proceso de entrenamiento, cuanto más parámetros haya, mayor será el techo de su capacidad de generalización. Por ejemplo, en el caso del ejemplo de la función Y = aX + b, en realidad hay dos neuronas X y X0. Por lo tanto, cómo varían los parámetros limita enormemente los datos que pueden ajustarse, porque en esencia sigue siendo una línea recta. Si hay más neuronas, se podrán iterar más parámetros, lo que permitirá ajustar más datos. Esta es la razón por la que los grandes modelos producen milagros y también por qué se les llama comúnmente grandes modelos; en esencia, se trata de una gran cantidad de neuronas y parámetros, así como de una gran cantidad de datos, y al mismo tiempo, se requiere una gran cantidad de poder de cálculo.

Por lo tanto, el rendimiento de los grandes modelos se determina principalmente por tres aspectos: la cantidad de parámetros, la cantidad y calidad de los datos, y la potencia de cálculo. Estos tres factores influyen conjuntamente en la calidad de los resultados y la capacidad de generalización del gran modelo. Supongamos que la cantidad de parámetros es p, la cantidad de datos es n) calculada en función de la cantidad de tokens (, entonces podemos calcular la cantidad de cálculo necesaria mediante una regla general, lo que nos permitirá estimar aproximadamente la potencia de cálculo que necesitamos comprar y el tiempo de entrenamiento.

La potencia de cálculo generalmente se mide en Flops como unidad básica.

GPT-1%
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 7
  • Compartir
Comentar
0/400
GateUser-43d6d1b5vip
· hace10h
1000x Vibes 🤑
Responder0
AirdropLickervip
· hace11h
En el próximo bull run, no te olvides del Airdrop.
Ver originalesResponder0
PumpDoctrinevip
· hace11h
alcista sopla tan fuerte, subir moneda es la clave
Ver originalesResponder0
LayerHoppervip
· hace11h
La locura de la cadena de bloques ha pasado, la minería con disco duro es lo que se busca.
Ver originalesResponder0
AirdropHunterXiaovip
· hace12h
¿Solo el 20%? La mejora en la eficiencia es demasiado baja, ¿no?
Ver originalesResponder0
StablecoinAnxietyvip
· hace12h
La IA tiene esta eficiencia, no es suficiente para mirar.
Ver originalesResponder0
DefiVeteranvip
· hace12h
Hay que decir que GPT es realmente bueno.
Ver originalesResponder0
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)