O recente desenvolvimento da indústria de IA é visto por alguns como a quarta revolução industrial. O surgimento de grandes modelos aumentou significativamente a eficiência em diversos setores, e a Boston Consulting estima que o GPT melhorou a eficiência de trabalho nos Estados Unidos em cerca de 20%. Ao mesmo tempo, a capacidade de generalização trazida pelos grandes modelos é considerada um novo paradigma de design de software; enquanto no passado o design de software era de código preciso, o design de software atual incorpora estruturas de grandes modelos mais generalizadas, permitindo que esses softwares tenham melhor desempenho e suportem entradas e saídas em uma gama mais ampla de modalidades. A tecnologia de aprendizado profundo realmente trouxe uma nova prosperidade para a indústria de IA, e essa onda também se espalhou para a indústria Crypto.
Este relatório irá explorar detalhadamente a história do desenvolvimento da indústria de IA, a classificação das tecnologias e o impacto da invenção da tecnologia de aprendizado profundo na indústria. Em seguida, analisaremos profundamente a cadeia industrial upstream e downstream do aprendizado profundo, incluindo GPU, computação em nuvem, fontes de dados e dispositivos de borda, bem como seu estado de desenvolvimento e tendências. Depois, discutiremos essencialmente a relação entre as indústrias de Crypto e IA, organizando o panorama da cadeia industrial de IA relacionada ao Crypto.
História do desenvolvimento da indústria de IA
A indústria de IA começou na década de 1950, e para realizar a visão da inteligência artificial, a academia e a indústria desenvolveram muitas correntes para alcançar a inteligência artificial em diferentes épocas e contextos disciplinares.
A principal terminologia utilizada nas modernas tecnologias de inteligência artificial é "aprendizagem de máquina". O conceito desta tecnologia é permitir que as máquinas melhorem o desempenho do sistema através de iterações repetidas baseadas em dados nas tarefas. Os principais passos são enviar dados para o algoritmo, usar esses dados para treinar o modelo, testar e implementar o modelo, e usar o modelo para realizar tarefas de previsão automatizadas.
Atualmente, a aprendizagem automática tem três principais correntes, que são o conexionismo, o simbolismo e o behaviorismo, que imitam, respetivamente, o sistema nervoso humano, o pensamento e o comportamento.
Atualmente, o conexionismo, representado por redes neurais, está em ascensão ( e também é conhecido como aprendizado profundo ). A principal razão para isso é que essa arquitetura possui uma camada de entrada, uma camada de saída, mas várias camadas ocultas. Uma vez que o número de camadas e o número de neurônios ( e parâmetros ) se torna suficientemente alto, há uma chance suficiente de modelar tarefas complexas e gerais. Através da entrada de dados, os parâmetros dos neurônios podem ser continuamente ajustados, e, após passar por muitos dados, o neurônio atingirá um estado ótimo ( de parâmetros ). Isso é o que chamamos de "grande esforço traz milagres", e é também a origem da palavra "profundo" - um número suficiente de camadas e neurônios.
Por exemplo, pode-se entender simplesmente que construímos uma função, onde quando inserimos X=2, Y=3; quando X=3, Y=5. Se quisermos que essa função atenda a todos os X, precisamos continuar adicionando o grau dessa função e seus parâmetros. Por exemplo, neste momento, posso construir uma função que satisfaça essa condição como Y = 2X -1, mas se houver um dado onde X=2, Y=11, precisaremos reconstruir uma função que se adapte a esses três pontos de dados. Usando GPU para quebra de força bruta, descobrimos que Y = X2 -3X +5 é bastante adequado, mas não precisamos que coincida completamente com os dados, apenas precisamos respeitar o equilíbrio e que a saída seja aproximadamente semelhante. Aqui, X2, X e X0 representam diferentes neurônios, enquanto 1, -3, 5 são seus parâmetros.
Neste momento, se inserirmos uma grande quantidade de dados na rede neural, podemos aumentar o número de neurônios e iterar parâmetros para ajustar os novos dados. Desta forma, conseguimos ajustar todos os dados.
A tecnologia de aprendizado profundo baseada em redes neurais também passou por várias iterações e evoluções, como as redes neurais mais antigas mostradas na imagem acima, redes neurais feedforward, RNN, CNN, GAN, até evoluir para modelos modernos como o Transformer usado pelo GPT. A tecnologia Transformer é apenas uma direção de evolução das redes neurais, adicionando um conversor ( Transformer ), que é usado para codificar dados de todos os modais (, como áudio, vídeo, imagens, etc., em valores correspondentes para representação. Esses dados são então inseridos na rede neural, permitindo que a rede neural se ajuste a qualquer tipo de dado, ou seja, realizando multimodalidade.
![Novato: AI x Crypto: Do zero ao auge])https://img-cdn.gateio.im/webp-social/moments-c50ee5a87373c6cd6c4dc63adc2cf47c.webp(
O desenvolvimento da IA passou por três ondas tecnológicas. A primeira onda foi na década de 60 do século XX, uma década após a proposta da tecnologia de IA. Esta onda foi provocada pelo desenvolvimento da tecnologia do simbolismo, que resolveu problemas de processamento de linguagem natural e diálogo homem-máquina. Nesse mesmo período, os sistemas especialistas surgiram, sendo que o sistema especialista DENRAL, concluído pela Universidade de Stanford, se destacou. Este sistema possui um conhecimento químico muito forte, inferindo respostas semelhantes a um especialista em química através de perguntas. Este sistema especialista em química pode ser visto como uma combinação de um banco de dados de conhecimento químico e um sistema de inferência.
Após os sistemas especialistas, na década de 1990, Judea Pearl) propôs as redes bayesianas, que também são conhecidas como redes de crença. Na mesma época, Brooks apresentou a robótica baseada em comportamentos, marcando o nascimento do behaviorismo.
Em 1997, o Deep Blue da IBM venceu o campeão de xadrez Kasparov por 3.5:2.5, e essa vitória é considerada um marco na inteligência artificial, levando a um segundo auge no desenvolvimento da tecnologia de IA.
A terceira onda da tecnologia de IA ocorreu em 2006. Os três gigantes do aprendizado profundo, Yann LeCun, Geoffrey Hinton e Yoshua Bengio, propuseram o conceito de aprendizado profundo, um algoritmo baseado em redes neurais artificiais para aprendizado de representação de dados. Depois, os algoritmos de aprendizado profundo evoluíram gradualmente, de RNN, GAN a Transformer e Stable Diffusion, sendo que esses dois algoritmos moldaram essa terceira onda tecnológica, que também é o auge do conexionismo.
Muitos eventos icônicos também surgiram gradualmente com a exploração e evolução da tecnologia de aprendizado profundo, incluindo:
Em 2011, o Watson( da IBM venceu humanos e conquistou o campeonato no programa de perguntas e respostas "Jeopardy)".
Em 2014, Goodfellow propôs a GAN( Rede Generativa Adversarial, Generative Adversarial Network), que aprende gerando fotos realistas através da competição entre duas redes neurais. Ao mesmo tempo, Goodfellow também escreveu um livro intitulado "Deep Learning", conhecido como o livro da flor, que é um dos livros introdutórios importantes na área de aprendizado profundo.
Em 2015, Hinton e outros propuseram algoritmos de aprendizado profundo na revista "Nature", e a introdução desse método de aprendizado profundo causou um enorme impacto tanto no mundo acadêmico quanto na indústria.
Em 2015, a OpenAI foi criada, com Musk, o presidente da YC Altman, o investidor anjo Peter Thiel( e outros anunciando um investimento conjunto de 1 bilhão de dólares.
Em 2016, o AlphaGo, baseado em tecnologia de aprendizado profundo, competiu em uma batalha de Go contra o campeão mundial e jogador profissional de nove dan, Lee Sedol, vencendo com um placar total de 4 a 1.
Em 2017, a Hanson Robotics, desenvolvedora do robô humanoide Sophia, que é considerado o primeiro robô na história a obter cidadania de primeira classe, possui uma ampla gama de expressões faciais e capacidade de compreensão da linguagem humana.
Em 2017, o Google publicou o artigo "A Atenção é Tudo o Que Você Precisa", propondo o algoritmo Transformer, e modelos de linguagem em larga escala começaram a surgir.
Em 2018, a OpenAI lançou o GPT) Generative Pre-trained Transformer(, um dos maiores modelos de linguagem da época, construído com base no algoritmo Transformer.
Em 2018, a equipe do Google Deepmind lançou o AlphaGo, baseado em aprendizado profundo, capaz de prever a estrutura de proteínas, sendo considerado um grande marco de progresso no campo da inteligência artificial.
Em 2019, a OpenAI lançou o GPT-2, que possui 1,5 bilhões de parâmetros.
Em 2020, o GPT-3 desenvolvido pela OpenAI, possui 175 bilhões de parâmetros, 100 vezes mais do que a versão anterior GPT-2. Este modelo foi treinado com 570 GB de texto e pode alcançar desempenho de ponta em várias tarefas de PNL), incluindo resposta a perguntas, tradução e redação de artigos(.
Em 2021, a OpenAI lançou o GPT-4, que possui 1,76 trilião de parâmetros, sendo 10 vezes mais que o GPT-3.
O aplicativo ChatGPT baseado no modelo GPT-4 foi lançado em janeiro de 2023, e em março, o ChatGPT atingiu cem milhões de usuários, tornando-se o aplicativo que alcançou cem milhões de usuários mais rapidamente na história.
Em 2024, a OpenAI lançou o GPT-4 omni.
Nota: Devido ao grande número de artigos de inteligência artificial, à diversidade de escolas e à evolução técnica variada, aqui seguimos principalmente a história do desenvolvimento do aprendizado profundo ou do conexionismo, enquanto outras escolas e tecnologias continuam em rápido desenvolvimento.
![Novos Conhecimentos丨AI x Crypto: Do Zero ao Topo])https://img-cdn.gateio.im/webp-social/moments-0c9bdea33a39a2c07d1f06760ed7e804.webp(
Cadeia de Indústria de Aprendizado Profundo
Atualmente, os grandes modelos de linguagem utilizam métodos de aprendizado profundo baseados em redes neurais. Com o GPT liderando, uma onda de inteligência artificial surgiu, atraindo muitos jogadores para este setor. Também percebemos que a demanda do mercado por dados e poder computacional explodiu, portanto, nesta parte do relatório, vamos explorar a cadeia industrial dos algoritmos de aprendizado profundo. Na indústria de IA dominada por algoritmos de aprendizado profundo, como é composta sua cadeia de suprimentos e demanda, e qual é a situação atual e as relações de oferta e demanda, bem como o desenvolvimento futuro.
Primeiro, precisamos esclarecer que, ao realizar o treinamento de grandes modelos LLMs, liderados pelo GPT com base na tecnologia Transformer, ), são divididos em três etapas.
Antes do treinamento, como é baseado no Transformer, o conversor precisa transformar a entrada de texto em valores numéricos, esse processo é chamado de "Tokenization", após o qual esses valores são chamados de Token. Segundo uma regra geral, uma palavra ou caractere em inglês pode ser grosseiramente considerado um Token, enquanto cada caractere chinês pode ser grosseiramente considerado como dois Tokens. Esta também é a unidade básica utilizada na avaliação do GPT.
Primeiro passo, pré-treinamento. Ao fornecer à camada de entrada um número suficiente de pares de dados, semelhante ao exemplo apresentado na primeira parte do relatório (X,Y), para encontrar os melhores parâmetros de cada neurônio sob este modelo, é necessário um grande volume de dados, e esse processo também é o que mais consome poder computacional, pois os neurônios devem iterar repetidamente para tentar vários parâmetros. Após completar o treinamento de um lote de pares de dados, geralmente será usada a mesma série de dados para um segundo treinamento com o intuito de iterar os parâmetros.
O segundo passo, ajuste fino. O ajuste fino é dado a um lote menor, mas com dados de qualidade muito alta, para treinar; essa mudança fará com que a saída do modelo tenha uma qualidade superior, pois o pré-treinamento requer uma grande quantidade de dados, mas muitos dados podem conter erros ou serem de baixa qualidade. O passo de ajuste fino pode melhorar a qualidade do modelo através de dados de alta qualidade.
O terceiro passo é o aprendizado por reforço. Primeiro, será criado um novo modelo, que chamamos de "modelo de recompensa". O objetivo deste modelo é muito simples: classificar os resultados de saída. Portanto, a implementação deste modelo será relativamente simples, pois o cenário de negócios é bastante vertical. Em seguida, usamos este modelo para determinar se a saída do nosso grande modelo é de alta qualidade, assim podemos usar um modelo de recompensa para iterar automaticamente os parâmetros do grande modelo. ( No entanto, às vezes também é necessário o envolvimento humano para avaliar a qualidade da saída do modelo ).
Em resumo, durante o processo de treinamento de modelos grandes, o pré-treinamento tem uma exigência muito alta em relação à quantidade de dados, e a potência de cálculo da GPU necessária é também a mais elevada. O ajuste fino requer dados de qualidade superior para melhorar os parâmetros, e o aprendizado por reforço pode iterar os parâmetros repetidamente através de um modelo de recompensa para produzir resultados de maior qualidade.
Durante o processo de treinamento, quanto mais parâmetros houver, maior será o teto da capacidade de generalização. Por exemplo, no caso da função Y = aX + b, na verdade há dois neurônios, X e X0. Portanto, a forma como os parâmetros variam limita muito os dados que podem ser ajustados, porque a essência ainda é uma linha reta. Se houver mais neurônios, mais parâmetros podem ser iterados, permitindo que mais dados sejam ajustados. Essa é a razão pela qual grandes modelos produzem resultados extraordinários, e também é por isso que se popularizou o termo "grande modelo", que, em essência, refere-se a uma quantidade imensa de neurônios e parâmetros, além de uma quantidade colossal de dados, necessitando também de uma imensa capacidade computacional.
Assim, o desempenho de grandes modelos é principalmente determinado por três aspectos: o número de parâmetros, a quantidade e qualidade dos dados, e a capacidade computacional. Suponhamos que o número de parâmetros seja p, a quantidade de dados seja n( calculada em termos de número de Tokens), então podemos calcular a quantidade de computação necessária através de uma regra geral, o que nos permitirá estimar aproximadamente a capacidade computacional que precisamos adquirir e o tempo de treinamento.
A capacidade de cálculo é geralmente medida em Flops.
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
5 gostos
Recompensa
5
7
Partilhar
Comentar
0/400
GateUser-43d6d1b5
· 5h atrás
1000x Vibes 🤑
Responder0
AirdropLicker
· 7h atrás
No próximo bull run, não fique esperando pelo Airdrop!
Ver originalResponder0
PumpDoctrine
· 7h atrás
bull soprou tão grande subir não subir moeda é a chave
Ver originalResponder0
LayerHopper
· 7h atrás
O frenesi da blockchain já passou, a mineração em disco rígido é que é atraente.
Ver originalResponder0
AirdropHunterXiao
· 7h atrás
Apenas 20%? O aumento de eficiência é muito baixo.
A fusão entre IA e ativos de criptografia: como a aprendizagem profunda está a remodelar o panorama da indústria
IA e Cripto: Do Zero ao Topo
O recente desenvolvimento da indústria de IA é visto por alguns como a quarta revolução industrial. O surgimento de grandes modelos aumentou significativamente a eficiência em diversos setores, e a Boston Consulting estima que o GPT melhorou a eficiência de trabalho nos Estados Unidos em cerca de 20%. Ao mesmo tempo, a capacidade de generalização trazida pelos grandes modelos é considerada um novo paradigma de design de software; enquanto no passado o design de software era de código preciso, o design de software atual incorpora estruturas de grandes modelos mais generalizadas, permitindo que esses softwares tenham melhor desempenho e suportem entradas e saídas em uma gama mais ampla de modalidades. A tecnologia de aprendizado profundo realmente trouxe uma nova prosperidade para a indústria de IA, e essa onda também se espalhou para a indústria Crypto.
Este relatório irá explorar detalhadamente a história do desenvolvimento da indústria de IA, a classificação das tecnologias e o impacto da invenção da tecnologia de aprendizado profundo na indústria. Em seguida, analisaremos profundamente a cadeia industrial upstream e downstream do aprendizado profundo, incluindo GPU, computação em nuvem, fontes de dados e dispositivos de borda, bem como seu estado de desenvolvimento e tendências. Depois, discutiremos essencialmente a relação entre as indústrias de Crypto e IA, organizando o panorama da cadeia industrial de IA relacionada ao Crypto.
História do desenvolvimento da indústria de IA
A indústria de IA começou na década de 1950, e para realizar a visão da inteligência artificial, a academia e a indústria desenvolveram muitas correntes para alcançar a inteligência artificial em diferentes épocas e contextos disciplinares.
A principal terminologia utilizada nas modernas tecnologias de inteligência artificial é "aprendizagem de máquina". O conceito desta tecnologia é permitir que as máquinas melhorem o desempenho do sistema através de iterações repetidas baseadas em dados nas tarefas. Os principais passos são enviar dados para o algoritmo, usar esses dados para treinar o modelo, testar e implementar o modelo, e usar o modelo para realizar tarefas de previsão automatizadas.
Atualmente, a aprendizagem automática tem três principais correntes, que são o conexionismo, o simbolismo e o behaviorismo, que imitam, respetivamente, o sistema nervoso humano, o pensamento e o comportamento.
Atualmente, o conexionismo, representado por redes neurais, está em ascensão ( e também é conhecido como aprendizado profundo ). A principal razão para isso é que essa arquitetura possui uma camada de entrada, uma camada de saída, mas várias camadas ocultas. Uma vez que o número de camadas e o número de neurônios ( e parâmetros ) se torna suficientemente alto, há uma chance suficiente de modelar tarefas complexas e gerais. Através da entrada de dados, os parâmetros dos neurônios podem ser continuamente ajustados, e, após passar por muitos dados, o neurônio atingirá um estado ótimo ( de parâmetros ). Isso é o que chamamos de "grande esforço traz milagres", e é também a origem da palavra "profundo" - um número suficiente de camadas e neurônios.
Por exemplo, pode-se entender simplesmente que construímos uma função, onde quando inserimos X=2, Y=3; quando X=3, Y=5. Se quisermos que essa função atenda a todos os X, precisamos continuar adicionando o grau dessa função e seus parâmetros. Por exemplo, neste momento, posso construir uma função que satisfaça essa condição como Y = 2X -1, mas se houver um dado onde X=2, Y=11, precisaremos reconstruir uma função que se adapte a esses três pontos de dados. Usando GPU para quebra de força bruta, descobrimos que Y = X2 -3X +5 é bastante adequado, mas não precisamos que coincida completamente com os dados, apenas precisamos respeitar o equilíbrio e que a saída seja aproximadamente semelhante. Aqui, X2, X e X0 representam diferentes neurônios, enquanto 1, -3, 5 são seus parâmetros.
Neste momento, se inserirmos uma grande quantidade de dados na rede neural, podemos aumentar o número de neurônios e iterar parâmetros para ajustar os novos dados. Desta forma, conseguimos ajustar todos os dados.
A tecnologia de aprendizado profundo baseada em redes neurais também passou por várias iterações e evoluções, como as redes neurais mais antigas mostradas na imagem acima, redes neurais feedforward, RNN, CNN, GAN, até evoluir para modelos modernos como o Transformer usado pelo GPT. A tecnologia Transformer é apenas uma direção de evolução das redes neurais, adicionando um conversor ( Transformer ), que é usado para codificar dados de todos os modais (, como áudio, vídeo, imagens, etc., em valores correspondentes para representação. Esses dados são então inseridos na rede neural, permitindo que a rede neural se ajuste a qualquer tipo de dado, ou seja, realizando multimodalidade.
![Novato: AI x Crypto: Do zero ao auge])https://img-cdn.gateio.im/webp-social/moments-c50ee5a87373c6cd6c4dc63adc2cf47c.webp(
O desenvolvimento da IA passou por três ondas tecnológicas. A primeira onda foi na década de 60 do século XX, uma década após a proposta da tecnologia de IA. Esta onda foi provocada pelo desenvolvimento da tecnologia do simbolismo, que resolveu problemas de processamento de linguagem natural e diálogo homem-máquina. Nesse mesmo período, os sistemas especialistas surgiram, sendo que o sistema especialista DENRAL, concluído pela Universidade de Stanford, se destacou. Este sistema possui um conhecimento químico muito forte, inferindo respostas semelhantes a um especialista em química através de perguntas. Este sistema especialista em química pode ser visto como uma combinação de um banco de dados de conhecimento químico e um sistema de inferência.
Após os sistemas especialistas, na década de 1990, Judea Pearl) propôs as redes bayesianas, que também são conhecidas como redes de crença. Na mesma época, Brooks apresentou a robótica baseada em comportamentos, marcando o nascimento do behaviorismo.
Em 1997, o Deep Blue da IBM venceu o campeão de xadrez Kasparov por 3.5:2.5, e essa vitória é considerada um marco na inteligência artificial, levando a um segundo auge no desenvolvimento da tecnologia de IA.
A terceira onda da tecnologia de IA ocorreu em 2006. Os três gigantes do aprendizado profundo, Yann LeCun, Geoffrey Hinton e Yoshua Bengio, propuseram o conceito de aprendizado profundo, um algoritmo baseado em redes neurais artificiais para aprendizado de representação de dados. Depois, os algoritmos de aprendizado profundo evoluíram gradualmente, de RNN, GAN a Transformer e Stable Diffusion, sendo que esses dois algoritmos moldaram essa terceira onda tecnológica, que também é o auge do conexionismo.
Muitos eventos icônicos também surgiram gradualmente com a exploração e evolução da tecnologia de aprendizado profundo, incluindo:
Em 2011, o Watson( da IBM venceu humanos e conquistou o campeonato no programa de perguntas e respostas "Jeopardy)".
Em 2014, Goodfellow propôs a GAN( Rede Generativa Adversarial, Generative Adversarial Network), que aprende gerando fotos realistas através da competição entre duas redes neurais. Ao mesmo tempo, Goodfellow também escreveu um livro intitulado "Deep Learning", conhecido como o livro da flor, que é um dos livros introdutórios importantes na área de aprendizado profundo.
Em 2015, Hinton e outros propuseram algoritmos de aprendizado profundo na revista "Nature", e a introdução desse método de aprendizado profundo causou um enorme impacto tanto no mundo acadêmico quanto na indústria.
Em 2015, a OpenAI foi criada, com Musk, o presidente da YC Altman, o investidor anjo Peter Thiel( e outros anunciando um investimento conjunto de 1 bilhão de dólares.
Em 2016, o AlphaGo, baseado em tecnologia de aprendizado profundo, competiu em uma batalha de Go contra o campeão mundial e jogador profissional de nove dan, Lee Sedol, vencendo com um placar total de 4 a 1.
Em 2017, a Hanson Robotics, desenvolvedora do robô humanoide Sophia, que é considerado o primeiro robô na história a obter cidadania de primeira classe, possui uma ampla gama de expressões faciais e capacidade de compreensão da linguagem humana.
Em 2017, o Google publicou o artigo "A Atenção é Tudo o Que Você Precisa", propondo o algoritmo Transformer, e modelos de linguagem em larga escala começaram a surgir.
Em 2018, a OpenAI lançou o GPT) Generative Pre-trained Transformer(, um dos maiores modelos de linguagem da época, construído com base no algoritmo Transformer.
Em 2018, a equipe do Google Deepmind lançou o AlphaGo, baseado em aprendizado profundo, capaz de prever a estrutura de proteínas, sendo considerado um grande marco de progresso no campo da inteligência artificial.
Em 2019, a OpenAI lançou o GPT-2, que possui 1,5 bilhões de parâmetros.
Em 2020, o GPT-3 desenvolvido pela OpenAI, possui 175 bilhões de parâmetros, 100 vezes mais do que a versão anterior GPT-2. Este modelo foi treinado com 570 GB de texto e pode alcançar desempenho de ponta em várias tarefas de PNL), incluindo resposta a perguntas, tradução e redação de artigos(.
Em 2021, a OpenAI lançou o GPT-4, que possui 1,76 trilião de parâmetros, sendo 10 vezes mais que o GPT-3.
O aplicativo ChatGPT baseado no modelo GPT-4 foi lançado em janeiro de 2023, e em março, o ChatGPT atingiu cem milhões de usuários, tornando-se o aplicativo que alcançou cem milhões de usuários mais rapidamente na história.
Em 2024, a OpenAI lançou o GPT-4 omni.
Nota: Devido ao grande número de artigos de inteligência artificial, à diversidade de escolas e à evolução técnica variada, aqui seguimos principalmente a história do desenvolvimento do aprendizado profundo ou do conexionismo, enquanto outras escolas e tecnologias continuam em rápido desenvolvimento.
![Novos Conhecimentos丨AI x Crypto: Do Zero ao Topo])https://img-cdn.gateio.im/webp-social/moments-0c9bdea33a39a2c07d1f06760ed7e804.webp(
Cadeia de Indústria de Aprendizado Profundo
Atualmente, os grandes modelos de linguagem utilizam métodos de aprendizado profundo baseados em redes neurais. Com o GPT liderando, uma onda de inteligência artificial surgiu, atraindo muitos jogadores para este setor. Também percebemos que a demanda do mercado por dados e poder computacional explodiu, portanto, nesta parte do relatório, vamos explorar a cadeia industrial dos algoritmos de aprendizado profundo. Na indústria de IA dominada por algoritmos de aprendizado profundo, como é composta sua cadeia de suprimentos e demanda, e qual é a situação atual e as relações de oferta e demanda, bem como o desenvolvimento futuro.
Primeiro, precisamos esclarecer que, ao realizar o treinamento de grandes modelos LLMs, liderados pelo GPT com base na tecnologia Transformer, ), são divididos em três etapas.
Antes do treinamento, como é baseado no Transformer, o conversor precisa transformar a entrada de texto em valores numéricos, esse processo é chamado de "Tokenization", após o qual esses valores são chamados de Token. Segundo uma regra geral, uma palavra ou caractere em inglês pode ser grosseiramente considerado um Token, enquanto cada caractere chinês pode ser grosseiramente considerado como dois Tokens. Esta também é a unidade básica utilizada na avaliação do GPT.
Primeiro passo, pré-treinamento. Ao fornecer à camada de entrada um número suficiente de pares de dados, semelhante ao exemplo apresentado na primeira parte do relatório (X,Y), para encontrar os melhores parâmetros de cada neurônio sob este modelo, é necessário um grande volume de dados, e esse processo também é o que mais consome poder computacional, pois os neurônios devem iterar repetidamente para tentar vários parâmetros. Após completar o treinamento de um lote de pares de dados, geralmente será usada a mesma série de dados para um segundo treinamento com o intuito de iterar os parâmetros.
O segundo passo, ajuste fino. O ajuste fino é dado a um lote menor, mas com dados de qualidade muito alta, para treinar; essa mudança fará com que a saída do modelo tenha uma qualidade superior, pois o pré-treinamento requer uma grande quantidade de dados, mas muitos dados podem conter erros ou serem de baixa qualidade. O passo de ajuste fino pode melhorar a qualidade do modelo através de dados de alta qualidade.
O terceiro passo é o aprendizado por reforço. Primeiro, será criado um novo modelo, que chamamos de "modelo de recompensa". O objetivo deste modelo é muito simples: classificar os resultados de saída. Portanto, a implementação deste modelo será relativamente simples, pois o cenário de negócios é bastante vertical. Em seguida, usamos este modelo para determinar se a saída do nosso grande modelo é de alta qualidade, assim podemos usar um modelo de recompensa para iterar automaticamente os parâmetros do grande modelo. ( No entanto, às vezes também é necessário o envolvimento humano para avaliar a qualidade da saída do modelo ).
Em resumo, durante o processo de treinamento de modelos grandes, o pré-treinamento tem uma exigência muito alta em relação à quantidade de dados, e a potência de cálculo da GPU necessária é também a mais elevada. O ajuste fino requer dados de qualidade superior para melhorar os parâmetros, e o aprendizado por reforço pode iterar os parâmetros repetidamente através de um modelo de recompensa para produzir resultados de maior qualidade.
Durante o processo de treinamento, quanto mais parâmetros houver, maior será o teto da capacidade de generalização. Por exemplo, no caso da função Y = aX + b, na verdade há dois neurônios, X e X0. Portanto, a forma como os parâmetros variam limita muito os dados que podem ser ajustados, porque a essência ainda é uma linha reta. Se houver mais neurônios, mais parâmetros podem ser iterados, permitindo que mais dados sejam ajustados. Essa é a razão pela qual grandes modelos produzem resultados extraordinários, e também é por isso que se popularizou o termo "grande modelo", que, em essência, refere-se a uma quantidade imensa de neurônios e parâmetros, além de uma quantidade colossal de dados, necessitando também de uma imensa capacidade computacional.
Assim, o desempenho de grandes modelos é principalmente determinado por três aspectos: o número de parâmetros, a quantidade e qualidade dos dados, e a capacidade computacional. Suponhamos que o número de parâmetros seja p, a quantidade de dados seja n( calculada em termos de número de Tokens), então podemos calcular a quantidade de computação necessária através de uma regra geral, o que nos permitirá estimar aproximadamente a capacidade computacional que precisamos adquirir e o tempo de treinamento.
A capacidade de cálculo é geralmente medida em Flops.