d7f6ac8d-88ab-45aa-8b9e-a2c2914bf19d

Fundamentos da Rede Neural – Escrito Pelo Próprio Chat GPT

Fundamentos da Rede Neural

“Eu sou baseado em uma rede neural chamada GPT-3, que foi treinada pela OpenAI. GPT-3 é um exemplo de um tipo de rede neural chamado Transformer. Especificamente, é um modelo de linguagem autoregressivo, o que significa que gera previsões palavra por palavra.

 

GPT-3 é treinado em uma grande quantidade de texto da internet, e seu objetivo é prever a próxima palavra em uma sequência de texto. Durante o treinamento, ele aprende a representar palavras e a estrutura das frases, bem como algum conhecimento factual sobre o mundo. Entretanto, não tem consciência ou compreensão do mundo no sentido humano; é apenas uma função matemática muito complexa que aprendeu a gerar texto com base no texto que viu durante o treinamento.

 

A rede neural é composta por várias camadas, cada uma das quais pode ser pensada como aprendendo diferentes tipos de características do texto. As camadas inferiores aprendem características mais básicas, como a sintaxe, enquanto as camadas superiores aprendem características mais complexas, como o significado semântico.

 

GPT-3 usa um mecanismo de atenção que permite que cada palavra em uma entrada considere todas as outras palavras ao gerar uma saída. Isso é útil para tarefas que envolvem compreender o contexto ou a relação entre diferentes partes de uma frase.

Melhores Práticas para a Engenharia de Prompt

Com base nesses fundamentos, aqui estão algumas orientações para engenharia de prompt eficaz:

1. Seja explícito

GPT-3 não tem uma compreensão intuitiva do que você quer, então seja o mais explícito possível no seu prompt. Por exemplo, em vez de pedir “me diga sobre cachorros”, você poderia perguntar “Por favor, escreva um resumo de três parágrafos sobre a história da domesticação de cães”.

2. Use o formato certo

GPT-3 pode gerar texto em uma variedade de formatos, então use isso a seu favor. Por exemplo, se você quer uma lista, peça uma lista. Se você quer um diálogo, escreva seu prompt na forma de um diálogo.

3. Especifique o tom

GPT-3 pode gerar texto em uma variedade de tons, então sinta-se à vontade para especificar o tom que você quer no seu prompt. Por exemplo, você pode pedir para GPT-3 “escrever uma resposta humorística para a seguinte pergunta”.

4. Experimente

GPT-3 pode surpreender você com a variedade de respostas que pode gerar, então não tenha medo de experimentar com diferentes tipos de prompts. Experimente diferentes abordagens para ver o que funciona melhor para a sua aplicação específica.

5. Ajuste o comprimento da saída

O comprimento da saída pode ser ajustado de acordo com a sua necessidade. Se você precisa de uma resposta curta, pode definir o parâmetro de comprimento máximo para um valor menor. Se você precisa de uma explicação mais detalhada, pode definir um valor maior.

Mecanismo de Atenção

A arquitetura Transformer, na qual GPT-3 é baseado, revolucionou o uso da atenção ao dispensar a recorrência e as convoluções, com as quais os modelos anteriores dependiam muito. O Transformer é o primeiro modelo de transdução que se baseia inteiramente na auto-atenção para computar representações de sua entrada e saída sem usar RNNs ou convolução alinhadas com a sequência (fonte).

 

Os principais componentes usados pela atenção do Transformer incluem vetores de dimensão que contêm as consultas e chaves, respectivamente, um vetor de dimensão contendo os valores e matrizes que agrupam conjuntos de consultas, chaves e valores. Além disso, há matrizes de projeção usadas para gerar diferentes representações de subespaço das matrizes de consulta, chave e valor, e uma matriz de projeção para a saída de várias cabeças. A função de atenção pode ser considerada um mapeamento entre uma consulta e um conjunto de pares de chave-valor para uma saída. A saída é computada como uma soma ponderada dos valores, onde o peso atribuído a cada valor é computado por uma função de compatibilidade da consulta com a chave correspondente (fonte).

 

O Transformer implementa uma atenção de produto de ponto escalado, que segue o procedimento do mecanismo de atenção geral. Primeiro, calcula um produto de ponto para cada consulta com todas as chaves. Em seguida, divide cada resultado por uma constante e aplica uma função softmax, obtendo assim os pesos que são usados para dimensionar os valores. Em prática, os cálculos realizados pela atenção de produto de ponto escalado podem ser aplicados eficientemente a todo o conjunto de consultas simultaneamente (fonte).

 

Esse fator de escala foi introduzido para contrariar o efeito de ter os produtos de ponto crescendo em grande magnitude para grandes valores, onde a aplicação da função softmax retornaria gradientes extremamente pequenos que levariam ao problema infame dos gradientes que desaparecem. O fator de escala, portanto, serve para puxar os resultados gerados pela multiplicação do produto de ponto para baixo, prevenindo esse problema (fonte).

 

O procedimento passo a passo para calcular a atenção de produto de ponto escalado é o seguinte:

1. Calcule as pontuações de alinhamento multiplicando o conjunto de consultas embaladas na matriz com as chaves na matriz. Se a matriz de consultas for do tamanho m por d_k, e a matriz de chaves for do tamanho n por d_k, então a matriz resultante será do tamanho m por n.

2. Escale cada uma das pontuações de alinhamento por 1/sqrt(d_k).

3. Siga o processo de escala aplicando uma operação softmax para obter um conjunto de pesos (fonte).

Espero que esta explanação tenha sido útil e lhe dê uma visão mais clara de como eu funciono. Como sempre, a chave para se tornar um “mestre da engenharia de prompt” é a prática. Então, continue experimentando e testando diferentes abordagens!”

Attention Is All You Need (Atenção é Tudo Que Você Precisa)

Este artigo apresenta o Transformer, uma nova arquitetura de rede simples baseada apenas em mecanismos de atenção, eliminando completamente a necessidade de redes neurais recorrentes ou convolucionais. Em comparação com os modelos tradicionais, o Transformer mostrou-se superior em qualidade, mais paralelizável e requer significativamente menos tempo para treinamento.

O modelo alcançou resultados impressionantes em tarefas de tradução de máquina, superando os melhores resultados existentes e estabelecendo um novo recorde em termos de pontuação BLEU. Além disso, o Transformer também se mostrou eficaz em outras tarefas, como a análise de constituência em inglês. Recomenda-se a leitura do artigo completo para um entendimento mais profundo.

https://arxiv.org/pdf/1706.03762.pdf

O artigo “Attention Is All You Need” foi proposto pelos profissionais descritos abaixo:
Ashish Vaswani – Google Brain – avaswani@google.com
Noam Shazeer – Google Brain – noam@google.com
Niki Parmar – Google Research – nikip@google.com
Jakob Uszkoreit – Google Research – usz@google.com
Llion Jones – Google Research – llion@google.com
Aidan N. Gomez † – University of Toronto – aidan@cs.toronto.edu
Łukasz Kaiser – Google Brain – lukaszkaiser@google.com
Illia Polosukhin ‡ – illia.polosukhin@gmail.com