Este método permite um avanço na descodificação especulativa, uma técnica de otimização da inferência concebida para tornar os modelos de aprendizagem profunda (DLM) mais rápidos e eficientes na resolução de pedidos, sem comprometer a precisão das repostas.
Esta técnica funciona através da combinação de um modelo pequeno e rápido que gera a resposta, havendo um modelo maior e mais preciso que a verifica e avalia, embora este método possa causar dificuldades quando são utilizados vocabulários diferentes.
Neste contexto, os investigadores descobriram um novo procedimentos que pode aumentar a velocidade de inferência dos LLM até 2,8 vezes, facilitando a descodificação especulativa em modelos heterogéneos.
Segundo a empresa de tecnologia, este novo passo permite que qualquer modelo pequeno "em rascunho" acelere qualquer LLM, "independentemente das diferenças de vocabulário".
Esta novidade resolve uma "ineficiência fundamental na IA generativa", como detalhou a Intel num comunicado, citado pela Europa Press, no qual sublinha que, além disso, também funciona com modelos de diferentes programadores e ecossistemas.
O novo método é baseado em três novos algoritmos, que "separam a codificação especulativa do alinhamento de vocabulário", facilitando a implementação flexível do LLM, o que permite combinar qualquer modelo de rascunho pequeno com qualquer modelo grande para otimizar a velocidade e o custo da inferência.
Leia Também: Intel "não está entre as maiores empresas de 'chips'", admite CEO