FaceNet: uma incorporação unificada para reconhecimento de rosto e cluster – Carlos Alexandre, Mikeias, José Padilha
março 20, 2019Autores: Carlos Alexandre; José Padilha; Mikeias Silva
O uso da tecnologia de reconhecimento biométrico é algo que tem ganhado espaço nas novas aplicações desenvolvidas, como por exemplo o reconhecimento facial, que já é usado em aeroportos e sistemas de vigilância. Um dos principais pontos abordados nesta área é a eficiência dos processos de processamento de imagens para efetuar o reconhecimento do indivíduo.
O objetivo do artigo é apresentar o algoritmo de reconhecimento facial FaceNet onde o mesmos possui o objetivo de ser mais eficiente, o mesmo faz uso de um método de aprendizagem baseada na geometria euclidiana usando uma rede convolucional, fazendo uso também da clusterização para agrupar rostos considerados pelo algoritmo iguais.
O algoritmo faz uso de Deep Learning, o qual é o aprendizado com o redes neurais onde o mesmo usa de camadas denominadas “layers”. Na rede neural tradicional todos os neurônios de uma camada estão conectados a neurônios da próxima camada, isso não é muito eficiente no processamento de imagens. A fim de obter um processamento mais eficiente a FaceNet usa a Convolutional Neural Networks (CNN), onde a mesma possuem neurônios dispostos em 3 dimensões: largura, altura e profundidade.
O algoritmo faz uso da “Image Triplet”, onde com o aprendizado o objetivo é deixar o ponto positivo mais próximo da âncora, o qual representaria a mesma identidade, quanto ao negativo deixar mais distante.
O benefício dessa abordagem é uma eficiência representativa muito maior: alcançando um desempenho de reconhecimento de face de última geração usando apenas 128 bytes por face/imagem.
Resultados
Uma precisão de 99,63% no LFW e de 95,12% no youtube DB. Reduziu a taxa de erro do melhor resultado em 30%.
No artigo é citado que os planos de estudo para o futuro seriam concentrar no melhor entendimento dos casos de erro, aprimorando o modelo e reduzindo o tamanho do modelo e os requisitos de cpu.
Outro plano futuro seria descobrir maneiras de melhorar os tempos de treinamento atualmente longos, explorar até onde essa ideia pode ser estendida, treinar redes pequenas para que possam ser executados em telefone celular e compatíveis com modelo maior de servidor.
O artigo mostra que os autores utilizaram 23 referências sendo 8 com menos de 5 anos e 2 que podemos dizer que são clássicas, ou seja, com mais de trinta anos.
Uma dúvida em comum entre os membros do grupo seria o melhor entendimento do “Triplet Selection” e o conceito de Embedding.
Artigo de referência:
SCHROFF, Florian; KALENICHENKO, Dmitry; PHILBIN, James; FaceNet: A Unified Embedding for Face Recognition and Clustering. 2015.