Início Tecnologia O novo conjunto de dados de IA da Apple visa melhorar os...

O novo conjunto de dados de IA da Apple visa melhorar os modelos de edição de fotos

17
0

Pesquisadores da Apple divulgaram Pico-Banana-400Kum conjunto de dados abrangente de 400.000 imagens selecionadas que foi projetado especificamente para melhorar a forma como os sistemas de IA editam fotos com base em prompts de texto.


O enorme conjunto de dados visa abordar o que a Apple descreve como uma lacuna no treinamento atual de edição de imagens de IA. Embora sistemas como o GPT-4o possam fazer edições impressionantes, os pesquisadores dizem que o progresso foi limitado por dados de treinamento inadequados construídos a partir de fotografias reais. O novo conjunto de dados da Apple visa melhorar a situação.

Pico-Banana-400K apresenta imagens organizadas em 35 tipos de edição diferentes em oito categorias, desde ajustes básicos, como mudanças de cores, até transformações complexas, como converter pessoas em personagens no estilo Pixar ou figuras LEGO. Cada imagem passou pelo sistema de controle de qualidade alimentado por IA da Apple, com o Gemini-2.5-Professional ​​do Google sendo usado para avaliar os resultados com base na conformidade das instruções e na qualidade técnica.

O conjunto de dados também inclui três subconjuntos especializados: 258.000 exemplos de edição única para treinamento básico, 56.000 pares de preferências comparando edições bem-sucedidas e fracassadas e 72.000 sequências multivoltas mostrando como as imagens evoluem através de múltiplas edições consecutivas.

A Apple construiu o conjunto de dados usando o modelo de edição Gemini-2.5-Flash-Picture (também conhecido como Nano-Banana) do Google, lançado há apenas alguns meses. No entanto, a pesquisa da Apple revelou as suas limitações. Embora as mudanças globais de estilo tenham sido bem-sucedidas em 93% das vezes, tarefas precisas, como realocar objetos ou editar texto, tiveram sérias dificuldades, com taxas de sucesso abaixo de 60%.

edição de imagem da apple conjunto de dados ai pico bananaedição de imagem da apple conjunto de dados ai pico banana
Apesar das limitações, os pesquisadores dizem que seu objetivo com o Pico-Banana-400K é estabelecer “uma base robusta para treinar e avaliar a próxima geração de modelos de edição de imagens guiados por texto”. O conjunto de dados completo está disponível gratuitamente para uso em pesquisa não comercial no GitHub, para que os desenvolvedores possam usá-lo para treinar IA de edição de imagens mais capaz.

avots

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui