Esta Semana em IA: Apple não dirá como a salsicha é feita

Olá, pessoal, e bem-vindos à newsletter regular de IA da TechCrunch.

Esta semana em IA, a Apple roubou os holofotes.

No Worldwide Developers Conference (WWDC) da empresa em Cupertino, a Apple revelou a Apple Intelligence, sua aguardada incursão em IA generativa em toda a sua ecossistema. A Apple Intelligence alimenta uma série de recursos, desde uma Siri aprimorada até emojis gerados por IA e ferramentas de edição de fotos que removem pessoas e objetos indesejados das fotos.

A empresa prometeu que a Apple Intelligence está sendo construída com segurança em seu núcleo, juntamente com experiências altamente personalizadas.

“Ela tem que entender você e estar ancorada em seu contexto pessoal, como sua rotina, seus relacionamentos, suas comunicações e muito mais”, observou o CEO Tim Cook durante o keynote na segunda-feira. “Tudo isso vai além da inteligência artificial. É inteligência pessoal, e é o próximo grande passo para a Apple.”

A Apple Intelligence é classicamente Apple: ela esconde a tecnologia detalhada por trás de recursos obviamente úteis e intuitivos. (Em nenhum momento Cook mencionou a frase “grande modelo de linguagem”.) Mas como alguém que escreve sobre a parte interna da IA para viver, gostaria que a Apple fosse mais transparente — apenas desta vez — sobre como a salsicha foi feita.

Pegue, por exemplo, as práticas de treinamento de modelo da Apple. A Apple revelou em um post no blog que treina os modelos de IA que alimentam a Apple Intelligence em uma combinação de conjuntos de dados licenciados e a web pública. Os editores têm a opção de optar por não participar de futuros treinamentos. Mas e se você for um artista curioso para saber se seu trabalho foi incluído no treinamento inicial da Apple? Azar o seu — os lábios estão selados.

O sigilo pode ser por razões competitivas. Mas eu suspeito que também seja para proteger a Apple de desafios legais — especificamente desafios relacionados a direitos autorais. Os tribunais ainda não decidiram se fornecedores como a Apple têm o direito de treinar em dados públicos sem compensar ou dar crédito aos criadores desses dados — em outras palavras, se a doutrina do uso justo se aplica à IA generativa.

É um pouco decepcionante ver a Apple, que muitas vezes se autoproclama campeã de políticas tecnológicas coerentes, implicitamente abraçar o argumento de uso justo. Encoberto atrás do véu do marketing, a Apple pode afirmar estar adotando uma abordagem responsável e medida à IA, enquanto pode muito bem ter treinado obras de criadores sem permissão.

Um pouco de explicação iria longe. É uma pena que não tenhamos recebido uma — e não estou esperançoso de que teremos tão cedo, a menos que haja uma ação judicial (ou duas).

Notícias

Principais recursos de IA da Apple: Yours truly reuniu os principais recursos de IA anunciados pela Apple durante o keynote da WWDC esta semana, desde a Siri aprimorada até integrações profundas com o ChatGPT da OpenAI.

OpenAI contrata executivos: A OpenAI esta semana contratou Sarah Friar, ex-CEO da rede social hiperlocal Nextdoor, para ser sua diretora financeira, e Kevin Weil, que anteriormente liderou o desenvolvimento de produtos no Instagram e Twitter, como seu diretor de produtos.

E-mail, agora com mais IA: Esta semana, o Yahoo (empresa-mãe da TechCrunch) atualizou o Yahoo Mail com novas capacidades de IA, incluindo resumos gerados por IA de e-mails. O Google introduziu recentemente um recurso semelhante de resumos generativos, mas está por trás de um paywall.

Visões controversas: Um estudo recente da Carnegie Mellon descobriu que nem todos os modelos de IA generativa são iguais — especialmente no que diz respeito à forma como tratam assuntos polarizadores.

Gerador de som: A Stability AI, a startup por trás do gerador de arte alimentado por IA Stable Diffusion, lançou um modelo de IA aberto para gerar sons e músicas que afirma ter sido treinado exclusivamente em gravações isentas de royalties.

Artigo de pesquisa da semana

O Google acredita que pode construir um modelo de IA generativa para saúde pessoal — ou pelo menos dar passos preliminares nessa direção.

Em um novo artigo apresentado no blog oficial do Google AI, pesquisadores do Google revelam o Personal Health Large Language Model, ou PH-LLM para abreviar — uma versão ajustada de um dos modelos Gemini do Google. O PH-LLM foi projetado para fornecer recomendações para melhorar o sono e a forma física, em parte lendo dados de frequência cardíaca e respiração de dispositivos vestíveis como smartwatches.

Para testar a capacidade do PH-LLM de fornecer sugestões de saúde úteis, os pesquisadores criaram quase 900 estudos de caso de sono e forma física envolvendo sujeitos nos EUA. Eles descobriram que o PH-LLM deu recomendações de sono que eram próximas — mas não tão boas quanto — as recomendações dadas por especialistas em sono humanos.

Os pesquisadores afirmam que o PH-LLM poderia ajudar a contextualizar dados fisiológicos para “aplicações de saúde pessoal”. O Google Fit vem à mente; não ficaria surpreso em ver o PH-LLM eventualmente alimentar algum novo recurso em um aplicativo do Google focado em fitness, seja o Fit ou outro.

Modelo da semana

A Apple dedicou bastante cópia em seu blog detalhando seus novos modelos de IA generativa em dispositivos e na nuvem que compõem sua suíte Apple Intelligence. No entanto, apesar do tamanho deste post, ele revela muito pouco sobre as capacidades dos modelos. Aqui está nossa melhor tentativa de analisá-lo:

O modelo sem nome em dispositivos que a Apple destaca é pequeno em tamanho, sem dúvida para que possa ser executado offline em dispositivos da Apple como o iPhone 15 Pro e Pro Max. Ele contém 3 bilhões de parâmetros — “parâmetros” sendo as partes do modelo que basicamente definem sua habilidade em um problema, como gerar texto — tornando-o comparável ao modelo Gemini Nano da Google em dispositivos, que vem em tamanhos de 1,8 bilhão de parâmetros e 3,25 bilhão de parâmetros.

O modelo do servidor, por sua vez, é maior (quão maior, a Apple não dirá precisamente). O que sabemos é que é mais capaz que o modelo em dispositivos. Enquanto o modelo em dispositivos se sai tão bem quanto modelos como o Phi-3-mini da Microsoft, o Mistral 7B da Mistral e o Gemma 7B da Google nos benchmarks listados pela Apple, o modelo do servidor “se compara favoravelmente” ao modelo carro-chefe mais antigo da OpenAI GPT-3.5 Turbo, alega a Apple.

A Apple também diz que tanto o modelo em dispositivos quanto o modelo do servidor têm menos probabilidade de sair dos trilhos (ou seja, dizer algo tóxico) do que modelos de tamanhos semelhantes. Isso pode ser verdade — mas este escritor está reservando julgamento até ter a chance de testar a Apple Intelligence.

Pacote variado

Esta semana marcou o sexto aniversário do lançamento do GPT-1, o progenitor do GPT-4o, o modelo de IA generativa mais recente da OpenAI. E embora o aprendizado profundo possa estar atingindo um limite, é incrível o quão longe o campo chegou.

Considere que levou um mês para treinar o GPT-1 em um conjunto de dados de 4,5 gigabytes de texto (o BookCorpus, contendo ~7.000 livros de ficção inéditos). O GPT-3, que é quase 1.500 vezes maior que o GPT-1 em contagem de parâmetros e significativamente mais sofisticado na prosa que pode gerar e analisar, levou 34 dias para ser treinado. Como isso para escalonamento?

O que tornou o GPT-1 inovador foi sua abordagem de treinamento. Técnicas anteriores dependiam de vastas quantidades de dados rotulados manualmente, limitando sua utilidade. (Rotular dados manualmente é demorado — e trabalhoso.) Mas o GPT-1 não; ele treinou principalmente em dados não rotulados para “aprender” a realizar uma série de tarefas (por exemplo, escrever ensaios).

Muitos especialistas acreditam que não veremos uma mudança de paradigma tão significativa quanto a do GPT-1 tão cedo. Mas, então, o mundo também não viu que o GPT-1 estava por vir.