Tema

Ranking dos labs de IA

Anthropic, OpenAI, Google DeepMind, Meta, xAI, Mistral, os labs chineses — preveja quem lança o quê, quando e onde aterrissa nos benchmarks. Tudo com moedas fictícias do GutCall.

Como o GutCall modela a corrida da IA

Os desafios de IA no GutCall são resolvidos contra sinais públicos e citáveis: uma model card publicada pelo lab, uma pontuação numa avaliação pública relevante (MMLU, GPQA, SWE-Bench, ARC-AGI), uma atualização oficial da página de preços ou um acordo registrado em processo judicial. O desafio diz qual sinal o resolve antes de você apostar.

Não tentamos pontuar "qual lab é o melhor" com um número único — esse tipo de afirmação envelhece mal. Em vez disso, todo palpite é concreto: "O Claude vai bater o GPT no SWE-Bench Verified antes do Q3?", "O próximo modelo grande do lab X vai custar menos por milhão de tokens do que o modelo atual no dia do lançamento?". Concreto, falseável e resolvido por uma fonte pública.

A distribuição de apostas da comunidade vira a probabilidade ao vivo. Se você acha que a sala está errada sobre a cadência de lançamento de um lab, aposta no lado contrário e explica seu raciocínio nos comentários. Os vencedores recebem dos perdedores depois da taxa padrão da plataforma — em moedas fictícias, nunca em dinheiro.

O que dá pra prever na categoria IA

  • Datas de lançamento

    O lab X vai lançar um novo modelo flagship em um trimestre? Uma preview anunciada vai virar GA antes de uma data?

  • Pontuação em benchmark

    O modelo Y vai bater o modelo Z num benchmark público nomeado? Cada desafio aponta a suíte e a versão específica de cada modelo.

  • Alegações de capacidade

    Quando um lab publica uma nova alegação de capacidade (autonomia de agente, multimodalidade, janela de contexto), o GutCall abre um desafio sobre reproduções independentes confirmarem em N semanas.

  • Mudanças de preço

    O preço por token dos modelos em produção se move em degraus — normalmente para baixo, ocasionalmente para cima. Os desafios são resolvidos pela atualização publicada na página de preços.

  • Liderança de mercado

    Qual modelo é o mais citado em pesquisas com devs no fim de uma temporada? Fontes de resolução são os principais dashboards de dev-tools.

  • Circuito fechado, moeda interna

    As moedas são fictícias. Não dá pra sacar, transferir ou trocar por prêmios. O jogo recompensa palpites bons com cosméticos e insígnias, não com dinheiro.

Perguntas frequentes do ranking de IA

  • Quais labs estão cobertos?

    Todos os principais labs da fronteira que publicam model cards ou resultados de benchmark — Anthropic, OpenAI, Google DeepMind, Meta, xAI, Mistral, Alibaba, DeepSeek, mais qualquer outro lab que lance um modelo no período. Os desafios nomeiam o lab e o modelo específicos antes da hora.

  • Como os desafios de pontuação em benchmark são resolvidos?

    O desafio especifica a suíte, a versão e o scoreboard ou paper público que resolve. O GutCall lê dessa fonte após o prazo de resolução. Discrepâncias entre as pontuações auto-reportadas e reproduções independentes vão para o processo de disputa.

  • E se um lab muda silenciosamente um modelo por trás de uma API?

    Os desafios nomeiam uma versão específica (ex.: "Claude Opus 4.7"). Se um lab renomeia ou troca o modelo silenciosamente, o desafio é resolvido pela versão nomeada — verificada via release notes ou model cards. Casos ambíguos vão para disputa e podem ser anulados.

  • Posso criar meu próprio desafio de labs de IA?

    Os planos Creator e Pro liberam a suíte de autoria. O template de IA pede para você especificar o lab, o modelo, o benchmark ou a alegação, e a fonte pública de resolução — mantendo cada desafio auditável.

  • Isso é um mercado de apostas real sobre resultados de IA?

    Não. As moedas do GutCall são fictícias, sem valor em dinheiro, não podem ser sacadas e não são trocadas por prêmios. O ranking de IA é um jogo de palpites para entretenimento, não um mercado de apostas nem um produto de investimento.

Continuar explorando

Acha que lê a corrida dos labs melhor que a sala?

Cadastro grátis. Moedas iniciais por nossa conta. Sem cartão, sem wallet, sem dinheiro real em jogo.