Claude 3.7 Sonnet
Myślenie to wszystko, czego potrzebujesz.
Przyjmując lekkiego skoczka od mapy drogowej GPT5, Claude 3.7 Sonnet został uruchomiony dziś (nie pytaj o nazwę - zauważ, że są DWA posty na blogu, dokumentacja, książki kucharskie oraz przewodniki po instrukcjach do przeczytania, a także Claude Code, który jest w ograniczonym podglądzie), po liczne przecieki z prywatnych podglądów, jako jeden model z opcjonalnym trybem myślenia, z wyraźnym budżetem tokenów.

3.7 Sonnet dobrze wypada w wielu benchmarkach kodowania, takich jak SWE-Bench Verified oraz aider i ocena młodszych programistów Cognition, zarówno z (GŁÓWNIE nieocenzurowanym!) myśleniem, jak i bez niego.

Jednak najpopularniejszym nowym benchmarkiem, omówionym w drugim poście na blogu o rozszerzonym myśleniu, jest Pokebench, który odzwierciedla artykuł Voyager jako agentowy benchmark:

Zestaw funkcji i dokumentacja podczas uruchamiania są dość imponujące. Wśród zauważalnych rzeczy, które prawdopodobnie zostaną pominięte w nagłówkach:
- nowa systemowa zapowiedź
- zakodowane/odkodowane myślenie
- strumieniowe myślenie
- zdolność wyjściowa 128k TOKENÓW (w fazie beta)
- okno kontekstowe i łączenie zapamiętywania bloków myślenia z poprzednich tur)

- użycie narzędzi
- zgadzanie się z Grok 3 że równoległy czas obliczeń testowych jest użyteczny i warto go badać