Co w AI piszczy

2025-02-25

Claude 3.7 Sonnet

Myślenie to wszystko, czego potrzebujesz.

Przyjmując lekkiego skoczka od mapy drogowej GPT5, Claude 3.7 Sonnet został uruchomiony dziś (nie pytaj o nazwę - zauważ, że są DWA posty na blogu, dokumentacja, książki kucharskie oraz przewodniki po instrukcjach do przeczytania, a także Claude Code, który jest w ograniczonym podglądzie), po liczne przecieki z prywatnych podglądów, jako jeden model z opcjonalnym trybem myślenia, z wyraźnym budżetem tokenów.

3.7 Sonnet dobrze wypada w wielu benchmarkach kodowania, takich jak SWE-Bench Verified oraz aider i ocena młodszych programistów Cognition, zarówno z (GŁÓWNIE nieocenzurowanym!) myśleniem, jak i bez niego.

Jednak najpopularniejszym nowym benchmarkiem, omówionym w drugim poście na blogu o rozszerzonym myśleniu, jest Pokebench, który odzwierciedla artykuł Voyager jako agentowy benchmark:

Zestaw funkcji i dokumentacja podczas uruchamiania są dość imponujące. Wśród zauważalnych rzeczy, które prawdopodobnie zostaną pominięte w nagłówkach:

nowa systemowa zapowiedź
zakodowane/odkodowane myślenie
strumieniowe myślenie
zdolność wyjściowa 128k TOKENÓW (w fazie beta)
okno kontekstowe i łączenie zapamiętywania bloków myślenia z poprzednich tur)
użycie narzędzi
zgadzanie się z Grok 3 że równoległy czas obliczeń testowych jest użyteczny i warto go badać

« 1 ... 9 10 11 12 13 ... 30 »