Modele rozumowania są prawie nadludzkimi programistami (OpenAI IOI, Nvidia Kernels)
RL to wszystko, czego potrzebujesz.
To jest zestawienie dwóch odrębnych wiadomości, które mimo wszystko mają ten sam temat:
- o3 zdobywa złoty medal na IOI 2024 i uzyskuje ocenę Codeforces na poziomie elitarnych ludzkich konkurentów - w szczególności, wynik Codeforces jest na poziomie 99,8 centyla - tylko 199 ludzi jest lepszych od o3. Zauważalnie, członek zespołu Alex Wei zauważył, że wszystkie metody "biasu indukcyjnego" również zawiodły w porównaniu do gorzkiej lekcji RL.

- W Automatyzacja generowania jąder GPU za pomocą DeepSeek-R1 i skalowanie w czasie wnioskowania, Nvidia odkryła, że DeepSeek r1 potrafił napisać niestandardowe jądra, które "okazały się lepsze niż zoptymalizowane jądra opracowane przez doświadczonych inżynierów w niektórych przypadkach"

W przypadku Nvidia rozwiązanie było również niezwykle proste, co wywołało wiele konsternacji. 