← Wszystkie modele

Profil modelu

GPT-2 Medium (FlashAttention)

Stanford University,University at Buffalo·USA·V 2022·język
Indeks Świadomości
0,0001%
widełki: 4,7×10⁻⁵%–0,0002%
Moc diagnostyczna
1,1×10⁶ bitów
widełki: 5×10⁵–2,5×10⁶
Energia treningu
1 MWh
widełki: 1 MWh–2 MWhsprzęt: NVIDIA A100 SXM4 40 GB
Sprawność
1,4 bit/J
bitów wzorca z 1 dżula energii treningu

Ile drogi do mózgu?i

0,0001%
10⁻⁷%
Mózg (100%)

GPT-2 Medium (FlashAttention) osiąga 0,0001% potencjału mózgu — mózg ma ok. 940 000× więcej. Pasek jest logarytmiczny, więc każdy równy odcinek to ok. 10× wzrost.

Moment w historii

W dniu publikacji (V 2022) GPT-2 Medium (FlashAttention) wyprzedzało go 39 modeli — na czele z:

W dniu premiery
#40
Do ówczesnego lidera
×299
Modeli przed premierą
70

Porównanie obejmuje 170 modeli ze zbioru — „#1” = najwyższy Indeks Świadomości wśród modeli opublikowanych przed premierą.

Pozycja w rankingu

#138 z 170
  1. #136Noisy Student (L2)0,0001%
  2. #137ProtBERT-BFD0,0001%
  3. #138GPT-2 Medium (FlashAttention)0,0001%
  4. #139ERNIE-GEN (large)0,0001%
  5. #140BERT-Large0,0001%

Rodzina GPT

12 wersji

Od GPT-1 (VI 2018) do gpt-oss-20b (VIII 2025) indeks linii urósł ×38,7. Punkty na wykresie są klikalne — każdy prowadzi do profilu wersji.

  1. VI 2018GPT-14,8×10⁻⁵%
  2. II 2019GPT-2 (1.5B)0,0003%
  3. V 2020GPT-3 175B (davinci)0,0083%
  4. III 2022GPT-3.5 (davinci-002)0,0073%
  5. V 2022GPT-2 Medium (FlashAttention)0,0001%
  6. III 2023GPT-4 (Mar 2023)0,042%
  7. VI 2023GPT-3.5 Turbo0,0018%
  8. IX 2023GPT-3.5 Turbo Instruct0,0018%
  9. II 2025GPT-4.50,042%
  10. VIII 2025GPT-50,023%
  11. VIII 2025gpt-oss-120b0,0062%
  12. VIII 2025gpt-oss-20b0,0019%

Kontekst czasu

Każdy szary punkt to jeden z 170 modeli; GPT-2 Medium (FlashAttention) wyróżniony kolorem. Oś pionowa jest logarytmiczna, a przerywana linia u góry to mózg (100%).