Internetom sa prehnala smršť správ o novom jazykovom modeli DeepSeek. Vraj je prekvapivo dobrý, vraj je ukradnutý, vraj kvôli nemu padli akcie Nvidie, vraj nás cezeň špehuj. Ako to teda vlastne je?

DeepSeek R1 je veľký jazykový model (skrátene LLM) od čínskej firmy DeepSeek. Funguje podobne ako známy ChatGPT alebo menej známe Claude, Mistral a pár ďalších. Môžete sa s ním porozprávať cez appku alebo ich stránku.

Čím spôsobil DeepSeek tento rozruch sú štyri veci:
1. Kvalitou sa zrejme vyrovná modelu OpenAI O1. To je samo o sebe pôsobivé, lenže ako bonus …
2. Je opensource. Autori zverejnili celý kód aj natrénovaný model, tu sú https://github.com/deepseek-ai/DeepSeek-V3. DeepSeek je zrejme najlepší opensource model súčasnosti a každý si ho teoreticky vie sám spustiť a používať ho.
3. To všetko dosiahli s oveľa menším rozpočtom ako OpenAI – podľa Sama Altmana stál tréning GPT4 cez 100 miliónov dolárov, DeepSeek tvrdí, že jeden tréning modelu stál menej ako 6 miliónov. Pozor, tieto čísla nie sú priamo porovnateľné, počas vývoja treba väčšinou vykonať niekoľko trénovacích experimentov, takže výsledná cena za trénovanie DeepSeek môže byť vyššia. Prístup k DeepSeek modelu cez API je ale tiež niekoľkonásobne lacnejší než k porovnateľným modelom od OpenAI.
4. DeepSeek je čínska firma.

Asi chápete, že toto je výbušná kombinácia a OpenAI ani ich investorom sa to moc nepáči. [1] Okamžite sa objavili vážne mienené obvinenia aj menej seriózne vtípy o tom, že Číňania model ukradli. Keďže je zdrojový kód aj technická dokumentácia dostupná každému, my nemusíme ostať len pri klebetách, ale radšej sa mu poriadne pozrime na zúbok.

Všetky veľké jazykové modely súčasnosti sú neurónové siete s architektúrou nazývanou transformer (už sme o nej písali). DeepSeek má tiež túto architektúru, ale vývoj je raketový a tak aj DeepSeek pridal niekoľko vylepšení.

Za prvé, DeepSeek vlastne nie je jeden model, ale 256 malých expertných modelov v jednom spoločnom kabáte. Hovorí sa tomu „zmes expertov“ (v angličtine „mixture of experts“). Pre každé slovo model odhadne, ktorých 8 z jeho expertov by sa k nemu mali vyjadriť, a aktivuje len tie. To ohromne šetrí výpočtový výkon – dokopy má 671 miliárd parametrov, ale naraz sa aktivuje vždy len 37 miliárd. Toto samo o sebe nie je žiadna novinka a mnohé špičkové LLM súčasnosti fungujú podobne (OpenAI o ich architektúre mlčia,takže tu musíme dať na klebety, ktoré celkom jasne tvrdia, že ich najnovšie modely sú tiež zmesi expertov). DeepSeek ale vymyslel nový spôsob, ako zabezpečiť, že výpočtová záťaž je medzi expertov rozložená čo najrovnomernejšie.

Druhá zaujímavá inovácia spočíva v tom, ako model vypočítava „pozornosť“. Pripomeňme si, že transformer funguje tak, že vždy, keď chce spracovať význam nejakého slova, spočíta pre všetky ostatné slová, ako veľmi sú preň dôležité a podľa toho im venuje pozornosť. Tento výpočet je dosť pracný a tak sa od jeho vynájdenia vyrojilo už množstvo jeho efektívnejších variánt. DeepSeek predstavil svoju vlastnú variantu, v ktorej sa medzivýsledky tohoto výpočtu skomprimujú, takže sa do pracovnej pamäte počas generovania textu musí zapisovať menej dát, čo šetrí čas.

No ale najvýraznejšie inovácie sú v tom, ako extrémne prispôsobili celý model hardvéru, na ktorom je trénovaný. Napríklad už počas tréningu siete reprezentujú každý jej parameter len pomocou 8-bitových čísel (prevažne, niektoré parametre strategicky ponechali s vyššou presnosťou). Dôkladne a do posledného detailu vyladili celý model tak, aby čo najmenej výpočtov bolo nadbytočných a komunikácia medzi jednotlivými hardvérovými komponentami nikde neviazla. Práve táto optimalizácia je zrejme hlavný dôvod nízkej ceny tréningu.

Z tohoto je hneď zrejmé, že nejde len o nejakú lacnú kópiu, ale o výsledok kvalitného výskumu a inžinierskej práce, ktorá priniesla niekoľko inovácií. Navyše je to už tretia verzia tohoto modelu, takže firma DeepSeek na ňom pracovala už nejakú dobu. Podvedomý predsudok, že v Číne by predsa nič také sami nevymysleli, je často len západný šovinizmus. Neostáva nám nič iné, ako vývojárom pogratulovať a tešiť sa z toho, že z ich opensource práce môžeme profitovať všetci.

OpenAI ale obviňujú DeepSeek z destilácie. Čo to je? Je to len technický žargón pre trénovanie modelu na dátach, ktoré vygeneroval iný model. V praxi by to prebiehalo tak, že vývojári DeepSeeku by nechali ChatGPT vygenerovať množstvo konverzácií a pridali by ich k vlastným trénovacím dátam. To by bolo porušenie používateľských podmienok ChatGPT, ktoré toto explicitne zakazujú. OpenAI to tvrdí bez dôkazov, ale dokázať niečo také je zrejme prakticky nemožné. Je to ale úžasná irónia – OpenAI sami porušujú rovnakým spôsobom zmluvné podmienky spravodajských webov ako Forbes alebo New York Times, ktoré to tiež explicitne zakazujú, nehovoriac o trénovaní na dielach chránených autorskými právami. OpenAI ani DeepSeek svoje trénovacie dáta nezverejnili, takže na čom presne bol model natrénovaný sa nedozvieme.

Na záver ešte podotknime, že to, že čínska firma vyvinula a zverejnila kvalitný model, nemení nič na tom, že čínsky režim je brutálnou diktatúrou (spomeňme napríklad genocídu Ujgurov, vraždenie na Námestí nebeského pokoja, extrémne potlačenú slobodu prejavu alebo fakt, že Čína je zrejme krajina s najvyšším množstvom popráv na svete). To má samozrejme implikácie aj pre používanie tohoto modelu. V Číne nie je nič, čo by nebolo cenzurované, takže keď sa spýtate modelu, čo sa udialo na Námestí nebeského pokoja, nepovie vám to. [2] Môže vám klamať aj v iných, ťažšie povšimnuteľných veciach.

Takisto je tu isté riziko spojené s používaním mobilnej aplikácie DeepSeek. Má veľmi široké oprávnenia na zber dát z vašeho mobilu a v Číne nič ako GDPR neexistuje, takže o vás uloží všetko, čo môže. Ak ste napríklad vysoký manažér, politicky aktívny alebo pracujete s citlivými dátami či v kritickej infraštruktúre, radšej svoje dáta do Číny neposielajte. [3]

[Ján] [1] Možno nedávali v roku 2023 pozor, keď začalo byť zrejmé, že opensource modely vedia v kvalite tie uzavreté dobiehať aj s výrazne lacnejšími nákladmi, viď https://semianalysis.com/2023/05/04/google-we-have-no-moat-and-neither/
[2] Aspoň v niektorých prípadoch je zrejme možné túto cenzúru veľmi zábavne obísť, tak ako tu https://substack.com/home/post/p-156004330
[3] Na druhej strane, ak ste napríklad sexuálne aktívna žena v Texase, tak je možno bezpečnejšie poslať svoje otázky o fungovaní potratovej pilulky do Číny ako do USA, kde si ich môže vyžiadať polícia. Čím samozrejme nehovorím, že potácajúca sa demokracia USA a totalitná Čína sú rovnaké, ale je to dobrá chvíľa pripomenúť si, že so zhoršujúcim sa stavom demokracie v USA budú podobné otázky ohľadom súkromia na internete stále pálčivejšie.

Čo sa odhalilo o DeepSeeku?

Pridaj komentár Zrušiť odpoveď

vedator_sk