![]() | |
Państwo | |
---|---|
Siedziba | |
Data założenia |
2023 |
Dyrektor |
Liang Wenfeng |
Zatrudnienie |
160 (2025)[1] |
Położenie na mapie Chin ![]() | |
![]() | |
Strona internetowa |
DeepSeek (chiń. 深度求索, pinyin: Shēndù Qiúsuǒ) – chińskie przedsiębiorstwo zajmujące się sztuczną inteligencją, które opracowuje open-source’owe duże modele językowe. Siedziba firmy mieści się w Hangzhou w prowincji Zhejiang. Została założona w 2023 r., a jej pierwotny współtwórca, Liang Wenfeng, pełni funkcję jej dyrektora generalnego. Firma jest własnością chińskiego funduszu hedgingowego High-Flyer i jest przez niego w całości finansowana.
DeepSeek uzyskał międzynarodowy rozgłos po wydaniu modelu DeepSeek R1 tworząc konkurencję dla takich chatbotów jak ChatGPT[2], mimo że według oficjalnego przekazu został opracowany przy znacznie niższych kosztach na poziomie 6 milionów dolarów amerykańskich, w porównaniu do 78 milionów dolarów za GPT-4 firmy OpenAI w 2023 r. i wymaga dziesiątej części mocy obliczeniowej porównywalnego LLM[3][4].
Modele i produkty
[edytuj | edytuj kod]Modele mieszanki ekspertów
[edytuj | edytuj kod]9 stycznia 2024 został ogłoszony duży model językowy korzystający z techniki mieszanki ekspertów[5]. W porównaniu z modelem Llama od Meta dostępnym od lutego 2023, model wymagał tylko 28,5% wymaganych obliczeń[6].
Modele matematyczne
[edytuj | edytuj kod]W kwietniu 2024 zespół wydał trzy modele matematyczne: Base, Instruct i RL. Modele te próbowały wykonać kroki logiczne podobne do operacji matematycznych po trenowaniu modelu równaniami matematycznymi[7].
V2
[edytuj | edytuj kod]
Prace nad mechanizmem uwagi doprowadziły do opracowania własnej wersji tej techniki o nazwie Multihead Latent Attention (MLA)[8], która pozwala na uzyskanie ok. 10% zmniejszenia wielkości modelu w połączeniu w modelem mieszkanki ekspertów. Koszt inferencji modelu wyniósł jedną siódmą kosztu GPT-4[9].
V3
[edytuj | edytuj kod]
Wersja V3 modelu została oparta na V2 i stosuje technikę zwaną multi-token prediction training[10]. Podczas treningu zastosowano również zmienną precyzję zmiennoprzecinkową aby zmniejszyć czas treningu[11]. Trenowanie zajęło 2788 godzin na procesorach NVidia H800, z późniejszym dostrajaniem i uczeniem przez wzmacnianie. V3 składa się z 671 mld parametrów[12]. Porównania z modelami Llama i GPT-4 pokazywały przewagę V3 nad pozostałymi modelami[13][14].
R1
[edytuj | edytuj kod]Został R1 opracowany w okresie sankcji USA nałożonych na Chiny za układy scalone firmy Nvidia, których celem było ograniczenie możliwości kraju w zakresie opracowywania zaawansowanych systemów sztucznej inteligencji[15][16]. Dalsze ustalenia dziennikarskie wskazują jednak, że koszty wytworzenia modelu były znacznie wyższe. 6 milionów dolarów zostało wydane na fragment prac nad modelem, a całkowite koszty są trudne do ustalenia, chociaż najprawdopodobniej i tak pozostają niższe niż w przypadku ChatGPT. Według przecieków, do uczenia modelu wykorzystano około 50 tysięcy kart Nvidia, które w związku z nałożonymi sankcjami musiały zostać pozyskane nielegalnie[17].
Model został oparty na automatycznym uczeniu przez wzmacnianie, bez nadzorowanego dostrajania, które pozwoliło na osiągnięcie lepszego łańcucha myśli[18].
10 stycznia 2025 r. firma wydała swoją pierwszą bezpłatną aplikację chatbota, która do 27 stycznia prześcignęła ChatGPT i stała się najczęściej pobieraną bezpłatną aplikacją w App Store w Stanach Zjednoczonych, co spowodowało spadek ceny akcji firmy Nvidia o 18%[19][20][21].
DeepSeek udostępnił swój generatywny chatbot oparty na sztucznej inteligencji jako oprogramowanie typu open source, co oznacza, że jego kod jest swobodnie dostępny do użytku, modyfikacji i przeglądania[22].
Cenzura i obawy dotyczące prywatności
[edytuj | edytuj kod]
Oficjalna wersja API R1 posiada filtr moderacyjny do filtrowania tematów drażliwych, zwłaszcza tych, które są uważane za politycznie drażliwe dla rządu Chińskiej Republiki Ludowej. Na przykład model ten odmawia odpowiedzi na pytania dotyczące protestów na placu Tian’anmen w 1989 r. i masakry na nim, prześladowań Ujgurów lub praw człowieka w Chinach[23]. Sztuczna inteligencja może początkowo wygenerować odpowiedź, ale wkrótce potem ją usunie i zastąpi wiadomością: „Przepraszam, to wykracza poza moje obecne kompetencje. Porozmawiajmy o czymś innym”[23]. Podczas testów przeprowadzonych przez NBC News, R1 DeepSeek opisał Tajwan jako „nieodłączną część terytorium Chin” i stwierdził: „Zdecydowanie sprzeciwiamy się wszelkim formom separatystycznych działań na rzecz «niepodległości Tajwanu» i jesteśmy zaangażowani w osiągnięcie całkowitego zjednoczenia ojczyzny za pomocą pokojowych środków”[24].
Istnieją również obawy, że system sztucznej inteligencji może zostać wykorzystany do wywierania wpływu na zagranicę, dezinformacji, nadzoru i opracowywania cyberbroni dla chińskich służb specjalnych[25]. Ponadto (podobnie jak w przypadku TikToka) eksperci ostrzegają, że aplikacja przesyła dane osobowe do ChRL[26].
Pod koniec stycznia 2025 dostęp do wersji internetowej i aplikacji mobilnej DeepSeek został zablokowany we Włoszech. Głównym powodem podanym przez rząd był brak transparentności odnośnie przechowywania danych[27]. DeepSeek został również zablokowany na poziomie administracji państwowej w Australii, Tajwanie i stanie Nowy Jork[28][29][30]. W lutym 2025 Korea Południowa zablokowała możliwość pobierania aplikacji mobilnej w celu zapewnienia zgodności z krajowymi przepisami o ochronie danych osobowych[31].
UODO zaleca ostrożność w korzystaniu z chatbota ze względu na możliwość przechowywania danych w ChRL, czyli kraju, dla którego Komisja Europejska nie wydała decyzji stwierdzającej odpowiedni poziom ochrony danych[32][33].
Przypisy
[edytuj | edytuj kod]- ↑ Brimming with rewards – but mind the risks [online], Australian Financial Review, 14 kwietnia 2025 [dostęp 2025-05-11] (ang.).
- ↑ Elizabeth Gibney. China's cheap, open AI model DeepSeek thrills scientists. „Nature”, 23 stycznia 2025. DOI: 10.1038/d41586-025-00229-6. ISSN 1476-4687. PMID: 39849139. (ang.).
- ↑ Peter Hoskins: DeepSeek Chinese AI chatbot sparks market turmoil for rivals. BBC, 27 stycznia 2025. (ang.).
- ↑ Emma Cosgrove: DeepSeek's cheaper models and weaker chips call into question trillions in AI infrastructure spending. Business Insider, 27 stycznia 2025.
- ↑ Cade Metz , What to Know About DeepSeek and How It Is Upending A.I., „The New York Times”, 27 stycznia 2025, ISSN 0362-4331 [dostęp 2025-04-16] (ang.).
- ↑ Paper page - DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models [online], huggingface.co, 9 czerwca 2024 [dostęp 2025-04-16] .
- ↑ Zhihong Shao i inni, DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models, „arXiv”, 2024, DOI: 10.48550/arXiv.2402.03300, arXiv:2402.03300 [dostęp 2025-04-16] .
- ↑ DeepSeek-AI i inni, DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model, „arXiv”, 2024, DOI: 10.48550/arXiv.2405.04434, arXiv:2405.04434 [dostęp 2025-04-16] .
- ↑ Jordan Schneider , Deepseek: The Quiet Giant Leading China’s AI Race [online], www.chinatalk.media [dostęp 2025-04-16] (ang.).
- ↑ Fabian Gloeckle , Badr Youbi Idrissi , Baptiste Rozière , David Lopez-Paz , Gabriel Synnaeve , Better & Faster Large Language Models via Multi-token Prediction, „arXiv”, 2024, DOI: 10.48550/arXiv.2404.19737, arXiv:2404.19737 [dostęp 2025-04-16] .
- ↑ DeepSeek-AI i inni, DeepSeek-V3 Technical Report, „arXiv”, 2025, DOI: 10.48550/arXiv.2412.19437, arXiv:2412.19437 [dostęp 2025-04-16] .
- ↑ Ege Erdil , How has DeepSeek improved the Transformer architecture? [online], Epoch AI, 17 stycznia 2025 [dostęp 2025-04-16] (ang.).
- ↑ Chinese start-up DeepSeek’s new AI model outperforms Meta, OpenAI products [online], South China Morning Post, 27 grudnia 2024 [dostęp 2025-04-16] (ang.).
- ↑ Cade Metz , What to Know About DeepSeek and How It Is Upending A.I., „The New York Times”, 27 stycznia 2025, ISSN 0362-4331 [dostęp 2025-04-16] (ang.).
- ↑ Cliff Saran: Nvidia investigation signals widening of US and China chip war | Computer Weekly. Computer Weekly, 10 grudnia 2024.
- ↑ Natalie Sherman: Nvidia targeted by China in new chip war probe. BBC, 9 grudnia 2024.
- ↑ Chińczycy zadziwili świat. "Efekt sputnika" [online], Onet Wiadomości, 2 lutego 2025 [dostęp 2025-03-13] .
- ↑ The DeepSeek Series: A Technical Overview [online], martinfowler.com [dostęp 2025-04-22] .
- ↑ Hayden Field: China's DeepSeek AI dethrones ChatGPT on App Store: Here's what you should know. CNBC, 27 stycznia 2025.
- ↑ What is DeepSeek, and why is it causing Nvidia and other stocks to slump? - CBS News. www.cbsnews.com, 27 stycznia 2025.
- ↑ Thomas Barrabi: Nvidia stock suffers record wipeout on DeepSeek fears -- as CEO Jensen Huang's net worth tanks. 27 stycznia 2025.
- ↑ Luis E. Romero: ChatGPT, DeepSeek, Or Llama? Meta's LeCun Says Open-Source Is The Key. Forbes.
- ↑ a b Jakob Steinschaden: DeepSeek: This is what live censorship looks like in the Chinese AI chatbot. Trending Topics, 27 stycznia 2025. (ang.).
- ↑ Chinese AI DeepSeek jolts Silicon Valley, giving the AI race its 'Sputnik moment'. NBC News, 27 stycznia 2025. (ang.).
- ↑ China’s DeepSeek AI poses formidable cyber, data privacy threats [online], Biometric Update, 26 stycznia 2025 [dostęp 2025-01-28] (ang.).
- ↑ Matt Burgess , DeepSeek’s Popular AI App Is Explicitly Sending US Data to China, „Wired”, ISSN 1059-1028 [dostęp 2025-01-28] (ang.).
- ↑ Włochy blokują DeepSeek. Kontrowersyjna decyzja w sprawie chińskiej sztucznej inteligencji [online], Bankier.pl, 31 stycznia 2025 [dostęp 2025-04-16] .
- ↑ Australia bans DeepSeek AI program on government devices [online], France 24, 4 lutego 2025 [dostęp 2025-04-16] (ang.).
- ↑ Taiwan bans government agencies from using DeepSeek [online], France 24, 1 lutego 2025 [dostęp 2025-04-16] (ang.).
- ↑ New York state bans DeepSeek from government devices [online], NBC News, 10 lutego 2025 [dostęp 2025-04-16] (ang.).
- ↑ Korea Południowa zablokowała możliwość pobierania DeepSeek [online], Business Insider Polska, 17 lutego 2025 [dostęp 2025-04-16] .
- ↑ UODO zaleca ostrożność w korzystaniu z DeepSeek [online], www.uodo.gov.pl [dostęp 2025-04-19] .
- ↑ UODO zaleca ostrożność w korzystaniu z DeepSeek | Biznes PAP [online], biznes.pap.pl [dostęp 2025-04-19] .
Linki zewnętrzne
[edytuj | edytuj kod]- DeepSeek-R1 - komentarz techniczny - Puls AI, Remigiusz Kinas
- DeepSeek w serwisie GitHub
- DeepSeek w serwisie Hugging Face