Bahay > Balita > Development ng Deepseek AI: Debunking ang mito ng kakayahang magamit sa $ 1.6 bilyon

Development ng Deepseek AI: Debunking ang mito ng kakayahang magamit sa $ 1.6 bilyon

By HenryApr 18,2025

Gayunpaman, mas mura pa ito kaysa sa mga katunggali nito.

Ang bagong chatbot mula sa Deepseek ay nagpakilala sa akin sa nakakaakit na paglalarawan:

Kumusta, nilikha ako upang maaari kang magtanong ng anuman at makakuha ng isang sagot na maaaring sorpresa ka.

Ngayon, ang artipisyal na katalinuhan ng Deepseek ay lumitaw bilang isang kakila -kilabot na katunggali sa merkado, lalo na na nag -aambag sa isa sa mga pinakamalaking pagbagsak ng presyo ng stock ng Nvidia.

Pagsubok sa Deepseek Larawan: ensigame.com

Ang nagtatakda ng modelong ito ay ang makabagong mga pamamaraan ng arkitektura at pagsasanay. Isinasama nito ang ilang mga advanced na teknolohiya:

Multi-Token Prediction (MTP): Hindi tulad ng mga tradisyonal na modelo na hinuhulaan ang isang salita nang sabay-sabay, ang modelo ng Deepseek ay nagtataya ng maraming mga salita nang sabay-sabay sa pamamagitan ng pagsusuri ng iba't ibang mga bahagi ng isang pangungusap. Ang pamamaraang ito ay makabuluhang nagpapabuti sa parehong kawastuhan at kahusayan ng modelo.

Paghahalo ng mga eksperto (MOE): Ang arkitektura na ito ay gumagamit ng iba't ibang mga neural network upang maproseso ang data ng pag -input. Sa pamamagitan ng paggamit ng MOE, ang teknolohiya ay nagpapabilis sa pagsasanay sa AI at nagpapabuti sa pagganap. Sa Deepseek V3, isang kahanga -hangang 256 neural network ang ginagamit, na may walong naaktibo para sa bawat gawain sa pagproseso ng token.

Multi-head latent pansin (MLA): Ang mekanismong ito ay tumutulong sa modelo na nakatuon sa pinakamahalagang bahagi ng isang pangungusap. Ang mga MLA ay kumukuha ng mga pangunahing detalye mula sa mga fragment ng teksto nang paulit -ulit, binabawasan ang posibilidad ng nawawalang mahalagang impormasyon. Pinahuhusay nito ang kakayahan ng AI na makuha ang mga mahahalagang nuances sa data ng pag -input.

Ang kilalang Startup ng Tsino na Deepseek ay nagsabing lumikha ng isang mapagkumpitensyang modelo ng AI na may kaunting gastos, na nagsasabi na ginugol lamang nila ang $ 6 milyon sa pagsasanay sa malakas na neural network na Deepseek V3 at ginamit lamang ang 2048 na mga graphic processors.

Deepseek v3 Larawan: ensigame.com

Gayunpaman, natuklasan ng mga analyst mula sa semianalysis na ang Deepseek ay nagpapatakbo ng isang malaking imprastraktura ng computational na binubuo ng humigit -kumulang 50,000 NVIDIA HOPPER GPU. Kasama dito ang 10,000 H800 unit, 10,000 mas advanced H100s, at karagdagang mga batch ng H20 GPU. Ang mga mapagkukunang ito ay ipinamamahagi sa maraming mga sentro ng data at ginagamit para sa pagsasanay sa AI, pananaliksik, at pagmomolde sa pananalapi.

Ang kabuuang pamumuhunan ng kumpanya sa mga server ay nagkakahalaga ng halos $ 1.6 bilyon, na may mga gastos sa pagpapatakbo na tinatayang $ 944 milyon.

Ang Deepseek ay isang subsidiary ng Chinese Hedge Fund High-flyer, na nag-iwas sa pagsisimula bilang isang hiwalay na dibisyon na nakatuon sa mga teknolohiya ng AI noong 2023. Hindi tulad ng karamihan sa mga startup na nagrenta ng kapangyarihan ng computing mula sa mga tagapagbigay ng ulap, ang Deepseek ay nagmamay-ari ng sariling mga sentro ng data, na binibigyan ito ng ganap na kontrol sa pag-optimize ng modelo ng AI at pagpapagana ng mas malaking pagpapatupad ng mga makabagong ideya. Ang kumpanya ay nananatiling pondo sa sarili, na positibong nakakaapekto sa kakayahang umangkop at bilis ng paggawa ng desisyon.

Deepseek Larawan: ensigame.com

Bukod dito, ang ilang mga mananaliksik sa Deepseek ay kumita ng higit sa $ 1.3 milyon taun -taon, na umaakit sa nangungunang talento mula sa nangungunang unibersidad ng Tsino (ang kumpanya ay hindi umarkila ng mga dayuhang espesyalista).

Kahit na isinasaalang -alang ito, ang kamakailang pag -angkin ng Deepseek sa pagsasanay sa pinakabagong modelo nito para sa $ 6 milyon lamang ay tila hindi makatotohanang. Ang figure na ito ay tumutukoy lamang sa gastos ng paggamit ng GPU sa panahon ng pre-pagsasanay at hindi account para sa mga gastos sa pananaliksik, pagpipino ng modelo, pagproseso ng data, o pangkalahatang mga gastos sa imprastraktura.

Mula nang ito ay umpisahan, ang Deepeek ay namuhunan ng higit sa $ 500 milyon sa pag -unlad ng AI. Gayunpaman, hindi tulad ng mga mas malalaking kumpanya na pasanin ng burukrasya, ang compact na istraktura ng Deepseek ay nagbibigay -daan sa aktibo at epektibong ipatupad ang mga makabagong AI.

Deepseek Larawan: ensigame.com

Ang halimbawa ng Deepseek ay nagpapakita na ang isang mahusay na pinondohan na independiyenteng kumpanya ng AI ay maaaring makipagkumpetensya sa mga pinuno ng industriya. Gayunpaman, binibigyang diin ng mga eksperto na ang tagumpay ng kumpanya ay higit sa lahat dahil sa bilyun -bilyong pamumuhunan, mga teknikal na tagumpay, at isang malakas na koponan, habang ang pag -angkin tungkol sa isang "rebolusyonaryong badyet" para sa pagbuo ng mga modelo ng AI ay medyo pinalaki.

Gayunpaman, ang mga gastos sa mga kakumpitensya ay mananatiling mas mataas. Halimbawa, ihambing ang gastos ng pagsasanay sa modelo: Ang Deepseek ay gumugol ng $ 5 milyon sa R1, habang ang Chatgpt4O ay nagkakahalaga ng $ 100 milyon.

Nakaraang artikulo:Cookie Run: Inilabas ng Kingdom ang sneak silip sa bagong custom na mode ng paggawa ng character na MyCookie Susunod na artikulo:Pinakamahusay na mga presyo ng pagbili ng mga slashes sa piling mga laro ng first-party na PS5