www.netties.be

Vandaag

Nieuws | Hoe kan het dat DeepSeek zo veel efficiënter werkt, aan lagere prijs?

Gepubliceerd op: 2025-01-29

Voor wie echt wil weten hoe DeepSeek werkt, en waarom het zo revolutionair is, raden wij de podcast DTNS aan. Daar kregen wij deze uitleg over de revolutionaire werking van DeepSeek, die wij hier in vertaling weergeven.

De DeepSeek-modellen gebruiken wat men Chain-of-Thought noemt, vergelijkbaar met het o1-model van OpenAI. Dit helpt om onnauwkeurigheden en hallucinaties te verminderen. Grote Taalmodellen proberen eigenlijk een zeer goede gok te maken over wat het volgende stukje data zou moeten zijn. Chain-of-Thought laat het model teruggaan en opnieuw proberen. Om het te vereenvoudigen, controleert het zijn werk en gebruikt het resultaat dat het vaakst voorkomt en goed bij de feiten past. Het is een beetje versterkt leren dat dan in Grote Taalmodellen geïntegreerd werd. Dat zorgt er wel voor dat het langer duurt om een antwoord te geven, maar dat het antwoord wel nauwkeuriger zal zijn. Het maakt het geven van een antwoord ook duurder. Hoe meer pogingen je een COT-model geeft, hoe beter het resultaat. Maar ook, hoe duurder dat antwoord wordt. Men zegt dat in sommige gevallen een antwoord van o1 $3.000 aan rekenkracht kostte. Dat is natuurlijk een uitzondering, maar het toont aan waar we mee te maken hebben.

Doordat er geen geavanceerde chips geleverd mochten worden aan China, was DeepSeek wel gedwongen om te werken met minder en goedkopere hardware bij het optimaliseren van de antwoorden. Daarover een goede uitleg bij Jeffrey Emmanuel(2), maar in het kort komt het erop neer dat DeepSeek 8-bit drijvende-komma-getallen gebruikt in plaats van 32-bit om geheugen te besparen in ruil voor precisie. Het COT-model houdt het nauwkeurig. Dit betekent dat het veel minder GPU's nodig heeft voor training.

Er zijn verschillende andere indrukwekkende trucs, maar een van de meest opvallende is Multi-head Latent Attention. Het MLA-systeem van DeepSeek comprimeert hoe individuele tokens van informatie worden weergegeven zodat alleen de meest belangrijke worden vastgelegd, opnieuw met minder geheugengebruik. Het is verspillend om volledige indices op te slaan, dus dat doet DeepSeek niet. Ze slagen erin om een goede load balancing toe te passen in hoe de GPU communiceert en balanceren ook de transformers die de antwoorden op vragen creëren. Om het te vereenvoudigen, maken ze meerdere kleinere modellen die goed zijn in specifieke soorten vragen en routeren de vragen naar die modellen indien nodig. Die modellen kunnen kleiner en efficiënter zijn om te draaien. Hoewel het totale aantal parameters over alle modellen hoog is, hoef je niet alle modellen tegelijk te draaien. Dit betekent dat het kan draaien op twee Nvidia 4090 GPU's in plaats van een reeks dure H100 GPU's: $2.000 vs. $40.000.

Er is veel meer, maar het resultaat is dat DeepSeek 95% minder geld kan vragen voor inferentieverzoeken op zijn API dan OpenAI en Anthropic. Dit is indrukwekkend, tenzij uiteraard....DeepSeek liegt en een groot aantal H100's gebruikt, maar dat natuurlijk niet aan de grote klok gaat hangen, want de export van die H100's naar China was verboden...

(1) https://dailytechnewsshow.com/2025/01/27/deepseek-makes-deep-impr...
(2) https://youtubetranscriptoptimizer.com/blog/05_the_short_case_for...

Deel op

Deel per

Terug naar het overzicht

Nieuws

Hardware

Oor

Site

Tip

Software

Bekijk hier de oudere artikels

Ons archief is wellicht het meest uitgebreide overzicht...

Design en programmatie by PDL