January 29, 2025
What are DeepSeek-V3 and DeepSeek-R1?
DeepSeek-V3 and DeepSeek-R1:
Why in News? The stock market experienced a significant dip, with the tech-heavy Nasdaq dropping 3%, its worst performance in two years. This drop was attributed to the rise of the Chinese AI startup, DeepSeek, which recently unveiled its AI models — DeepSeek-V3 and DeepSeek-R1. These models quickly gained global attention, surpassing ChatGPT as the most downloaded app on the App Store, challenging OpenAI’s frontier models.
What is DeepSeek?
- DeepSeek is a Chinese AI company based in Hangzhou, founded by Liang Wenfeng, also the CEO of the quantitative hedge fund High Flyer.
- The company started working on AI in 2019, and its controlling shareholder, Wenfeng, also owns patents related to chip clusters used for training AI models.
- What sets DeepSeek apart is its open-sourced AI models, which allow anyone to build upon them, with the DeepSeek-V3 trained on just $5 million, far less than the hundreds of millions invested by other companies.
Unique Features of DeepSeek AI Models:
- DeepSeek has been pitted against US AI giant OpenAI due to its optimal use of resources. DeepSeek-V3, the first model launched, surpassed GPT-4o and Claude 3.5 Sonnet in multiple benchmarks.
- It uses Mixture-of-Experts (MOE) architecture, where specialized models work together rather than a single large model. Trained on 14.8 trillion tokens, DeepSeek-V3 uses a new technique, Multi-Head Latent Attention (MLA), to enhance efficiency and reduce training and deployment costs.
- DeepSeek’s new model, DeepSeek-R1, boasts the ability to “think” during tasks, allowing users to see the model’s thought process.
- R1 matches or surpasses OpenAI’s frontier model in areas like math, coding, and general knowledge, while being 90-95% more affordable than OpenAI-o1. The open-source nature of R1 raises questions about the necessity of massive expenditures by other companies.
How DeepSeek Models are Cheaper than US Peers
- Training AI models is expensive, but DeepSeek significantly reduced costs by using NVIDIA H800 GPUs, a less advanced chip compared to the NVIDIA H100 used by US AI giants. Due to US restrictions on exporting advanced chips to China, DeepSeek utilized the NVIDIA H800, which had lower chip-to-chip bandwidth.
- The company optimized its code to overcome chip limitations and trained only necessary parts of its models using a technique called Auxiliary-Loss-Free Load Balancing, ensuring performance was not compromised despite limited resources.
What is Auxiliary-Loss-Free Load Balancing?
In systems like MoE, multiple “experts” (sub-models) are trained simultaneously. A common problem is that certain experts might be overused while others remain underutilized. Traditional methods introduce auxiliary loss functions to force the model to use all experts equally, but these losses can interfere with the main task.
ALFLB avoids auxiliary losses by relying on smart routing and optimization techniques to:
1. Distribute tasks evenly across all experts.
2. Ensure that each expert contributes meaningfully to the training process.
3. Minimize computational waste without relying on artificial loss terms that may distort the main learning objective. |
DeepSeek-V3 और DeepSeek-R1:
चर्चा में क्यों ? स्टॉक मार्केट में एक महत्वपूर्ण गिरावट आई, जिसमें टेक-हैवी नास्डैक 3% गिर गया, जो पिछले दो वर्षों में इसका सबसे खराब प्रदर्शन था। इस गिरावट का श्रेय चीनी ए.आई. स्टार्टअप, DeepSeek को जाता है, जिसने हाल ही में अपने ए.आई. मॉडल — DeepSeek-V3 और DeepSeek-R1 का अनावरण किया। इन मॉडलों ने वैश्विक ध्यान आकर्षित किया, और ChatGPT को पछाड़ते हुए ऐप स्टोर पर सबसे अधिक डाउनलोड किए जाने वाला ऐप बन गए, जिससे OpenAI के फ्रंटियर मॉडल्स को चुनौती मिली।
DeepSeek क्या है?
- DeepSeek एक चीनी ए.आई. कंपनी है, जो हांगझोउ में स्थित है और इसके संस्थापक लियांग वेनफेंग हैं, जो क्वांटिटेटिव हेज फंड हाई फ्लायर के सीईओ भी हैं।
- कंपनी ने 2019 में ए.आई. पर काम करना शुरू किया, और इसके नियंत्रक शेयरधारक वेनफेंग, जो AI मॉडल्स को प्रशिक्षित करने के लिए चिप क्लस्टर्स से संबंधित पेटेंट भी रखते हैं।
- DeepSeek को अलग बनाती है इसकी ओपन-सोर्स ए.आई. मॉडल्स, जो किसी को भी उन पर काम करने की अनुमति देती हैं। DeepSeek-V3 सिर्फ $5 मिलियन में प्रशिक्षित किया गया है, जो अन्य कंपनियों द्वारा निवेशित सौ करोड़ों डॉलर से कहीं कम है।
DeepSeek ए.आई. मॉडल्स की विशेषताएँ:
-
DeepSeek को इसके संसाधनों के प्रभावी उपयोग के कारण अमेरिकी ए.आई. दिग्गज OpenAI से प्रतिस्पर्धा का सामना करना पड़ा। DeepSeek-V3, जो कंपनी द्वारा लॉन्च किया गया पहला मॉडल है, कई बेंचमार्क्स में GPT-4o और Claude 3.5 Sonnet को पछाड़ चुका है।
- यह Mixture-of-Experts (MOE) आर्किटेक्चर का उपयोग करता है, जिसमें विशेष मॉडल मिलकर काम करते हैं, बजाय इसके कि एक बड़ा मॉडल सभी कार्यों को संभाले। 8 ट्रिलियन टोकन पर प्रशिक्षित DeepSeek-V3, Multi-Head Latent Attention (MLA) नामक नई तकनीक का उपयोग करता है, जो दक्षता बढ़ाने और प्रशिक्षण तथा तैनाती लागत को कम करने में मदद करता है।
- DeepSeek का नया मॉडल, DeepSeek-R1, कार्यों के दौरान “सोचने” की क्षमता रखता है, जो उपयोगकर्ताओं को मॉडल की सोच प्रक्रिया देखने की अनुमति देता है।
- R1, OpenAI के फ्रंटियर मॉडल को कई क्षेत्रों जैसे गणित, कोडिंग और सामान्य ज्ञान में बराबरी या उससे बेहतर प्रदर्शन करता है, जबकि यह OpenAI-o1 से 90-95% अधिक सस्ता है। R1 की ओपन-सोर्स प्रकृति इस उद्योग में अन्य कंपनियों द्वारा की जा रही विशाल खर्चों की आवश्यकता पर गंभीर सवाल उठाती है।
Deep Seek मॉडल्स अमेरिकी प्रतिस्पर्धियों से सस्ते कैसे हैं?
- ए.आई. मॉडल्स को प्रशिक्षित करना महंगा होता है, लेकिन DeepSeek ने लागत को महत्वपूर्ण रूप से कम किया है, क्योंकि इसने NVIDIA H800 जी.पी.यू. का उपयोग किया, जो कि NVIDIA H100 से एक कम उन्नत चिप है, जिसका उपयोग अमेरिकी ए.आई. दिग्गज करते हैं। अमेरिकी नियामकों द्वारा चीन को उन्नत चिप्स निर्यात करने से रोकने के बाद, DeepSeek ने NVIDIA H800 का उपयोग किया, जिसमें कम चिप-से-चिप बैंडविड्थ है।
- कंपनी ने अपने कोड को ऑप्टिमाइज़ किया ताकि चिप की सीमाओं के बावजूद प्रदर्शन पर कोई असर न पड़े और केवल आवश्यक हिस्सों को प्रशिक्षित करने के लिए Auxiliary-Loss-Free Load Balancing तकनीक का उपयोग किया, जिससे संसाधनों की कमी के बावजूद प्रदर्शन में कोई कमी नहीं आई।
Auxiliary-Loss-Free Load Balancing (ALFLB) क्या है?
· MoE (Mixture-of-Experts) जैसे सिस्टम में कई “एक्सपर्ट्स” (छोटे मॉडल) एक साथ प्रशिक्षित किए जाते हैं। इसमें एक सामान्य समस्या यह होती है कि कुछ एक्सपर्ट्स पर अधिक भार आ जाता है, जबकि अन्य का उपयोग कम होता है।
· पारंपरिक तरीकों में सहायक हानि (auxiliary loss) फंक्शन का उपयोग किया जाता है, जो मॉडल को सभी एक्सपर्ट्स का समान रूप से उपयोग करने के लिए मजबूर करता है। हालांकि, ये सहायक हानि मुख्य कार्य में बाधा डाल सकती है।
ALFLB इन सहायक हानियों से बचता है और स्मार्ट रूटिंग और ऑप्टिमाइज़ेशन तकनीकों पर निर्भर करता है ताकि:
1. सभी एक्सपर्ट्स के बीच कार्य समान रूप से वितरित हो।
2. प्रत्येक एक्सपर्ट प्रशिक्षण प्रक्रिया में अर्थपूर्ण योगदान दे।
3. बिना कृत्रिम हानि शर्तों के, जो मुख्य सीखने के उद्देश्य को विकृत कर सकती हैं, कम्प्यूटेशनल संसाधनों की बर्बादी को कम किया जा सके। |