بررسی زیربنای دیپ سیک

دیپ سیک از زمان تاسیس در سال ۲۰۲۳، مدلهای هوش مصنوعی زیادی را توسعه داده است. اولین گام جدی دیپ سیک در نوامبر ۲۰۲۳ با معرفی DeepSeek Coder برداشته شد؛ مدلی که به طور خاص برای وظایف مرتبط با برنامهنویسی طراحی شده بود. در ماه دسامبر همان سال، این شرکت اولین نسخه از مدل زبانی عمومی خود را عرضه کرد. اما نقطه عطف واقعی دیپ سیک در می ۲۰۲۴ با انتشار DeepSeek-V2 رقم خورد که بر عملکرد سطح بالا و هزینههای آموزشی پایینتر تمرکز داشت.
در جولای ۲۰۲۴، دیپ سیک گام بزرگ دیگری برداشت و DeepSeek-Coder-V2 را معرفی کرد. این مدل با ۲۳۶ میلیارد پارامتر و زمینه ۱۲۸,۰۰۰ توکنی برای چالشهای پیچیده کدنویسی طراحی شده بود. پیشرفت این شرکت با معرفی DeepSeek-V3 در دسامبر ۲۰۲۴ ادامه یافت، مدلی که از معماری mixture-of-experts استفاده میکرد و با ۶۷۱ میلیارد پارامتر و طول زمینه ۱۲۸,۰۰۰ توکنی، قادر به انجام طیف وسیعی از وظایف بود.
اما مهمترین دستاورد این شرکت در ژانویه ۲۰۲۵ با معرفی DeepSeek-R1 حاصل شد. این مدل که بر پایه DeepSeek-V3 توسعه یافته، بر وظایف استدلالمحور پیشرفته تمرکز دارد و مستقیماً با مدل o1 شرکت OpenAI رقابت میکند. اما نکته اینجاست که این مدل ساختار هزینه به مراتب پایینتری را حفظ کرده است. در همان ماه، شرکت دیپ سیک مدل بصری Janus-Pro-7B را نیز معرفی کرد که میتواند تصاویر را درک و آنها را تولید کند.
نوآوریهای دیپ سیک در چهار حوزه کلیدی قابل بررسی است:
- یادگیری قابل تقویت: دیپ سیک از رویکرد یادگیری قابل تقویت در مقیاس بزرگ با تمرکز بر وظایف استدلالی استفاده کرده است.
- مهندسی پاداشدهی: محققان این شرکت یک سیستم پاداش مبتنی بر قوانین توسعه دادهاند که عملکرد بهتری نسبت به مدلهای پاداشدهی متداول دارد. مهندسی پاداش فرآیند طراحی یک سیستم انگیزشی است که یادگیری مدل هوش مصنوعی را در طول آموزش هدایت میکند.
- فشردهسازی: محققان دیپ سیک به واسطه تکنیکهای موثر انتقال دانش، موفق شدهاند قابلیتهای آن را در مدلهایی با تنها ۱.۵ میلیارد پارامتر فشرده کنند.
- شبکه رفتار: منظور از شبکه رفتار دیپ سیک این است که الگوهای پیچیده استدلالی میتوانند از طریق یادگیری تقویتشونده و بدون نیاز به برنامهنویسی صریح توسعه یابند.
DeepSeek-R1 از نظر هزینه، بین ۲۰ تا ۵۰ برابر ارزانتر از مدل o1 شرکت OpenAI است. هزینه استفاده از API دیپ سیک برای هر یک میلیون توکن DeepSeek-R1 در ورودی ۰.۵۵ دلار و در خروجی ۲.۱۹ دلار است. جالب است بدانید که این ارقام برای مدل o1 به ترتیب به ۱۵ و ۶۰ دلار میرسد.
با این حال، آلکساندر وانگ، مدیرعامل Scale AI، بدون ارائه شواهدی، ادعا کرده که دیپ سیک از ۵۰,۰۰۰ تراشه Nvidia H100 استفاده میکند که این امر میتواند ناقض مستقیم کنترلهای صادراتی واشنگتن به حساب آید. همچنین تحلیلگران Bernstein در یادداشت تحقیقاتی خود تأکید کردهاند:
کل هزینه آموزش مدل V3 مشخص نیست اما بسیار بیشتر از ۵.۵۸ میلیون دلاری است که شرکت برای قدرت محاسباتی اعلام میکند.