معماری گرافیکی Xe3 اینتل رسماً معرفی شد بیش از ۵۰٪ سریع‌تر از Xe2

معماری گرافیکی Xe3 اینتل رسماً معرفی شد بیش از ۵۰٪ سریع‌تر از Xe2

گرافیک Intel Xe3 رسماً معرفی شد بیش از ۵۰٪ سریع‌تر از Xe2، واحدهای RT بهبود یافته، ۱۲ هسته Xe برای گرافیک مجتمع سری B «Arc» و به گرافیک های مجتمع (iGPU) پردازنده‌های Panther Lake اضافه خواهد شد و پس از آن، در آینده شاهد عرضه‌ی نسخه‌ی Xe3P خواهیم بود.

سال گذشته، اینتل معماری Xe2 خود را معرفی کرد که در دو محصول کلاینت، پردازنده‌های Lunar Lake “Core Ultra 200” به عنوان یک iGPU و کارت‌های گرافیک مجزای Arc B-Series “Battlemage” ادغام شد. Xe2 به لطف آموخته‌هایی که اینتل از معماری Xe1 و خانواده سری A Arc Alchemist داشت، به یک عرضه بسیار موفق‌تر در هر دو پلتفرم تبدیل شد.

این شرکت همچنین در بخش نرم‌افزار پیشرفت‌های زیادی داشته و پشتیبانی درایور بسیار خوبی را برای معماری گرافیکی خود ارائه می‌دهد که نه تنها برای گیم محدود نمیشود بلکه برای تولید محتوا، رندرینگ و حجم کاری هوش مصنوعی نیز عالی است. سری Arc Pro که اخیراً عرضه شده است، نیز در همان شاخه درایور مانند پردازنده‌های گرافیکی Battlemage پشتیبانی می‌شود.

بنابراین، آنچه می‌توانیم از چند ماه گذشته به آن نگاه کنیم این است که اینتل به‌روزرسانی‌های خوبی را در بخش گرافیک ارائه داده است. معماری بهتر شده و نرم‌افزار در بهینه‌سازی و استفاده از آن عملکرد بهتری دارد. اما عرضه جدیدی با سری “Core Ultra 300” از خانواده Panther Lake در راه است و بنابراین نسل کاملاً جدیدی از معماری Xe با نام رمز Xe3 از راه رسیده است.

اینتل  Xe3 را ، با افزایش مقیاس گرافیک‌ها به پیکربندی‌های بزرگ‌تر و ارائه طراحی بهینه‌تر برای توان عملیاتی، بر پایه معماری Xe2 خود بنا نهاده است. صحبت‌های زیادی در این مورد وجود دارد و تا اینجای کار، به این نکته نیز اشاره خواهیم کرد که گرافیک های مجتمع Xe3 با نام تجاری Arc B-Series عرضه خواهند شد.

در حالی که دیگر خانواده‌ی سری B آرک، یعنی گرافیک های Battlemage، مبتنی بر معماری Xe2 و گرافیک های Panther Lake مبتنی بر معماری Xe3 هستند، اینتل می‌گوید این تصمیم به این دلیل گرفته شده است که Xe2 و Xe3 از برخی جنبه‌ها مشابه هستند، بنابراین تصمیم گرفته‌اند یک لایه ی محصول واحد و یکپارچه در میان گرافیک های مجتمع و مجزا داشته باشند.

با این اوصاف، اینتل در حال حاضر یک خانواده جدید از پردازنده‌های Arc را در برنامه‌های خود دارد و از معماری گرافیکی به‌روز شده Xe3 به نام Xe3P استفاده خواهد کرد که گفته می‌شود گام مهم دیگری به جلو خواهد بود. جزئیات بیشتری اعلام نشده است، اما به نظر می‌رسد اینتل مستقیماً به Xe4 نمی‌رود. در عوض، آنها Xe3 را برای محصولات آینده، چه یکپارچه و چه مجزا، بیشتر بهینه خواهند کرد. بر اساس این گزارش، به نظر می‌رسد Xe3P می‌تواند در یک راهکار dGPU پیاده‌سازی شود، اما می‌تواند یک پیکربندی iGPU سطح بالاتر برای پردازنده‌های Nova Lake نیز باشد، بنابراین باید منتظر آن باشیم.

همچنین، گرافیک Xe3P مانند گرافیک های Battlemage یا Panther Lake در سری B آرک قرار نخواهد گرفت، بلکه در خانواده بعدی آرک، یعنی سری C آرک، به نمایش گذاشته خواهد شد و با این اوصاف، بیایید به جزئیات Xe3 بپردازیم.

اولین کاری که اینتل با معماری جدید انجام داد، افزایش مقیاس برش‌های رندر بود. Xe2 با ۴ هسته Xe و ۴ واحد ray tracing در هر برش رندر پیکربندی شده بود.

Xe3 در هر برش رندر، تا ۶ هسته Xe و ۶ واحد ray tracing را در خود جای می‌دهد. این یعنی ۵۰ درصد افزایش در تعداد هسته‌ها و واحدهای Ray tracing(رهگیری پرتو) برای هر برش رندر.

این به اینتل اجازه می‌دهد تا از پیکربندی‌های متنوعی از واحدهای GPU در SoCهای Panther Lake خود استفاده کند، که ما در اینجا به تفصیل به آن پرداخته‌ایم. یک پیکربندی 4 Xe برای دای‌های 8C و 16C وجود دارد، و سپس پیکربندی 12 Xe برای دای 16C برتر وجود دارد. مقایسه جالبی خواهد بود زیرا Arrow Lake و Lunar Lake، هر دو حداکثر 8 هسته Xe را بر اساس معماری‌های Xe1 و Xe2 مربوطه بسته‌بندی می‌کنند. Panther Lake از 4 هسته Xe در SKUهای 8C و 16C استفاده می‌کند، بنابراین این نصف مقدار خط تولید فعلی است، اما بهبودهای معماری گرافیکی باید رقابت‌پذیری را حفظ کند.

حال، بیایید در مورد دو پیکربندی صحبت کنیم، که اولین آنها تراشه‌ی 4 هسته‌ای Xe است. این تراشه در دو نوع عرضه می‌شود: 8C با فناوری پردازش “Intel 3” ساخته شده است، در حالی که 16C با فناوری پردازش “TSMC N3E” ساخته شده است.

همچنین گرافیک مجتمع ۱۲ هسته‌ای Xe با فناوری فرآیند TSMC N3E ساخته شده است.

پیکربندی 4Xe iGPU با 4 مگابایت حافظه کش L2، نصف مقداری است که در Xe2 iGPU لونار لیک با 8 مگابایت حافظه وجود دارد. اما پیکربندی 12Xe iGPU رده بالا دو برابر حافظه کش دارد. دو برابر شدن حافظه به کاهش ترافیک در ساختار SoC کمک می‌کند و امکان کاهش ترافیک در بازی‌ها تا 36٪ یا به طور متوسط ​​-25٪ را فراهم می‌کند.

حال، بیایید در مورد تغییرات معماری اعمال شده در معماری Xe3 صحبت کنیم.

هسته نسل سوم Xe دارای هشت انجین ۵۱۲ بیتی (XVE)، هشت انجین  2048 بیتی XMX و +۳۳٪ حافظه کش مشترک L1/SLM است.

انجین Xe اکنون با حداکثر ۲۵٪ رشته بیشتر، تخصیص رجیستر متغیر و پشتیبانی از غیرکوانتیزاسیون FP8، افزایش بهره‌وری را در معماری Xe3 ارائه می‌دهد. این موتور از ALUهای بومی SIMD16، بلوک‌های 3-Way Co-Issue، و FP64 توسعه‌یافته و افزونه‌های ماتریس Xe تشکیل شده است.

انجین های Xe3 XMX مسئول شتاب‌دهی هوش مصنوعی هستند. با حداکثر ۹۶ انجین XMX، گرافیک های مجتمع ۱۲Xe قادر به ارائه حداکثر ۱۲۰ ترافلاپس هستند. با این محاسبه، گرافیک های ۴Xe می‌توانند حداکثر ۴۰ ترافلاپس ارائه دهند و ۸Xe مبتنی بر معماری Xe2 تا ۶۷ ترافلاپس ارائه می‌دهند. با استفاده از همین محاسبات، یک گرافیک مجتمع Xe3 با هسته‌های 8Xe قادر به ارائه ۶۷ TOP محاسبات هوش مصنوعی خواهد بود که ۲۵٪ بهبود را نشان می‌دهد.

در ادامه، میزان عملیات/کلاک به ازای هر هسته Xe آمده است:

  • XMX TF32: 1024 عملیات/کلیک
  • XMX FP16: 2048 عملیات/کلیک
  • XMX BF16: 2048 عملیات/کلیک
  • XMX INT8: 4096 عملیات/کلیک
  • XMX INT4: 8192 عملیات/کلیک
  • XMX INT2: 8192 عملیات/کلیک

اینتل همچنین از یک واحد ردیابی پرتوی Ray Tracing بهبود یافته جدید استفاده می‌کند که دارای مدیریت پرتوی پویا برای ردیابی پرتوی ناهمزمان است. واحد RT شامل چندین خط لاین، دو واحد تقاطع مثلثی و یک حافظه کش BVH است. این پیشرفت‌ها از نحوه حرکت پرتوها در خط لاین ناشی می‌شود. این امر با کاهش سرعت ارسال پرتوهای جدید برای جلوگیری از پشتیبان‌گیری در خط لاین هنگام حرکت آنها از طریق واحد مرتب‌سازی رشته حاصل می‌شود.

پیشرفت بزرگ دیگر، مدیریت جدید URB است که به جای تکمیل کل سیستم، امکان به‌روزرسانی‌های جزئی را فراهم می‌کند. URB ساختاری است که نتایج در داخل GPU منتقل می‌شوند. معماری جدید همچنین دارای فیلتر ناهمسانگرد تا ۲ برابر و نرخ تست استنسیل تا ۲ برابر است.

و در نهایت، در بخش رسانه، اینتل دارای رمزگذاری/رمزگشایی AV1، رمزگشایی VVC و پشتیبانی از فناوری eDP 1.5 است. همه این‌ها در کنار هم چیزی است که Xe3 را برای Panther Lake فعال می‌کند. برخی از موارد جدید شامل پشتیبانی از 10 بیتی AVC و پشتیبانی از Sony XAVC-H، XAVC-HS و XAVC-S است.

اینتل همچنین چند معیار عملکرد اولیه برای Xe3، اساساً میکروبنچمارک‌ها، را به اشتراک گذاشته است که می‌تواند بخش‌های مختلف ریزمعماری و میزان پیشرفت مشاهده‌شده در مقایسه با سال قبل را ارزیابی کند.

اول از همه، معیارهای عملکرد ترکیبی و backend هستند که تغییر کمی یا هیچ تغییری را نشان نمی‌دهند، زیرا منابع اختصاص داده شده به آنها در Xe3 بدون تغییر باقی مانده است. معیارهای FP16 در GEMM شاهد بهبود 50 درصدی هستند که متناسب با مقیاس GPU است. Xe3 تا 50 درصد بزرگتر از Xe2 است، بنابراین این بهبود از آنجا ناشی می‌شود که این معیارهای خرد می‌توانند به طور کامل از قابلیت‌های معماری استفاده کنند. مورد بعدی، پیشرفت‌های ریزمعماری ، خواندن‌های پراکنده و تقاطع R/T است که از 2x تا 2.7x بهبود می‌یابند.

اینتل همچنین پیشرفت‌های بزرگی را در Xe3 نشان می‌دهد، مانند تست عمق و برنامه‌های Register Heavy که می‌توانند بیش از 7 برابر نسبت به نسل قبلی ارتقا یابند.

حالا به سراغ معیارهای عملکرد واقعی برای Xe3 روی Panther Lake در مقایسه با Xe2 روی Lunar Lake و Xe+ روی Arrow Lake-H می‌رسیم. Xe3 در اوج مصرف، بیش از ۵۰ درصد عملکرد در مقایسه با Lunar Lake و بیش از ۴۰ درصد عملکرد در هر وات بالاتر در مقایسه با Arrow Lake-H ارائه می‌دهد.

در ادامه مقایسه‌ای از یک فریم رندر شده روی Xe3 و Xe2 را مشاهده می‌کنید:

سپس بهینه‌سازی‌های نرم‌افزاری وجود دارد که توسط اینتل به لایه نرم‌افزار گرافیکی ویندوز اضافه می‌شود. اولین مورد شامل به‌روزرسانی‌های کامپایلر است که از طریق IGC ارائه می‌شوند و اینتل اکنون تخصیص ثبت‌شده متغیر را بهبود بخشیده است که یک به‌روزرسانی کلیدی است.

سپس زمان‌بندی سریع‌تر با پیش‌دستی مستقیم وجود دارد، به این معنی که اینتل می‌تواند بدون نیاز به خالی کردن حافظه، بین زمینه‌ها جابجا شود و همچنین از DirectX Cooperative Vectors پشتیبانی می‌کند. اینتل همچنین یک نسخه آزمایشی را به عنوان بخشی از “میدان تابش عصبی” خود که از Cooperative Vectors استفاده می‌کند، به نمایش گذاشت.

به نظر می‌رسدگرافیک های Intel Xe3 نسبت به معماری Xe2 موجود، یک ارتقاء قابل توجه باشد. معماری Xe2 در حال حاضر با سریع‌ترین  گرافیک های مجتمع RDNA 3.5، مانند Radeon 890M و 880M، برای لپ‌تاپ‌های رده متوسط، برابری می‌کند. اگرچه لزوماً با پیاده‌سازی‌های بزرگ‌تر RDNA 3.5 به همان سطح عملکرد Strix Halo رده بالا نمی‌رسد، اما به نظر می‌رسد که همکاری اخیر Intel و NVIDIA با SoC سفارشی، این بخش را پوشش خواهد داد.

فروشگاه BAPC
ارسال دیدگاه