คลังเก็บป้ายกำกับ: GPGPU

ชิปขาดแคลน 2.0, ซีอีโอ OpenAI ระบุ GPU ไม่พอใช้ ต้องเลื่อนเปิดฟีเจอร์ออกไป

Sam Altman ซีอีโอของ OpenAI พูดคุยกับ Raza Habib ซีอีโอบริษัท Humanloop ถึงแผนการเปิดตัวบริการหรือฟีเจอร์ของบริการใหม่ๆ โดยระบุว่าฟีเจอร์หลายตัวล่าช้าออกไปเพราะปัญหา GPU ไม่เพียงพอที่จะให้บริการ เช่นฟีเจอร์อ่านภาพได้โดยตรงใน GPT-4 (multimodal) ต้องเลื่อนออกไปถึงปี 2024

แผนการเพิ่มฟีเจอร์ GPT-4 ในปีนี้ ได้แก่

  • การเร่งความเร็ว GPT-4 และปรับราคาให้ถูกลง
  • ขยายขนาด context ให้ใหญ่ขึ้น โดย Altman ระบุว่าน่าจะทำได้ถึงขนาด 100,000-1,000,000 token แต่หากใหญ่กว่านั้นต้องมีงานวิจัยที่ล้ำหน้าไปอีกขั้น
  • เปิดให้ finetune โมเดล จากเดิมที่ GPT-3 เคยเปิดให้ลูกค้านำข้อมูลมา finetune ได้แต่ใน GPT-4 ยังไม่เปิด
  • รองรับความจำ จากตอนนี้ที่ไคลเอนต์ต้องส่งประวัติการแชตกลับไปยัง OpenAI ทุกรอบ หลังจากนี้จะเปิดให้ OpenAI เป็นคนจำว่าเคยคุยอะไรเอาไว้ก่อนหน้า

ปัญหาชิปไม่เพียงพอ ทำให้ตอนนี้ OpenAI ต้องจำกัดลูกค้าที่ใช้งาน GPT-4 แบบ 32k context ไว้ก่อน และลูกค้าที่ขอซื้อคลัสเตอร์ส่วนตัวก็ถูกจำกัดไปด้วยเช่นกัน

ที่มา – Humanloop

Topics: 

from:https://www.blognone.com/node/134116

NVIDIA เปิดตัว DGX GH200 เซิร์ฟเวอร์ AI เฉพาะทาง อัดแรมได้ 144TB

NVIDIA เปิดตัวเซิร์ฟเวอร์รุ่นใหม่ NVIDIA DGX GH200 ชูจุดเด่นที่รองรับแรมสูงถึง 144TB เป็นก้าวกระโดดจาก DGX H100 ที่เคยรองรับแรม 640GB ต่อเครื่อง

ภายในตัวเครื่อง ใช้ชิป NVIDIA Grace Hopper Superchip พร้อมแรมแบบ LPDDR5 480GB เซิร์ฟเวอร์แต่ละเครื่องมีซีพียู 8 ชุด และสามารถต่อข้ามเครื่องผ่าน NVLink Switches อีกถึง 256 ซีพียูในแต่ละคลัสเตอร์ ตัวชิปกราฟิกบนแต่ละโมดูลสามารถข้ามไปใช้แรมฝั่งซีพียูด้วยแบนวิดท์ 900GB/s

ทาง NVIDIA โชว์ความสามารถที่ DGX GH200 ทำได้ดีเหนือกว่า DGX H100 เป็นงานที่ใช้ข้อมูลขนาดใหญ่มากๆ เช่น การเทรน GPT-3 หรือปัญญาประดิษฐ์แบบอื่นที่ต้องการหน่วยความจำขนาดใหญ่มากๆ ซึ่งก็สามารถเทรนโมเดลเหล่านี้ได้เร็วขึ้นหลายเท่าตัว

ที่มา – NVIDIA

No Description

from:https://www.blognone.com/node/134053

NVIDIA เปิดตัวสถาปัตยกรรมชิปกราฟิก Hopper เพิ่มคำสั่งพิเศษรองรับ Dynamic Programming

NVIDIA เปิดตัวสถาปัตยกรรมชิปกราฟิกรุ่นต่อไป ในชื่อ NVIDIA Hopper โดยชิปตัวแรก NVIDIA H100 สำหรับลูกค้าระดับองค์กรเป็นหลัก โดยมีฟีเจอร์ภายในสถาปัตยกรรมหลายอย่าง เช่น

  • Transformer Engine: ระบบประมวลผลสำหรับเร่งความเร็วการประมวลผลปัญญาประดิษฐ์ โดยเลือกการคำนวณแบบ FP8 และ FP16 ได้โดยอัตโนมัติ และประมาณค่าให้เองเมื่อต้องแปลงความละเอียดของเลขทศนิยมไปมา ใช้เร่งความเร็วการฝึกโมเดลปัญญาประดิษฐ์ได้สูงสุด 9 เท่าตัว และความเร็วในการรันได้สูงสุด 30 เท่าตัว เทียบกับการ์ด NVIDIA A100 ในสถาปัตยกรรม Ampere
  • คำสั่ง DPX: คำสั่งพิเศษสำหรับโปรแกรมในกลุ่ม dynamic programming โดยเฉพาะ ใช้ในงานออปติไมซ์ เช่น การหาเส้นทางที่สั้นที่สุด, การเทียบตำแหน่ง DNA
  • Multi-Instance GPU (MIG): เทคโนโลยีแบ่งชิปกราฟิกให้เหมือนมีหลายชิปสำหรับผู้ใช้งานแต่ละคน ใน Hopper สามารถแบ่งแยกได้สูงสุด 7 ชุด โดยแยกข้อมูลขาดออกจากกัน
  • Confidential Computing: รองรับการเข้ารหัสข้อมูลจากซีพียูไปยังชิปกราฟิก ทำให้ผู้ดูแลระบบที่ดูแลตัวเซิร์ฟเวอร์ก็อ่านข้อมูลในชิปกราฟิกไม่ได้

ชิป NVIDIA H100 จะเริ่มวางขายไตรมาสที่ 3 ของปีนี้

ที่มา – NVIDIA

No Description

from:https://www.blognone.com/node/127733

AMD เปิดตัวการ์ดกราฟิก AMD Instinct MI200 สถาปัตยกรรม CDNA 2 อัดแรม 128GB

เอเอ็มดีเปิดตัวการ์ดกราฟิกตระกูลสำหรับเซิร์ฟเวอร์ AMD Instinct MI200 โดยชุดแรกมีสองรุ่นย่อยได้แก่ MI250 และ MI250X เป็นแบบโมดูล (MI210 แบบการ์ด PCIe จะเปิดตัวภายหลัง) มีจุดเด่นอยู่ที่การรองรับแรม HBM แบบ ECC ความจุถึง 128GB ใหญ่กว่ารุ่นปัจจุบันถึง 4 เท่าตัว

เอเอ็มดีระบุว่าการ์ดตระกูล MI200 มีความเปลี่ยนแปลงสำคัญ 3 อย่าง ได้แก่

  • สถาปัตยกรรม CDNA 2 ตัวแรก จุดปรับปรุงสำคัญคือคำสั่งแมทริกซ์แบบ FP64 และ FP32 ประสิทธิภาพสูงขึ้นสูงสุด 4 เท่าตัว
  • แพ็กเกจแบบ 2.5D Elevated Fanout Bridge (EFB) ใส่คอร์ได้ 1.8 เท่าตัว ส่งข้อมูลไปยังแรมได้แบนด์วิดท์เพิ่มขึ้น 2.7 เท่า เทียบกับการ์ดตระกูล MI100
  • เชื่อมต่อกับซีพียูผ่านทาง Infinity Fabric จำนวน 8 ชุด ทำให้มองหน่วยความจำในกราฟิกและซีพียูเป็นชุดเดียวกัน

MI250 และ MI250X เป็นโมดูลแบบ OAM ต่างกันที่จำนวนหน่วยประมวลผล MI250x มีหน่วยประมวลผล 220 ชุด คิดเป็น 14,080 หน่วยประมวลสตรีม ส่วน MI250 มี 208 หน่วยประมวลผล คิดเป็น 13,312 หน่วยประมวลสตรีม ทั้งสองรุ่นใส่แรม ECC 128GB เท่ากัน

การทั้งสองรุ่นขายผ่านผู้ลิตเครื่อง ตอนนี้ HPE กำลังสร้างซูเปอร์คอมพิวเตอร์ด้วยโมดูลเหล่านี้อยู่ และปีหน้าจะมีผู้ผลิตอื่นขายเครื่องด้วย ได้แก่ ASUS, ATOS, Dell, Gigabyte, HPE, Lenovo, Supermicro

ที่มา – AMD

No Description

Topics: 

from:https://www.blognone.com/node/125731

Tesla เปิดตัวชิปฝึกปัญญาประดิษฐ์ของตัวเอง สร้างคลัสเตอร์พลังประมวลผล 1.1 exaFLOPS

Tesla เปิดตัวชิปฝึกโมเดลปัญญาประดิษฐ์ของตัวเอง เป็นสถาปัตยกรรมเฉพาะชื่อว่า Dojo โดยชิปแต่ละตัวเป็นคอร์ขนาดเล็กพร้อมชุดคำสั่งประมวลผลข้อมูลแบบเวคเตอร์และเมทริกซ์ เชื่อมต่อกับคอร์อื่นๆ ด้วยช่องทางเชื่อมต่อแบนวิดท์สูง

ชิป D1 สถาปัตยกรรม Dojo แต่ละตัวมีซีพียูหรือที่ทาง Tesla เรียกว่า Training Node จำนวน 354 ชุด พลังประมวลผลรวม 362 เทราฟลอบ (ที่ bfloat16) เชื่อมต่อข้อมูลนอกชิปได้ 16 เทราไบต์ต่อวินาที (ด้านละ 4 เทราไบต์ต่อวินาที) ตัวชิปมีสเปคปล่อยความร้อน 400 วัตต์

หลังจากนั้น Tesla นำชิป 25 ตัวมาประกอบเป็นโมดูลชื่อว่า Training Tile มีส่วนประกอบสำหรับการจ่ายไฟและการระบายความร้อน สามารถระบายความร้อนได้ 15,000 วัตต์ พลังประมวลผล 9 เพตาฟลอบที่ bfloat16 เชื่อมต่อภายนอกโมดูลด้วยแบนด์วิดท์ 36 เทราไบต์ต่อวินาที

เซิร์ฟเวอร์แต่ละตัวเรียกว่า Training Matrix เป็นโมดูล Training Tile จำนวน 6 ตัว จากนั้นประกอบเป็นตู้โดยใช้ 6 Training Matrix และรวมเป็นคลัสเตอร์ขนาด 10 ตู้ เรียกว่า ExaPOD พลังประมวลผล 1.1 เอกซาฟลอบ (exaFLOPS) โดยรวมแล้วมีชิป D1 ทั้งหมด 3,000 ชิป รวมมากกว่า 1 ล้านคอร์

No Description

เพื่อให้ซอฟต์แวร์ปัญญาประดิษฐ์รองรับสถาปัตยกรรม Dojo ที่ต่างจากการฝึกปัญญาประดิษฐ์บนสถาปัตยกรรมอื่นๆ ทาง Tesla ต้องสร้างชุดซอฟต์แวร์ขึ้นมาใหม่ โดยต้องปรับโค้ด PyTorch เพียงเล็กน้อยเท่านั้น แต่อาศัยการสร้าง Dojo Compiler Engine ที่พัฒนาจาก LLVM มาวางแผนการจัดวางหน่วยประมวลผลและการใช้หน่วยความจำให้รีดประสิทธิภาพของชิป D1 ออกมาให้มากที่สุด

ตอนนี้ทาง Tesla ยังอยู่ระหว่างการสร้างเครื่อง ExaPOD เครื่องแรกเพื่อใช้งานภายใน โดยระบุว่าที่ราคาเท่านั้น ExaPOD ประสิทธิภาพดีกว่าคู่แข่ง 4 เท่าตัว ประสิทธิภาพต่อพลังงานดีกว่า 1.3 เท่าตัว และขณะเดียวกันก็วางแผนสำหรับเครื่องรุ่นที่สองที่คาดว่าจะมีประสิทธิภาพสูงกว่ารุ่นแรกถึง 10 เท่าตัว

ที่มา – Tesla AI Day

from:https://www.blognone.com/node/124334

OpenAI เปิดตัว Triton ภาษาโอเพนซอร์สคล้ายไพธอนสำหรับทำงานบนจีพียูโดยเฉพาะ

OpenAI เปิดตัว Triton 1.0 ภาษาโปรแกรมที่ออปติไมซ์โค้ดสำหรับทำงานบนชิปกราฟิกโดยอัตโนมัติ โดยได้การทดสอบคูณเมทริกซ์ประสิทธิภาพเทียบกับไลบรารีที่ออปติไมซ์มาเฉพาะอย่าง cuBLAS ของ NVIDIA เอง

ตัวภาษา Triton คล้ายกับไพธอนอย่างมาก แต่กระบวนการทำงานภายในออกแบบมาเพื่อการทำงานร่วมกับชิปกราฟิกโดยเฉพาะ เนื่องจากชิปกราฟิกนั้นต้องการการออปติไมซ์หลายอย่างเพื่อให้โค้ดทำงานได้เต็มประสิทธิภาพ ได้แก่ การย้ายข้อมูลทีละมากๆ เข้าออกจากแรมนอกชิป (DRAM เช่น GDDR ที่เราเห็นในสเปคของการ์ดกราฟิก) จากนั้นต้องวางข้อมูลลง SRAM ของแต่ละคอร์โดยแย่งข้อมูลใช้งานกันให้น้อย ใช้หน่วยความจำส่วนเดิมให้มากๆ และเรียงการประมวลผลตามพฤติกรรมของคอร์กราฟิก รวมถึงการใช้งานชุดคำสั่งพิเศษสำหรับการประมวลผลเฉพาะทาง

ที่ผ่านมาโปรแกรมเมอร์ CUDA ต้องฝึกฝนการออปติไมซ์เหล่านี้เองเพื่อให้โค้ดดึงประสิทธิภาพของชิปกราฟิกออกมาสูงสุด ขณะที่ไลบรารีบางตัว เช่น Torch พยายามออปติไมซ์อัตโนมัติแต่ในความเป็นจริงก็ได้ประสิทธิภาพต่ำมาก

Triton อาศัยการแปลงโค้ดไพธอนกลายเป็นภาษา Triton-IR แล้วคอมไพล์เป็น LLVM-IR อีกทีหนึ่ง จากนั้นใช้ LLVM คอมไพล์เป็น PTX สำหรับรันบนชิป NVIDIA โดยตอนนี้ยังไม่รองรับการใช้งาน Triton บนซีพียูหรือแม้แต่ชิปกราฟิกของ AMD

ที่มา – OpenAI

No Description

from:https://www.blognone.com/node/123951

MLPerf ออกผลทดสอบรุ่น 1.0: NVIDIA เร็วสุดที่ซื้อได้, Graphcore โชว์ประสิทธิภาพต่อราคา, Google โชว์ TPUv4

MLCommons หน่วยงานกลางสำรวจประสิทธิภาพคอมพิวเตอร์ด้าน machine learning และปัญญาประดิษฐ์ออกรายงานเวอร์ชั่น 1.0 โดยมีผู้เข้าร่วมน่าสนใจได้แก่ NVIDIA ที่ส่งเครื่อง DGX-A100 เข้าทดสอบ, อินเทลส่ง Xeon Platinum 8380, กูเกิลส่ง TPUv4 ที่ยังไม่เปิดให้บริการทั่วไป, และ Graphcore สตาร์ตอัพปัญญาประดิษฐ์ส่งเครื่อง IPU-POD เข้าจัดอันดับ

No Description

กูเกิลโชว์ประสิทธิภาพของ Google TPUv4 แสดงให้เห็นว่าเครื่องขนาดใหญ่ที่สุดประสิทธิภาพดีกว่า NVIDIA GCX-A100 ในหลายหมวด เช่น ResNet สำหรับจัดหมวดหมู่ภาพอาจจะดีกว่า A100 ถึง 1.74 เท่าตัว อย่างไรก็ดี TPUv4 ยังไม่ได้เปิดบริการบน Google Cloud แต่อย่างใด ตอนนี้คนทั่วไปสามารถใช้งานได้เฉพาะ TPUv2 และ TPUv3 รวมถึงเครื่องมี่ใช้ทดสอบมีขนาดถึง 1,728 ซีพียู และ TPU อีก 3,456 ตัว โดยประสิทธิภาพนี้ดีกว่า TPUv3 ในการทดสอบ MLPerf 0.7 เฉลี่ย 1.7 เท่า

No Description

NVIDIA โชว์ประสิทธิภาพว่าเป็นเครื่องประสิทธิภาพสูงสุดที่หาซื้อได้จริง และประสิทธิภาพดีกว่าคู่แข่งอื่นๆ ในกลุ่มเดียวกันอย่างทิ้งห่าง ในการรันฝึกโมเดลปัญญาประดิษฐ์ 8 รูปแบบ

No Description

น้องใหม่อย่าง Graphcore ที่เพิ่งตั้งบริษัทเมื่อปี 2016 ส่งผลทดสอบจากเครื่อง IPU-POD16 และ IPU-POD64 แต่พยายามแสดงประสิทธิภาพต่อราคา โดยเครื่อง DGX-A100 ขนาด 640GB น่าจะมีราคาประมาณ 300,000 ดอลลาร์ ใช้เวลาฝึก ResNet-50 28.77 นาที ขณะที่เครื่อง IPU-POD16 ราคา 149,995 ดอลลาร์ใช้เวลาฝึก 37.12 นาที คิดออกมาเป็นประสิทธิภาพต่อราคาที่ 1.6 เท่าตัว ขณะที่การฝึกโมเดลบางแบบเช่น BERT จะทำให้ประสิทธิภาพต่อราคาลดลงแต่ก็ยังนำอยู่

ที่มา – MLCommons, NVIDIA, Google Cloud, Graphcore

from:https://www.blognone.com/node/123572

AMD เปิดตัวการ์ด AMD Instinct MI100 เน้นงานปัญญาประดิษฐ์และวิทยาศาสตร์ พลังประมลผล 11.5TFLOPS FP64

AMD เปิดตัวการ์ดเร่งความเร็วงานด้านปัญญาประดิษฐ์และวิทยาศาสตร์ AMD Instinct MI100 ที่ใช้ชิปประมวลผลสถาปัตยกรรม CDNA (Compute DNA) พัฒนาแยกสายออกมาจากสถาปัตยกรรม RDNA ที่ใช้เพื่องานกราฟิกและเกมเป็นหลัก

หน่วยประมวลผล (compute unit – CU) ของสถาปัตยกรรม CDNA ถอดเอาวงจรเร่งความเร็วงานด้านกราฟิก เช่น งานแปลงสมการเป็นพิกเซล (rasterize), แคชสำหรับกราฟิก, ส่วนแสดงภาพ ออกทั้งหมด แม้จะคงเหลือวงจรเร่งความเร็วถอดรหัสวิดีโอ เช่น HEVC, H.264, VP9 เอาไว้เพื่องานประมวลผลวิดีโอ พื้นที่ที่ได้มาจากการถอดวงจรกราฟิกนำไปเพิ่มวงจรเร่งความเร็วสำหรับงานวิทยาศาสตร์และปัญญาประดิษฐ์เช่น Matrix Core Engine โดยรวมทำให้ MI100 เป็นการ์ดสำหรับเซิร์ฟเวอร์ตัวแรกที่พลังประมวลผลเลขทศนิยมแบบ double precision (FP64) สูงเกิน 10TFOPS อยู่ที่ 11.5TFOPS (โฆษณาของ AMD เทียบกับชิป NVIDIA A100 ที่วัดได้ 9.7TFLOPS)

หน่วยความจำของ MI100 ใช้แรมแบบ HBM2 ขนาด 32GB มีความสามารถแก้ไขความผิดพลาดแบบ ECC ส่งข้อมูลเข้าหน่วยประมวลผลได้ 1.23TB/s เพิ่มขึ้นกว่ารุ่นที่แล้ว 20% ตัวชิปรองรับการเชื่อมต่อ Infinity Fabric สามาารถเชื่อมต่อตรงหาชิปตัวอื่นๆ ได้อีก 3 ชิป ทำให้สามารถติดตั้งการ์ดเข้าด้วกันได้ 4 ใบ

ด้านซอฟต์แวร์เป็นจุดอ่อนของ AMD มาตลอด รอบนี้ทาง AMD เปิดตัวชุดซอฟต์แวร์ ROCm 4.0 ที่ระบุว่าครบทุกโมดูลสำหรับงานด้านการประมวลผลทางวิทยาศาสตร์และปัญญาประดิษฐ์แล้ว

AMD ไม่เปิดเผยว่าจะขายการ์ด MI100 ปลีกหรือไม่แต่ระบุว่าผู้ผลิตเซิร์ฟเวอร์อย่าง HPE, Dell, Supermicro, และ Gigabyte ซัพพอร์ตการ์ด MI100 และซีพียู EPYC กันแล้ว

ที่มา – AMD

No Description

No Description

from:https://www.blognone.com/node/119633

ออราเคิลเปิดตัวคลาวด์ GPU ใช้แพลตฟอร์ม NVIDIA HGX-2 เป็นเจ้าแรก, ให้บริการจริงต้นปีหน้า

ออราเคิลประกาศให้บริการคลาวด์สาธารณะ ที่ใช้เซิร์ฟเวอร์ที่สร้างจากแพลตฟอร์ม HGX-2 ของ NVIDIA นับเป็นคลาวด์สาธารณะรายแรกที่ใช้แพลตฟอร์มนี้

นอกจากการใช้เซิร์ฟเวอร์ HGX-2 แล้ว ออราเคิลยังประกาศรองรับไลบรารี RAPIDS ที่เพิ่งเปิดตัว ทำให้สามารถทำโค้ดที่พัฒนาด้วยชุดไลบรารี RAPIDS ไปรันบนคลาวด์ได้โดยสะดวก

เซิร์ฟเวอร์ในตระกูล HGX-2 จะเป็นเครื่องแบบ GPU4 โดยมีขนาดใหญ่สุดคือ BM.GPU4.8 ซีพียู 48 คอร์ แรม 768GB และชิปกราฟิก Tesla V100 แรม 32GB อีก 8 ชุด

ราคาต่อชั่วโมงยังไม่แจ้ง

ที่มา – Oracle

No Description

Topics: 

from:https://www.blognone.com/node/105778

NVIDIA เปิดตัวโครงการ RAPIDS ไลบรารีใช้ชิปกราฟิกเพื่องาน Data Science

งานวิทยาศาสตร์ข้อมูล (data science) มักนิยมภาษา R หรือไลบรารี Pandas ในไพธอนที่มองข้อมูลเป็น data frame ที่เป็นตาราง ตอนนี้ NVIDIA ก็หันมาจับตลาดนี้ด้วยการเปิดตัวโครงการ RAPIDS ที่เปิดให้นักวิทยาศาสตร์ข้อมูลสามารถใช้ชิปกราฟิกประมวลผลข้อมูลเหล่านี้ได้เร็วขึ้น

ตอนนี้ใน GitHub และเอกสารการใช้งานมีเฉพาะไลบรารี pygdf ไบรารีสำหรับโหลดข้อมูลแบบ data frame แต่เมื่อโครงการสมบูรณ์จะมีโครงการ cuML ที่เทียบเท่า scikit-learn และ cuGRAPH สำหรับงานประมวลผลกราฟ และไลบรารีสำหรับแสดงผลข้อมูลประสิทธิภาพสูงเพราะใช้ชิปราฟิกเรนเดอร์

โครงการยังไม่สมบูรณ์นัก แต่หาก NVIDIA บุกตลาดนี้โดยตรงก็นับว่าน่าจับตามอง

ที่มา – NVIDIA

No Description

from:https://www.blognone.com/node/105777