คลังเก็บป้ายกำกับ: Cloud_Computing

NVIDIA เปิดตัว DGX Cloud เช่าเซิร์ฟเวอร์ฝึก AI เริ่มต้นเดือนละ 1.2 ล้านบาท

NVIDIA เปิดตัว NVIDIA DGX Cloud บริการเช่าเซิร์ฟเวอร์เหมาเครื่อง สำหรับองค์กรที่ต้องการฝึกปัญญาประดิษฐ์ โดยโครสร้างหลักอยู่บน Oracle Cloud ที่มีเซิร์ฟเวอร์จำนวนมาก พร้อมให้บริการชิปกราฟิกถึง 32,000 ชุด

ความแตกต่างของ DGX Cloud คือเป็นการเช่าเครื่องทั้งเครื่องเป็นรายเดือน ซึ่งก็นับว่าราคาถูกกว่าซื้อเองทั้งเครื่องอยู่มาก แต่ละเครื่องมีการ์ด NVIDIA A100 อยู่ 8 ใบ รวมแรม 640GB และหากเช่าหลายเครื่องพร้อมกันก็จะเชื่อมต่อกันด้วยระบบเน็ตเวิร์คของ NVIDIA เอง

ทาง NVIDIA โชว์ว่ามีผู้ใช้ DGX Cloud แล้วเช่น Amgen ใช้โมเดล BioNeMo ของ NVIDIA เพื่อวิจัยยา ขณะที่ ServiceNow ใช้เพื่อวิจัยเรื่องการสร้างโมเดลภาษาขนาดใหญ่, ปัญญาประดิษฐ์ช่วยเขียนโค้ด, และการวิเคราะห์อื่นๆ

ราคาต่อเครื่องต่อเดือนอยู่ที่ 36,999 ดอลลาร์ หรือ 1.27 ล้านบาท และการใช้งานต้องติดต่อตัวแทน NVIDIA

ที่มา – NVIDIA

No Description

from:https://www.blognone.com/node/133110

Advertisement

ไมโครซอฟท์เล่าเบื้องหลังเครื่องที่ใช้เทรน ChatGPT ใช้จีพียู A100 เป็นหลักหมื่นตัว

ไมโครซอฟท์เล่าเบื้องหลังการสร้างซูเปอร์คอมพิวเตอร์ขนาดใหญ่บน Azure เพื่อให้บริการ OpenAI เทรนโมเดล AI ขนาดใหญ่จนกลายมาเป็น ChatGPT แบบที่เราเห็นกันทุกวันนี้

จุดเริ่มต้นของเรื่องนี้มาจากข้อตกลงระหว่างไมโครซอฟท์กับ OpenAI ในปี 2019 ตอนนั้นไมโครซอฟท์มีระบบเซิร์ฟเวอร์สำหรับเทรนโมเดล AI ของตัวเองอยู่แล้ว (เช่น โมเดลที่ใช้ใน Microsoft Translator หรือตัวตรวจสะกดใน Word) แต่ขีดความสามารถนั้นไม่พอกับที่โมเดลขนาดใหญ่มากๆ ของ OpenAI ต้องการใช้งาน ทำให้ไมโครซอฟท์ต้องหาวิธีออกแบบระบบใหม่

No Description

ระบบเบื้องหลังซูเปอร์คอมพิวเตอร์ตัวนี้ใช้จีพียู NVIDIA A100 จำนวน “หลายหมื่นตัว” (tens of thousands) ซึ่งไมโครซอฟท์ประเมินคร่าวๆ ว่าต้นทุนของโครงการอยู่ในหลัก “หลายร้อยล้านดอลลาร์” (several hundred million dollars) แต่มีเงินซื้อจีพียูอย่างเดียวก็ไม่พอ ไมโครซอฟท์ต้องหาวิธีต่อเชื่อมจีพียูจำนวนเยอะขนาดนี้ที่กระจายตัวอยู่ตามศูนย์ข้อมูล 60 เขตทั่วโลกเข้าด้วยกัน

ตัวแกนของเทคโนโลยีเชื่อมต่อความเร็วสูงคือ InfiniBand ของ NVIDIA (จากการซื้อ Mellanox ในปี 2019) แต่ NVIDIA เองก็ไม่เคยนำจีพียูจำนวนเยอะขนาดนี้มาต่อกัน ทำให้ไม่มีใครรู้ว่าข้อจำกัดของเทคโนโลยีเชื่อมต่อเป็นไปได้แค่ไหน

No Description

ไมโครซอฟท์ใช้วิธีแบ่งส่วนงาน (partition) แล้วกระจายไปยังคลัสเตอร์ของจีพียูต่างๆ เป็นชุดๆ โดยมี InfiniBand เป็นตัวเชื่อม แต่ก็ต้องพัฒนาซอฟต์แวร์สำหรับกระจายงานทั้งจีพียูและระบบเครือข่ายเพิ่มอีกมาก (ผ่านซอฟต์แวร์ ONNX Runtime ที่เปิดเป็นโอเพนซอร์ส) ซึ่งใช้เวลาหลายปีที่ผ่านมาทำเรื่องนี้ อีกวิธีที่ใช้คือค่อยๆ ขยายจำนวนจีพียูและเครือข่ายทีละน้อย เพื่อดูว่าระบบโดยรวมรองรับได้แค่ไหน รวมถึงมีเรื่องระบบระบายความร้อน ระบบไฟสำรอง ที่ต้องขยายตัวรองรับด้วย

เนื่องจากระบบคอมพิวเตอร์เหล่านี้เป็นของ Azure เป้าหมายจึงเป็นการออกแบบเพื่อเปิดให้คนนอกใช้งานด้วย แม้จุดเริ่มต้นเกิดจากการคัสตอมระบบตามความต้องการของลูกค้าเพียงรายเดียว (OpenAI) แต่วิธีการสร้างเครื่องของ Azure คือสร้างโดยมีโจทย์ให้คนทั่วไปใช้งาน (generalized) ซึ่งตอนนี้เครื่องถูกนำมาให้บริการ Azure OpenAI ที่บุคคลทั่วไปสามารถเช่าเทรนโมเดล

No Description

ศูนย์ข้อมูลแห่งหนึ่งของไมโครซอฟท์ที่รัฐวอชิงตัน ที่ให้บริการ OpenAI Service

ตอนนี้ไมโครซอฟท์กำลังสร้างเครื่องซูเปอร์คอมพิวเตอร์ใหม่ที่ใช้จีพียู NVIDIA H100 รุ่นใหม่ ซึ่งจะใช้เทรนโมเดลตัวใหม่ๆ ที่ใหญ่กว่าเดิมขึ้นไปอีก และตอนนี้เริ่มเปิดให้คนนอกเช่าเครื่อง H100 ใช้งานแล้ว

ที่มา – Microsoft, Bloomberg

from:https://www.blognone.com/node/133067

Azure เปิดทดสอบให้เช่า VM ที่ใช้จีพียู NVIDIA H100 Hopper รุ่นล่าสุดแล้ว

Microsoft Azure เปิดพรีวิวเครื่อง VM เวอร์ชันใหม่ที่ใช้จีพียู NVIDIA H100 รุ่นใหม่ล่าสุด สถาปัตยกรรม Hopper ที่พัฒนาขึ้นจากจีพียู NVIDIA A100 (Ampere) รุ่นที่ใช้อยู่ในปัจจุบัน หากอิงจากตัวเลขของ NVIDIA เองคือเทรนโมเดลบางประเภทได้เร็วขึ้น 9 เท่า

VM รุ่นนี้ใช้ชื่อว่า ND H100 v5 เลือกจีพียูได้ต่ำสุด 8 ตัว สเกลขึ้นไปได้เป็นหลักพันตัว (ต่อกันผ่าน InfiniBand) สเปกเครื่องมีดังนี้

  • 8x NVIDIA H100 Tensor Core GPUs interconnected via next gen NVSwitch and NVLink 4.0
  • 400 Gb/s NVIDIA Quantum-2 CX7 InfiniBand per GPU with 3.2Tb/s per VM in a non-blocking fat-tree network
  • NVSwitch and NVLink 4.0 with 3.6TB/s bisectional bandwidth between 8 local GPUs within each VM
  • 4th Gen Intel Xeon Scalable processors
  • PCIE Gen5 host to GPU interconnect with 64GB/s bandwidth per GPU
  • 16 Channels of 4800MHz DDR5 DIMMs

ตอนนี้ ND H100 v5 VM ยังเปิดให้บริการในวงจำกัด ผู้ที่สนใจจำเป็นต้องลงทะเบียนขอสิทธิการใช้งานก่อน

NVIDIA กับไมโครซอฟท์ยังมีข้อตกลงสร้างซูเปอร์คอมพิวเตอร์ใหม่ที่ใช้สเปกแบบเดียวกัน ซึ่งเป็นไปได้สูงว่าบริการ ND H100 v5 เป็นการตัดบางส่วนของเครื่องมาให้คนนอกเช่าให้งาน ซึ่งในอดีตไมโครซอฟท์เคยมีเครื่องที่ให้บริการ Azure ติด Top 10 ซูเปอร์คอมพิวเตอร์โลกเมื่อปี 2021 ด้วย

ที่มา – Microsoft

No Description

No Description

from:https://www.blognone.com/node/133058

ทำเกมเองไม่รอด กูเกิลหันไปทำระบบคลาวด์สำหรับให้บริการเกม Live Service

หลังจากล้มเหลวกับบริการคลาวด์เกมมิ่ง Stadia จนต้องปิดตัว กูเกิลปรับทิศทางใหม่ นำเทคโนโลยีจาก Stadia มาให้บริการบริษัทเกมอื่นๆ แทน ภายใต้ชื่อแบรนด์ว่า Google Cloud for Live Service Games

บริการภายใต้ร่มของ Google Cloud for Live Service Games เป็นผลิตภัณฑ์ที่กูเกิลมีอยู่ก่อนแล้ว แต่นำมาจัดชุดใหม่ให้เหมาะกับลูกค้ากลุ่มบริษัทเกม ที่ต้องการเซิร์ฟเวอร์ขนาดใหญ่รองรับเกมแนว Live Service ที่มีผู้เล่นจำนวนมหาศาล

No Description

Jack Buser หัวหน้าฝ่ายลูกค้าอุตสาหกรรมเกมของ Google Cloud เคยอยู่ในทีม Stadia มาก่อน เขายอมรับว่าถึงแม้ Stadia ไม่ประสบความสำเร็จ แต่ตัวเทคโนโลยีนั้นก้าวหน้ามาก จึงนำแพลตฟอร์มที่สร้างขึ้นมาให้บริการลูกค้าบริษัทเกมรายอื่นที่มีความต้องการแบบเดียวกัน และประสบปัญหาเรื่องการสเกลเซิร์ฟเวอร์ให้รองรับปริมาณผู้เล่นที่เยอะขึ้นเรื่อยๆ ซึ่งกูเกิลเชี่ยวชาญเรื่องนี้อยู่แล้วจากการให้บริการ Google Search และ YouTube

Buser บอกว่าเขาเองก็เป็นเกมเมอร์ และเจอปัญหาเซิร์ฟเวอร์เต็มหรือเซิร์ฟเวอร์ล่มอยู่บ่อยๆ ซึ่งมันไม่ควรเกิดขึ้นในยุคนี้ มันเป็นปัญหาที่กูเกิลแก้ไขได้นานแล้ว (These problems are solved problems at Google) ตอนนี้กูเกิลเข้ามาให้บริการเกมใหญ่ๆ ของโลกหลายเกมตั้งแต่วันแรก ซึ่งมันเป็นเรื่องน่าเบื่อมาก เพราะระบบทำงานได้ดีไม่มีพัง (Just bored. Because it just works.)

ที่มา – Google Cloud, VentureBeat

from:https://www.blognone.com/node/132948

AWS ประกาศตั้งรีเจี้ยนในมาเลเซีย เตรียมลงทุน 6 พันล้านดอลลาร์สหรัฐ

ช่วงนี้เป็นที่ชัดเจนว่า AWS เน้นการเจาะตลาดเอเชียตะวันออกเฉียงใต้ เพราะเพิ่งจะประกาศตั้งรีเจี้ยนในประเทศไทยเมื่อปีที่แล้ว และล่าสุดประกาศตั้งรีเจี้ยนที่มาเลเซียอีกแห่ง

AWS ระบุว่ารีเจี้ยนนี้จะมี 3 Availability Zone เหมือนรีเจี้ยนอื่นๆ โดยแยกขาดจากกันและอยู่ไกลกันหากมีเหตุเกิดขึ้นกับ AZ ใด AZ หนึ่ง โดยระหว่าง AZ จะมีลิงค์ไฟเบอร์ความเร็วสูงเชื่อมต่อถึงกันพร้อมระบบสำรอง

นอกจากนี้ AWS จะลงทุนในมาเลเซียเป็นเงินอย่างน้อย 6 พันล้านดอลลาร์สหรัฐ หรือ 2.55 หมื่นล้านริงกิตภายในปี 2037 ซึ่งไม่ใช่เงินลงทุนเฉพาะการตั้งศูนย์ข้อมูล แต่รวมไปถึงการพัฒนาทักษะของแรงงานและอื่นๆ ด้วย ซึ่งเป็นโมเดลเดียวกับที่จะมาลงทุนในประเทศไทย โดย Blognone เคยพูดคุยกับผู้บริหาร AWS ไปแล้วทั้งเรื่องการตั้งรีเจี้ยนในไทย และการพัฒนาทักษะแรงงาน

ปัจจุบันธุรกิจต่างๆ ในมาเลเซียใช้งาน AWS กันมากแล้วทั้งภาครัฐและเอกชน

ที่มา – AWS

alt="e3fSzk.jpg"เมืองกัวลาลัมเปอร์ ประเทศมาเลเซีย | Jorge Láscar (CC BY 2.0)

from:https://www.blognone.com/node/132861

Akamai เปิดตัวคลาวด์เต็มรูปแบบ หลังซื้อ Linode ครบปี

Akamai เปิดตัว Akamai Connected Cloud บริการคลาวด์เต็มรูปแบบที่ได้มาจากการซื้อ Linode เมื่อปีที่แล้ว โดยฝั่ง Akamai ที่มีลูกค้าองค์กรเยอะกว่าก็หันไปเปิดศูนย์ข้อมูลใหม่ที่ให้บริการระดับองค์กรมากขึ้น และศูนย์ข้อมูลก็ได้รับการรับรองมาตรฐานสำคัญ ทั้ง ISO, SOC II, และ HIPAA

สำหรับลูกค้า Linode เดิม ทาง Linode ประกาศว่าจะเริ่มเห็นสินค้าเปลี่ยนแบรนด์กลายเป็น Akamai ไปเรื่อยๆ และการใช้งานบริการ Akamai จะง่ายขึ้นกว่าเดิม แต่ทาง Linode ยังคงคงช่องทางการสื่อสารกับชุมชนผู้ใช้ไว้เหมือนเดิม และยังไม่มีการปรับราคาคา่บริการสินค้าเดิม

ผู้ให้บริการ CDN เริ่มไม่สามารถให้บริการเฉพาะ CDN ได้ในช่วงหลังเพราะผู้ให้บริการคลาวด์เองก็ล้วนให้บริการ CDN ไปพร้อมกัน ทำให้สองธุรกิจเริ่มเข้าใกล้กันขึ้นเรื่อยๆ ในช่วงหลัง Cloudflare เองก็ให้บริการคลาวด์แข่งกับผู้ให้บริการคลาวด์เต็มรูปแบบทั้งบริการ serverless, สตอเรจ, และฐานข้อมูล หรือ Fastly ก็หันมาให้บริการ serverless เช่นกัน

ที่มา – Akamai, Linode

from:https://www.blognone.com/node/132645

Azure กู้ระบบแอร์ได้แล้ว แต่บริการยังไม่กลับมา ต้องค่อยๆ เปิดทีละส่วน

ไมโครซอฟท์รายงานถึงความคืบหน้าของเหตุ Azure ที่สิงคโปร์ล่มไปหนึ่ง Availability Zone ทำให้ลูกค้าจำนวนมากได้รับผลกระทบ โดยตอนนี้สามารถกู้ระบบทำความเย็นได้สำเร็จแล้ว และอุณหภูมิในศูนย์ข้อมูลก็อยู่ในระดับปกติ แต่ความยากคือการเปิดระบบกลับมาจากศูนย์

กระบวนการเปิดศูนย์ข้อมูลกลับมาจะเริ่มจากระบบสตอเรจเป็นอย่างไร จากนั้นจึงเริ่มเปิดระบบ compute ทั้งหลายซึ่งจะทำให้ระบบกลับมาเต็มรูปแบบ

ระบบทำความเย็นเริ่มมีปัญหาตั้งแต่ช่วงตีสามของไทยเมื่อคืนที่ผ่านมา จนตอนนี้ก็กินเวลาเกือบเต็มวันแล้ว และทางไมโครซอฟท์ระบุว่ายังไม่สามารถบอกได้ว่าจะมีกำหนดเปิดระบบกลับคืนได้เมื่อใด

ที่มา – Azure Status

from:https://www.blognone.com/node/132553

ศูนย์ข้อมูล Azure ที่สิงคโปร์ไฟตก ระบบความทำเย็นดับ ทำ 1 AZ ใน SEA ล่ม

หนึ่งในศูนย์ข้อมูลของ Microsoft Azure ที่สิงคโปร์เกิดเหตุการณ์ไฟตก จนทำให้ระบบทำความเย็นไม่ทำงาน ทาง Microsoft จึงต้องสั่งลดการทำงานศูนย์ข้อมูลลง เป็นเหตุให้ 1 Available Zone ของ South East Asia Region ล่ม ไม่สามารถให้บริการได้ (จากทั้งหมด 3 AZ)

เหตุการณ์นี้เกิดขึ้นตั้งแต่เวลาประมาณตี 3 เมื่อเช้าบ้านเราที่ผ่านมา จนตอนนี้ยังไม่สามารถกู้ระบบทำความเย็นกลับมาได้

ที่มา – Azure Status

from:https://www.blognone.com/node/132548

Dell ซื้อ Cloudify ราวๆ 10 ล้านเหรียญ เตรียมยกเครื่องโซลูชั่นจัดการระบบคลาวด์

เมื่อสัปดาห์ที่แล้ว เว็บข่าวไอที TechCrunch ตีแผ่ข่าว Dell Technologies แอบซื้อ Cloudify เงียบๆ เพื่อเอามาเสริมทัพโซลูชั่น Cloud Orchestration ของตัวเอง ด้วยมูลค่าประมาณ 100 ล้านดอลลาร์สหรัฐฯ จากหลักฐานการยื่นแบบฟอร์ม S-8 ต่อคณะกรรมการตลาดหลักทรัพย์ของสหรัฐฯ

แม้ Cloudify จะยังไม่ให้สัมภาษณ์เกี่ยวกับเรื่องนี้ แต่โฆษกของ Dell ก็ออกมายืนยันถึงการซื้อกิจการนี้แล้วผ่านอีเมลถึงสำนักข่าว CRN พร้อมให้เหตุผลในการซื้อว่า เพื่อพัฒนานวัตกรรมในส่วนของ Edge เดิมให้ดียิ่งขึ้น

Cloudify บริษัทจากอิสราเอล ที่ตอนนี้มีสำนักงานใหญ่ในนิวยอร์ก ก่อตั้งครั้งแรกในฐานะผู้ให้บริการแพลตฟอร์ม DevOps อัตโนมัติแบบโอเพ่นซอร์ส เป็นบริการที่เรียกกันเป็นชื่อเฉพาะว่า ‘Environment as a Service’

บริการนี้จะมัดรวมเครื่องมือทั้งด้านระบบโครงสร้างพื้นฐาน เน็ตเวิร์ก และทูลออโตเมชั่น ออกมาในรูปของบลูปริ๊นท์สำเร็จที่ลูกค้านำไปใช้จัดการระบบคลาวด์ต่างๆ ที่แตกต่างกันได้อย่างยืดหยุ่น และช่วยลดช่องว่างระหว่างงานด้าน DevOps และการจัดการบริการด้านไอที (ITSM)

อ่านเพิ่มเติมที่นี่ – CRN

from:https://www.enterpriseitpro.net/dell-acquires-cloudify-to-build-cloud-orchestration-capabilities/

Basecamp เผย จ่ายค่าคลาวด์ AWS ปีละ 100 ล้านบาท, กำลังย้ายออก ซื้อเซิร์ฟเวอร์ทำเอง

David Heinemeier Hansson (@dhh) ผู้ร่วมก่อตั้ง Basecamp เคยประกาศไว้เมื่อเดือนตุลาคม 2022 ว่าบริษัท 37signals ของเขาจะเลิกเช่าคลาวด์เพราะมีต้นทุนแพง เวลาผ่านมาเกือบ 6 เดือน เขาโพสต์ข้อมูลอัพเดตของการย้ายออกจากคลาวด์ให้ทราบกัน

DHH เปิดเผยตัวเลขให้เห็นชัดๆ ว่าเขาต้องจ่ายค่าคลาวด์ให้ AWS ตลอดทั้งปี 2022 เป็นเงิน 3,201,564.24 ดอลลาร์ (ตีเป็นเงินไทยปัจจุบันราว 106 ล้านบาท) โดยก้อนใหญ่ๆ เป็นค่า S3, RDS, OpenSearch, Elasticache ตามลำดับ ซึ่ง Basecamp จ่ายในราคาที่ถือว่ามีส่วนลดแล้ว เพราะเป็นการซื้อแบบการันตีระยะเวลานาน 4 ปี

ทางออกของ 37signals คือเปลี่ยนมาซื้อเซิร์ฟเวอร์มาจัดการเอง ซึ่ง DHH ให้ข้อมูลว่าเป็นเซิร์ฟเวอร์ Dell PowerEdge R6525 ในราคาเครื่องละ 1,287 ดอลลาร์ต่อเดือน (ราว 43,000 บาท) แต่ยังไม่เปิดเผยว่าต้องซื้อทั้งหมดกี่เครื่อง และมีต้นทุนอื่นๆ อีกเท่าไร (ฝากเครื่องไว้ที่ศูนย์ข้อมูลของบริษัท Deft เพื่อจัดการเครื่อง แบนด์วิดท์ ระบบไฟฟ้า) DHH บอกว่าเงินที่จ่ายไปถูกกว่าค่าคลาวด์มาก และจะมาเปิดเผยต้นทุนให้เห็นหลังจบปี 2023 แล้ว

No Description

ที่มา – 37signals, The Register

from:https://www.blognone.com/node/132278