ลงทะเบียนออนไลน์รอยัล

ถ่ายทอดสดจาก Hot Chips 19: Session 2, Nvidia

时间:2019-08-22  author:邢硭茼  แหล่ง:ลงทะเบียนออนไลน์รอยัล  หมวด:21次  ทบทวน:92บทความ

ยินดีต้อนรับกลับสู่การครอบคลุมความเร็วและฟีดอย่างต่อเนื่องของ ที่ Stanford พวกเขาให้เก้าอี้ที่สะดวกสบายและ Wi-Fi ฟรีดังนั้นการเขียนบล็อกเกี่ยวกับมันจึงเป็นสิ่งที่ฉันทำได้น้อยที่สุด โดยวิธีการที่ดีนทาคาฮาชิของ ข่าวซานโฮเซ Mercury ยังบล็อกจากชิปร้อนดังนั้นคุณสามารถได้รับมุมมองอื่นในเหตุการณ์

ช่วงที่ 2 เป็นการนำเสนอ "Multi-Core และ Parallelism" สองครั้งแรก อันนี้เป็นเรื่องเกี่ยวกับ Nvidia ส่วนที่ 3 ถัดไปจะรวมถึงการนำเสนอเกี่ยวกับ ATI Radeon HD 2900 ของ AMD, โปรเซสเซอร์ 80-core "Tera-Scale" ของ Intel, โครงการ TRIPS ที่มหาวิทยาลัยเท็กซัสในออสตินและไทล์โปรเซสเซอร์จาก Tilera

การนำเสนอครั้งแรกในเซสชั่นนี้ "The Nvidia GeForce 8800 GPU" เป็นภาพรวมของชิปนั้น ดังที่ฉันกล่าวถึงในการรายงาน Siggraph ของฉัน 8800 มี 128 แกนประมวลผล แต่มีอะไรมากกว่าที่จะพูดเกี่ยวกับมัน

ซึ่งแตกต่างจากตัวประมวลผลแบบมัลติคอร์ทั่วไปหลายคอร์บน GPU มักทำสิ่งเดียวกัน ดังนั้น 8800 จึงได้รับการออกแบบเพื่อให้กลุ่มของแปดคอร์ทั้งหมดนั้นใช้งานโปรแกรมเดียว พวกเขาสามารถก้าวออกจากกันได้ทำให้การออกแบบ 8800 มีความยืดหยุ่นมากกว่า SIMD ขั้นตอนการล็อคแบบเก่า (คำสั่งเดียวหลายข้อมูล) แต่ถ้าในเวลาที่กำหนดน้อยกว่า 8 ชุดของโปรแกรมที่ต้องการบางส่วนของ 128 คอร์ของ 128800 จะว่าง

สำหรับชิปตัวเดียวทั้งหมดนี้เพิ่มขึ้น - การดำเนินการจุดลอยตัว 576 พันล้านต่อวินาทีในแกนเหล่านี้, แบนด์วิดธ์หน่วยความจำ 104 GB / s และการใช้พลังงาน 150W โดยทั่วไปสำหรับเกม 3D ขั้นสูงและแอปพลิเคชั่นอื่น ๆ ที่หิวกราฟิก

การนำเสนอที่สองนั้นอธิบายได้ด้วยตนเอง: "The Nvidia GPU Parallel Computing Architecture & CUDA Programming Model" (Compute Unified Device Architecture) สนับสนุนการเขียนโปรแกรมระดับสูงของชิปที่ซับซ้อนเหล่านี้โดยใช้ภาษา C เพื่อให้นักพัฒนาซอฟต์แวร์ไม่ต้องจัดการรายละเอียดฮาร์ดแวร์ระดับต่ำทั้งหมด

CUDA ใช้รูปแบบการเขียนโปรแกรมแบบมัลติเธรดที่ตรงไปตรงมา นักพัฒนาซอฟต์แวร์เขียนราวกับว่ามันจะทำงานบนโปรเซสเซอร์เพียงหนึ่งครั้ง มีข้อ จำกัด บางประการเกี่ยวกับการเข้าถึงข้อมูลและการแบ่งปันข้อมูล แต่ความซับซ้อนของ GPU ส่วนใหญ่จะถูกซ่อนไว้ แอปพลิเคชันที่สมบูรณ์ถูกสร้างขึ้นโดยการรวมโปรแกรมเธรดเดี่ยวจำนวนมากซึ่งอาจเป็นหลายพันโปรแกรมและกำหนดเวลาและวิธีการใช้เธรดเหล่านี้และข้อมูลที่ใช้และผลิต

ความสำเร็จที่สำคัญของ CUDA คือโปรแกรมเมอร์เขียนโปรแกรมเดียวสำหรับ GPU ทุกขนาด - Nvidia สร้างตระกูล GeForce 8000 ที่มีคอร์จำนวนแตกต่างกัน โปรแกรมไม่รู้ด้วยซ้ำว่ามีกี่แกนหลักที่ใช้อยู่ โปรแกรม CUDA ทำงานร่วมกับฮาร์ดแวร์เพื่อกระจายเธรดที่กำลังทำงานอยู่ในแกนประมวลผลที่มีอยู่

การนำเสนอครั้งสุดท้ายในเซสชั่นครอบคลุมปัญหาที่เกิดขึ้นเมื่อใช้งานแอพพลิเคชั่นที่ไม่ใช่กราฟิกบน Nvidia GPU ชื่อมีความหมาย: "ประสิทธิภาพเชิงลึกเกี่ยวกับการใช้งานแอพพลิเคชั่นที่ไม่ใช่กราฟิกบน CUDA บน Nvidia GeForce 8800 GTX" ผู้นำเสนอคือศาสตราจารย์ Wen-mei Hwu จาก University of Illinois ที่ Urbana-Champaign ซึ่งทำงานร่วมกับ Nvidia ในพื้นที่นี้

GPUs ของ Nvidia ได้รับการออกแบบมาเพื่อรองรับแอพดังกล่าวและ Nvidia ยังทำให้บอร์ดและระบบสำหรับ ใช้งานที่ไม่ใช่กราฟิกโดยเฉพาะ

อย่างไรก็ตามขึ้นอยู่กับซอฟต์แวร์ GPU นั้นไม่จำเป็นต้องเป็นแพลตฟอร์มที่ดีสำหรับการใช้งานที่ไม่ใช่กราฟิก แอพที่ขนานขนานกับกระแสข้อมูลสตรีมนั้นดี แอพที่มีการทำงานแบบอนุกรมจำนวนมากโดยเฉพาะอย่างยิ่งที่การทดสอบตามเงื่อนไขควบคุมการไหลของการดำเนินการไม่ดีนัก

งานนำเสนอวิเคราะห์แอปพลิเคชันตัวอย่างที่สาม:

  • การสร้างภาพ MRI (การสร้างภาพด้วยคลื่นสนามแม่เหล็ก)
  • พลศาสตร์ของของไหล
  • การเข้ารหัสวิดีโอ H.264

แม้ว่าทั้งสามแอปพลิเคชั่นเหล่านี้จะสามารถปรับขนาดได้ในระดับหนึ่ง แต่ก็มีระดับความเหมาะสมที่แตกต่างกันสำหรับสถาปัตยกรรม GeForce 8800

การประมวลผล MRI Hwu อธิบายว่าทำงานได้เร็วขึ้น 416 เท่าใน 8800 กว่าใน Athlon 64 2800+ (ซึ่งฉันต้องชี้ให้เห็นไม่ใช่ไมโครโปรเซสเซอร์ที่ทันสมัยมาก; มันส่งมอบในปี 2004)

รหัส fluid-dynamics เป็น LBM benchmark จาก SPEC CPU2006 suite (ข้อมูลเพิ่มเติม ) รหัสนี้ทำงานเร็วกว่า GPU ประมาณ 12 เท่ากว่าใน CPU เนื่องจากการใช้หน่วยความจำไม่เหมาะและการซิงโครไนซ์เธรด

ในที่สุดรหัส H.264 จะทำงานได้เร็วขึ้นประมาณ 20 เท่า แต่อัลกอริทึมนี้ยังไม่ได้รับการปรับให้เหมาะสมสำหรับ GPU

ประสิทธิภาพที่หลากหลายนี้แม้ในแอพพลิเคชั่นแบบขนานโดยเนื้อแท้จะแสดงให้เห็นว่า GPU ที่ละเอียดอ่อนต่ออัลกอริทึมและรายละเอียดการใช้งานอย่างไร สถานการณ์นี้มีแนวโน้มที่จะดีขึ้นเมื่อเวลาผ่านไป - ตัวเขาเอง Hwu ได้ให้คำแนะนำเฉพาะเกี่ยวกับวิธีการปรับปรุงความเหมาะสมของ GPU สำหรับอัลกอริธึมเหล่านี้ - แต่มักจะมีแอปพลิเคชันที่ทำงานอย่างมีประสิทธิภาพ อย่างที่พวกเขาพูด

แบ่งปันเสียงของคุณ

แท็ก


อัพเดทล่าสุด

แนะนำในหมวดหมู่นี้

อันดับนี้