ທ່ານໄດ້ຕິດຕາມຂ່າວລືແລະບໍ່ສົນໃຈເລື່ອງ hype; ທ່ານລໍຖ້າ ຄຳ ເຫັນ ແລະເບິ່ງການວັດແທກທັງ ໝົດ. ສຸດທ້າຍ, ທ່ານຕົບເງິນໂດລາຂອງທ່ານແລະຍ່າງ ໜີ ໄປດ້ວຍບັດກາຟິກລ້າສຸດ ໜຶ່ງ ຈາກ AMD ຫຼື Nvidia. ໃນບັນດາພວກມັນແມ່ນ GPU ຂະ ໜາດ ໃຫຍ່ທີ່ເຕັມໄປດ້ວຍຕົວສົ່ງໄຟຟ້າ ຈຳ ນວນຫຼາຍຕື້ຄັນທີ່ແລ່ນດ້ວຍຄວາມໄວໂມງເຊິ່ງບໍ່ສາມາດຄາດເດົາໄດ້ເມື່ອ ໜຶ່ງ ທົດສະວັດທີ່ຜ່ານມາ.

ທ່ານມີຄວາມສຸກແທ້ໆກັບການຊື້ແລະເກມຂອງທ່ານບໍ່ໄດ້ເບິ່ງຫລືຫຼີ້ນດີກວ່າ. ແຕ່ທ່ານອາດຈະສົງໄສວ່າສິ່ງທີ່ເຮັດໃຫ້ Radeon ໃໝ່ ຂອງທ່ານມີປະສິດທິພາບແທ້. RX 5700 ແລະຊິແຕກຕ່າງກັນແນວໃດໃນຊິບ GeForce RTX.

AMD vs Nvidia: ຍິນດີຕ້ອນຮັບສູ່ສະຖາປັດຕະຍະ ກຳ ແລະການປຽບທຽບຄຸນລັກສະນະຂອງ GPU ຫຼ້າສຸດຈາກ Navi vs Turing.


ການວິເຄາະ GPU ທີ່ທັນສະ ໄໝ

ກ່ອນທີ່ພວກເຮົາຈະເລີ່ມຕົ້ນ ທຳ ລາຍໂຄງສ້າງແລະລະບົບຊິບທົ່ວໄປ, ໃຫ້ເຮົາມາເບິ່ງຮູບແບບພື້ນຖານທີ່ GPU ທີ່ທັນສະ ໄໝ ປະຕິບັດຕາມ. ສໍາລັບສ່ວນໃຫຍ່, ໂປເຊດເຊີເຫລົ່ານີ້ແມ່ນພຽງແຕ່ເຄື່ອງຄິດໄລ່ຈຸດລອຍນໍ້າ (FP); ນັ້ນແມ່ນ, ພວກເຂົາເຮັດການປະຕິບັດງານກ່ຽວກັບເລກຕາມອັດຕານິຍົມ / ອັດຕາສ່ວນ. ສະນັ້ນຢ່າງ ໜ້ອຍ GPU ຄວນມີ ໜ່ວຍ ງານຕາມເຫດຜົນທີ່ອຸທິດໃຫ້ແກ່ວຽກງານເຫຼົ່ານີ້, ແລະສິ່ງເຫຼົ່ານີ້ແມ່ນປົກກະຕິແລ້ວ FP ALUs (ໜ່ວຍ ເລື່ອນຕາມເຫດຜົນເລກຄະນິດສາດ) ຫຼື FPUs ສັ້ນ. ບໍ່ແມ່ນການຄິດໄລ່ທັງ ໝົດ ທີ່ GPU ເຮັດຢູ່ໃນຄ່າຂອງຂໍ້ມູນ FP, ດັ່ງນັ້ນມັນກໍ່ຈະມີ ALU ສຳ ລັບເລກເຕັມ (ເລກເຕັມ) ສາມາດເປັນການ ດຳ ເນີນງານດ້ານຄະນິດສາດຫລື ໜ່ວຍ ງານດຽວກັນທີ່ຈັດການທັງສອງປະເພດຂໍ້ມູນ.

ດຽວນີ້ ໜ່ວຍ ງານຕາມເຫດຜົນເຫຼົ່ານີ້ຈະຕ້ອງການບາງສິ່ງບາງຢ່າງໃນການຈັດຕັ້ງພວກມັນໂດຍການຖອດລະຫັດແລະຈັດຕັ້ງພວກມັນເພື່ອໃຫ້ພວກເຂົາບໍ່ຄ່ອຍມີເວລາ, ແລະນີ້ຈະຢູ່ໃນຮູບແບບຢ່າງ ໜ້ອຍ ໜຶ່ງ ກຸ່ມພິເສດຂອງ ໜ່ວຍ ງານຕາມເຫດຜົນ. ບໍ່ຄືກັບ ALUs, ພວກເຂົາບໍ່ສາມາດຂຽນໂປແກຼມໄດ້ໂດຍຜູ້ໃຊ້ສຸດທ້າຍ; ແທນທີ່ຈະ, ຜູ້ຂາຍຮາດແວຈະຮັບປະກັນວ່າຂະບວນການນີ້ຖືກຈັດການຢ່າງເຕັມສ່ວນໂດຍ GPU ແລະຄົນຂັບລົດຂອງມັນ.




ມັນຍັງຕ້ອງມີໂຄງສ້າງຄວາມຊົງ ຈຳ ບາງປະເພດເພື່ອເກັບຮັກສາ ຄຳ ແນະ ນຳ ເຫຼົ່ານີ້ແລະຂໍ້ມູນທີ່ ຈຳ ເປັນຕ້ອງໄດ້ປະມວນຜົນ. ໃນລະດັບທີ່ລຽບງ່າຍທີ່ສຸດ, ມັນຈະໃຊ້ເວລາສອງຮູບແບບ: cache ແລະຈຸດ ໜຶ່ງ ຄວາມຊົງ ຈຳ ໃນທ້ອງຖິ່ນ. ໂຕ ທຳ ອິດຈະຖືກຝັງຢູ່ໃນ GPU ແລະ ຖິ້ມ. ປະເພດຂອງຫນ່ວຍຄວາມ ຈຳ ນີ້ແມ່ນໄວ, ແຕ່ໃຊ້ເວລາສ່ວນໃຫຍ່ຂອງຮູບແບບຂອງໂປເຊດເຊີ. ຄວາມຊົງ ຈຳ ໃນທ້ອງຖິ່ນ DRAMAມັນຈະຊ້າກວ່າ SRAM ແລະບໍ່ຄ່ອຍຖືກ ນຳ ໄປໃສ່ GPU. ຄວາມຊົງ ຈຳ ພື້ນເມືອງຂອງບັດກາຟິກສ່ວນໃຫຍ່ທີ່ພວກເຮົາເຫັນໃນທຸກມື້ນີ້ GDDR ໂມດູນ DRAM.

ສຸດທ້າຍ, ມັນປະກອບມີວຽກງານການປັບປ່ຽນເພີ່ມເຕີມເຊັ່ນ: ການສ້າງຮູບພາບ 3D, ການສ້າງສາມຫຼ່ຽມຈາກແນວຕັ້ງ, rasterizing ກອບ 3D, ການເກັບຕົວຢ່າງແລະການຜະສົມຜະສານ. ເຊັ່ນດຽວກັນກັບ ໜ່ວຍ ງານການສິດສອນແລະຄວບຄຸມ, ສິ່ງເຫຼົ່ານີ້ ໜ້າ ທີ່ຄົງທີ່ ໃນ ທຳ ມະຊາດ. ສິ່ງທີ່ພວກເຂົາເຮັດແລະວິທີການທີ່ພວກເຂົາເຮັດວຽກແມ່ນມີຄວາມໂປ່ງໃສຢ່າງສົມບູນຕໍ່ຜູ້ໃຊ້ທີ່ວາງແຜນແລະ ນຳ ໃຊ້ GPU.


ໃຫ້ຂອງໃສ່ກັນແລະເຮັດ GPU ເປັນ:



ທ່ອນໄມ້ສີສົ້ມແມ່ນຫົວ ໜ່ວຍ ທີ່ປະມວນຜົນໂຄງສ້າງໂດຍໃຊ້ສິ່ງທີ່ເອີ້ນວ່າ ຫົວ ໜ່ວຍ ແຜນທີ່ໂຄງສ້າງ (TMU'lar) - TA ທີ່ຢູ່ໂຄງສ້າງ ປະລິມານ - ສ້າງສະຖານທີ່ ໜ່ວຍ ຄວາມ ຈຳ ສຳ ລັບ cache ແລະ ໜ່ວຍ ຄວາມ ຈຳ ທ້ອງຖິ່ນເພື່ອ ນຳ ໃຊ້ - ແລະ TF fetch ໂຄງສ້າງ ລວບລວມຄ່າຄຸນຄ່າຂອງໂຄງສ້າງຈາກຄວາມຊົງ ຈຳ ແລະລວບລວມຂໍ້ມູນເຫລົ່ານັ້ນ. TMUs ໃນປະຈຸບັນນີ້ແມ່ນຂ້ອນຂ້າງຄ້າຍຄືກັນກັບຜູ້ຂາຍທຸກຄົນເພາະວ່າພວກເຂົາສາມາດຈັດການ, ຕົວຢ່າງ, ແລະຜະສົມຜະສານຄຸນຄ່າຂອງໂຄງສ້າງຫຼາຍຢ່າງຕໍ່ວົງຈອນໂມງ GPU.

ທ່ອນໄມ້ຂ້າງລຸ່ມຂຽນຄ່າສີຂອງ pixels ໃນກອບ, backsamples ໃຫ້ເຂົາເຈົ້າ (PO) ແລະຜະສົມຜະສານພວກມັນ (PB); ທ່ອນໄມ້ນີ້ຍັງປະຕິບັດການປະຕິບັດງານທີ່ໃຊ້ໃນເວລາທີ່ຕ້ານການປອມແປງຖືກນໍາໃຊ້. ຊື່ຂອງທ່ອນໄມ້ນີ້: ສະແດງຫົວ ໜ່ວຍ ຜົນຜະລິດ or ສ້າງ backend (ROP / RB ເປັນໄລຍະສັ້ນ). ເຊັ່ນດຽວກັບ TMU, ດຽວນີ້ພວກເຂົາ ກຳ ລັງກາຍເປັນມາດຕະຖານທີ່ຖືກຕ້ອງ, ແຕ່ລະອັນສະດວກສະບາຍຈັດການກັບພິກະເຊນ ຈຳ ນວນ ໜຶ່ງ ຕໍ່ວົງຈອນໂມງ.


ທີ່ເວົ້າວ່າ, GPU ພື້ນຖານຂອງພວກເຮົາອາດຈະເປັນສິ່ງທີ່ຂີ້ຮ້າຍ, ເຖິງແມ່ນວ່າມາດຕະຖານ 13 ປີກ່ອນຫນ້ານີ້. ຍ້ອນຫຍັງ?

ມີພຽງ FPU, TMU ແລະ ROP ເທົ່ານັ້ນ. ໂປເຊດເຊີກາຟິກເຊັ່ນ GeForce 8800 GTX ຂອງ Nvidia ໃນປີ 2006 ມີ 128, 32 ແລະ 24 ຕາມ ລຳ ດັບ. ສະນັ້ນໃຫ້ເລີ່ມຕົ້ນເຮັດບາງສິ່ງບາງຢ່າງກ່ຽວກັບມັນ ....

ເຊັ່ນດຽວກັບຜູ້ຜະລິດໂຮງງານຜະລິດທີ່ດີ, ພວກເຮົາໄດ້ປັບປຸງ GPU ໂດຍການເພີ່ມບາງ ໜ່ວຍ ຕື່ມ. ນີ້ ໝາຍ ຄວາມວ່າຊິບສາມາດປະມວນຜົນ ຄຳ ແນະ ນຳ ເພີ່ມເຕີມພ້ອມໆກັນ. ເພື່ອຊ່ວຍໃນສິ່ງນັ້ນ, ພວກເຮົາໄດ້ເພີ່ມບາງບ່ອນເກັບມ້ຽນຕື່ມອີກ, ແຕ່ເວລານີ້ຢູ່ໃກ້ກັບ ໜ່ວຍ ງານຕາມເຫດຜົນ. ຖານຄວາມຈໍາທີ່ໃກ້ຄຽງແມ່ນໂຄງສ້າງຂອງເຄື່ອງຄິດໄລ່, ມັນຈະສາມາດເລີ່ມຕົ້ນໄດ້ໄວຂຶ້ນກ່ຽວກັບການປະຕິບັດງານທີ່ຖືກມອບຫມາຍ.

ບັນຫາກັບການອອກແບບ ໃໝ່ ຂອງພວກເຮົາແມ່ນວ່າຍັງມີຜູ້ຄວບຄຸມພຽງຄົນດຽວທີ່ສາມາດຈັດການກັບ ALU ພິເສດຂອງພວກເຮົາ. ມັນຈະເປັນການດີກວ່າຖ້າພວກເຮົາມີທ່ອນໄມ້ຫຼາຍ ໜ່ວຍ, ທັງ ໝົດ ແມ່ນຄວບຄຸມໂດຍຜູ້ຄວບຄຸມແຍກຕ່າງຫາກຂອງພວກເຂົາ, ເພາະວ່ານັ້ນ ໝາຍ ຄວາມວ່າພວກເຮົາສາມາດປະຕິບັດງານທີ່ແຕກຕ່າງກັນຫຼາຍໃນເວລາດຽວກັນ.

ໃນປັດຈຸບັນນີ້ແມ່ນຫຼາຍ! ບລັອກ ALU ບຸກຄົນທີ່ບັນຈຸດ້ວຍ TMUs ແລະ ROP ຂອງພວກເຂົາເອງແລະສະ ໜັບ ສະ ໜູນ ດ້ວຍລົດຊາດແຊບ, ແຊບໄວ. ມັນຍັງມີພຽງແຕ່ ໜຶ່ງ ໃນທຸກສິ່ງທຸກຢ່າງ, ແຕ່ການກໍ່ສ້າງພື້ນຖານບໍ່ແມ່ນ ໜຶ່ງ ລ້ານໄມຫ່າງຈາກໂປເຊດເຊີກາຟິກທີ່ພວກເຮົາເຫັນຢູ່ໃນຄອມພີວເຕີ້ແລະເຄື່ອງຫຼີ້ນຕ່າງໆ.

Navi ve Turing: Godzilla GPU'ları

ດຽວນີ້ພວກເຮົາໄດ້ ກຳ ນົດຮູບແບບພື້ນຖານຂອງຊິບກາຟິກ, ນີ້ແມ່ນບາງຮູບພາບຂອງຊິບຕົວຈິງ, ເຖິງວ່າຈະມີການຂະຫຍາຍຕົວເລັກນ້ອຍແລະມີການຕອບແທນເພື່ອເນັ້ນໃຫ້ເຫັນເຖິງສິ່ງກໍ່ສ້າງຕ່າງໆ, ແລະ Navi vs. ໃຫ້ເລີ່ມຕົ້ນການປຽບທຽບ Turing ຂອງພວກເຮົາ.

ຢູ່ເບື້ອງຊ້າຍແມ່ນເຄື່ອງປະມວນຜົນລ້າສຸດຂອງ AMD. ການອອກແບບຊິບໂດຍລວມເອີ້ນວ່າ Navi (ບາງຄົນເອີ້ນມັນວ່າ Navi 10) ແລະສະຖາປັດຕະຍະ ກຳ ກຣາຟິກເອີ້ນວ່າ RDNA. ຖັດຈາກມັນ, ຢູ່ເບື້ອງຂວາ, ແມ່ນໂຮງງານຜະລິດ TU102 ທີ່ມີຂະ ໜາດ ເຕັມຂອງ Nvidia ພ້ອມດ້ວຍສະຖາປັດຕະຍະ ກຳ Turing ລ້າສຸດ. ມັນເປັນສິ່ງສໍາຄັນທີ່ຈະສັງເກດວ່າຮູບພາບເຫຼົ່ານີ້ບໍ່ໄດ້ຂະຫຍາຍ: ພື້ນທີ່ຂອງຮູບແບບ Navi ແມ່ນ 251 mm2, ໃນຂະນະທີ່ TU102 ແມ່ນ 752 mm2. ໂປເຊດເຊີ Nvidia ແມ່ນໃຫຍ່, ແຕ່ບໍ່ໃຫຍ່ກວ່າການສະ ເໜີ ຂອງ AMD 8 ເທົ່າ!

ທັງສອງ colossal ຕົວເລກ transistor (18,6 ຕື້ທຽບກັບ 10.3), ແຕ່ TU102 ມີສະເລ່ຍ transistor ~ 25 ລ້ານຕໍ່ມມ, ທຽບໃສ່ Navi 41 ລ້ານຕໍ່ mm ມມ.

ນີ້ແມ່ນຍ້ອນວ່າໃນຂະນະທີ່ທັງສອງຊິບຖືກຜະລິດໂດຍ TSMC, ພວກມັນຖືກຜະລິດໃນ node ຂະບວນການທີ່ແຕກຕ່າງກັນ: Nvidia's Turing ແມ່ນຢູ່ໃນສາຍການຜະລິດທີ່ມີຂະ ໜາດ 12 nm, ໃນຂະນະທີ່ບໍລິສັດ AMD's Navi ກໍ່ສ້າງຢູ່ເທິງ node ໃໝ່ 7 nm.

ພຽງແຕ່ເບິ່ງຮູບພາບຂອງຮູບແບບດັ່ງກ່າວບໍ່ໄດ້ບອກພວກເຮົາຫຼາຍຢ່າງກ່ຽວກັບສະຖາປັດຕະຍະ ກຳ, ສະນັ້ນໃຫ້ພິຈາລະນາເບິ່ງແຜນວາດ GPU ທີ່ຜະລິດໂດຍບໍລິສັດທັງສອງ.

ແຜນວາດບໍ່ແມ່ນຕົວແທນຂອງການຈັດວາງຕົວຈິງ 100%, ແຕ່ຖ້າທ່ານ ໝຸນ ພວກມັນ 90 ອົງສາ, ບັນດາທ່ອນໄມ້ຕ່າງໆແລະເສັ້ນລວດກາງທີ່ປະກົດຢູ່ທັງສອງສາມາດລະບຸໄດ້. ເພື່ອເລີ່ມຕົ້ນ, ພວກເຮົາສາມາດເຫັນໄດ້ວ່າ GPU ທັງສອງລຸ້ນມີການກໍ່ສ້າງແບບທົ່ວໆໄປຄືກັບພວກເຮົາ (ເຖິງແມ່ນວ່າຈະມີຫຼາຍກ່ວາສິ່ງອື່ນໃດກໍ່ຕາມ!).

ການອອກແບບທັງສອງແມ່ນໃຊ້ວິທີການຈັດວາງແລະວິທີການຈັດລຽງແລະຈັດເປັນກຸ່ມ - ເພື່ອເລີ່ມຕົ້ນໃຊ້ Navi GPU ປະກອບມີ 2 ທ່ອນທີ່ AMD ກຳ ລັງຊອກຫາ ເຄື່ອງຈັກ Shader (SE), ເຊິ່ງແຕ່ລະທ່ອນເອີ້ນວ່າ 2 ທ່ອນໄມ້ ບໍ່ສະເຫມີພາບ ເຄື່ອງຈັກຄອມພິວເຕີ້ (ACE). ແຕ່ລະທ່ອນເຫຼົ່ານີ້ປະກອບມີ 5 ທ່ອນຢູ່ໃນສ່ວນຫົວ. ຜູ້ປະກອບການໃນກຸ່ມ (WGPs), ເຊິ່ງປະກອບດ້ວຍ 2 ໜ່ວຍ ງານປະມວນຜົນຂໍ້ມູນຂ່າວສານ (ເນື້ອແທ້).

ສຳ ລັບການອອກແບບ Turing ຊື່ແລະຕົວເລກແມ່ນແຕກຕ່າງກັນ, ແຕ່ວ່າ ລຳ ດັບຊັ້ນແມ່ນຄ້າຍຄືກັນຫຼາຍ: 6 ຊຸດການສະແດງຮູບພາບ (GPC), 6 ແຕ່ລະຄົນ ຊຸດຂໍ້ມູນການໃຫ້ຂໍ້ມູນ (TPC), 2 ແຕ່ລະອັນ ກະແສ Multiprocessor (SM) ຕັນ.

ຖ້າທ່ານເບິ່ງ GPU ເປັນໂຮງງານຂະ ໜາດ ໃຫຍ່ທີ່ພະແນກຕ່າງໆຜະລິດຜະລິດຕະພັນຕ່າງກັນໂດຍ ນຳ ໃຊ້ວັດຖຸດິບດຽວກັນ, ອົງກອນນີ້ເລີ່ມມີຄວາມ ໝາຍ. ຊີອີໂອຂອງໂຮງງານສົ່ງລາຍລະອຽດການປະຕິບັດງານທັງ ໝົດ ໃຫ້ກັບທຸລະກິດ, ເຊິ່ງຫຼັງຈາກນັ້ນກໍ່ແບ່ງອອກເປັນວຽກແລະພາລະວຽກຕ່າງໆ. ໂດຍມີຫຼາຍກ່ວາ ໜຶ່ງ, ເອກະລາດ ສະມັດຕະພາບຂອງ ກຳ ລັງແຮງງານໄດ້ເພີ່ມຂື້ນໃນໂຮງງານ. ບໍ່ມີຫຍັງແຕກຕ່າງກັນ ສຳ ລັບ GPUs ແລະ ຄຳ ສຳ ຄັນທີ່ສະແດງຢູ່ທີ່ນີ້ ໄລຍະເວລາ.

ສູນກາງແລະສູນ, ກອງ ກຳ ລັງ - ກຳ ນົດເວລາແລະການປົດປ່ອຍ

ວິທີການທີ່ພວກເຮົາເບິ່ງ ການສຶກສາການສ້າງເກມ 3Dພວກເຮົາໄດ້ເຫັນວ່າ GPU ແມ່ນບໍ່ມີຫຍັງນອກ ເໜືອ ຈາກເຄື່ອງຄິດໄລ່ແບບ Super-fast ທີ່ປະຕິບັດຊຸດປະຕິບັດການທາງເລກໃນຫລາຍລ້ານຂໍ້ມູນ. Navi ແລະ Turing ຖືກຈັດປະເພດດັ່ງນີ້: ຄໍາສັ່ງດຽວຫຼາຍຂໍ້ມູນ ໂປເຊດເຊີຊິມ (SIMD), ແຕ່ ຄຳ ອະທິບາຍທີ່ດີກວ່າແມ່ນ Unidirectional Multi ກະທູ້ (ຄວາມຮູ້ສຶກ).

ເກມ 3D ທີ່ທັນສະ ໄໝ ສ້າງກະທູ້ຫຼາຍຮ້ອຍຫົວ, ບາງຄັ້ງເປັນພັນໆ, ຍ້ອນວ່າ ຈຳ ນວນແນວຕັ້ງແລະ ໜ້າ ຈໍທີ່ຈະປະມວນຜົນແມ່ນໃຫຍ່ຫຼວງ. ເພື່ອເຮັດໃຫ້ມັນ ສຳ ເລັດທັງ ໝົດ ພຽງແຕ່ສອງສາມ microseconds, ມັນກໍ່ມີຄວາມ ສຳ ຄັນທີ່ຈະຕ້ອງມີ ໜ່ວຍ ງານຕາມເຫດຜົນຫຼາຍເທົ່າທີ່ເປັນໄປໄດ້ໂດຍບໍ່ຕ້ອງຢຸດທຸກຢ່າງເພາະວ່າຂໍ້ມູນທີ່ ຈຳ ເປັນບໍ່ຢູ່ບ່ອນທີ່ ເໝາະ ສົມຫຼືບໍ່ມີພື້ນທີ່ໃນການເຮັດວຽກທີ່ພຽງພໍ.

ເມື່ອພວກເຮົາພິຈາລະນາເບິ່ງວ່າການສ້າງເກມ 3D ເຮັດວຽກແນວໃດ, ພວກເຮົາໄດ້ເຫັນວ່າ GPU ແມ່ນບໍ່ມີຫຍັງນອກ ເໜືອ ຈາກເຄື່ອງຄິດໄລ່ທີ່ໄວແທ້ໆ, ແລະພວກເຮົາໄດ້ເຮັດການປະຕິບັດການດ້ານຄະນິດສາດຕ່າງໆໃນຂໍ້ມູນຫລາຍລ້ານຂໍ້. Navi ແລະ Turing ຖືກຈັດປະເພດເປັນໂປເຊດເຊີ Single Data Multiple Data (SIMD), ແຕ່ ຄຳ ອະທິບາຍທີ່ດີກວ່າແມ່ນ Single Command Threads (SIMT).

Navi ແລະ Turing ເຮັດວຽກຄ້າຍຄືກັນດັ່ງນັ້ນ ໜ່ວຍ ງານສູນກາງໃຊ້ເວລາກະທູ້ທັງ ໝົດ ແລະຈາກນັ້ນກໍ່ເລີ່ມຂຽນໂປແກຼມແລະອອກອາກາດ. ໃນຊິບ AMD, ບົດບາດນີ້ ຜູ້ປະມວນຜົນ ຄຳ ສັ່ງກຣາບຟິກ; Nvidia'da, GigaThread Motoru. ກະທູ້ຖືກຈັດແຈງເພື່ອໃຫ້ຜູ້ທີ່ມີ ຄຳ ແນະ ນຳ ດຽວກັນຖືກຈັດເຂົ້າກັນເປັນກຸ່ມລວມ 32 ກຸ່ມ.

AMD ຊຸດສະສົມນີ້ ຄື້ນໃນຂະນະທີ່ Nvidia ໂຄ້ງ. ສຳ ລັບ Navi, ໜ່ວຍ ງານຄອມພີວເຕີ້ສາມາດຈັດການ 2 ຄື້ນ (ຫລືຄື້ນກະທູ້ 64, ແຕ່ວ່າມັນໃຊ້ເວລາດົນກວ່າສອງເທົ່າ) ແລະ Stream Multiprocessor ໃນ Turing ດ້ວຍ 4 warps. ການອອກແບບທັງສອງແບບແມ່ນແບບອິດສະຫຼະ, ມີຄວາມ ໝາຍ ວ່າເຄື່ອງອື່ນບໍ່ ຈຳ ເປັນຕ້ອງເຮັດກ່ອນທີ່ມັນຈະເລີ່ມຕົ້ນ.

ຈົນກ່ວານັ້ນ, ມັນບໍ່ແຕກຕ່າງກັນຫຼາຍລະຫວ່າງ Navi ແລະ Turing - ທັງສອງຖືກອອກແບບມາເພື່ອຈັດການຫຼາຍກະທູ້ເພື່ອສ້າງແລະຄິດໄລ່ວຽກງານຕ່າງໆ. ເພື່ອເບິ່ງບ່ອນທີ່ສອງຍັກໃຫຍ່ GPU ແຕກຕ່າງກັນໃນການອອກແບບ, ພວກເຮົາຕ້ອງເບິ່ງທີ່ໂຮງງານຜະລິດກະທູ້ເຫຼົ່ານີ້.

ຄວາມແຕກຕ່າງຂອງຜູ້ບໍລິຫານ - RDNA ແລະ CUDA

ໃນຂະນະທີ່ ຄຳ ສັບຫຼາຍທີ່ໃຊ້ໃນການຂຽນ ຄຳ ສັບຄ້າຍຄືກັນ, AMD ແລະ Nvidia ນຳ ໃຊ້ວິທີການທີ່ແຕກຕ່າງກັນຫຼາຍ ສຳ ລັບຫົວ ໜ່ວຍ ທີ່ມີຮົ່ມເງົາ. ໜ່ວຍ ງານປະຕິບັດງານຂອງ Nvidia (MIRACLES nuclei) ດິຈິຕອນ ໃນລັກສະນະ - ນີ້ ໝາຍ ຄວາມວ່າ ໜ່ວຍ ໜ່ວຍ ໜຶ່ງ ດຳ ເນີນການປະຕິບັດງານທາງຄະນິດສາດກ່ຽວກັບສ່ວນປະກອບຂໍ້ມູນ; ບໍ່ຄືກັບຫນ່ວຍງານ AMD (ໂຮງງານຜະລິດກະແສໄຟຟ້າ) ເຮັດວຽກ vectors - ການ ດຳ ເນີນງານກ່ຽວກັບອົງປະກອບຂໍ້ມູນຫຼາຍກວ່າ ໜຶ່ງ ຂໍ້. ສຳ ລັບການປະຕິບັດງານດ້ານສະເກັດ, ມີພຽງ ໜ່ວຍ ດຽວພິເສດເທົ່ານັ້ນ.

ກ່ອນທີ່ພວກເຮົາຈະພິຈາລະນາຢ່າງລະອຽດກ່ຽວກັບ ໜ່ວຍ ງານປະຕິບັດ, ໃຫ້ພິຈາລະນາການປັບປ່ຽນຂອງ AMD ເອງ. ເປັນເວລາ 7 ປີ, ບັດກາຟິກ Radeon ໄດ້ຕິດຕາມສະຖາປັດຕະຍະ ກຳ ທີ່ເອີ້ນວ່າ Graphics Core Next (GCN). ແຕ່ລະຊິບເຊັດ ໃໝ່ ໄດ້ປັບປ່ຽນຮູບແບບຕ່າງໆໃນການອອກແບບ, ແຕ່ວ່າມັນແມ່ນພື້ນຖານທັງ ໝົດ.

AMD ສະ ເໜີ ປະຫວັດຫຍໍ້ຂອງສະຖາປັດຕະຍະ ກຳ GPU:

GCN ແມ່ນວິວັດທະນາການຂອງ TeraScale, ເຊິ່ງເປັນການອອກແບບທີ່ອະນຸຍາດໃຫ້ຄື້ນຂະ ໜາດ ໃຫຍ່ໄດ້ຮັບການປະມວນຜົນພ້ອມກັນ. ປະເດັນຫຼັກກັບ TeraScale ແມ່ນວ່າມັນບໍ່ເປັນມິດກັບນັກຂຽນໂປແກຼມແລະ ຈຳ ເປັນຕ້ອງມີນິໄສທີ່ເຈາະຈົງເພື່ອໃຫ້ໄດ້ຜົນດີທີ່ສຸດ. GCN ແກ້ໄຂສິ່ງນີ້ແລະໃຫ້ເວທີທີ່ສາມາດເຂົ້າເຖິງໄດ້ຫຼາຍຂື້ນ.

CUs ໃນ Navi ໄດ້ຖືກປັບປຸງ ໃໝ່ ຢ່າງຫຼວງຫຼາຍຈາກ GCN ເຊິ່ງເປັນສ່ວນ ໜຶ່ງ ຂອງຂະບວນການປັບປຸງຂອງ AMD. CU ແຕ່ລະຊຸດມີສອງຊຸດ:

  • 32 SP (IEE754 FP32 ແລະ INT32 vector ALUs)
  • 1 SFU
  • 1 INT32 ເກັດ ALU
  • 1 ໜ່ວຍ ກຳ ນົດເວລາແລະສົ່ງເຄື່ອງ

ນອກຈາກນັ້ນ, ແຕ່ລະ CU ປະກອບດ້ວຍ 4 ຈຸລັງເນື້ອເຍື່ອ. ມີ ໜ່ວຍ ງານອື່ນອີກທີ່ເຮັດການປະຕິບັດການອ່ານ / ຂຽນຂໍ້ມູນຈາກຖານຄວາມ ຈຳ, ແຕ່ບໍ່ສະແດງຢູ່ໃນຮູບຂ້າງລຸ່ມນີ້:

ເມື່ອປຽບທຽບກັບ GCN, ການຈັດຕັ້ງ RDNA CU ອາດຈະບໍ່ແຕກຕ່າງກັນຫຼາຍ, ແຕ່ນັ້ນແມ່ນວິທີທີ່ທຸກສິ່ງທຸກຢ່າງ ສຳ ຄັນຖືກຈັດຕັ້ງແລະວາງອອກຢູ່ນີ້. ເພື່ອເລີ່ມຕົ້ນ, ແຕ່ລະຊຸດຂອງ 32 SP ມີ ໜ່ວຍ ງານການສິດສອນສະເພາະຂອງຕົນເອງ, GCN ມີພຽງແຕ່ ໜຶ່ງ ໂປແກມ ສຳ ລັບ 4 ຊຸດຂອງ 16 SPs ເທົ່ານັ້ນ.

ນີ້ແມ່ນການປ່ຽນແປງທີ່ມີຄວາມ ໝາຍ, ໝາຍ ຄວາມວ່າກະແສຄື້ນ 32 ກະແສຕໍ່ວົງຈອນໂມງສາມາດສົ່ງຕໍ່ຊຸດ SP ແຕ່ລະຊຸດ. ສະຖາປັດຕະຍະ ກຳ RDNA ຍັງຊ່ວຍໃຫ້ຫົວ ໜ່ວຍ vector ສາມາດປະມວນຜົນຄື້ນ 16-thread ດ້ວຍຄວາມໄວສອງເທົ່າແລະຄື້ນ 64-thread ຢູ່ເຄິ່ງ ໜຶ່ງ, ສະນັ້ນລະຫັດທີ່ຂຽນໄວ້ ສຳ ລັບບັດກາຟິກ Radeon ທັງ ໝົດ ແມ່ນຍັງຖືກຮອງຮັບ.

ສຳ ລັບນັກພັດທະນາເກມ, ການປ່ຽນແປງເຫຼົ່ານີ້ຈະໄດ້ຮັບຄວາມນິຍົມຫຼາຍ.

ສຳ ລັບການປະຕິບັດງານຂອງສະເກັດ, ປະຈຸບັນມີສອງ ໜ່ວຍ ງານທີ່ສາມາດຈັດການກັບພວກມັນ; ການຫຼຸດຜ່ອນ ຈຳ ນວນອົງປະກອບດຽວແມ່ນຢູ່ໃນຮູບແບບຂອງ SFUs - ເຫຼົ່ານີ້ ໜ້າ ທີ່ພິເສດ ຫົວ ໜ່ວຍ, ເຊິ່ງປະຕິບັດການປະຕິບັດງານທາງຄະນິດສາດສະເພາະ, ເຊັ່ນ: trigonometric (sine, tangent), ຕ່າງຝ່າຍຕ່າງ (ແບ່ງຕາມ ຈຳ ນວນ) ແລະຮາກສີ່ຫລ່ຽມ. RDNA ມີ ຈຳ ນວນ ໜ້ອຍ ໃນ ຈຳ ນວນດັ່ງກ່າວເມື່ອທຽບໃສ່ GCN, ແຕ່ດຽວນີ້ພວກເຂົາສາມາດ ນຳ ໃຊ້ຖານຂໍ້ມູນທີ່ມີຂະ ໜາດ ໃຫຍ່ກ່ວາເກົ່າ 2 ເທົ່າ.

ສຳ ລັບນັກພັດທະນາເກມ, ການປ່ຽນແປງເຫຼົ່ານີ້ຈະໄດ້ຮັບຄວາມນິຍົມຫຼາຍ. ມີການປະຕິບັດງານທີ່ມີທ່າແຮງຫຼາຍໃນບັດກາຟິກ Radeon ເກົ່າ, ແຕ່ວ່າມັນຍາກຫຼາຍທີ່ຈະເຮັດ. ດຽວນີ້ AMD ໄດ້ກ້າວສູ່ບາດກ້າວອັນໃຫຍ່ຫຼວງຕໍ່ການຫຼຸດຜ່ອນຄວາມອີ່ມ ໜຳ ສຳ ລານໃນ ຄຳ ແນະ ນຳ ໃນການປະມວນຜົນແລະຮັກສາຄຸນລັກສະນະຕ່າງໆເພື່ອຮັບປະກັນຄວາມເຂົ້າກັນດ້ານຫລັງ ສຳ ລັບທຸກໆໂປແກຼມທີ່ຖືກອອກແບບ ສຳ ລັບສະຖາປັດຕະຍະ ກຳ GCN.

ແຕ່ຈະເປັນແນວໃດກ່ຽວກັບກາຟິກມືອາຊີບຫລືຕະຫຼາດຄອມພິວເຕີ້? ການປ່ຽນແປງເຫຼົ່ານີ້ມີຜົນດີຕໍ່ພວກເຂົາຄືກັນບໍ?

ຄຳ ຕອບສັ້ນໆແມ່ນແມ່ນ (ອາດຈະ). ໃນຂະນະທີ່ຊິບ Navi ລຸ້ນ ໃໝ່ ທີ່ພົບໃນລຸ້ນ Radeon RX 5700 XT ມີລຸ້ນ Stream Processors ໜ້ອຍ ກວ່າການອອກແບບ Vega ທີ່ຜ່ານມາ. ພວກເຮົາປະຕິບັດໄດ້ດີກວ່າ ລຸ້ນລຸ້ນກ່ອນ Radeon RX Vega 56 ແມ່ນກົງໄປກົງມາ:

ບາງສ່ວນຂອງການເພີ່ມປະສິດທິພາບນີ້ຈະມາຈາກ RX Vega 56, ຄວາມໄວໂມງສູງກວ່າຂອງ RX 5700 XT (ສະນັ້ນມັນສາມາດຂຽນພິກະເຊນຫຼາຍຂື້ນຕໍ່ວິນາທີເຖິງ ໜ່ວຍ ຄວາມ ຈຳ ຂອງທ້ອງຖິ່ນ), ແຕ່ຫຼຸດລົງເຖິງ 15% ໃນຈຸດເຊື່ອມໂຍງຈຸດສູງສຸດແລະຈຸດທີ່ລອຍຕົວ; ເຖິງຢ່າງໃດກໍ່ຕາມ, ພວກເຮົາໄດ້ພົບເຫັນຊິບ Navi ທີ່ດີກວ່າ Vega ໂດຍ 18%.

ນັກວິທະຍາສາດທີ່ ກຳ ລັງ ດຳ ເນີນໂຄງການການ ນຳ ສະ ເໜີ ແບບມືອາຊີບແລະສູດການຄິດໄລ່ທີ່ສັບສົນບໍ່ໄດ້ລະເບີດກັບ Battlefield V ສອງສາມຮອບໃນເວລາເຮັດວຽກ (ເຊັ່ນ: ອາດຈະເປັນ... ) ພຽງແຕ່ຖ້າການປະຕິບັດງານ scalar, vector, ແລະ matrix ໃນເຄື່ອງຈັກໃນການຫລິ້ນເກມໄດ້ຖືກປະມວນຜົນໄວຂຶ້ນ, ເຮືອ ກັບຕະຫຼາດຄອມພິວເຕີ້. ໃນເວລານີ້, ພວກເຮົາບໍ່ຮູ້ວ່າແຜນການຂອງ AMD ສຳ ລັບຕະຫຼາດມືອາຊີບແມ່ນຫຍັງ - ພວກເຂົາອາດຈະສືບຕໍ່ສະຖາປັດຕະຍະ ກຳ Vega ໄດ້ດີແລະຊ່ວຍປັບປຸງການອອກແບບ, ການຜະລິດ, ແຕ່ຍ້ອນວ່າການປັບປຸງໃນ Navi, ບໍລິສັດຄວນຍ້າຍທຸກຢ່າງໄປສູ່ສະຖາປັດຕະຍະ ກຳ ໃໝ່ .

ການອອກແບບ GPU ຂອງ Nvidia ໄດ້ຜ່ານວິວັດທະນາການທີ່ຄ້າຍຄືກັນຕັ້ງແຕ່ປີ 2006, ໃນເວລາທີ່ພວກເຂົາເປີດຕົວຊຸດ GeForce 8, ເຖິງວ່າຈະມີການປ່ຽນແປງທີ່ອ່ອນແອຫຼາຍກ່ວາ AMD. GPU ນີ້ແມ່ນສະຖາປັດຕະຍະ ກຳ ທຳ ອິດຂອງ Tesla ທີ່ ນຳ ໃຊ້ວິທີການ shader ໃນສະຖາປັດຕະຍະ ກຳ ປະຕິບັດ. ຂ້າງລຸ່ມນີ້ພວກເຮົາສາມາດເຫັນການປ່ຽນແປງຂອງທ່ອນໄມ້ SM ຈາກຜູ້ສືບທອດມາເປັນ Tesla (Fermi) ກັບ Turing's predecessor (Volta):

ດັ່ງທີ່ໄດ້ກ່າວມາກ່ອນ ໜ້າ ນີ້ໃນບົດຂຽນນີ້, CUDA ແກ່ນ ດິຈິຕອນ. ພວກເຂົາສາມາດປະຕິບັດການເລື່ອນຊັ້ນ ໜຶ່ງ ແລະ ຄຳ ແນະ ນຳ ເລກ ໜຶ່ງ ຕໍ່ວົງຈອນໂມງໃນສ່ວນປະກອບຂໍ້ມູນ (ຂໍ້ສັງເກດ, ຢ່າງໃດກໍ່ຕາມ ຄຳ ແນະ ນຳ ນັ້ນເອງອາດຈະໃຊ້ເວລາຫຼາຍຮອບວຽນໂມງເພື່ອ ນຳ ໄປປະມວນຜົນ), ແຕ່ ໜ່ວຍ ກຳ ນົດເວລາຈັດແຈງພວກມັນເປັນກຸ່ມ, ໃຫ້ເວບໄຊທ໌ໂປແກຼມ vector. ການປ່ຽນແປງທີ່ ສຳ ຄັນທີ່ສຸດໃນໄລຍະປີທີ່ຜ່ານມາ, ນອກ ເໜືອ ຈາກການເປັນພຽງ ໜ່ວຍ ງານຫຼາຍເທົ່ານັ້ນ, ມັນກ່ຽວຂ້ອງກັບວິທີການທີ່ພວກເຂົາຈັດແຈງແລະແບ່ງອອກ.

ໃນການອອກແບບ Kepler, ຊິບເຕັມມີ 5 GPC, ແຕ່ລະກ້ອນມີສາມ SM; ເມື່ອ Pascal ເກີດຂື້ນ, GPCs ໄດ້ຖືກແບ່ງອອກເປັນສ່ວນແບ່ງແຍກ (TPCs) ທີ່ມີສອງ SMs ຕໍ່ TPC. ເຊັ່ນດຽວກັບໃນການອອກແບບ Navi. ການແບ່ງສ່ວນນີ້ແມ່ນມີຄວາມ ສຳ ຄັນຍ້ອນວ່າມັນອະນຸຍາດໃຫ້ ນຳ ໃຊ້ GPU ໂດຍລວມເທົ່າທີ່ເປັນໄປໄດ້; ຫລາຍກຸ່ມການສິດສອນທີ່ເປັນເອກະລາດສາມາດໄດ້ຮັບການປະມວນຜົນຂະຫນານ, ເພີ່ມປະສິດທິພາບການເຮັດໃຫ້ເງົາແລະຄອມພິວເຕີ້ຂອງໂປເຊດເຊີ.

ລອງພິຈາລະນາເບິ່ງ Turing ທຽບເທົ່າກັບ ໜ່ວຍ ງານຄອມພິວເຕີ້ RDNA:

ເອກະສານ SM ບັນຈຸ 4 ລາຍການ, ເຊິ່ງແຕ່ລະບັນຈຸມີ:

  • 1 ການ ກຳ ນົດເວລາການສິດສອນແລະການສົ່ງ ໜ່ວຍ ງານ
  • 16 IEE754 FP32 ເກັດ ALU
  • 16 INT32 ເກັດ ALU
  • 2 ສີສັນ
  • 4 SFU
  • 4 ໂຫຼດ / ເກັບຮັກສາ (ເຊິ່ງຈັດການກັບ cache ອ່ານ / ຂຽນ)

ມັນຍັງມີ 2 FP64 ໜ່ວຍ ຕໍ່ SM, ແຕ່ Nvidia ບໍ່ສະແດງຢູ່ໃນແຜນວາດຕັນຂອງພວກເຂົາອີກຕໍ່ໄປແລະແຕ່ລະ SM ມີ 4 ຫົວ ໜ່ວຍ ໂຄງສ້າງ (ບັນຈຸລະບົບທີ່ຢູ່ແລະລະບົບການກັ່ນຕອງໂຄງສ້າງ) ແລະ 1 RT (Ray Tracing) ຫຼັກ.

FP32 ແລະ INT32 ALUs ສາມາດປະຕິບັດງານພ້ອມກັນແລະຂະຫນານ. ນີ້ແມ່ນຄຸນລັກສະນະທີ່ ສຳ ຄັນເພາະວ່າເຖິງວ່າເຄື່ອງຈັກ ກຳ ລັງສະແດງ 3D ມັກຈະຕ້ອງການການຄິດໄລ່ຈຸດເລື່ອນ, ແຕ່ມີ ຈຳ ນວນປະຕິບັດງານທີ່ສົມບູນແບບງ່າຍດາຍ (ຕົວຢ່າງການຄິດໄລ່ທີ່ຢູ່ຂໍ້ມູນ) ທີ່ ຈຳ ເປັນຕ້ອງເຮັດ.

Tensor Cores ແມ່ນ ALUs ພິເສດທີ່ປະຕິບັດການປະຕິບັດງານຂອງມາຕຣິກເບື້ອງ. Matrices ແມ່ນແຖວຂໍ້ມູນ 'ຮຽບຮ້ອຍ' ແລະແກ່ນ Tensor ແລ່ນດ້ວຍຂະ ໜາດ 4 x 4. FP16 ໄດ້ຖືກອອກແບບມາເພື່ອປະມວນຜົນສ່ວນປະກອບຂໍ້ມູນ INT8 ຫຼື INT4 ໃນລັກສະນະດັ່ງກ່າວເຊິ່ງການເຮັດວຽກທີ່ເລື່ອນໄດ້ເກີດຂື້ນກັບ 64 FMA (fused multiply-post-addition) ໃນວົງຈອນໂມງ ໜຶ່ງ. ປະເພດຂອງການຄິດໄລ່ນີ້ແມ່ນອັນທີ່ເອີ້ນວ່າ ເຄືອຂ່າຍ neural ແລະ inference - ມັນບໍ່ແມ່ນເລື່ອງທົ່ວໄປໃນເກມ 3D, ແຕ່ມັນຖືກ ນຳ ໃຊ້ຢ່າງຫຼວງຫຼາຍໂດຍຊອບເຟສບຸກໃນພາຫະນະທີ່ມີລະບົບການວິເຄາະສື່ສັງຄົມຫລືລະບົບຂັບຂີ່ດ້ວຍຕົນເອງ. Navi ຍັງສາມາດປະຕິບັດການຄິດໄລ່ຕາຕະລາງ, ແຕ່ຕ້ອງການ SP ຫຼາຍ ສຳ ລັບສິ່ງນີ້; ໃນລະບົບ Turing, ການ ດຳ ເນີນງານຂອງມາຕຣິກເບື້ອງສາມາດເຮັດໄດ້ໃນຂະນະທີ່ CUDA cores ເຮັດເລກອື່ນໆ.

RT Core ແມ່ນອີກ ໜ່ວຍ ໜຶ່ງ ທີ່ເປັນເຈົ້າຂອງສະຖາປັດຕະຍະ ກຳ Turing ທີ່ປະຕິບັດລະບົບການຄິດໄລ່ຄະນິດສາດສະເພາະທີ່ໃຊ້ ສຳ ລັບລະບົບການຊອກຄົ້ນຫາຮັງສີຂອງ Nvidia. ການວິເຄາະຢ່າງເຕັມທີ່ກ່ຽວກັບເລື່ອງນີ້ແມ່ນເກີນຂອບເຂດຂອງບົດຄວາມນີ້, ແຕ່ວ່າ RT Core ແມ່ນສອງລະບົບທີ່ເຮັດວຽກແຍກຕ່າງຫາກກັບສ່ວນທີ່ເຫຼືອຂອງ SM, ສະນັ້ນມັນສາມາດເຮັດວຽກກ່ຽວກັບ vertex ຫຼື pixel shaders ໃນຂະນະທີ່ RT Core ກຳ ລັງຫຍຸ້ງໃນການຄິດໄລ່. ສຳ ລັບການກວດຫາເລນ.

ໃນລະດັບພື້ນຖານ, Navi ແລະ Turing ມີ ໜ່ວຍ ງານປະຕິບັດງານທີ່ມີຊຸດຄຸນລັກສະນະຄ້າຍຄືກັນທີ່ສວຍງາມ (ຂໍ້ ກຳ ນົດທີ່ເກີດຂື້ນຈາກການປະຕິບັດຕາມຂໍ້ ກຳ ນົດຂອງ Direct3D, OpenGL, ແລະອື່ນໆ) ...

ໃນລະດັບພື້ນຖານ, Navi ແລະ Turing ມີ ໜ່ວຍ ງານປະຕິບັດງານທີ່ມີຊຸດຄຸນລັກສະນະຄ້າຍຄືກັນ (ຄວາມຕ້ອງການທີ່ເກີດຂື້ນຈາກການປະຕິບັດຕາມຂໍ້ ກຳ ນົດຂອງ Direct3D, OpenGL, ແລະອື່ນໆ), ແຕ່ພວກເຂົາໃຊ້ວິທີການທີ່ແຕກຕ່າງກັນຫຼາຍກ່ຽວກັບຄຸນລັກສະນະເຫຼົ່ານັ້ນ. ສຳ ເລັດແລ້ວ. ສຳ ລັບການອອກແບບໃດທີ່ດີກວ່າ, ມັນແມ່ນມາຈາກວິທີທີ່ພວກມັນຖືກ ນຳ ໃຊ້: ໂປແກຼມທີ່ຜະລິດການ ຄຳ ນວນ vector FP32 ແລະກະທູ້ທີ່ປະຕິບັດພຽງເລັກນ້ອຍກໍ່ຈະເປັນທີ່ພໍໃຈແກ່ Navi, ໃນຂະນະທີ່ໂປຼແກຼມທີ່ມີຫຼາຍຕົວເລກ, ຈຸດເລື່ອນ, ສະເກັດເງິນແລະ ການຄິດໄລ່ vector ຈະໃຊ້ຄວາມຍືດຫຍຸ່ນຂອງ Turing ທີ່ມັກ, ແລະອື່ນໆ.

ລຳ ດັບຄວາມ ຈຳ

GPU ທີ່ທັນສະ ໄໝ ແມ່ນໂປເຊດເຊີທີ່ເຮັດວຽກ, ນັ້ນແມ່ນພວກມັນຖືກອອກແບບມາເພື່ອປະຕິບັດງານຫຼາຍໆຢ່າງໃນແຕ່ລະອົງປະກອບໃນກະແສຂໍ້ມູນ. ນີ້ເຮັດໃຫ້ພວກມັນມີຄວາມຍືດຫຍຸ່ນ ໜ້ອຍ ກ່ວາ CPU ທີ່ມີຈຸດປະສົງທົ່ວໄປ, ແລະຍັງຮຽກຮ້ອງໃຫ້ມີການເພີ່ມປະສິດທິພາບຂອງຊິບເຊັດເພື່ອໃຫ້ໄດ້ຂໍ້ມູນແລະ ຄຳ ແນະ ນຳ ໃຫ້ແກ່ ALUs ໄດ້ໄວແລະມີຫລາຍກະແສ. ນີ້ ໝາຍ ຄວາມວ່າ GPUs ຈະມີ cache ໜ້ອຍ ກວ່າ CPU ເພາະວ່າຊິບສ່ວນໃຫຍ່ຈະຕ້ອງໃຊ້ໃນ ຈຳ ນວນ cache, ບໍ່ແມ່ນການເຂົ້າເຖິງ cache.

ທັງ AMD ແລະ Nvidia ໃຊ້ໃນການ ນຳ ໃຊ້ຖານຄວາມ ຈຳ ຫລາຍໆພາຍໃນຊິບ, ສະນັ້ນເຮົາລອງພິຈາລະນາເບິ່ງວ່າ Navi ຈະໃສ່ຫຍັງກ່ອນ.

ເລີ່ມຕົ້ນໃນລະດັບຕ່ ຳ ສຸດໃນ ລຳ ດັບຊັ້ນ, ມີທະບຽນ vector ຈຸດປະສົງທົ່ວໄປລວມທັງ ໝົດ 256 ກິໂລກຼາມໄດ້ຖືກ ນຳ ໃຊ້ໃນສອງທ່ອນຂອງ Stream Processors (ໂດຍປົກກະຕິ log file) ແມ່ນ ຈຳ ນວນເທົ່າກັບ Vega ແຕ່ລະຫວ່າງ 4 ທ່ອນ SP; ແລ່ນອອກຈາກທະບຽນໃນເວລາທີ່ພະຍາຍາມຈັດການກັບກະທູ້ ຈຳ ນວນຫຼວງຫຼາຍກໍ່ເຮັດໃຫ້ເກີດຜົນຮ້າຍຕໍ່ການປະຕິບັດ, ສະນັ້ນນີ້ແນ່ນອນວ່າມັນເປັນ“ ສິ່ງທີ່ດີ” ແນ່ນອນ. AMD ຍັງໄດ້ເພີ່ມເອກະສານຂຶ້ນທະບຽນ scalar ຢ່າງຫຼວງຫຼາຍ. ບ່ອນທີ່ກ່ອນນີ້ມັນມີພຽງແຕ່ 4 ກິໂລ, ຕອນນີ້ມັນໄດ້ 32 ກິໂລຕໍ່ຫົວ ໜ່ວຍ ເຄື່ອງ ໜັງ.

ສອງ ໜ່ວຍ ງານຄອມພິວເຕີ້ຫຼັງຈາກນັ້ນແບ່ງປັນຖານຄວາມ ຈຳ L0 ຂະ ໜາດ 32 ປອນແລະແທັກເກັບຂໍ້ມູນຂະ ໜາດ 16 ປອນ, ແຕ່ CU ແຕ່ລະຄົນໄດ້ຮັບ cache L0 vector L0 ຂະ ໜາດ 32 ປອນ; ເຊື່ອມຕໍ່ຄວາມຊົງ ຈຳ ທັງ ໝົດ ນັ້ນກັບ ALUs ແມ່ນການແບ່ງປັນຂໍ້ມູນທ້ອງຖິ່ນ 128 ປອນ.

ໃນ Navi, ສອງເຄື່ອງຈັກຄອມພິວເຕີ້ປະກອບເປັນ Workpointp Processor ແລະອີກຫ້າຄົນປະກອບເປັນເຄື່ອງຈັກຄອມພິວເຕີ້ Asynchronous Compute Engine (ACE). ແຕ່ລະ ACE ສາມາດເຂົ້າເຖິງ cache L1 ຂະ ໜາດ 128 ປອນ, ແລະ GPU ທັງ ໝົດ ແມ່ນໄດ້ຮັບການສະ ໜັບ ສະ ໜູນ ເພີ່ມເຕີມຈາກ 4 MiB L2 cache ທີ່ເຊື່ອມຕໍ່ກັບຖານຄວາມ ຈຳ L1 ແລະສ່ວນອື່ນໆຂອງໂປເຊດເຊີ.

ມັນແມ່ນຮູບແບບຂອງສະຖາປັດຕະຍະ ກຳ ເຊື່ອມຕໍ່ Infinity Fabric ທີ່ເປັນເຈົ້າຂອງ, ຍ້ອນວ່າລະບົບດັ່ງກ່າວຖືກ ນຳ ໃຊ້ຢ່າງເຂັ້ມງວດໃນການປະມວນຜົນເຄື່ອງຄວບຄຸມຄວາມ ຈຳ 16 GDDR6. ເພື່ອໃຫ້ແບນວິດ ໜ່ວຍ ຄວາມ ຈຳ ສູງສຸດ, Navi ຍັງໃຊ້ການບີບອັດສີທີ່ບໍ່ມີການສູນເສຍລະຫວ່າງ L1, L2 ແລະ ໜ່ວຍ ຄວາມ ຈຳ ຂອງ GDDR6.

ອີກເທື່ອ ໜຶ່ງ, ສິ່ງນີ້ຍິນດີຕ້ອນຮັບ, ໂດຍສະເພາະເມື່ອທຽບໃສ່ກັບຊິບ AMD ທີ່ຜ່ານມາເຊິ່ງບໍ່ມີ cache ທີ່ມີລະດັບຕ່ ຳ ພຽງພໍ ສຳ ລັບ ຈຳ ນວນຫົວ ໜ່ວຍ ທີ່ພວກເຂົາລວມຢູ່. ໃນສັ້ນ, ແຄດຫຼາຍເທົ່າກັບແບນວິດພາຍໃນຫຼາຍ, ຄຳ ແນະ ນຳ ທີ່ຊ້າລົງ (ເພາະວ່າພວກເຂົາຕ້ອງໄດ້ເອົາຂໍ້ມູນເພີ່ມເຕີມຈາກ ໜ່ວຍ ຄວາມ ຈຳ), ອື່ນໆ. ແລະນັ້ນກໍ່ເທົ່າກັບການເຮັດວຽກທີ່ດີກວ່າ.

ກ່ຽວກັບ ລຳ ດັບຊັ້ນຂອງ Turing, ຕ້ອງເວົ້າໄດ້ວ່າ Nvidia ຢູ່ໃນຄວາມຂີ້ອາຍເມື່ອເວົ້າເຖິງການໃຫ້ຄວາມຮູ້ທີ່ເລິກເຊິ່ງໃນຂົງເຂດນີ້. ກ່ອນ ໜ້າ ນີ້ໃນບົດຂຽນນີ້, ພວກເຮົາໄດ້ເຫັນວ່າແຕ່ລະ SM ແບ່ງອອກເປັນ 4 ທ່ອນການເຮັດທຸລະ ກຳ - ແຕ່ລະອັນມີເອກະສານບັນທຶກ 64 ຂະ ໜາດ ນ້ອຍກ່ວາທີ່ພົບໃນ Navi, ແຕ່ຈື່ໄວ້ວ່າ ALUs ຂອງ Turing ແມ່ນສະເກັດເງິນ, ບໍ່ແມ່ນ vector. , ຫົວ ໜ່ວຍ.

ຕໍ່ໄປ, 96 ຄວາມຊົງ ຈຳ ທີ່ໃຊ້ຮ່ວມກັນ, kiB ຂອງຖານຂໍ້ມູນ L1 64 kiB ແລະ 32 kiB ຂອງ cache ເນື້ອໃນຫລືພື້ນທີ່ປະຫຍັດພິເສດສາມາດໃຊ້ ສຳ ລັບແຕ່ລະ SM. ໃນ 'ຮູບແບບຄອມພິວເຕີ້', ໜ່ວຍ ຄວາມ ຈຳ ທີ່ແບ່ງປັນສາມາດແບ່ງອອກເປັນສ່ວນທີ່ແຕກຕ່າງກັນເຊັ່ນ: 32 kiB shared memory ແລະ 64 kiB L1 cache, ແຕ່ມັນເຮັດໄດ້ສະ ເໝີ ເປັນ 64 + 32 partitions.

ການຂາດລາຍລະອຽດໄດ້ສະ ໜອງ ກ່ຽວກັບລະບົບ ໜ່ວຍ ຄວາມ ຈຳ ປ່ຽນ ໃໝ່ ເຮັດໃຫ້ພວກເຮົາຕ້ອງການຫລາຍຂື້ນ, ສະນັ້ນພວກເຮົາຈຶ່ງຫັນໄປຫາທີມງານຄົ້ນຄ້ວາ GPU ທີ່ Citadel Enterprise Americas. ບໍ່ດົນມານີ້, ພວກເຂົາໄດ້ເຜີຍແຜ່ສອງບົດຂຽນ. ເວລາ ve ຄວາມອິດເມື່ອຍ ສະຖາປັດຕະຍະ ກຳ ຂອງພວກເຂົາ; ຮູບພາບຂ້າງເທິງແມ່ນການແບ່ງສ່ວນຂອງ ລຳ ດັບຄວາມ ຈຳ ໃນຊິບ TU104 (ຊິມ TU102 ກິລາ 6144 kiB L2 ເຕັມ).

ທີມງານໄດ້ຢືນຢັນວ່າຖານຂໍ້ມູນ cache L1 ແມ່ນ 64 ບິດຕໍ່ວົງຈອນແລະສັງເກດວ່າປະສິດທິພາບຂອງ cache ຂອງ Turing ທີ່ຢູ່ພາຍໃຕ້ການທົດສອບແມ່ນດີທີ່ສຸດຂອງ GPUs ທັງ ໝົດ ຂອງ Nvidia. ນີ້ແມ່ນສອດຄ່ອງກັບ Navi, ເຖິງແມ່ນວ່າຊິບຂອງ AMD ມີອັດຕາການອ່ານທີ່ສູງກວ່າ ສຳ ລັບ Datastore ໃນທ້ອງຖິ່ນ, ແຕ່ວ່າອັດຕາການສອນຕໍ່າກວ່າ / ຖານຄວາມ ຈຳ ທີ່ຄົງທີ່.

GPU ທັງສອງໃຊ້ GDDR6 ສຳ ລັບຄວາມ ຈຳ ພື້ນເມືອງ - ນີ້ແມ່ນລຸ້ນລ້າສຸດຂອງ Graphics DDR SDRAM - ແລະທັງສອງໃຊ້ການເຊື່ອມຕໍ່ 32 ບິດກັບໂມດູນຄວາມ ຈຳ, ສະນັ້ນ Radeon RX 5700 XT ມັນມີຊິບ ໜ່ວຍ ຄວາມ ຈຳ 256 ໜ່ວຍ ແລະໃຫ້ແບນວິດສູງສຸດ 256 GiB / s ແລະ 8 GiB ຂອງພື້ນທີ່. ຫນຶ່ງ GeForce RTX 2080 Ti ມັນເຮັດວຽກກັບຊິບ TU102, ມີ 11 ໂມດູນດັ່ງກ່າວ ສຳ ລັບແບນວິດ 352 GiB / s ແລະເກັບຮັກສາ 11 GiB.

ເອກະສານຂອງ AMD ສາມາດເບິ່ງຄືວ່າສັບສົນໃນບາງຄັ້ງ: ແຜນວາດ ທຳ ອິດທີ່ພວກເຮົາເຫັນ Navi ສະແດງ 4 ຕົວຄວບຄຸມຄວາມ ຈຳ 64 ບິດ, ໃນຂະນະທີ່ຮູບຕໍ່ມາສະແດງຕົວຄວບຄຸມ 16 ເຄື່ອງ. ພິຈາລະນາ Samsung ພຽງແຕ່ສະ ເໜີ GDDR6 32 ບິດ ຮູບພາບທີ່ສອງປະກົດວ່າສະແດງໃຫ້ເຫັນວ່າມີການເຊື່ອມຕໍ່ກັນຫຼາຍປານໃດລະຫວ່າງລະບົບຜ້າ Infinity ແລະຕົວຄວບຄຸມຄວາມ ຈຳ. ອາດຈະມີພຽງແຕ່ 4 ຕົວຄວບຄຸມຄວາມ ຈຳ ແລະແຕ່ລະອັນໃຊ້ສອງໂມດູນ.

ໂດຍລວມແລ້ວ, ເບິ່ງຄືວ່າບໍ່ມີຄວາມແຕກຕ່າງກັນຫຼາຍລະຫວ່າງ Navi ແລະ Turing ເມື່ອເວົ້າເຖິງຖານຄວາມ ຈຳ ແລະຄວາມຊົງ ຈຳ ຂອງທ້ອງຖິ່ນ. ມັນມີອີກ ໜ້ອຍ ໜຶ່ງ ຕໍ່ວິທີການຂອງ Navi ໃນດ້ານການປະຕິບັດຂອງສິ່ງຕ່າງໆທີ່ມີ ຄຳ ແນະ ນຳ / ຄວາມ ໝັ້ນ ຄົງແລະ L1 ທີ່ມີຂະ ໜາດ ໃຫຍ່ກວ່າ, ແຕ່ວ່າທັງສອງມັນເຕັມໄປດ້ວຍສິ່ງຂອງ, ທັງສອງໃຊ້ການບີບອັດສີບ່ອນທີ່ເປັນໄປໄດ້, ແລະມີ GPU ທີ່ອຸທິດຕົນຫຼາຍຕາຍໃນທັງການເຂົ້າເຖິງ ໜ່ວຍ ຄວາມ ຈຳ ແລະເຄີຍ ເພີ່ມປະສິດທິພາບແບນວິດ.

ສາມຫລ່ຽມ, ໂຄງສ້າງແລະພິກະເຊນ

ສິບຫ້າປີທີ່ຜ່ານມາ, ຜູ້ຜະລິດ GPU ໄດ້ເຮັດຫຼາຍຢ່າງກ່ຽວກັບ ຈຳ ນວນສາມຫຼ່ຽມທີ່ຊິບຂອງມັນສາມາດ ນຳ ໃຊ້ໄດ້, ຈຳ ນວນອົງປະກອບໂຄງສ້າງທີ່ສາມາດຖືກກັ່ນຕອງຕໍ່ວົງຈອນ, ແລະຄວາມສາມາດໃນການຜະລິດຫົວ ໜ່ວຍ ຜົນຜະລິດ (ROPs). ລັກສະນະເຫຼົ່ານີ້ຍັງມີຄວາມ ສຳ ຄັນໃນທຸກມື້ນີ້, ແຕ່ວ່າຈຸດສຸມແມ່ນມີຫຼາຍຂື້ນໃນດ້ານການປະຕິບັດເນື່ອງຈາກວ່າເຕັກໂນໂລຢີການສະແດງ 3D ຮຽກຮ້ອງໃຫ້ມີການປະຕິບັດງານຄອມພິວເຕີ້ຫຼາຍກ່ວາເກົ່າ.

ເຖິງຢ່າງໃດກໍ່ຕາມ, ພຽງແຕ່ໃຫ້ຂໍ້ສັງເກດວ່າໃນຂົງເຂດເຫຼົ່ານີ້ບໍ່ມີຄວາມແຕກຕ່າງລະຫວ່າງ Navi ແລະ Turing, ໜ່ວຍ ງານໂຄງສ້າງແລະ ROP ຍັງມີມູນຄ່າການສືບສວນ. ໃນສະຖາປັດຕະຍະ ກຳ ທັງສອງ, ໜ່ວຍ ງານໂຄງສ້າງສາມາດຈັດການແລະດຶງເອົາ 4 ອົງປະກອບດ້ານໂຄງສ້າງ, ກັ່ນຕອງພວກມັນທີ່ບໍ່ຮູ້ຈັກໃນອົງປະກອບດຽວ, ແລະເກັບຮັກສາມັນໄວ້ໃນວົງຈອນໂມງດຽວ (ບໍ່ສົນໃຈຮອບວຽນໂມງເພີ່ມເຕີມທີ່ເອົາມາເພື່ອດຶງຂໍ້ມູນຈາກຫນ່ວຍຄວາມ ຈຳ ທ້ອງຖິ່ນ).

ການຈັດລຽງຂອງ ROP / RBs ແມ່ນແຕກຕ່າງກັນເລັກນ້ອຍລະຫວ່າງ Navi ແລະ Turing, ແຕ່ບໍ່ແມ່ນວ່າຫຼາຍປານໃດ: ຊິບ AMD ມີ 4 RBs ຕໍ່ ACE, ແລະແຕ່ລະອັນສາມາດຜະລິດ 4 pixels ປະສົມຕໍ່ວົງຈອນໂມງ; ໃນ Turing, ແຕ່ລະ GPC ມີສອງ RB, ແຕ່ລະຄົນໃຫ້ 8 pixels ຕໍ່ຊົ່ວໂມງ. ການນັບ ROP ຂອງ GPU ແມ່ນການວັດແທກຄວາມໄວຂອງຜົນຜະລິດພິກະເຊນນີ້, ສະນັ້ນຊິບ Navi ເຕັມຈະໃຫ້ 64 pixels ຕໍ່ຊົ່ວໂມງແລະ TU102 ເຕັມຈະໃຫ້ 96 (ແຕ່ຈື່ໄວ້ວ່ານີ້ແມ່ນຊິບຂະ ໜາດ ໃຫຍ່).

ບໍ່ມີຂໍ້ມູນຫນ້ອຍກ່ຽວກັບຮູບສາມຫລ່ຽມຂ້າງຂອງສິ່ງຕ່າງໆ. ສິ່ງທີ່ພວກເຮົາຮູ້ກໍ່ຄືວ່າ Navi ຍັງໃຫ້ປະໂຫຍດສູງສຸດ 4 ປະຖົມນິເທດຕໍ່ວົງຈອນໂມງ (1 ຕໍ່ ACE), ແຕ່ຍັງບໍ່ທັນມີ ຄຳ ເວົ້າໃດໆກ່ຽວກັບວ່າ AMD ໄດ້ແກ້ໄຂບັນຫານີ້ຫຼືບໍ່. Shader ປະຖົມ. ນີ້ແມ່ນຄຸນລັກສະນະທີ່ ໜ້າ ສົນໃຈຫຼາຍຂອງ Vega ແລະໄດ້ອະນຸຍາດໃຫ້ນັກຂຽນໂປແກຼມມີການຄວບຄຸມຫຼາຍຂື້ນກັບພື້ນຖານດັ່ງນັ້ນມັນສາມາດເພີ່ມປະສິດຕິພາບຕົ້ນຕໍໂດຍປັດໃຈ 4. ຟັງຊັນທີ່ຖືກຍ້າຍອອກຈາກຄົນຂັບລົດ ຜະລິດຕະພັນດັ່ງກ່າວບໍ່ໄດ້ນອນໃນໄລຍະສັ້ນໆຫຼັງຈາກທີ່ເປີດຕົວແລະກໍ່ຍັງບໍ່ມີການປ່ຽນແປງນັບຕັ້ງແຕ່ນັ້ນມາ.

ໃນຂະນະທີ່ພວກເຮົາຍັງລໍຖ້າຂໍ້ມູນເພີ່ມເຕີມກ່ຽວກັບ Navi, ມັນບໍ່ສົມຄວນທີ່ຈະຄາດເດົາຕື່ມອີກ. Turing ຍັງປະຕິບັດ 1 ຂັ້ນຕົ້ນຕໍ່ຊົ່ວໂມງຕໍ່ GPC (ເຊັ່ນ: ສູງສຸດ 6 ສຳ ລັບ TU102 GPU ເຕັມ) ໃນ Raster Engines, ແຕ່ມັນຍັງ ຕາຫນ່າງ Shadersສະ ເໜີ ການເຮັດວຽກດຽວກັນກັບ AMD's Primitive Shaders; Direct3D ບໍ່ແມ່ນຊຸດ OpenGL ຫຼື Vulkan, ແຕ່ສາມາດໃຊ້ໄດ້ຜ່ານການຂະຫຍາຍ API.

ນີ້ເບິ່ງຄືວ່າຈະໃຫ້ Turing ຂອບຂອບ Navi ກ່ຽວກັບການຈັດການກັບສາມຫຼ່ຽມແລະພື້ນເມືອງ, ແຕ່ວ່າບໍ່ມີຂໍ້ມູນທີ່ແນ່ນອນໃນສາທາລະນະໃນເວລານີ້.

ມັນບໍ່ແມ່ນທັງ ໝົດ ຂອງ ໜ່ວຍ ງານບໍລິຫານ

ມີລັກສະນະອື່ນໆຂອງ Navi ແລະ Turing ທີ່ມີຄ່າປຽບທຽບ. ເພື່ອເລີ່ມຕົ້ນ, ທັງສອງ GPU ມີເຄື່ອງສະແດງແລະເຄື່ອງສື່ທີ່ກ້າວ ໜ້າ. ຄັ້ງທໍາອິດປະມວນຜົນຜົນໃຫ້ກັບຈໍພາບ, ລະຫັດທີສອງແລະຖອດລະຫັດກະແສວິດີໂອ.

ຕາມທີ່ທ່ານຄາດຫວັງຈາກການອອກແບບ GPU ແບບ 2019 ລຸ້ນ ໃໝ່, ເຄື່ອງຈັກຈໍສະແດງຜົນຂອງ Navi ສະ ເໜີ ຄວາມລະອຽດສູງໃນອັດຕາການໂຫຼດທີ່ສູງແລະຮອງຮັບ HDR. ເບິ່ງການບີບອັດ Stream (DSC) ແມ່ນລະບົບການບີບອັດການສູນເສຍທີ່ໄວເຊິ່ງຊ່ວຍໃຫ້ຄວາມມັກຂອງ 4K + ຄວາມລະອຽດໃນອັດຕາການໂຫຼດທີ່ສູງກວ່າ 60 Hz ທີ່ຖືກສົ່ງຜ່ານການເຊື່ອມຕໍ່ DisplayPort 1.4; ໂຊກດີ, ການເຊື່ອມໂຊມຂອງຄຸນນະພາບຂອງຮູບພາບແມ່ນ ໜ້ອຍ ຫຼາຍ, ຈົນເຖິງຈຸດທີ່ທ່ານຖືວ່າ DSC ແມ່ນເກືອບຈະສູນເສຍໄປ.

Turing ຍັງສະຫນັບສະຫນູນ DisplayPort ກັບການເຊື່ອມຕໍ່ DSC, ແຕ່ວ່າການປະສົມປະສານທີ່ສະຫນັບສະຫນູນຂອງຄວາມລະອຽດສູງແລະອັດຕາການໂຫຼດຫນ້າຈໍຄືນແມ່ນດີກ່ວາ Navi: 4K HDR ທີ່ 144 Hz - ສ່ວນທີ່ເຫຼືອແມ່ນຄືກັນ.

ເຄື່ອງຈັກສື່ຂອງ Navi ມີຄວາມທັນສະ ໄໝ ແລະທັນສະ ໄໝ ຄືກັບເຄື່ອງຈັກສະແດງຂອງມັນ. ລະຫັດວິດີໂອແບບພິເສດ (H.264) ແລະ ລະຫັດວິດີໂອທີ່ມີປະສິດຕິພາບສູງ (H.265), ອີກຄັ້ງ ໜຶ່ງ ໃນຄວາມລະອຽດສູງແລະອັດຕາບິດສູງ.

ເຄື່ອງຈັກວິດີໂອຂອງ Turing ແມ່ນປະມານຄືກັນກັບ Navi, ແຕ່ການສະຫນັບສະຫນູນການເຂົ້າລະຫັດ HDK 8K30 ອາດຊ່ວຍໃຫ້ຄວາມສົມດຸນໃນຄວາມໂປດປານຂອງ Turing ສໍາລັບບາງຄົນ.

ມີອີກແງ່ມຸມ ໜຶ່ງ ທີ່ຈະປຽບທຽບ (ຕົວຢ່າງ: Navi PCI Express 4.0 ອິນເຕີເນັດຂອງ Navi ຫຼື Turing's NV Link), ແຕ່ວ່າມັນແມ່ນຊິ້ນສ່ວນນ້ອຍໆຂອງສະຖາປັດຕະຍະ ກຳ ໂດຍລວມ, ບໍ່ວ່າພວກເຂົາຈະນຸ່ງແລະການຕະຫຼາດກໍ່ຕາມ. ນີ້ແມ່ນຍ້ອນວ່າ ສຳ ລັບຜູ້ ນຳ ໃຊ້ທີ່ມີທ່າແຮງສ່ວນໃຫຍ່, ຄຸນລັກສະນະເຫຼົ່ານີ້ຈະບໍ່ ສຳ ຄັນ.

ການປຽບທຽບທີ່ຄ້າຍຄືກັບ

ບົດຂຽນນີ້ແມ່ນການສັງເກດການອອກແບບສະຖາປັດຕະຍະ ກຳ, ຄຸນລັກສະນະແລະການ ທຳ ງານ, ແຕ່ການມີການປຽບທຽບການປະຕິບັດໂດຍກົງກໍ່ຈະເປັນວິທີທີ່ດີທີ່ຈະ ສຳ ເລັດການວິເຄາະດັ່ງກ່າວ. ເຖິງຢ່າງໃດກໍ່ຕາມ, ການຈັບຄູ່ Navi ໃນ Radeon RX 5700 XT ກັບ Turing TU102 ໃນຊິບ GeForce RTX 2080 Ti ໃນ GeForce RTX 2080 Ti ຈະບໍ່ຍຸດຕິ ທຳ ເພາະວ່າໃນທີ່ສຸດມັນມີເກືອບສອງເທົ່າຂອງ ຈຳ ນວນຫົວ ໜ່ວຍ ທີ່ລວມກັນ. ເຖິງຢ່າງໃດກໍ່ຕາມ, ມັນມີລຸ້ນ Turing ທີ່ສາມາດໃຊ້ ສຳ ລັບການປຽບທຽບ, ແລະທີ່ພົບໃນ GeForce RTX 2070 Super.

  Radeon RX 5700 XT GeForce RTX 2070 Super
GPU | ສະຖາປັດຕະຍະ ກຳ ນາວາ 10 | rDNA TU104 | ຄວາມອິດເມື່ອຍ
ຂະບວນການ 7 nm TSMC 12 nm TSMC
ພື້ນທີ່ແມ່ພິມ (ມມ2) 251 545
Transistors (ຫຼາຍຕື້) 10.3 13.6
ບລັອກໂປຣໄຟລ໌ 2 SE | 4 ACE | 40 PB 5 GPC | 20 TPC | 40 SM
ແກ່ນ shader ເປັນເອກະພາບ 2560 ສ 2560 MIRACLES
TMUs 160 160
ROPS 64 64
ໂມງພື້ນຖານ 1605 MHz 1605 MHz
ໂມງເກມ 1755 MHz N / A
ໂມງປຸກ 1905 MHz 1770 MHz
ຄວາມຊົງ ຈຳ 8 GB 256 ບິດ GDDR6 8 GB 256 ບິດ GDDR6
ແບນວິດ ໜ່ວຍ ຄວາມ ຈຳ 448 GBps 448 GBps
ພະລັງງານອອກແບບຄວາມຮ້ອນ (TDP) 225 ວັດ 215 ສ.

ມັນເປັນມູນຄ່າທີ່ສັງເກດວ່າ RTX 2070 Super ບໍ່ແມ່ນຊິບ 'ເຕັມ' TU104 (ຫນຶ່ງໃນ GPCs ຖືກປິດໃຊ້ງານ), ດັ່ງນັ້ນບໍ່ແມ່ນທັງ ໝົດ 13.6 transistor ເຫຼົ່ານີ້ແມ່ນເຄື່ອນໄຫວ, ໝາຍ ຄວາມວ່າຊິບແມ່ນປະມານຄືກັນໃນແງ່ຂອງການນັບ transistor. ໃນມູນຄ່າຂອງໃບ ໜ້າ, ສອງ GPU ມີລັກສະນະຄ້າຍຄືກັນ, ໂດຍສະເພາະຖ້າທ່ານພິຈາລະນາພຽງແຕ່ ໜ່ວຍ shader, TMUs, ROPs, ແລະລະບົບຫນ່ວຍຄວາມ ຈຳ ຫຼັກ.

ກ່ຽວກັບໂປເຊດເຊີ Nvidia, SM ສາມາດຈັດການກັບກະແສໄຟຟ້າພ້ອມໆກັນໄດ້ 32 ໜ່ວຍ, ແລະພ້ອມດ້ວຍລະບົບສັ່ນສະເທືອນ 32 ເສັ້ນ, ແຕ່ລະລຸ້ນ GeForce RTX 2070 Super ສາມາດແລ່ນໄດ້ 40 ກະທູ້ທົ່ວຊິບທັງ ໝົດ; ສຳ ລັບ Navi, CU ສາມາດໄດ້ຮັບ 16 ຄື້ນຕໍ່ SIMD32 ALU, ແລະແຕ່ລະຄື້ນແມ່ນ 32 ກະທູ້. ດັ່ງນັ້ນ Radeon RX 5700 XT ຍັງສາມາດບັນຈຸກະທູ້ໄດ້ເຖິງ 40,960. ນີ້ອາດເບິ່ງຄືວ່າຈະເຮັດມັນຢູ່ບ່ອນນີ້, ແຕ່ວ່າມັນມີການຈັດແຈງ CU / SMs ທີ່ແຕກຕ່າງກັນແນວໃດແລະປະໂຫຍດຂອງ Nvidia ພ້ອມກັບການປຸງແຕ່ງ INT ແລະ FP ພ້ອມກັນ, ຜົນໄດ້ຮັບຈະຂື້ນກັບລະຫັດທີ່ຖືກ ດຳ ເນີນການ.

ສິ່ງນີ້ຈະມີຜົນກະທົບແນວໃດຕໍ່ການສະແດງເກມຕ່າງໆ, ຍ້ອນວ່າລະຫັດຂອງເຄື່ອງຈັກ 3D ຈະພໍໃຈການກໍ່ສ້າງ ໜຶ່ງ ຂື້ນໄປອີກຂ້າງ ໜຶ່ງ ຂື້ນກັບວ່າ ຄຳ ແນະ ນຳ ປະເພດໃດຖືກສົ່ງໄປຫາ GPU. ມັນ, ທົດສອບສອງບັດກາຟິກ:

ເກມທັງ ໝົດ ທີ່ໃຊ້ໃນການທົດສອບແມ່ນຖືກຈັດເປັນໂປແກຼມໂດຍກົງ ສຳ ລັບເຄື່ອງທີ່ໃຊ້ Radeon ຫຼື ສຳ ລັບສະຖາປັດຕະຍະ ກຳ GCN ຂອງ AMD ຜ່ານ GCN GPUs ທີ່ພົບໃນ PlayStation 4 ຫຼື Xbox One. ມັນເປັນໄປໄດ້ວ່າບາງລຸ້ນທີ່ຜ່ານມາໄດ້ຖືກກະກຽມສໍາລັບການປ່ຽນແປງ RDNA, ແຕ່ວ່າຄວາມແຕກຕ່າງທີ່ເຫັນໃນຜົນໄດ້ຮັບຂອງດັດຊະນີແມ່ນມີຫຼາຍເນື່ອງຈາກເຄື່ອງຈັກເຮັດວຽກແລະວິທີການຄໍາແນະນໍາແລະຂໍ້ມູນຖືກຈັດການ.

ດັ່ງນັ້ນສິ່ງທັງ ໝົດ ນີ້ ໝາຍ ຄວາມວ່າແນວໃດ? ສະຖາປັດຕະຍະ ກຳ ອັນ ໜຶ່ງ ກໍ່ດີກ່ວາສະຖານທີ່ອື່ນບໍ? Turing ແນ່ນອນວ່າມີຄວາມສາມາດຫຼາຍກ່ວາ Navi ຂໍຂອບໃຈກັບ Tensor ແລະ RT Cores, ແຕ່ສຸດທ້າຍແມ່ນການແຂ່ງຂັນຢ່າງແນ່ນອນໃນແງ່ຂອງການປະຕິບັດການສະແດງ 3D. ຄວາມແຕກຕ່າງທີ່ເຫັນໃນ 12 ຕົວຢ່າງຂອງເກມແມ່ນບໍ່ຈະແຈ້ງພໍທີ່ຈະຕັດສິນຢ່າງ ໜັກ ແໜ້ນ.

ແລະນັ້ນແມ່ນຂ່າວດີ ສຳ ລັບພວກເຮົາ.

ຄຳ ສຸດທ້າຍ

Navi ຂອງ AMD ປະ​ກາດ ມັນແມ່ນຢູ່ໃນ 2016 ແລະພວກເຂົາກໍາລັງມຸ່ງໄປສູ່ການເປີດຕົວ 2018, ເຖິງແມ່ນວ່າພວກເຂົາບໍ່ໄດ້ເວົ້າຫຍັງຫຼາຍ. ເມື່ອວັນທີ່ນັ້ນມາແລະໄປ, ແຜນທີ່ເສັ້ນທາງ ປ່ຽນແປງ ເຖິງຢ່າງໃດກໍ່ຕາມ, ມັນເປັນທີ່ຈະແຈ້ງວ່າ Navi ຈະຖືກຜະລິດເຂົ້າໃນ node process 7nm ແລະການອອກແບບຈະສຸມໃສ່ການປັບປຸງປະສິດຕິພາບ.

ນັ້ນແມ່ນແນ່ນອນ, ແລະດັ່ງທີ່ພວກເຮົາໄດ້ເຫັນໃນບົດຂຽນນີ້, AMD ໄດ້ມີການປ່ຽນແປງດ້ານສະຖາປັດຕະຍະ ກຳ ເພື່ອໃຫ້ມັນສາມາດແຂ່ງຂັນກັບການສະ ເໜີ ທີ່ທຽບເທົ່າຂອງ Nvidia. ການອອກແບບ ໃໝ່ ມີປະໂຫຍດຫຼາຍກ່ວາພຽງແຕ່ຜູ້ໃຊ້ຄອມພີວເຕີ້ເທົ່າທີ່ເຮົາຮູ້ແລ້ວວ່າ Sony ແລະ Microsoft ຈະໃຊ້ຊິບທີ່ຫລາກຫລາຍໃນໄລຍະຈະມາເຖິງ. ເຄື່ອງຫຼີ້ນ 5 ve xbox sonraki.

ຖ້າທ່ານກັບໄປຫາຈຸດເລີ່ມຕົ້ນຂອງບົດຄວາມນີ້ແລະເບິ່ງອີກເທື່ອ ໜຶ່ງ ກ່ຽວກັບການອອກແບບໂຄງສ້າງຂອງ Shader Motors, ຂະ ໜາດ ຂອງການເສຍຊີວິດໂດຍລວມແລະຕົວເລກ transistor, ມັນມີຂອບເຂດຢ່າງຈະແຈ້ງ ສຳ ລັບຊິບ 'Navi' ໃຫຍ່ທີ່ຈະອອກມາເທິງ. ບັດກາຟິກລ້າສຸດ; AMD ໄດ້ຢືນຢັນຢ່າງຫຼວງຫຼາຍວ່ານີ້ແມ່ນສ່ວນ ໜຶ່ງ ຂອງແຜນປະຈຸບັນຂອງພວກເຂົາແລະມີຈຸດປະສົງເພື່ອປັບປຸງຂະບວນການສະຖາປັດຕະຍະ ກຳ ແລະການຜະລິດໃນສອງປີຂ້າງ ໜ້າ.

ແຕ່ແຜນ Nvidia ສຳ ລັບ Turing ແລະຜູ້ສືບທອດແມ່ນຫຍັງ? ທີ່ຫນ້າປະຫລາດໃຈ, ພຽງເລັກນ້ອຍໄດ້ຮັບການຢັ້ງຢືນຈາກບໍລິສັດ. ໃນປີ 2014, Nvidia ແຜນທີ່ເສັ້ນທາງ GPU ສະບັບປັບປຸງ ການວາງແຜນ (ແລະປະສົບຜົນ ສຳ ເລັດ) ສະຖາປັດຕະຍະ ກຳ Pascal ສຳ ລັບງານເປີດປີ 2016. ໃນປີ 2017, Tesla ປະກາດ V100ການ ນຳ ໃຊ້ສະຖາປັດຕະຍະ ກຳ Volta, ມັນແມ່ນການອອກແບບນີ້ທີ່ໄດ້ເປີດເຜີຍ Turing ໃນປີ 2018.

ຕັ້ງແຕ່ນັ້ນມາ, ສິ່ງຕ່າງໆໄດ້ງຽບສະຫງັດແລະພວກເຮົາຕ້ອງເພິ່ງພາຂ່າວລືແລະຂ່າວຫຍໍ້, ເຊິ່ງມັກເວົ້າຄືກັນວ່າ: ສະຖາປັດຕະຍະ ກຳ ຕໍ່ໄປຂອງ Nvidia ຈະຖືກເອີ້ນວ່າ Ampere, ຜະລິດໂດຍ Samsung ມັນໃຊ້ node process 7nm ແລະຖືກ ກຳ ນົດໃຫ້ປີ 2020. ນອກ ເໜືອ ຈາກນັ້ນ, ບໍ່ມີສິ່ງອື່ນໃດທີ່ຈະ ດຳ ເນີນຕໍ່ໄປ. ຊິບລຸ້ນ ໃໝ່ ຄົງຈະບໍ່ ທຳ ລາຍປະເພນີໂດຍການສຸມໃສ່ຫົວ ໜ່ວຍ ປະຕິບັດການສະເກັດສະຕິກ, ແລະມັນບໍ່ມີແນວໂນ້ມທີ່ຈະລຸດລັກສະນະຕ່າງໆເຊັ່ນ Tensor Cores, ເພາະວ່ານີ້ຈະເຮັດໃຫ້ເກີດບັນຫາຄວາມເຂົ້າກັນໄດ້ດ້ານຫລັງທີ່ ສຳ ຄັນ.

ພວກເຮົາຍັງສາມາດຄາດເດົາໄດ້ຢ່າງສົມເຫດສົມຜົນກ່ຽວກັບ Nvidia GPU ຕໍ່ໄປຈະເປັນແນວໃດ. ບໍລິສັດໄດ້ລົງທືນແລະ ຈຳ ນວນເງິນທີ່ ສຳ ຄັນ. tracing rayແລະການສະຫນັບສະຫນູນຂອງມັນໃນເກມເທົ່ານັ້ນ ເພີ່ມ​ຂຶ້ນ; ດັ່ງນັ້ນພວກເຮົາສາມາດຄາດຫວັງວ່າຈະໄດ້ເຫັນການປັບປຸງໃນຫຼັກ RT, ໃນແງ່ຂອງຄວາມສາມາດຫລືຕົວເລກຕໍ່ SM. ຖ້າຫາກວ່າຫນຶ່ງ node ຂະບວນການ 7 nm ຖ້າເປັນຄວາມຈິງ, Nvidia ຈະມີຈຸດປະສົງໃນການຫຼຸດຜ່ອນພະລັງງານຫຼາຍກ່ວາການເພີ່ມຄວາມໄວຂອງໂມງໂດຍກົງເພື່ອໃຫ້ພວກເຂົາສາມາດເພີ່ມ ຈຳ ນວນ GPC ໄດ້. ມັນຍັງເປັນໄປໄດ້ວ່າ 7 nm ຖືກຂ້າມແລະ Nvidia ເລີ່ມຕົ້ນ. ຮາບພຽງສໍາລັບ 5 nm ເພື່ອໃຫ້ໄດ້ປະໂຫຍດຫຼາຍກວ່າ AMD.

ເບິ່ງຄືກັບ AMD ແລະ Nvidia, ຕັດບັດກາຟິກ ຕະຫຼາດຈາກ Intel, ດັ່ງທີ່ພວກເຮົາຮູ້ວ່າພວກເຂົາມີແຜນຈະເຂົ້າສູ່ອຸດສາຫະ ກຳ ນີ້ອີກ, ພັກຜ່ອນ 20 ປີ. ຜະລິດຕະພັນ ໃໝ່ ນີ້ (ປະຈຸບັນ ມີຊື່ວ່າ xe) ຈະສາມາດແຂ່ງຂັນກັບ Navi ແລະ Turing ໃນລະດັບດຽວກັນ.

ໃນຂະນະດຽວກັນ, Intel ໄດ້ລອດຊີວິດໃນຕະຫລາດ GPU ໃນສອງທົດສະວັດນີ້ໂດຍການສ້າງພາບປະສົມປະສານ ສຳ ລັບ CPU ຂອງມັນ. GPU ລ້າສຸດຂອງ Intel ປະເພດ 11ມັນຄ້າຍຄືກັນກັບສະຖາປັດຕະຍະ ກຳ ຂອງ AMD ຍ້ອນວ່າມັນໃຊ້ vector ALU ທີ່ສາມາດຈັດການກັບຂໍ້ມູນ FP32 ແລະ INT32, ແຕ່ພວກເຮົາບໍ່ຮູ້ວ່າບັດກາຟິກ ໃໝ່ ຈະເປັນວິວັດທະນາການຂອງການອອກແບບນີ້ໂດຍກົງຫລືບໍ່.

ສິ່ງທີ່ແນ່ນອນແມ່ນອີກສອງສາມປີຂ້າງ ໜ້າ ຈະເປັນທີ່ ໜ້າ ສົນໃຈຫຼາຍໃນຂະນະທີ່ສາມຍັກໃຫຍ່ຂອງໂຄງສ້າງຊິລິໂຄນສືບຕໍ່ສູ້ກັບກະເປົາເງິນຂອງພວກເຮົາ. ການອອກແບບແລະສະຖາປັດຕະຍະ ກຳ ແບບ ໃໝ່ ຂອງ GPU ຈະຊຸກດັນໃຫ້ຕົວເລກ transistor, ຂະ ໜາດ ຂອງ cache ແລະຄວາມສາມາດຂອງ shader; Navi ແລະ RDNA ແມ່ນສິ່ງລ້າສຸດຂອງສິ່ງເຫລົ່ານີ້ແລະໄດ້ສະແດງໃຫ້ເຫັນວ່າທຸກໆບາດກ້າວທີ່ກ້າວ ໜ້າ ສາມາດສ້າງຄວາມແຕກຕ່າງເລັກນ້ອຍ.

ທາງລັດໃນການຊື້:
  • GeForce RTX 2070 Super on Amazon
  • GeForce RTX 2080 Super ສຸດ Amazon
  • GeForce RTX 2080 Ti ສຸດ Amazon
  • Radeon RX 5700 XT ສຸດ Amazon
  • Radeon RX 5700 ສຸດ Amazon
  • GeForce RTX 2060 Super ສຸດ Amazon
  • GeForce GTX 1660 Super ສຸດ Amazon

ບົດຂຽນນີ້ຖືກລົງພິມໃນວັນທີ 7 ສິງຫາ 2019. ພວກເຮົາໄດ້ປັບປຸງແລະຕີລາຄາມັນຂື້ນເລັກນ້ອຍເຊິ່ງເປັນສ່ວນ ໜຶ່ງ ຂອງການລິເລີ່ມ #ThrowbackThursday ຂອງພວກເຮົາ.