ທ່ານໄດ້ຕິດຕາມຂ່າວລືແລະບໍ່ສົນໃຈເລື່ອງ hype; ທ່ານລໍຖ້າ ຄຳ ເຫັນ ແລະເບິ່ງການວັດແທກທັງ ໝົດ. ສຸດທ້າຍ, ທ່ານຕົບເງິນໂດລາຂອງທ່ານແລະຍ່າງ ໜີ ໄປດ້ວຍບັດກາຟິກລ້າສຸດ ໜຶ່ງ ຈາກ AMD ຫຼື Nvidia. ໃນບັນດາພວກມັນ, ໂປເຊດເຊີກາຟິກຂະ ໜາດ ໃຫຍ່ທີ່ເຕັມໄປດ້ວຍເຄື່ອງສົ່ງຕໍ່ໄຟຟ້າຫຼາຍພັນລ້ານຄັນແລ່ນດ້ວຍຄວາມໄວຂອງໂມງເຊິ່ງເປັນສິ່ງທີ່ຄິດບໍ່ໄດ້ເມື່ອ ໜຶ່ງ ທົດສະວັດທີ່ຜ່ານມາ.

ທ່ານມີຄວາມສຸກແທ້ໆກັບການຊື້ຂອງທ່ານແລະເກມບໍ່ໄດ້ເບິ່ງແລະດີກວ່າເກົ່າ. ແຕ່ທ່ານອາດຈະສົງໄສວ່າສິ່ງທີ່ເຮັດໃຫ້ Radeon ໃໝ່ ຂອງທ່ານມີປະສິດທິພາບແທ້. RX 5700 ແລະຊິແຕກຕ່າງກັນແນວໃດໃນຊິບ GeForce RTX.

ຍິນດີຕ້ອນຮັບສູ່ສະຖາປັດຕະຍະ ກຳ ແລະການປຽບທຽບຄຸນລັກສະນະຂອງ AMD ແລະ Nvidia: GPis ຫຼ້າສຸດຂອງ Navi vs Turing.

ການວິເຄາະ GPU ທີ່ທັນສະ ໄໝ

ກ່ອນທີ່ພວກເຮົາຈະເລີ່ມ ທຳ ລາຍລະບົບໂຄງສ້າງແລະລະບົບຊິບທົ່ວໄປ, ເຮົາມາເບິ່ງຮູບແບບພື້ນຖານທີ່ GPUs ທັນສະ ໄໝ ປະຕິບັດຕາມ. ສໍາລັບສ່ວນໃຫຍ່, ໂປເຊດເຊີເຫລົ່ານີ້ແມ່ນພຽງແຕ່ເຄື່ອງຄິດໄລ່ຈຸດລອຍນໍ້າ (FP); ເວົ້າອີກຢ່າງ ໜຶ່ງ, ພວກເຂົາ ດຳ ເນີນການປະຕິບັດງານກ່ຽວກັບເລກຕາມອັດຕານິຍົມ / ອັດຕາສ່ວນ. ສະນັ້ນຢ່າງ ໜ້ອຍ GPU ຕ້ອງມີ ໜ່ວຍ ງານຕາມເຫດຜົນທີ່ອຸທິດໃຫ້ແກ່ວຽກງານເຫຼົ່ານີ້, ແລະສິ່ງເຫຼົ່ານີ້ແມ່ນປົກກະຕິແລ້ວ FP ALUs (ໜ່ວຍ ເລື່ອນຕາມເຫດຜົນເລກຄະນິດສາດ) ຫຼື FPUs ສັ້ນ. ບໍ່ແມ່ນການຄິດໄລ່ທັງ ໝົດ ທີ່ GPU ເຮັດຢູ່ໃນຄ່າຂອງຂໍ້ມູນ FP, ດັ່ງນັ້ນມັນກໍ່ຈະມີ ALU ສຳ ລັບເລກເຕັມ (ເລກເຕັມ) ສາມາດເປັນຫົວ ໜ່ວຍ ດຽວກັນທີ່ຈັດການປະຕິບັດງານທາງເລກຫຼືທັງສອງປະເພດຂໍ້ມູນ.




ດຽວນີ້, ໜ່ວຍ ງານຕາມເຫດຜົນເຫຼົ່ານີ້ຈະຕ້ອງການບາງສິ່ງບາງຢ່າງໃນການຈັດຕັ້ງໃຫ້ເຂົາເຈົ້າໂດຍການຖອດລະຫັດແລະຈັດລະຫັດເພື່ອໃຫ້ພວກເຂົາຄອບຄອງ, ແລະນັ້ນຈະຢູ່ໃນຮູບແບບຢ່າງ ໜ້ອຍ ໜຶ່ງ ໜ່ວຍ ພິເສດ. ບໍ່ຄືກັບ ALU, ພວກເຂົາບໍ່ສາມາດ ດຳ ເນີນໂຄງການໂດຍຜູ້ໃຊ້ສຸດທ້າຍ; ແທນທີ່ຈະ, ຜູ້ຂາຍຮາດແວຈະຮັບປະກັນວ່າຂະບວນການນີ້ຖືກຈັດການຢ່າງເຕັມສ່ວນໂດຍ GPU ແລະຄົນຂັບລົດຂອງມັນ.




ມັນຍັງຕ້ອງມີໂຄງສ້າງຄວາມຊົງ ຈຳ ບາງປະເພດເພື່ອເກັບຮັກສາ ຄຳ ແນະ ນຳ ເຫຼົ່ານີ້ແລະຂໍ້ມູນທີ່ ຈຳ ເປັນຕ້ອງໄດ້ປະມວນຜົນ. ໃນລະດັບທີ່ງ່າຍທີ່ສຸດ, ມັນຈະເປັນສອງຮູບແບບ: cache ແລະຈຸດໃດ ໜຶ່ງ ຄວາມຊົງ ຈຳ ໃນທ້ອງຖິ່ນ. ໂຕ ທຳ ອິດຈະຖືກຝັງຢູ່ໃນ GPU ແລະ ຖິ້ມ. ປະເພດຂອງຫນ່ວຍຄວາມ ຈຳ ນີ້ແມ່ນໄວ, ແຕ່ມັນໃຊ້ເວລາຂ້ອນຂ້າງຫຼາຍຂອງຮູບແບບຂອງໂປເຊດເຊີ. ຄວາມຊົງ ຈຳ ໃນທ້ອງຖິ່ນ DRAMAມັນຈະຊ້າກວ່າ SRAM ແລະປົກກະຕິບໍ່ໄດ້ໃສ່ GPU. ຄວາມຊົງ ຈຳ ໃນທ້ອງຖິ່ນໃນບັດກາຟິກສ່ວນຫຼາຍທີ່ພວກເຮົາເຫັນໃນມື້ນີ້ GDDR ໂມດູນ DRAM.

ສຸດທ້າຍ, ມັນປະກອບມີວຽກງານການຕັ້ງຄ່າເພີ່ມເຕີມເຊັ່ນ: ການສ້າງຮູບພາບ 3D, ການສ້າງສາມຫຼ່ຽມຈາກມຸມ, rasterizing ກອບ 3D, ການເກັບຕົວຢ່າງແລະການຜະສົມຜະສານ. ຄ້າຍຄືກັບ ໜ່ວຍ ງານການສິດສອນແລະຄວບຄຸມ, ສິ່ງເຫຼົ່ານີ້ກໍ່ຄືກັນ ຫນ້າທີ່ຄົງທີ່ ໃນ ທຳ ມະຊາດ. ສິ່ງທີ່ພວກເຂົາເຮັດແລະວິທີທີ່ພວກເຂົາເຮັດວຽກແມ່ນມີຄວາມໂປ່ງໃສຢ່າງສົມບູນຕໍ່ຜູ້ໃຊ້ທີ່ຂຽນໂປແກຼມແລະໃຊ້ GPU.




ໃຫ້ຂອງໃສ່ກັນແລະເຮັດ GPU ເປັນ:




ທ່ອນໄມ້ສີສົ້ມແມ່ນຫົວ ໜ່ວຍ ທີ່ປະມວນຜົນໂຄງສ້າງໂດຍໃຊ້ສິ່ງທີ່ເອີ້ນວ່າ ຫົວ ໜ່ວຍ ແຜນທີ່ໂຄງສ້າງ (TMU'lar) - TA ທີ່ຢູ່ໂຄງສ້າງ ປະລິມານ - ສ້າງສະຖານທີ່ ໜ່ວຍ ຄວາມ ຈຳ ສຳ ລັບ cache ແລະ ໜ່ວຍ ຄວາມ ຈຳ ທ້ອງຖິ່ນເພື່ອ ນຳ ໃຊ້ - ແລະ TF ບໍ່ເອົາມາໃຫ້ໂຄງສ້າງ ລວບລວມຄຸນຄ່າໂຄງສ້າງຈາກຄວາມຊົງ ຈຳ ແລະເຮັດໃຫ້ພວກມັນຢູ່ ນຳ ກັນ. ໃນມື້ນີ້, TMUs ແມ່ນມີຄວາມຄືກັນຫຼາຍໃນທົ່ວຜູ້ຂາຍທຸກຄົນເພາະວ່າພວກເຂົາສາມາດຈັດການ, ຕົວຢ່າງ, ແລະຜະສົມຜະສານຄຸນຄ່າຂອງໂຄງສ້າງຫຼາຍຢ່າງຕໍ່ວົງຈອນໂມງ GPU.




ທ່ອນໄມ້ຂ້າງລຸ່ມຂຽນຄ່າສີຂອງ pixels ໃນກອບ, ຕົວຢ່າງໃຫ້ພວກເຂົາກັບຄືນ (PO) ແລະປະສົມ (PB); ທ່ອນໄມ້ນີ້ຍັງປະຕິບັດການປະຕິບັດງານທີ່ໃຊ້ໃນເວລາທີ່ຕ້ານການປອມແປງຖືກນໍາໃຊ້. ຊື່ຂອງທ່ອນໄມ້ນີ້: ສະແດງຫົວ ໜ່ວຍ ຜົນຜະລິດ or ສ້າງ backend (ROP / RB ເປັນໄລຍະສັ້ນ). ເຊັ່ນດຽວກັບ TMU, ດຽວນີ້ພວກເຂົາ ກຳ ລັງກາຍເປັນມາດຕະຖານທີ່ຖືກຕ້ອງ, ແຕ່ລະອັນສະດວກສະບາຍຈັດການກັບພິກະເຊນ ຈຳ ນວນ ໜຶ່ງ ຕໍ່ວົງຈອນໂມງ.

ເຖິງຢ່າງໃດກໍ່ຕາມ, GPU ຂັ້ນພື້ນຖານຂອງພວກເຮົາກໍ່ຈະເປັນສິ່ງທີ່ ໜ້າ ຢ້ານກົວເຖິງແມ່ນວ່າມາດຕະຖານ 13 ປີກ່ອນ. ຍ້ອນຫຍັງ?

ມີພຽງ FPU, TMU ແລະ ROP ເທົ່ານັ້ນ. ໃນປີ 2006, ໂປແກຼມສ້າງກາຟິກຂອງ Nvidia ເຊັ່ນ GeForce 8800 GTX ມີ 128, 32 ແລະ 24 ຕາມ ລຳ ດັບ. ສະນັ້ນໃຫ້ເລີ່ມຕົ້ນເຮັດບາງສິ່ງບາງຢ່າງກ່ຽວກັບເລື່ອງນີ້….




ເຊັ່ນດຽວກັບຜູ້ຜະລິດໂຮງງານຜະລິດທີ່ດີ, ພວກເຮົາໄດ້ປັບປຸງ GPU ໂດຍການເພີ່ມບາງ ໜ່ວຍ ຕື່ມ. ນີ້ຫມາຍຄວາມວ່າຊິບສາມາດປະຕິບັດຄໍາແນະນໍາເພີ່ມເຕີມໃນເວລາດຽວກັນ. ເພື່ອຊ່ວຍໃນເລື່ອງນີ້, ພວກເຮົາໄດ້ເພີ່ມບາງຖານຂໍ້ມູນເພີ່ມເຕີມ, ແຕ່ເວລານີ້ຢູ່ຂ້າງ ໜ່ວຍ ງານເຫດຜົນ. ຖານຄວາມ ຈຳ ທີ່ໃກ້ຊິດກວ່ານີ້ແມ່ນໂຄງສ້າງຂອງເຄື່ອງຄິດໄລ່, ມັນສາມາດເລີ່ມຕົ້ນໄດ້ໄວຂຶ້ນໃນການເຮັດທຸລະ ກຳ ທີ່ຖືກມອບ ໝາຍ ໃຫ້.

ບັນຫາກັບການອອກແບບ ໃໝ່ ຂອງພວກເຮົາແມ່ນມີພຽງຜູ້ຄວບຄຸມ ໜຶ່ງ ດຽວເທົ່ານັ້ນທີ່ສາມາດຈັດການກັບ ALU ພິເສດຂອງພວກເຮົາ. ມັນຈະເປັນການດີກວ່າຖ້າພວກເຮົາມີທ່ອນໄມ້ຫຼາຍ ໜ່ວຍ, ທັງ ໝົດ ແມ່ນຄວບຄຸມໂດຍຜູ້ຄວບຄຸມແຍກຕ່າງຫາກຂອງພວກເຂົາ, ເພາະວ່ານີ້ ໝາຍ ຄວາມວ່າພວກເຮົາສາມາດປະຕິບັດງານທີ່ແຕກຕ່າງກັນຫຼາຍໃນເວລາດຽວກັນ.

ໃນປັດຈຸບັນນີ້ແມ່ນຫຼາຍ! ທ່ອນໄມ້ ALU ແຍກຕ່າງຫາກທີ່ບັນຈຸດ້ວຍ TMUs ແລະ ROP ຂອງພວກເຂົາເອງແລະສະ ໜັບ ສະ ໜູນ ໂດຍແຊບແຊບ, ແຊບໄວ. ມັນຍັງເປັນພຽງ ໜຶ່ງ ໃນທຸກຢ່າງ, ແຕ່ໂຄງສ້າງພື້ນຖານບໍ່ແມ່ນ ໜຶ່ງ ລ້ານໄມຫ່າງຈາກໂປເຊດເຊີກາຟິກທີ່ພວກເຮົາເຫັນຢູ່ໃນຄອມພີວເຕີ້ແລະເຄື່ອງຫຼີ້ນຕ່າງໆໃນປະຈຸບັນ.

Navi ve Turing: Godzilla GPU'ları

ຕອນນີ້ພວກເຮົາໄດ້ ກຳ ນົດຮູບແບບພື້ນຖານຂອງຊິບກາຟິກ, ເຖິງແມ່ນວ່າມັນໄດ້ຖືກຂະຫຍາຍແລະປຸງແຕ່ງເລັກນ້ອຍເພື່ອເນັ້ນໂຄງສ້າງຕ່າງໆ, Navi vs. ໃຫ້ເລີ່ມຕົ້ນການປຽບທຽບ Turing ຂອງພວກເຮົາ.

ຢູ່ເບື້ອງຊ້າຍແມ່ນໂຮງງານຜະລິດຫຼ້າສຸດຂອງ AMD. ການອອກແບບຊິບຊິບທົ່ວໄປເອີ້ນວ່າ Navi (ບາງຄົນເອີ້ນວ່າ Navi 10) ແລະສະຖາປັດຕະຍະ ກຳ ກຣາຟິກເອີ້ນວ່າ RDNA. ຖັດຈາກມັນ, ຢູ່ເບື້ອງຂວາ, ແມ່ນໂຮງງານຜະລິດ TU102 ຂະ ໜາດ ເຕັມຂອງ Nvidia ພ້ອມດ້ວຍສະຖາປັດຕະຍະ ກຳ Turing ລ້າສຸດ. ມັນເປັນສິ່ງສໍາຄັນທີ່ຈະສັງເກດວ່າຮູບພາບເຫຼົ່ານີ້ບໍ່ໄດ້ຂະຫຍາຍ: ພື້ນທີ່ຂອງ Navi ຕາຍແມ່ນ 251 mm2, ໃນຂະນະທີ່ TU102 ແມ່ນ 752 mm2. ໂປເຊດເຊີ Nvidia ແມ່ນໃຫຍ່, ແຕ່ບໍ່ໃຫຍ່ກວ່າການສະ ເໜີ ຂອງ AMD 8 ເທົ່າ!

ທັງສອງ colossal ຈໍານວນຂອງ transistor (10.3 ທຽບກັບ 18.6 ຕື້), ແຕ່ TU102 ມີຄ່າສະເລ່ຍຂອງ ~ 25 ລ້ານຕໍ່ໂຕຕໍ່ມມທຽບກັບ Navi 41 ລ້ານຕໍ່ຕາແມັດ.

ນີ້ແມ່ນຍ້ອນວ່າໃນຂະນະທີ່ທັງສອງຊິບຖືກຜະລິດໂດຍ TSMC, ພວກມັນຖືກຜະລິດໃນລະບົບຂະບວນການທີ່ແຕກຕ່າງກັນ: Nvidia's Turing ແມ່ນຢູ່ໃນສາຍການຜະລິດທີ່ມີຂະ ໜາດ 12 nm, ໃນຂະນະທີ່ Navi ຂອງ AMD ແມ່ນຜະລິດຢູ່ໃນ node ໃໝ່ 7 nm.

ພຽງແຕ່ເບິ່ງຮູບພາບຂອງແມ່ພິມບໍ່ໄດ້ບອກພວກເຮົາຫຼາຍກ່ຽວກັບສະຖາປັດຕະຍະ ກຳ, ສະນັ້ນໃຫ້ພິຈາລະນາເບິ່ງແຜນວາດ GPU ທີ່ຜະລິດໂດຍບໍລິສັດທັງສອງ.

ແຜນວາດບໍ່ແມ່ນການເປັນຕົວແທນ 100% ຂອງການຈັດວາງຕົວຈິງ, ແຕ່ຖ້າທ່ານ ໝຸນ ພວກມັນ 90 ອົງສາ, ທ່ອນໄມ້ຕ່າງໆແລະແຖບກາງປະກົດຢູ່ທັງສອງສາມາດ ກຳ ນົດໄດ້. ເພື່ອເລີ່ມຕົ້ນ, ພວກເຮົາສາມາດເຫັນໄດ້ວ່າ GPU ທັງສອງມີໂຄງສ້າງທົ່ວໄປຄືກັບພວກເຮົາ (ເຖິງແມ່ນວ່າຈະມີຫຼາຍກ່ວາສິ່ງອື່ນໃດກໍ່ຕາມ!).

ການອອກແບບທັງສອງປະຕິບັດຕາມວິທີການຈັດວາງແລະວິທີການຈັດລຽງແລະຈັດເປັນກຸ່ມ - ເພື່ອເລີ່ມຕົ້ນໃຊ້ Navi, GPU ປະກອບດ້ວຍ 2 ທ່ອນທີ່ AMD ກຳ ລັງຊອກຫາຢູ່. ລົດ Shader (SE), ພວກມັນແຕ່ລະເອີ້ນວ່າ 2 ທ່ອນໄມ້ ບໍ່ສະເຫມີພາບ ເຄື່ອງຈັກຄອມພິວເຕີ້ (ACE). ແຕ່ລະທ່ອນເຫຼົ່ານີ້ມີ 5 ທ່ອນຢູ່ໃນຫົວຂໍ້. ຜູ້ປະກອບການໃນກຸ່ມ (WGPs), ເຊິ່ງປະກອບດ້ວຍ 2 ໜ່ວຍ ງານປະມວນຜົນຂໍ້ມູນຂ່າວສານ (Öze).

ຊື່ແລະຕົວເລກແມ່ນແຕກຕ່າງກັນ ສຳ ລັບການອອກແບບ Turing, ແຕ່ ລຳ ດັບຊັ້ນແມ່ນຄ້າຍຄືກັນ: 6 ກຸ່ມການປຸງແຕ່ງຮູບພາບ (GPC), 6 ແຕ່ລະຄົນ ກຸ່ມປຸງແຕ່ງໂຄງສ້າງ (TPC), 2 ແຕ່ລະອັນ ກະແສ Multiprocessor (SM) ຕັນ.

ຖ້າທ່ານເບິ່ງໂຮງງານຜະລິດກາຟິກເປັນໂຮງງານຂະ ໜາດ ໃຫຍ່ທີ່ພະແນກຕ່າງໆຜະລິດຜະລິດຕະພັນທີ່ແຕກຕ່າງກັນໂດຍ ນຳ ໃຊ້ວັດຖຸດິບດຽວກັນ, ອົງກອນນີ້ເລີ່ມມີຄວາມ ໝາຍ. ຊີອີໂອຂອງໂຮງງານສົ່ງລາຍລະອຽດການປະຕິບັດງານທັງ ໝົດ ໃຫ້ກັບທຸລະກິດແລ້ວແບ່ງອອກເປັນວຽກແລະພາລະວຽກຕ່າງໆ. ມີຫຼາຍກ່ວາ ໜຶ່ງ, ເອກະລາດ ສະມັດຕະພາບຂອງ ກຳ ລັງແຮງງານໄດ້ເພີ່ມຂື້ນທີ່ໂຮງງານ. ມັນບໍ່ແຕກຕ່າງກັນ ສຳ ລັບ GPUs ແລະນີ້ແມ່ນ ຄຳ ສຳ ຄັນຂອງເວດມົນ ໄລຍະເວລາ.

ສູນກາງແລະສູນ, ທະຫານ - ກຳ ນົດເວລາແລະການປົດປ່ອຍ

ວິທີການທີ່ພວກເຮົາເບິ່ງ ບົດຝຶກຫັດການສ້າງເກມ 3Dພວກເຮົາໄດ້ເຫັນວ່າໂປເຊດເຊີກາຟິກບໍ່ມີຫຍັງອີກນອກ ເໜືອ ຈາກເຄື່ອງຄິດໄລ່ໄວໄວໂດຍການປະຕິບັດຊຸດການເຮັດວຽກຂອງເລກໃນຫລາຍລ້ານຂໍ້ມູນ. Navi ແລະ Turing ຖືກຈັດປະເພດດັ່ງນີ້: ຄໍາສັ່ງດຽວຫຼາຍຂໍ້ມູນ ໂປເຊດເຊີຊິມ (ຊິມ), ແຕ່ ຄຳ ອະທິບາຍທີ່ດີກວ່າ Single Way Multi ກະທູ້ (ຄວາມຮູ້ສຶກ).

ເກມ 3D ທີ່ທັນສະ ໄໝ ຜະລິດກະທູ້ຫຼາຍຮ້ອຍຫົວ, ບາງຄັ້ງເປັນພັນໆ, ຍ້ອນວ່າ ຈຳ ນວນແນວຕັ້ງແລະ ໜ້າ ຈໍທີ່ຈະ ນຳ ມາໃຊ້ແມ່ນໃຫຍ່ຫຼວງຫຼາຍ. ເພື່ອຮັບປະກັນວ່າມັນເຮັດໄດ້ທັງ ໝົດ ພຽງແຕ່ສອງສາມມິເຕີ, ມັນເປັນສິ່ງ ສຳ ຄັນທີ່ຈະຕ້ອງມີ ໜ່ວຍ ງານຕາມເຫດຜົນຫຼາຍເທົ່າທີ່ຈະເປັນໄປໄດ້ໂດຍບໍ່ຕ້ອງຢຸດທຸກຢ່າງເພາະວ່າຂໍ້ມູນທີ່ຕ້ອງການບໍ່ຢູ່ໃນສະຖານທີ່ທີ່ ເໝາະ ສົມຫຼືບໍ່ມີພື້ນທີ່ໃນການໃຊ້ງານຢ່າງພຽງພໍ.

ເມື່ອພວກເຮົາພິຈາລະນາເບິ່ງວ່າການສ້າງເກມ 3D ເຮັດວຽກໄດ້ແນວໃດ, ພວກເຮົາໄດ້ເຫັນວ່າໂປແກຼມກາຟິກບໍ່ມີຫຍັງນອກ ເໜືອ ຈາກເຄື່ອງຄິດໄລ່ທີ່ໄວແທ້ໆ, ແລະພວກເຮົາໄດ້ປະຕິບັດການປະຕິບັດການກ່ຽວກັບຄະນິດສາດຕ່າງໆໃນຂໍ້ມູນຫລາຍລ້ານຂໍ້. Navi ແລະ Turing ໄດ້ຖືກຈັດປະເພດເປັນໂປເຊດເຊີ Single Data Multiple Data (SIMD), ແຕ່ ຄຳ ອະທິບາຍທີ່ດີກວ່າແມ່ນ Single Command Threads (SIMT).

Navi ແລະ Turing ເຮັດວຽກຄ້າຍຄືກັນດັ່ງນັ້ນ ໜ່ວຍ ງານສູນກາງໃຊ້ເວລາກະທູ້ທັງ ໝົດ ແລະຈາກນັ້ນກໍ່ເລີ່ມຂຽນໂປແກຼມແລະອອກອາກາດ. ໃນຊິບ AMD, ບົດບາດນີ້ ຜູ້ປະກອບຮູບພາບ ຄຳ ສັ່ງກຣາບຟິກ; Nvidia'da, GigaThread Motoru. ກະທູ້ຖືກຈັດແຈງເພື່ອໃຫ້ຜູ້ທີ່ມີ ຄຳ ແນະ ນຳ ດຽວກັນຖືກຈັດເຂົ້າກັນເປັນກຸ່ມລວມ 32 ກຸ່ມ.

AMD ຊຸດສະສົມນີ້ ຄື້ນໃນຂະນະທີ່ Nvidia ນີ້ ໂຄ້ງ. ສຳ ລັບ Navi, ໜ່ວຍ ງານຄອມພິວເຕີ້ສາມາດຈັດການ 2 ຄື້ນ (ຫລືຄື້ນຂອງ 64 ກະທູ້, ແຕ່ວ່າຂະບວນການນີ້ໃຊ້ເວລາດົນກວ່າສອງເທົ່າ) ແລະໃນ Turing Stream Multiprocessor ແລ່ນດ້ວຍ 4 warps. ໃນທັງສອງແບບ, ຄື້ນ / warp ແມ່ນເອກະລາດ, ໝາຍ ຄວາມວ່າອີກບໍ່ ຈຳ ເປັນຕ້ອງເຮັດໃຫ້ມັນ ສຳ ເລັດກ່ອນເລີ່ມຕົ້ນ.

ຈົນກ່ວານັ້ນ, ມັນບໍ່ແຕກຕ່າງກັນຫຼາຍລະຫວ່າງ Navi ແລະ Turing - ທັງສອງຖືກອອກແບບມາເພື່ອຈັດການກັບກະທູ້ເປັນ ຈຳ ນວນຫລາຍ ສຳ ລັບວຽກງານການກໍ່ສ້າງແລະຄອມພິວເຕີ້. ພວກເຮົາຕ້ອງເບິ່ງທີ່ໂຮງງານຜະລິດກະທູ້ເຫຼົ່ານີ້ແມ່ນເພື່ອເບິ່ງບ່ອນທີ່ຍັກໃຫຍ່ GPU ສອງແຍກອອກແບບ.

ຄວາມແຕກຕ່າງຂອງຜູ້ບໍລິຫານ - RDNA ແລະ CUDA

ໃນຂະນະທີ່ ຄຳ ສັບທີ່ໃຊ້ໃນ ຄຳ ສັບສ່ວນໃຫຍ່ເບິ່ງຄືວ່າມັນຄ້າຍຄືກັນ, AMD ແລະ Nvidia ໃຊ້ວິທີການທີ່ແຕກຕ່າງກັນຫຼາຍກວ່າເກົ່າໃນການລວມເອົາຫົວ ໜ່ວຍ shader. ໜ່ວຍ ງານປະຕິບັດງານຂອງ Nvidia (MIRACLES ແກ່ນ) ດິຈິຕອນ ໃນລັກສະນະ - ນີ້ ໝາຍ ຄວາມວ່າ ໜ່ວຍ ໜ່ວຍ ໜຶ່ງ ດຳ ເນີນການປະຕິບັດງານທາງຄະນິດສາດກ່ຽວກັບສ່ວນປະກອບຂໍ້ມູນ; ບໍ່ຄືກັບຫນ່ວຍງານ AMD (ໂຮງງານຜະລິດກະແສໄຟຟ້າ) ເຮັດວຽກ vectors - ການ ດຳ ເນີນງານກ່ຽວກັບສ່ວນປະກອບຂໍ້ມູນຫຼາຍຢ່າງ. ມີພຽງ ໜ່ວຍ ດຽວສະເພາະ ສຳ ລັບການຜ່າຕັດສະເກັດເງິນ.

ກ່ອນທີ່ພວກເຮົາຈະພິຈາລະນາຢ່າງລະອຽດກ່ຽວກັບ ໜ່ວຍ ງານປະຕິບັດ, ໃຫ້ພິຈາລະນາການປັບປ່ຽນຂອງ AMD ເອງ. ເປັນເວລາ 7 ປີ, ບັດກາຟິກ Radeon ໄດ້ຕິດຕາມສະຖາປັດຕະຍະ ກຳ ທີ່ເອີ້ນວ່າ Graphics Core Next (GCN). ແຕ່ລະຊິບ ໃໝ່ ໄດ້ແກ້ໄຂຫຼາຍຮູບແບບຂອງການອອກແບບ, ແຕ່ມັນທັງ ໝົດ ແມ່ນພື້ນຖານຄືກັນ.

AMD ນຳ ສະ ເໜີ ປະຫວັດຫຍໍ້ຂອງສະຖາປັດຕະຍະ ກຳ GPU:

GCN ແມ່ນວິວັດທະນາການຂອງ TeraScale, ເຊິ່ງເປັນການອອກແບບທີ່ຊ່ວຍໃຫ້ຄື້ນຂະ ໜາດ ໃຫຍ່ສາມາດປະມວນຜົນພ້ອມກັນໄດ້. ສິ່ງທີ່ ສຳ ຄັນກັບ TeraScale ແມ່ນວ່າມັນບໍ່ແມ່ນເລື່ອງງ່າຍ ສຳ ລັບນັກຂຽນໂປແກຼມແລະ ຈຳ ເປັນຕ້ອງມີນິໄສທີ່ແນ່ນອນເພື່ອຈະໄດ້ຜົນດີທີ່ສຸດ. GCN ໄດ້ແກ້ໄຂສິ່ງນີ້ແລະໃຫ້ເວທີທີ່ສາມາດເຂົ້າເຖິງໄດ້ງ່າຍຂື້ນ.

CUs ໃນ Navi ໄດ້ຖືກປັບປຸງ ໃໝ່ ຢ່າງຫຼວງຫຼາຍຈາກ GCN ເຊິ່ງເປັນສ່ວນ ໜຶ່ງ ຂອງຂະບວນການປັບປຸງຂອງ AMD. CU ແຕ່ລະຊຸດມີສອງຊຸດ:

  • 32 SP (IEE754 FP32 ແລະ INT32 vector ALUs)
  • 1 SFU
  • 1 INT32 ເກັດ ALU
  • 1 ໜ່ວຍ ກຳ ນົດເວລາແລະຈັດສົ່ງສິນຄ້າ

ນອກ ເໜືອ ຈາກນີ້, CU ແຕ່ລະ ໜ່ວຍ ມີ 4 ຈຸລັງຈຸລັງ. ມີ ໜ່ວຍ ງານອື່ນອີກທີ່ເຮັດການປະຕິບັດການອ່ານ / ຂຽນຂໍ້ມູນຈາກຖານຄວາມ ຈຳ, ແຕ່ບໍ່ສະແດງຢູ່ໃນຮູບຂ້າງລຸ່ມນີ້:

ເມື່ອປຽບທຽບກັບ GCN, ການຈັດຕັ້ງ RDNA CU ອາດຈະບໍ່ແຕກຕ່າງກັນຫຼາຍ, ແຕ່ທຸກຢ່າງທີ່ ສຳ ຄັນຢູ່ທີ່ນີ້ແມ່ນຖືກຈັດຕັ້ງແລະຈັດຕັ້ງແບບນີ້. ເພື່ອເລີ່ມຕົ້ນ, ແຕ່ລະຊຸດຂອງ 32 SP ມີ ໜ່ວຍ ງານການສິດສອນທີ່ອຸທິດຕົນເອງ, GCN ມີພຽງແຕ່ ໜຶ່ງ ໂປແກມ ສຳ ລັບ 4 ຊຸດຂອງ 16 SP.

ນີ້ແມ່ນການປ່ຽນແປງທີ່ ສຳ ຄັນ, ໝາຍ ຄວາມວ່າ ໜຶ່ງ ກະແສໄຟຟ້າ 32 ກະທູ້ຕໍ່ວົງຈອນໂມງສາມາດສົ່ງຕໍ່ຊຸດ SP ແຕ່ລະຊຸດ. ສະຖາປັດຕະຍະ ກຳ RDNA ຍັງຊ່ວຍໃຫ້ຫົວ ໜ່ວຍ vector ສາມາດປະມວນຜົນຄື້ນຂອງ 16 ກະທູ້ໃນຄວາມໄວສອງເທົ່າແລະຄື້ນຂອງ 64 ກະທູ້ໃນເຄິ່ງ ໜຶ່ງ, ສະນັ້ນລະຫັດທີ່ຂຽນໄວ້ ສຳ ລັບບັດກາຟິກ Radeon ທັງ ໝົດ ແມ່ນຍັງສະ ໜັບ ສະ ໜູນ ຢູ່.

ການປ່ຽນແປງເຫຼົ່ານີ້ຈະເປັນທີ່ນິຍົມຫຼາຍ ສຳ ລັບນັກພັດທະນາເກມ.

ສຳ ລັບການປະຕິບັດງານຂອງສະເກັດ, ປະຈຸບັນມີສອງ ໜ່ວຍ ງານທີ່ສາມາດຈັດການກັບພວກມັນ; ການຫຼຸດຜ່ອນ ຈຳ ນວນອົງປະກອບດຽວແມ່ນຢູ່ໃນຮູບແບບຂອງ SFUs - ເຫຼົ່ານີ້ແມ່ນ ໜ້າ ທີ່ພິເສດ ຫົວ ໜ່ວຍປະຕິບັດການ ດຳ ເນີນງານທາງຄະນິດສາດສະເພາະ, ຕົວຢ່າງ. trigonometric (sine, tangent), ຕ່າງຝ່າຍຕ່າງ (1 ແບ່ງຕາມ ຈຳ ນວນ) ແລະຮາກສີ່ຫລ່ຽມ. RDNA ມີຂໍ້ມູນເຫຼົ່ານີ້ ໜ້ອຍ ກວ່າ GCNs, ແຕ່ດຽວນີ້ພວກເຂົາສາມາດປະຕິບັດງານກ່ຽວກັບຊຸດຂໍ້ມູນທີ່ໃຫຍ່ກວ່າສອງເທົ່າຂອງແຕ່ກ່ອນ.

ການປ່ຽນແປງເຫຼົ່ານີ້ຈະເປັນທີ່ນິຍົມຫຼາຍ ສຳ ລັບນັກພັດທະນາເກມ. ມີການປະຕິບັດງານທີ່ມີທ່າແຮງຫຼາຍໃນບັດກາຟິກ Radeon ເກົ່າ, ແຕ່ວ່າມັນຍາກຫຼາຍທີ່ຈະເຮັດ. ດຽວນີ້ AMD ໄດ້ກ້າວສູ່ບາດກ້າວອັນໃຫຍ່ຫຼວງຕໍ່ການຫຼຸດຜ່ອນຄວາມອີ່ມ ໜຳ ສຳ ລານໃນ ຄຳ ແນະ ນຳ ໃນການປະມວນຜົນແລະຮັກສາຄຸນລັກສະນະຕ່າງໆເພື່ອຮັບປະກັນຄວາມເຂົ້າກັນດ້ານຫລັງ ສຳ ລັບທຸກໆໂປແກຼມທີ່ຖືກອອກແບບ ສຳ ລັບສະຖາປັດຕະຍະ ກຳ GCN.

ຈະເປັນແນວໃດກ່ຽວກັບກາຟິກມືອາຊີບຫລືຕະຫຼາດຄອມພິວເຕີ້? ການປ່ຽນແປງເຫຼົ່ານີ້ມີຜົນດີຕໍ່ພວກເຂົາຄືກັນບໍ?

ຄຳ ຕອບສັ້ນໆແມ່ນແມ່ນ (ອາດຈະ). ຊິບ Navi ລຸ້ນ ໃໝ່ ໃນປະຈຸບັນທີ່ພົບໃນ Radeon RX 5700 XT ທີ່ຄ້າຍຄືກັນມີ Stream Processors ໜ້ອຍ ກວ່າການອອກແບບ Vega ທີ່ຜ່ານມາ, ໃນຂະນະທີ່ ພວກເຮົາປະຕິບັດໄດ້ດີກວ່າ ລຸ້ນກ່ອນ Radeon RX Vega 56 ແມ່ນງ່າຍດາຍ:

ບາງສ່ວນຂອງການເພີ່ມປະສິດທິພາບນີ້ຈະມາຈາກຄວາມໄວໂມງສູງກວ່າເກົ່າຂອງ RX 5700 XT ກວ່າ RX Vega 56 (ດັ່ງນັ້ນມັນສາມາດຂຽນພິກະເຊນຫຼາຍຂື້ນຕໍ່ວິນາທີເຖິງ ໜ່ວຍ ຄວາມ ຈຳ ຂອງທ້ອງຖິ່ນ), ແຕ່ຫຼຸດລົງຫຼາຍເທົ່າກັບ 15% ໃນອັດຕາສ່ວນສູງສຸດແລະຈຸດລອຍ ນຳ ້; ເຖິງຢ່າງໃດກໍ່ຕາມ, ພວກເຮົາພົບວ່າຊິບ Navi ປະຕິບັດໄດ້ດີກ່ວາ Vega 18%.

ນັກວິທະຍາສາດທີ່ ກຳ ລັງ ດຳ ເນີນໂຄງການການສະແດງແບບມືອາຊີບແລະສູດການຄິດໄລ່ທີ່ສັບສົນບໍ່ໄດ້ລະເບີດກັບ Battlefield V ສອງສາມຮອບໃນການເຮັດວຽກຂອງພວກເຂົາ (i. e. ອາດ​ຈະ​ເປັນ... ) ພຽງແຕ່ຖ້າການປະຕິບັດງານ scalar, vector ແລະ matrix ທີ່ປະຕິບັດຢູ່ໃນເຄື່ອງຈັກເກມແມ່ນຖືກປະມວນຜົນໄວຂຶ້ນ ເຮືອ ປ່ຽນເປັນຕະຫຼາດຄອມພິວເຕີ້. ໃນປະຈຸບັນ, ພວກເຮົາບໍ່ຮູ້ວ່າແຜນການຂອງ AMD ສຳ ລັບຕະຫຼາດມືອາຊີບແມ່ນຫຍັງ - ພວກເຂົາສາມາດເຮັດໄດ້ດີກັບສະຖາປັດຕະຍະ ກຳ Vega ແລະຊ່ວຍປັບປຸງການອອກແບບ, ການຜະລິດ, ແຕ່ຍ້ອນວ່າມີຄວາມກ້າວ ໜ້າ ໃນ Navi, ບໍລິສັດໄດ້ຍ້າຍທຸກຢ່າງໄປສູ່ສະຖາປັດຕະຍະ ກຳ ໃໝ່.

ການອອກແບບ GPU ຂອງ Nvidia ໄດ້ຜ່ານວິວັດທະນາການທີ່ຄ້າຍຄືກັນຕັ້ງແຕ່ປີ 2006, ໃນເວລາທີ່ພວກເຂົາເປີດຕົວຊຸດ GeForce 8, ເຖິງແມ່ນວ່າຈະມີການປ່ຽນແປງທີ່ອ່ອນແອຫຼາຍກ່ວາ AMD. GPU ນີ້ໄດ້ສ້າງສະຖາປັດຕະຍະ ກຳ ທຳ ອິດຂອງ Tesla ເພື່ອ ນຳ ໃຊ້ວິທີການ shader ໃນສະຖາປັດຕະຍະ ກຳ ປະຕິບັດ. ຂ້າງລຸ່ມນີ້ພວກເຮົາສາມາດເຫັນການປ່ຽນແປງຂອງທ່ອນໄມ້ SM ຈາກຜູ້ສືບທອດຕໍ່ກັບ Tesla (Fermi) ກັບ Turing ຂອງຜູ້ກ່ອນ (Volta):

ດັ່ງທີ່ໄດ້ກ່າວມາກ່ອນ ໜ້າ ນີ້ໃນບົດຂຽນນີ້, CUDA ແກ່ນ ດິຈິຕອນ. ພວກເຂົາສາມາດປະຕິບັດ ຄຳ ສັ່ງເລື່ອນ ໜຶ່ງ ໜ່ວຍ ແລະ ຄຳ ແນະ ນຳ ເລກ ໜຶ່ງ ຕໍ່ວົງຈອນໂມງໃນສ່ວນປະກອບຂໍ້ມູນ (ແຕ່ສັງເກດວ່າ ຄຳ ແນະ ນຳ ຕົວເອງສາມາດ ນຳ ໃຊ້ວົງຈອນໂມງຫຼາຍໆຄັ້ງເພື່ອປຸງແຕ່ງໄດ້), ແຕ່ ໜ່ວຍ ກຳ ນົດເວລາຈັດແຈງໃຫ້ເຂົາເຈົ້າເປັນກຸ່ມ, ພວກເຂົາສາມາດເຮັດການ ດຳ ເນີນງານ vector ໃຫ້ກັບນັກຂຽນໂປແກຼມ. ການປ່ຽນແປງທີ່ ສຳ ຄັນທີ່ສຸດໃນຫລາຍປີຜ່ານມາປະກອບມີບໍ່ພຽງແຕ່ເປັນຫົວ ໜ່ວຍ ເທົ່ານັ້ນ, ແຕ່ຍັງມີວິທີການຈັດຕັ້ງແລະແບ່ງແຍກ.

ໃນການອອກແບບ Kepler, ຊິບເຕັມມີ 5 GPCs, ແຕ່ລະກ້ອນມີສາມ SM; ເມື່ອ Pascal ເກີດຂື້ນ, GPCs ໄດ້ຖືກແບ່ງອອກເປັນສ່ວນແບ່ງແຍກ (TPC) ທີ່ມີສອງ SMs ຕໍ່ TPC. ຄືກັບການອອກແບບ Navi. ການແບ່ງສ່ວນນີ້ແມ່ນມີຄວາມ ສຳ ຄັນຍ້ອນວ່າມັນອະນຸຍາດໃຫ້ ນຳ ໃຊ້ GPU ທົ່ວໄປເທົ່າທີ່ຈະໄວໄດ້; ຫລາຍຊຸດການສິດສອນທີ່ເປັນເອກະລາດສາມາດປະມວນຜົນຂະຫນານ, ເພີ່ມການຮົ່ມແລະຄອມພິວເຕີ້ປະສິດທິພາບຂອງໂປເຊດເຊີ.

ລອງພິຈາລະນາເບິ່ງ Turing ທຽບເທົ່າກັບ ໜ່ວຍ ຄອມພິວເຕີ້ RDNA:

ເອກະສານ SM ບັນຈຸ 4 ລາຍການ, ເຊິ່ງແຕ່ລະບັນຈຸມີ:

  • 1 ການ ກຳ ນົດເວລາການສິດສອນແລະການສົ່ງ ໜ່ວຍ ງານ
  • 16 IEE754 FP32 ເກັດ ALU
  • 16 INT32 ເກັດ ALU
  • 2 ສີສັນ
  • 4 SFU
  • 4 ໂຫຼດ / ເກັບຮັກສາ (ປະຕິບັດການອ່ານ / ຂຽນຖານຄວາມ ຈຳ)

ນອກນັ້ນຍັງມີ 2 FP64 ໜ່ວຍ ຕໍ່ SM, ແຕ່ Nvidia ບໍ່ສະແດງຢູ່ໃນແຜນວາດຕັນອີກຕໍ່ໄປແລະແຕ່ລະ SM ມີ 4 ຫົວ ໜ່ວຍ ໂຄງສ້າງ (ປະກອບມີລະບົບການແກ້ໄຂໂຄງສ້າງແລະລະບົບການກັ່ນຕອງໂຄງສ້າງ) ແລະຫຼັກ 1 RT (Ray Tracing).

FP32 ແລະ INT32 ALUs ສາມາດເຮັດວຽກພ້ອມກັນແລະຂະຫນານໄດ້. ນີ້ແມ່ນຄຸນລັກສະນະທີ່ ສຳ ຄັນເພາະວ່າເຄື່ອງຈັກສະແດງ 3D ມັກຈະຕ້ອງການການຄິດໄລ່ຈຸດເລື່ອນ, ແຕ່ມີ ຈຳ ນວນທີ່ ເໝາະ ສົມຂອງການປະຕິບັດງານເລກເຕັມ (ຕົວຢ່າງ: ການຄິດໄລ່ຂໍ້ມູນທີ່ຢູ່).

Tensor Cores ແມ່ນ ALUs ພິເສດທີ່ປະຕິບັດການ ດຳ ເນີນງານຂອງມາຕຣິກເບື້ອງ. Matrices ແມ່ນຂບວນການຂໍ້ມູນ 'ສີ່ຫຼ່ຽມມົນ' ແລະແກນ Tensor ດຳ ເນີນໄປໃນຕາຕະລາງ 4 x 4. FP16 ໄດ້ຖືກອອກແບບມາເພື່ອປະມວນຜົນສ່ວນປະກອບຂໍ້ມູນ INT8 ຫຼື INT4 ເພື່ອໃຫ້ການປະຕິບັດງານທີ່ເລື່ອນໄດ້ເກີດຂື້ນກັບ 64 FMA (fused multiply-post-add) ໃນວົງຈອນໂມງ ໜຶ່ງ. ການຄິດໄລ່ປະເພດນີ້ເອີ້ນວ່າ ເຄືອຂ່າຍ neural ແລະ inference - ບໍ່ແມ່ນເລື່ອງທົ່ວໄປໃນເກມ 3D, ແຕ່ວ່າເຟສບຸກມັກໃຊ້ຫຼາຍໃນລົດທີ່ມີລະບົບການວິເຄາະສື່ສັງຄົມຫລືລະບົບຂັບຂີ່ດ້ວຍຕົນເອງ. Navi ຍັງສາມາດເຮັດການຄິດໄລ່ຕາຕະລາງ, ແຕ່ຕ້ອງການ SP ຈຳ ນວນຫລາຍ ສຳ ລັບສິ່ງນີ້; ໃນລະບົບ Turing, ການປະຕິບັດງານຂອງມາຕຣິກເບື້ອງສາມາດປະຕິບັດໄດ້ໃນຂະນະທີ່ CUDA cores ເຮັດເລກອື່ນໆ.

RT Core ແມ່ນ ໜ່ວຍ ພິເສດ ໜຶ່ງ ອີກທີ່ເປັນເອກະລັກສະເພາະກັບ Turing ຖາປັດຕະຍະທີ່ປະຕິບັດລະບົບຄະນິດສາດທາງຄະນິດສາດສະເພາະທີ່ໃຊ້ ສຳ ລັບລະບົບການຊອກຄົ້ນຫາຮັງສີຂອງ Nvidia. ການວິເຄາະທີ່ສົມບູນຂອງເລື່ອງນີ້ເກີນຂອບເຂດຂອງບົດຄວາມນີ້, ແຕ່ວ່າ RT Core ແມ່ນສອງລະບົບທີ່ເຮັດວຽກແຍກຕ່າງຫາກກັບສ່ວນທີ່ເຫຼືອຂອງ SM, ດັ່ງນັ້ນໃນຂະນະທີ່ RT Core ກຳ ລັງຫຍຸ້ງກ່ຽວກັບການ ຄຳ ນວນ, ມັນສາມາດເຮັດວຽກໃນຈຸດສູງສຸດຫລື pixel shaders. ສຳ ລັບການກວດຫາເລນ.

ໃນລະດັບພື້ນຖານ, Navi ແລະ Turing ມີ ໜ່ວຍ ງານປະຕິບັດງານທີ່ມີຊຸດຄຸນລັກສະນະຄ້າຍຄືກັນພໍສົມຄວນ (ຂໍ້ ກຳ ນົດທີ່ມາຈາກການປະຕິບັດຕາມຂໍ້ ກຳ ນົດຂອງ Direct3D, OpenGL, ແລະອື່ນໆ).

ໃນລະດັບຂັ້ນພື້ນຖານ, Navi ແລະ Turing ມີ ໜ່ວຍ ງານປະຕິບັດງານທີ່ມີຊຸດຄຸນລັກສະນະຄ້າຍຄືກັນ (ຄວາມຕ້ອງການທີ່ມາຈາກການປະຕິບັດຕາມຂໍ້ ກຳ ນົດຂອງ Direct3D, OpenGL, ແລະອື່ນໆ), ແຕ່ພວກເຂົາໃຊ້ວິທີການທີ່ແຕກຕ່າງກັນຫຼາຍກ່ຽວກັບຄຸນລັກສະນະເຫຼົ່ານັ້ນ. ສຳ ເລັດແລ້ວ. ເມື່ອເວົ້າເຖິງການອອກແບບທີ່ດີກວ່າ, ມັນກໍ່ລົງມາ ນຳ ໃຊ້ວິທີການທີ່ພວກມັນຖືກ ນຳ ໃຊ້: FP32 ໂປຣແກຣມທີ່ຜະລິດການ ຄຳ ນວນ vector ແລະກະທູ້ ຈຳ ນວນຫຼວງຫຼາຍທີ່ປະຕິບັດໄດ້ ໜ້ອຍ ຫຼາຍກໍ່ຈະມັກ Navi, ໃນຂະນະທີ່ໂປແກຼມທີ່ມີ ຈຳ ນວນຫລາຍ, ຈຸດລອຍ, scalar, ແລະການຄິດໄລ່ vector ຈະຊ່ວຍໃຫ້ຄວາມຍືດຍຸ່ນຂອງ Turing. ມັກ, ແລະອື່ນໆ.

ລຳ ດັບຄວາມ ຈຳ

GPU ທີ່ທັນສະ ໄໝ ໄດ້ຖືກອອກແບບມາເພື່ອປະຕິບັດການປະຕິບັດງານຫຼາຍຢ່າງຕໍ່ຜູ້ປະມວນຜົນກະແສ, ນັ້ນແມ່ນກ່ຽວກັບແຕ່ລະອົງປະກອບໃນກະແສຂໍ້ມູນ. ສິ່ງນີ້ເຮັດໃຫ້ພວກເຂົາມີຄວາມຍືດຫຍຸ່ນ ໜ້ອຍ ກ່ວາ CPU ທີ່ມີຈຸດປະສົງທົ່ວໄປແລະຍັງຮຽກຮ້ອງໃຫ້ມີການເພີ່ມປະສິດທິພາບຂອງສະຖານະພາບຄວາມ ຈຳ ຂອງຊິບເພື່ອໃຫ້ໄດ້ຮັບຂໍ້ມູນແລະ ຄຳ ແນະ ນຳ ໃຫ້ແກ່ ALUs ໄດ້ໄວເທົ່າທີ່ຈະໄວໄດ້ແລະມີຫລາຍກະແສ. ນີ້ ໝາຍ ຄວາມວ່າ GPU ຈະມີ cache ໜ້ອຍ ກວ່າ CPU, ເພາະວ່າຊິບສ່ວນໃຫຍ່ ຈຳ ເປັນຕ້ອງອຸທິດ ຈຳ ນວນ cache, ບໍ່ແມ່ນການເຂົ້າເຖິງ cache.

ທັງ AMD ແລະ Nvidia ແມ່ນໃຊ້ກັບຖານຄວາມ ຈຳ ທີ່ຫຼາກຫຼາຍພາຍໃນຊິບ, ສະນັ້ນເຮົາລອງພິຈາລະນາເບິ່ງວ່າ Navi ຈະຫຸ້ມຫໍ່ຫຍັງກ່ອນ.

ເລີ່ມຕົ້ນຈາກລະດັບຕ່ ຳ ທີ່ສຸດໃນ ລຳ ດັບຊັ້ນ, ສອງທ່ອນຂອງຜູ້ປະມວນຜົນການ ນຳ ໃຊ້ໂປຼແກຼມໂປແກມ Stream Stream ໃຊ້ທັງ ໝົດ 256 ປອນ ສຳ ລັບຈຸດປະສົງສະເພາະຂອງ vector (ໂດຍທົ່ວໄປ log file) ແມ່ນ ຈຳ ນວນເທົ່າກັບ Vega ແຕ່ລະຫວ່າງ 4 ທ່ອນ SP; ໝົດ ບັນທຶກໃນເວລາທີ່ພະຍາຍາມປະມວນຜົນກະທູ້ ຈຳ ນວນຫຼວງຫຼາຍກໍ່ເຮັດໃຫ້ເກີດຜົນຮ້າຍຕໍ່ການປະຕິບັດ, ສະນັ້ນນີ້ແນ່ນອນວ່າມັນເປັນ“ ສິ່ງທີ່ດີ” ແນ່ນອນ. AMD ຍັງໄດ້ເພີ່ມເອກະສານການບັນທຶກ scalar ຢ່າງຫຼວງຫຼາຍ. ໃນເວລາທີ່ມັນມີພຽງແຕ່ 4 ກິໂລກ່ອນ, ໃນປັດຈຸບັນມັນແມ່ນ 32 ກິໂລຕໍ່ຫົວຫນ່ວຍ.

ສອງ ໜ່ວຍ ງານຄອມພິວເຕີ້ຫຼັງຈາກນັ້ນແບ່ງປັນຖານຄວາມ ຈຳ L0 ຂະ ໜາດ 32 ປອນແລະແທັກເກັບຂໍ້ມູນຂະ ໜາດ 16 ປອນ, ແຕ່ CU ແຕ່ລະຄົນໄດ້ຮັບ cache L0 vector L0 ຂະ ໜາດ 32 ປອນ; ເຊື່ອມຕໍ່ຄວາມຊົງ ຈຳ ທັງ ໝົດ ນີ້ກັບ ALUs ແມ່ນການແບ່ງປັນຂໍ້ມູນທ້ອງຖິ່ນ 128 ປອນ.

ໃນ Navi, ສອງເຄື່ອງຈັກຄອມພິວເຕີ້ສ້າງໂປແກຼມ Workgroup Processor ແລະອີກຫ້າຄົນປະກອບເປັນເຄື່ອງຈັກຄອມພິວເຕີ້ Asynchronous Computing Engine (ACE). ແຕ່ລະ ACE ສາມາດເຂົ້າເຖິງຖານຄວາມ ຈຳ L1 ຂະ ໜາດ 128 ປອນ, ແລະ GPU ທັງ ໝົດ ແມ່ນໄດ້ຮັບການສະ ໜັບ ສະ ໜູນ ຕື່ມອີກຈາກຖານຂໍ້ມູນ 4 MiB L2 ທີ່ເຊື່ອມຕໍ່ກັບຖານຄວາມ ຈຳ L1 ແລະສ່ວນອື່ນໆຂອງໂປເຊດເຊີ.

ຍ້ອນວ່າລະບົບດັ່ງກ່າວຖືກ ນຳ ໃຊ້ຢ່າງເຂັ້ມງວດເພື່ອຄວບຄຸມເຄື່ອງຄວບຄຸມຄວາມ ຈຳ 16 GDDR6, ມັນແມ່ນຮູບແບບຂອງສະຖາປັດຕະຍະ ກຳ ເຊື່ອມຕໍ່ Infinity Fabric ທີ່ເປັນເຈົ້າຂອງຂອງ AMD. ເພື່ອໃຫ້ແບນວິດຫນ່ວຍຄວາມ ຈຳ ສູງສຸດ, Navi ຍັງໃຊ້ການບີບອັດສີທີ່ບໍ່ມີການສູນເສຍລະຫວ່າງ L1, L2, ແລະ ໜ່ວຍ ຄວາມ ຈຳ ຂອງ GDDR6.

ອີກເທື່ອ ໜຶ່ງ, ສິ່ງທັງ ໝົດ ນີ້ແມ່ນໄດ້ຮັບການຕ້ອນຮັບເປັນພິເສດເມື່ອທຽບໃສ່ກັບຊິບ AMD ທີ່ຜ່ານມາເຊິ່ງບໍ່ມີ cache ທີ່ມີລະດັບຕ່ ຳ ພຽງພໍ ສຳ ລັບ ຈຳ ນວນ ໜ່ວຍ ທີ່ມີຮົ່ມ. ໃນສັ້ນ, ແຄດຫຼາຍເທົ່າກັບແບນວິດພາຍໃນຫຼາຍ, ຄຳ ແນະ ນຳ ທີ່ຊ້າລົງ (ເພາະວ່າພວກເຂົາຕ້ອງໄດ້ເກັບຂໍ້ມູນເພີ່ມເຕີມຈາກ ໜ່ວຍ ຄວາມ ຈຳ), etc. ແລະວ່າພຽງແຕ່ເທົ່າກັບການປະຕິບັດທີ່ດີກວ່າ.

ກ່ຽວກັບ ລຳ ດັບຊັ້ນຂອງ Turing, ຕ້ອງເວົ້າໄດ້ວ່າ Nvidia ຢູ່ໃນຄວາມຂີ້ອາຍເມື່ອເວົ້າເຖິງການໃຫ້ຄວາມຮູ້ທີ່ເລິກເຊິ່ງໃນຂົງເຂດນີ້. ກ່ອນ ໜ້າ ນີ້ໃນບົດຂຽນນີ້, ພວກເຮົາໄດ້ເຫັນ SM ແຕ່ລະຄົນແບ່ງອອກເປັນ 4 ທ່ອນການເຮັດທຸລະ ກຳ - ແຕ່ລະອັນມີເອກະສານບັນທຶກຂະ ໜາດ ນ້ອຍກວ່າ 64 ທ່ອນກວ່າທ່ອນທີ່ພົບໃນ Navi, ແຕ່ຈົ່ງຈື່ໄວ້ວ່າ ALUs ຂອງ Turing ແມ່ນສະເກັດເງີນ, ບໍ່ແມ່ນວັກ. , ຫົວ ໜ່ວຍ.

ຕໍ່ໄປ, 96 kb ຂອງ ໜ່ວຍ ຄວາມ ຈຳ ທີ່ແບ່ງປັນ ສຳ ລັບແຕ່ລະ VM ສາມາດໃຊ້ເປັນຖານຂໍ້ມູນ L1 64 kb ແລະ cache ຂອງເນື້ອເຍື່ອ 32 kb ຫຼືພື້ນທີ່ບັນທຶກພິເສດ. ໃນ 'ຮູບແບບຄອມພິວເຕີ້', ໜ່ວຍ ຄວາມ ຈຳ ທີ່ແບ່ງປັນສາມາດແບ່ງອອກເປັນສ່ວນ ໜຶ່ງ ທີ່ແຕກຕ່າງກັນ, ເຊັ່ນວ່າ 32 kb ຂອງ ໜ່ວຍ ຄວາມ ຈຳ ທີ່ໃຊ້ຮ່ວມກັນແລະ 64 kiB ຂອງ L1 cache, ແຕ່ເຮັດສະ ເໝີ ເປັນ 64 + 32 ສ່ວນ.

ການຂາດລາຍລະອຽດທີ່ກ່າວເຖິງກ່ຽວກັບລະບົບຫນ່ວຍຄວາມ ຈຳ ແບບ Turning ເຮັດໃຫ້ພວກເຮົາຕ້ອງການຫລາຍຂື້ນ, ສະນັ້ນພວກເຮົາຈຶ່ງໄດ້ຫັນໄປຫາທີມວິໄຈ GPU ທີ່ເຮັດວຽກຢູ່ Citadel Enterprise Americas. ເມື່ອບໍ່ດົນມານີ້, ພວກເຂົາໄດ້ລົງພິມສອງບົດ. ເວລາ ve ຄວາມອິດເມື່ອຍ ສະຖາປັດຕະຍະ ກຳ; ຮູບພາບຂ້າງເທິງແມ່ນການແບ່ງສ່ວນຂອງ ລຳ ດັບຄວາມ ຈຳ ໃນຊິບ TU104 (ຊິມ TU102 ກິລາ 6144 kiB L2 ເຕັມ).

ທີມງານໄດ້ຢືນຢັນວ່າຖານຄວາມ ຈຳ ຂອງ cache L1 ແມ່ນ 64 ບິດຕໍ່ຮອບ, ແລະລະບຸວ່າພາຍໃຕ້ການທົດສອບປະສິດທິພາບຂອງ Turing's L1 cache ແມ່ນດີທີ່ສຸດຂອງ GPUs ທັງ ໝົດ ຂອງ Nvidia. ນີ້ແມ່ນທຽບເທົ່າກັບ Navi, ເຖິງແມ່ນວ່າຊິບຂອງ AMD ມີອັດຕາການອ່ານທີ່ສູງກວ່າ ສຳ ລັບຮ້ານຂາຍຂໍ້ມູນທ້ອງຖິ່ນ, ແຕ່ວ່າອັດຕາການສອນຕໍ່າກວ່າ / ຖານຄວາມ ຈຳ ທີ່ຄົງທີ່.

GPU ທັງສອງໃຊ້ GDDR6 ສຳ ລັບ ໜ່ວຍ ຄວາມ ຈຳ ທ້ອງຖິ່ນ - ນີ້ແມ່ນລຸ້ນລ້າສຸດຂອງ Graphics DDR SDRAM - ແລະທັງສອງໃຊ້ການເຊື່ອມຕໍ່ 32 ບິດກັບໂມດູນຄວາມ ຈຳ, ສະນັ້ນ Radeon RX 5700 XT ມັນມີຊິບ ໜ່ວຍ ຄວາມ ຈຳ 256 ໜ່ວຍ ແລະໃຫ້ແບນວິດສູງສຸດ 256 GiB / s ແລະ 8 GiB ຂອງພື້ນທີ່. ຫນຶ່ງ GeForce RTX 2080 Ti ດ້ວຍຊິບ TU102, ມັນເຮັດວຽກກັບ 11 ໂມດູນດັ່ງກ່າວ ສຳ ລັບແບນວິດ 352 GiB / s ແລະເກັບຮັກສາ 11 GiB.

ເອກະສານຂອງ AMD ສາມາດເບິ່ງຄືວ່າສັບສົນໃນບາງຄັ້ງ: ໃນແຜນວາດ ທຳ ອິດທີ່ພວກເຮົາເຫັນ Navi ສະແດງ 4 ຕົວຄວບຄຸມຄວາມ ຈຳ 64 ບິດ, ໃນຂະນະທີ່ຮູບຕໍ່ມາສະແດງຕົວຄວບຄຸມ 16 ເຄື່ອງ. ພິຈາລະນາ Samsung ພຽງແຕ່ສະ ເໜີ GDDR6 32 ບິດ ມັນເບິ່ງຄືວ່າຮູບພາບທີສອງສະແດງໃຫ້ເຫັນວ່າມີການເຊື່ອມຕໍ່ກັນຫຼາຍປານໃດລະຫວ່າງລະບົບຜ້າ Infinity ແລະຜູ້ຄວບຄຸມຫນ່ວຍຄວາມ ຈຳ. ອາດຈະມີພຽງ 4 ເຄື່ອງຄວບຄຸມຄວາມ ຈຳ ແລະແຕ່ລະອັນໃຊ້ສອງໂມດູນ.

ໂດຍລວມແລ້ວ, ເບິ່ງຄືວ່າບໍ່ມີຄວາມແຕກຕ່າງກັນຫຼາຍລະຫວ່າງ Navi ແລະ Turing ເມື່ອເວົ້າເຖິງຖານຄວາມ ຈຳ ແລະຄວາມຊົງ ຈຳ ຂອງທ້ອງຖິ່ນຂອງພວກເຂົາ. ມັນມີ ໜ້ອຍ ກ່ວາ Navi ເຂົ້າຫາດ້ານການປະຕິບັດຂອງສິ່ງຕ່າງໆໂດຍມີ ຄຳ ແນະ ນຳ / ຄວາມ ໝັ້ນ ຄົງແລະ L1 ທີ່ມີຂະ ໜາດ ໃຫຍ່ກວ່າ, ແຕ່ມັນມີທັງສິ່ງທີ່ເຕັມໄປດ້ວຍ, ທັງໃຊ້ການບີບອັດສີບ່ອນທີ່ເປັນໄປໄດ້, ແລະທັງສອງມີຫຼາຍຮູບແບບ GPU ທີ່ອຸທິດຕົນໃນການເຂົ້າເຖິງຄວາມ ຈຳ ແລະ ໃຊ້ເພື່ອເຮັດໃຫ້ມີແບນວິດສູງສຸດ.

ສາມຫລ່ຽມ, ໂຄງສ້າງ, ແລະພິກະເຊນ

ສິບຫ້າປີທີ່ຜ່ານມາ, ຜູ້ຜະລິດ GPU ໄດ້ເຮັດຫຼາຍຢ່າງກ່ຽວກັບຈັກສາມຫລ່ຽມທີ່ຊິບຂອງພວກເຂົາສາມາດຈັດການໄດ້, ຈຳ ນວນອົງປະກອບໂຄງສ້າງທີ່ສາມາດຖືກກັ່ນຕອງຕໍ່ວົງຈອນ, ແລະຄວາມສາມາດໃນການຜະລິດຫົວ ໜ່ວຍ ຜົນຜະລິດ (ROPs). ລັກສະນະເຫຼົ່ານີ້ຍັງມີຄວາມ ສຳ ຄັນໃນທຸກມື້ນີ້, ແຕ່ວ່າຈຸດສຸມແມ່ນມີຫຼາຍຂື້ນໃນດ້ານການປະຕິບັດເນື່ອງຈາກວ່າເຕັກໂນໂລຢີການສະແດງ 3D ຮຽກຮ້ອງໃຫ້ມີການປະຕິບັດງານຄອມພິວເຕີ້ຫຼາຍກ່ວາເກົ່າ.

ເຖິງຢ່າງໃດກໍ່ຕາມ, ພຽງແຕ່ຊີ້ໃຫ້ເຫັນວ່າບໍ່ມີຄວາມແຕກຕ່າງທີ່ສັງເກດເຫັນທັນທີລະຫວ່າງ Navi ແລະ Turing ໃນຂົງເຂດເຫຼົ່ານີ້, ໜ່ວຍ ງານໂຄງສ້າງແລະ ROP ຍັງມີມູນຄ່າການຊອກຫາ. ໃນສະຖາປັດຕະຍະ ກຳ ທັງສອງ, ໜ່ວຍ ງານໂຄງສ້າງສາມາດຈັດການແລະດຶງ 4 ອົງປະກອບໂຄງສ້າງ, ກັ່ນຕອງພວກມັນທີ່ບໍ່ຮູ້ຈັກໃນອົງປະກອບດຽວ, ແລະເກັບຮັກສາມັນໄວ້ໃນວົງຈອນຂອງໂມງດຽວ (ບໍ່ສົນໃຈວົງແຫວນເພີ່ມເຕີມທີ່ເອົາມາເພື່ອດຶງຂໍ້ມູນຈາກຫນ່ວຍຄວາມ ຈຳ ທ້ອງຖິ່ນ).

ການຈັດລະບຽບຂອງ ROP / RBs ແມ່ນແຕກຕ່າງກັນເລັກນ້ອຍລະຫວ່າງ Navi ແລະ Turing, ແຕ່ບໍ່ແມ່ນວ່າຫຼາຍເກີນໄປ: ຊິບ AMD ມີ 4 RBs ຕໍ່ ACE ແລະແຕ່ລະຜົນຜະລິດສາມາດຜະສົມ 4 pixels ຕໍ່ຮອບວົງຈອນ; ທີ່ Turing, ແຕ່ລະ GPC ມີສອງ RB, ແຕ່ລະຄັ້ງໃຫ້ 8 pixels ຕໍ່ຊົ່ວໂມງ. ການນັບ ROP ຂອງ GPU ແມ່ນມາດຕະການແທ້ໆຂອງຄວາມໄວຂອງຜົນຜະລິດພິກະເຊນນີ້, ສະນັ້ນຊິບ Navi ເຕັມຈະໃຫ້ 64 pixels ຕໍ່ຊົ່ວໂມງແລະ TU102 ເຕັມ 96 (ແຕ່ຈື່ໄດ້ວ່ານີ້ແມ່ນຊິບຂະ ໜາດ ໃຫຍ່ກວ່າ).

ບໍ່ມີຂໍ້ມູນຫນ້ອຍກ່ຽວກັບສາມຫຼ່ຽມຂ້າງຂອງສິ່ງຕ່າງໆ. ສິ່ງທີ່ພວກເຮົາຮູ້ກໍ່ຄືວ່າ Navi ຍັງໃຫ້ສິດສູງສຸດ 4 ຢ່າງຕໍ່ວົງຈອນໂມງ (1 ຕໍ່ ACE), ແຕ່ວ່າມັນບໍ່ມີຫຍັງອີກຕໍ່ໄປວ່າ AMD ໄດ້ແກ້ໄຂບັນຫານີ້ແລ້ວຫຼືບໍ່. Shader ປະຖົມ. ນີ້ແມ່ນຄຸນລັກສະນະທີ່ມີຄວາມນິຍົມສູງຂອງ Vega ແລະໄດ້ອະນຸຍາດໃຫ້ນັກຂຽນໂປແກຼມມີການຄວບຄຸມຫຼາຍກວ່າເດີມເພື່ອໃຫ້ຜົນຜະລິດເບື້ອງຕົ້ນສາມາດເພີ່ມຂື້ນ 4 ປັດໃຈ. ຟັງຊັນທີ່ຖືກຍ້າຍອອກຈາກຄົນຂັບລົດ ຜະລິດຕະພັນດັ່ງກ່າວບໍ່ໄດ້ນອນໃນໄລຍະສັ້ນໆຫຼັງຈາກເປີດຕົວແລະນັບຕັ້ງແຕ່ນັ້ນມາ.

ໃນຂະນະທີ່ຍັງລໍຖ້າຂໍ້ມູນເພີ່ມເຕີມກ່ຽວກັບ Navi, ມັນຈະເປັນການບໍ່ສົມຄວນທີ່ຈະຄາດເດົາຕື່ມອີກ. Turing ຍັງປະຕິບັດ 1 ຂັ້ນຕົ້ນຕໍ່ຊົ່ວໂມງຕໍ່ GPC (ເຊັ່ນ: ສູງສຸດ 6 ສຳ ລັບ TU102 GPU ເຕັມ) ໃນ Raster Engines, ແຕ່ຍັງ ຕາຫນ່າງ Shadersສະ ເໜີ ການເຮັດວຽກດຽວກັນກັບ AMD's Primitive Shaders; Direct3D ບໍ່ແມ່ນຊຸດ OpenGL ຫຼື Vulkan, ແຕ່ສາມາດໃຊ້ຜ່ານການຂະຫຍາຍ API.

ນີ້ເບິ່ງຄືວ່າຈະໃຫ້ Turing ຂອບຂອບ Navi ໃນແງ່ຂອງການຈັດການກັບສາມຫຼ່ຽມແລະພື້ນເມືອງ, ແຕ່ປະຈຸບັນຍັງບໍ່ມີຂໍ້ມູນທີ່ຊັດເຈນພຽງພໍໃນຂົງເຂດສາທາລະນະ.

ບໍ່ແມ່ນທັງ ໝົດ ກ່ຽວກັບ ໜ່ວຍ ງານບັງຄັບໃຊ້

ມີລັກສະນະອື່ນໆຂອງ Navi ແລະ Turing ທີ່ມີຄ່າປຽບທຽບ. ເພື່ອເລີ່ມຕົ້ນ, ທັງສອງ GPU ມີເຄື່ອງສະແດງແລະເຄື່ອງສື່ທີ່ມີຄວາມກ້າວ ໜ້າ ສູງ. ຄັ້ງທໍາອິດປະມວນຜົນຜົນໃຫ້ກັບຈໍພາບ, ລະຫັດທີສອງແລະຖອດລະຫັດກະແສວິດີໂອ.

ຕາມທີ່ທ່ານຄາດຫວັງຈາກການອອກແບບ GPU ແບບ 2019 ລຸ້ນ ໃໝ່, ເຄື່ອງຈັກຈໍສະແດງຜົນຂອງ Navi ສະ ເໜີ ຄວາມລະອຽດສູງໃນອັດຕາການໂຫຼດຫນ້າຈໍສູງແລະໃຫ້ການສະ ໜັບ ສະ ໜູນ HDR. ເບິ່ງ Flow Compression (DSC) ແມ່ນລະບົບການບີບອັດການສູນເສຍໄວທີ່ຊ່ວຍໃຫ້ຄວາມມັກຂອງ 4K + ຄວາມລະອຽດໃນອັດຕາການໂຫຼດທີ່ສູງກວ່າ 60 Hz ທີ່ຈະສົ່ງຜ່ານການເຊື່ອມຕໍ່ DisplayPort 1.4; ໂຊກດີ, ການເສື່ອມໂຊມຂອງຄຸນນະພາບຂອງຮູບພາບແມ່ນມີ ໜ້ອຍ ຈົນເຖິງຈຸດທີ່ທ່ານຖືວ່າ DSC ແມ່ນເກືອບຈະສູນເສຍໄປ.

Turing ຍັງສະຫນັບສະຫນູນ DisplayPort ກັບການເຊື່ອມຕໍ່ DSC, ແຕ່ວ່າການປະສົມປະສານທີ່ສະຫນັບສະຫນູນຂອງຄວາມລະອຽດສູງແລະອັດຕາການໂຫຼດຫນ້າຈໍຄືນແມ່ນດີກວ່າ Navi: 4K HDR ທີ່ 144 Hz - ສ່ວນທີ່ເຫຼືອແມ່ນຄືກັນ.

ເຄື່ອງຈັກສື່ຂອງ Navi ມີຄວາມທັນສະ ໄໝ ຄືກັບເຄື່ອງສະແດງແລະ ລະຫັດວິດີໂອແບບພິເສດ (H.264) ແລະ ລະຫັດວິດີໂອທີ່ມີປະສິດຕິພາບສູງ (H.265), ອີກຄັ້ງ ໜຶ່ງ ໃນຄວາມລະອຽດສູງແລະອັດຕາບິດສູງ.

ເຄື່ອງຈັກວິດີໂອຂອງ Turing ແມ່ນປະມານຄືກັນກັບ Navi, ແຕ່ການສະ ໜັບ ສະ ໜູນ ການເຂົ້າລະຫັດ 8K30 HDR ອາດຈະເຮັດໃຫ້ຄວາມສົມດຸນໃນຄວາມໂປດປານຂອງ Turing ສຳ ລັບບາງຄົນ.

ມີອີກແງ່ມຸມ ໜຶ່ງ ທີ່ຈະປຽບທຽບ (ຕົວຢ່າງ: Navi PCI Express 4.0 ອິນເຕີເນັດຂອງ Navi ຫຼື Turing's NV Link), ແຕ່ບໍ່ວ່າຈະນຸ່ງແລະການຕະຫຼາດ, ພວກມັນກໍ່ເປັນຊິ້ນສ່ວນນ້ອຍໆຂອງສະຖາປັດຕະຍະ ກຳ ໂດຍລວມ. ນີ້ແມ່ນຍ້ອນວ່າ ສຳ ລັບຜູ້ ນຳ ໃຊ້ທີ່ມີສັກຍະພາບສ່ວນໃຫຍ່ຄຸນລັກສະນະເຫຼົ່ານີ້ຈະບໍ່ ສຳ ຄັນ.

ການປຽບທຽບທີ່ຄ້າຍຄືກັບ

ບົດຂຽນນີ້ແມ່ນການສັງເກດການອອກແບບສະຖາປັດຕະຍະ ກຳ, ຄຸນລັກສະນະແລະການ ທຳ ງານ, ແຕ່ການມີການປຽບທຽບການປະຕິບັດໂດຍກົງກໍ່ຈະເປັນວິທີທີ່ດີທີ່ຈະ ສຳ ເລັດການວິເຄາະດັ່ງກ່າວ. ເຖິງຢ່າງໃດກໍ່ຕາມ, ການຈັບຄູ່ Navi ໃສ່ Radeon RX 5700 XT ໃນ GeForce RTX 2080 Ti ກັບຊິບ Turing TU102 ໃນ GeForce RTX 2080 Ti ຈະບໍ່ມີຄວາມຍຸຕິ ທຳ ພິຈາລະນາໃນທີ່ສຸດແມ່ນເກືອບສອງເທົ່າຂອງ ຈຳ ນວນຫົວ ໜ່ວຍ ທີ່ລວມກັນ. ເຖິງຢ່າງໃດກໍ່ຕາມ, ມັນມີລຸ້ນ Turing ທີ່ສາມາດໃຊ້ ສຳ ລັບການປຽບທຽບ, ແລະນີ້ແມ່ນເຄື່ອງທີ່ພົບໃນ GeForce RTX 2070 Super.

  Radeon RX 5700 XT GeForce RTX 2070 Super
GPU | ສະຖາປັດຕະຍະ ກຳ ນາວາ 10 | rDNA TU104 | ຄວາມອິດເມື່ອຍ
ຂະບວນການ 7 nm TSMC 12 nm TSMC
ພື້ນທີ່ແມ່ພິມ (ມມ2) 251 545
Transistors (ຫຼາຍຕື້) 10.3 13.6
ບລັອກໂປຣໄຟລ໌ 2 SE | 4 ACE | 40 PB 5 GPC | 20 TPC | 40 SM
ລວມ shader 2560 ສ 2560 MIRACLES
TMUs 160 160
ROPS 64 64
ໂມງພື້ນຖານ 1605 MHz 1605 MHz
ໂມງເກມ 1755 MHz N / A
Boost ຊົ່ວໂມງ 1905 MHz 1770 MHz
ຄວາມຊົງ ຈຳ 8 GB 256 ບິດ GDDR6 8 GB 256 ບິດ GDDR6
ແບນວິດ ໜ່ວຍ ຄວາມ ຈຳ 448 GBps 448 GBps
ພະລັງງານອອກແບບຄວາມຮ້ອນ (TDP) 225 ວັດ 215 ສ.

ມັນເປັນມູນຄ່າທີ່ສັງເກດວ່າ RTX 2070 Super ບໍ່ແມ່ນຊິບ 'ເຕັມ' TU104 (ຫນຶ່ງໃນ GPCs ຖືກປິດໃຊ້ງານ), ດັ່ງນັ້ນທັງຫມົດຂອງ 13.6 transistor ເຫຼົ່ານີ້ແມ່ນບໍ່ມີປະໂຫຍດ, ຫມາຍຄວາມວ່າຊິບແມ່ນປະມານດຽວກັນໃນແງ່ຂອງການນັບ transistor. ໃນມູນຄ່າຂອງໃບ ໜ້າ, ສອງ GPU ມີລັກສະນະຄ້າຍຄືກັນ, ໂດຍສະເພາະຖ້າທ່ານພິຈາລະນາພຽງແຕ່ ໜ່ວຍ ທີ່ມີເງົາ, TMUs, ROPs, ແລະລະບົບຫນ່ວຍຄວາມ ຈຳ ຫຼັກ.

ໃນໂປເຊດເຊີ Nvida, SM ສາມາດປະມວນຜົນກະແສໄຟຟ້າໄດ້ 32 ໜ່ວຍ ພ້ອມກັນ, ແລະມີແຕ່ລະກະທູ້ 32 ກະບອກ, ມີ GeForce RTX 2070 Super ທີ່ສາມາດໂຫລດໄດ້ເຕັມ 40 ກະທູ້ທົ່ວຊິບທັງ ໝົດ; ສຳ ລັບ Navi, ຊິມ CU SIMD32 ໜຶ່ງ ໜ່ວຍ ສາມາດຮັບຄື້ນ 16 ຄື້ນຕໍ່ ALU ແລະຄື້ນແຕ່ລະສາຍແມ່ນ 32 ສາຍ. ດັ່ງນັ້ນ, Radeon RX 5700 XT ຍັງສາມາດບັນຈຸກະທູ້ໄດ້ເຖິງ 40,960 ກະທູ້. ມັນອາດຈະເບິ່ງຄືວ່າມັນເຮັດໃຫ້ພວກມັນຢູ່ທີ່ນີ້, ແຕ່ວ່າມັນມີການຈັດແຈງ CU / SMs ທີ່ແຕກຕ່າງກັນແນວໃດແລະປະໂຫຍດຂອງ Nvidia ພ້ອມກັບການປຸງແຕ່ງ INT ແລະ FP ພ້ອມກັນ, ຜົນໄດ້ຮັບສ່ວນໃຫຍ່ຈະຂຶ້ນກັບລະຫັດທີ່ ກຳ ລັງແລ່ນ.

ສິ່ງນີ້ຈະສົ່ງຜົນສະທ້ອນແນວໃດຕໍ່ການສະແດງເກມຕ່າງໆ, ເພາະວ່າລະຫັດຂອງເຄື່ອງຈັກ 3D ຈະພໍໃຈຕໍ່ການກໍ່ສ້າງ ໜຶ່ງ ຂື້ນໄປອີກອັນ ໜຶ່ງ ຂື້ນກັບວ່າ ຄຳ ແນະ ນຳ ປະເພດໃດຖືກສົ່ງໄປຫາ GPU. ນີ້, ທົດສອບສອງບັດກາຟິກ:

ເກມທັງ ໝົດ ທີ່ໃຊ້ໃນການທົດສອບແມ່ນໄດ້ຖືກຈັດເປັນໂປຣແກຣມ ສຳ ລັບສະຖາປັດຕະຍະ ກຳ GCN ຂອງ AMD ໂດຍກົງ ສຳ ລັບເຄື່ອງຄອມພິວເຕີ້ Radeon ຫຼືຜ່ານ GCN GPUs ທີ່ພົບໃນ PlayStation 4 ຫຼື Xbox One. ມັນເປັນໄປໄດ້ວ່າການເປີດຕົວບາງຢ່າງໃນໄລຍະມໍ່ໆມານີ້ໄດ້ຖືກກະກຽມສໍາລັບການປ່ຽນແປງຂອງ RDNA, ແຕ່ວ່າຄວາມແຕກຕ່າງໃນຜົນໄດ້ຮັບປຽບທຽບແມ່ນມີຫຼາຍເນື່ອງຈາກເຄື່ອງຈັກໃນການສະແດງແລະວິທີການຄໍາແນະນໍາແລະຂໍ້ມູນຖືກປະມວນຜົນ.

ດັ່ງນັ້ນສິ່ງທັງ ໝົດ ນີ້ ໝາຍ ຄວາມວ່າແນວໃດ? ສະຖາປັດຕະຍະ ກຳ ອັນ ໜຶ່ງ ກໍ່ດີກ່ວາສະຖານທີ່ອື່ນບໍ? Turing ແນ່ນອນໃຫ້ຄວາມສາມາດຫຼາຍກ່ວາ Navi ຂໍຂອບໃຈກັບ Tensor ແລະ RT Cores, ແຕ່ສຸດທ້າຍແນ່ນອນແຂ່ງຂັນໃນແງ່ຂອງການສະແດງຜົນ 3D. ຄວາມແຕກຕ່າງທີ່ເຫັນໃນ 12 ຕົວຢ່າງຂອງເກມແມ່ນບໍ່ຊັດເຈນພໍທີ່ຈະຕັດສິນສຸດທ້າຍ.

ແລະນີ້ແມ່ນຂ່າວດີ ສຳ ລັບພວກເຮົາ.

ຄຳ ສຸດທ້າຍ

Navi ຂອງ AMD ໄດ້ຖືກປະກາດ ພວກເຂົາມີຈຸດປະສົງໃນການເປີດຕົວ 2018 ໃນປີ 2016 ແລະເຖິງແມ່ນວ່າພວກເຂົາບໍ່ໄດ້ເວົ້າຫຍັງຫຼາຍ. ເມື່ອວັນທີ່ນັ້ນມາແລະໄປ ແຜນທີ່ເສັ້ນທາງ ປ່ຽນແປງ ເຖິງຢ່າງໃດກໍ່ຕາມ, ມັນເປັນທີ່ຈະແຈ້ງວ່າ Navi ຈະຖືກສ້າງຂຶ້ນໃນ node process 7nm ແລະການອອກແບບຈະສຸມໃສ່ການປັບປຸງການປະຕິບັດງານ.

ນີ້ແມ່ນແນ່ນອນ, ແລະດັ່ງທີ່ພວກເຮົາໄດ້ເຫັນໃນບົດຂຽນນີ້, AMD ໄດ້ມີການປ່ຽນແປງດ້ານສະຖາປັດຕະຍະ ກຳ ເພື່ອໃຫ້ Nvidia ສາມາດແຂ່ງຂັນກັບຂໍ້ສະ ເໜີ ທີ່ທຽບເທົ່າກັນ. ການອອກແບບ ໃໝ່ ມີປະໂຫຍດຫຼາຍກ່ວາພຽງແຕ່ຜູ້ໃຊ້ຄອມພີວເຕີ້ເທົ່າທີ່ເຮົາຮູ້ແລ້ວວ່າ Sony ແລະ Microsoft ຈະໃຊ້ຊິບທີ່ຫລາກຫລາຍໃນຊ່ວງເວລາທີ່ຈະມາເຖິງນີ້. ເຄື່ອງຫຼີ້ນ 5 ve xbox sonraki.

ຖ້າທ່ານກັບໄປຫາຈຸດເລີ່ມຕົ້ນຂອງບົດຄວາມນີ້ແລະເບິ່ງອີກເທື່ອ ໜຶ່ງ ກ່ຽວກັບການອອກແບບໂຄງສ້າງຂອງ Shader Motors, ຂະ ໜາດ ຂອງການເສຍຊີວິດທັງ ໝົດ ແລະ ຈຳ ນວນ transistor, ມັນມີຂອບເຂດຢ່າງຈະແຈ້ງ ສຳ ລັບຊິບ 'Navi' ໃຫຍ່ຈົນເຖິງຈຸດສູງສຸດ. ບັດກາຟິກລ້າສຸດ; AMD ໄດ້ຢືນຢັນຢ່າງຫຼວງຫຼາຍວ່ານີ້ຄວນເປັນສ່ວນ ໜຶ່ງ ຂອງແຜນການໃນປະຈຸບັນຂອງຕົນແລະແນ່ໃສ່ປັບປຸງຂະບວນການສະຖາປັດຕະຍະ ກຳ ແລະການຜະລິດໃນສອງປີຂ້າງ ໜ້າ.

ແຕ່ແຜນການ ສຳ ລັບ Nvidia, Turing ແລະຜູ້ສືບທອດແມ່ນຫຍັງ? ທີ່ຫນ້າປະຫລາດໃຈ, ພຽງເລັກນ້ອຍໄດ້ຮັບການຢັ້ງຢືນຈາກບໍລິສັດ. ໃນປີ 2014, Nvidia ແຜນທີ່ເສັ້ນທາງ GPU ສະບັບປັບປຸງ ການວາງແຜນສະຖາປັດຕະຍະ ກຳ Pascal ສຳ ລັບການເປີດຕົວປີ 2016 (ແລະບັນລຸເປົ້າ ໝາຍ ນັ້ນ). ໃນປີ 2017, ສ. Tesla ປະກາດ V100ມັນແມ່ນການອອກແບບນີ້ທີ່ ນຳ ອອກ Turing ໃນປີ 2018, ໂດຍ ນຳ ໃຊ້ສະຖາປັດຕະຍະ ກຳ Volta.

ຕັ້ງແຕ່ນັ້ນມາ, ສິ່ງຕ່າງໆໄດ້ງຽບສະຫງັດແລະພວກເຮົາຕ້ອງເພິ່ງພາຂ່າວລືແລະຂ່າວຫຍໍ້, ເຊິ່ງມັກເວົ້າແບບດຽວກັນ: ສະຖາປັດຕະຍະ ກຳ ຕໍ່ໄປຂອງ Nvidia ຈະຖືກເອີ້ນວ່າ Ampere, ຜະລິດໂດຍ Samsung ມັນໃຊ້ node ຂະບວນການ 7nm ແລະຖືກວາງແຜນໄວ້ໃນປີ 2020. ນອກ ເໜືອ ຈາກນັ້ນ, ບໍ່ມີສິ່ງອື່ນໃດທີ່ຈະ ດຳ ເນີນຕໍ່ໄປ. ຊິບລຸ້ນ ໃໝ່ ຄົງຈະບໍ່ ທຳ ລາຍປະເພນີໂດຍການສຸມໃສ່ຫົວ ໜ່ວຍ ປະຕິບັດການສະເກັດສະຕາຍ, ຫຼືວ່າມັນບໍ່ ໜ້າ ຈະລຸດລົງດ້ານຕ່າງໆເຊັ່ນວ່າ Tensor Cores ເພາະວ່ານີ້ຈະເຮັດໃຫ້ເກີດບັນຫາຄວາມເຂົ້າກັນໄດ້ດ້ານຫລັງທີ່ ສຳ ຄັນ.

ເຖິງຢ່າງໃດກໍ່ຕາມ, ພວກເຮົາສາມາດເຮັດການຄາດຄະເນທີ່ສົມເຫດສົມຜົນກ່ຽວກັບ Nvidia GPU ຕໍ່ໄປຈະເປັນແນວໃດ. ບໍລິສັດໄດ້ລົງທືນແລະ ຈຳ ນວນເງິນທີ່ ສຳ ຄັນ. ການຕິດຕາມເລນແລະສະຫນັບສະຫນູນໃນເກມເທົ່ານັ້ນ ເພີ່ມ​ຂຶ້ນ; ດັ່ງນັ້ນ, ພວກເຮົາສາມາດຄາດຫວັງວ່າຈະໄດ້ເຫັນການປັບປຸງຫຼັກ RT ໃນແງ່ຂອງຄວາມສາມາດຫລືຕົວເລກຕໍ່ SM. ຖ້າຫາກວ່າຫນຶ່ງ node ຂະບວນການ 7 nm ຖ້າເປັນຄວາມຈິງ, Nvidia ຈະແນ່ໃສ່ການຫຼຸດຜ່ອນພະລັງງານຫຼາຍກ່ວາການເພີ່ມຄວາມໄວຂອງໂມງໂດຍກົງເພື່ອໃຫ້ພວກເຂົາສາມາດເພີ່ມ ຈຳ ນວນ GPC ໄດ້. ມັນຍັງເປັນໄປໄດ້ທີ່ຈະຂ້າມ 7 nm ແລະເລີ່ມ Nvidia. ຊື່ຍາວ ສຳ ລັບ 5 nm ເພື່ອໃຫ້ໄດ້ປະໂຫຍດຫຼາຍກວ່າ AMD.

ປາກົດຂື້ນ AMD ແລະ Nvidia, ຕັດບັດກາຟິກ ຕະຫຼາດຈາກ Intel ດັ່ງທີ່ພວກເຮົາຮູ້ວ່າພວກເຂົາມີແຜນຈະເຂົ້າສູ່ອຸດສະຫະ ກຳ ນີ້, ໂທ 20 ປີ. ຜະລິດຕະພັນ ໃໝ່ ນີ້ (ປະຈຸບັນ Xe ຂອງ) ຈະສາມາດແຂ່ງຂັນໄດ້ໃນລະດັບດຽວກັນກັບ Navi ແລະ Turing.

ໃນຂະນະດຽວກັນ, Intel ໄດ້ລອດຊີວິດຈາກຕະຫລາດ GPU ໃນສອງທົດສະວັດນີ້ໂດຍການຜະລິດກາຟິກປະສົມປະສານ ສຳ ລັບ CPU ຂອງມັນ. GPU ລ້າສຸດຂອງ Intel ປະເພດ 11ມັນຄ້າຍຄືກັນກັບສະຖາປັດຕະຍະ ກຳ ຂອງ AMD ຍ້ອນວ່າມັນໃຊ້ vector ALU ທີ່ສາມາດຈັດການກັບຂໍ້ມູນ FP32 ແລະ INT32, ແຕ່ພວກເຮົາບໍ່ຮູ້ວ່າບັດກາຟິກ ໃໝ່ ຈະເປັນວິວັດທະນາການຂອງການອອກແບບນີ້ໂດຍກົງຫລືບໍ່.

ສິ່ງທີ່ແນ່ນອນກໍ່ຄືວ່າອີກສອງສາມປີຂ້າງ ໜ້າ ຈະເປັນ ໜ້າ ສົນໃຈຫຼາຍເພາະວ່າສາມຍັກໃຫຍ່ຂອງໂຄງສ້າງຊິລິໂຄນສືບຕໍ່ສູ້ກັບກະເປົາເງິນຂອງພວກເຮົາ. ການອອກແບບແລະສະຖາປັດຕະຍະ ກຳ ແບບ ໃໝ່ ຂອງ GPU ຈະທ້າທາຍຕົວເລກ transistor, ຂະ ໜາດ ຂອງ cache ແລະຄຸນສົມບັດຂອງ shader; Navi ແລະ RDNA ແມ່ນສິ່ງ ໃໝ່ໆ ທີ່ ໃໝ່ ທີ່ສຸດແລະໄດ້ສະແດງໃຫ້ເຫັນວ່າທຸກໆບາດກ້າວທີ່ກ້າວ ໜ້າ ສາມາດສ້າງຄວາມແຕກຕ່າງເລັກນ້ອຍ.

ທາງລັດໃນການຊື້:
  • GeForce RTX 2070 Super clear Amazon
  • GeForce RTX 2080 Super clear Amazon
  • GeForce RTX 2080 Ti ເປີດແລ້ວ Amazon
  • Radeon RX 5700 XT ເປີດ Amazon
  • Radeon RX 5700 ເປີດແລ້ວ Amazon
  • GeForce RTX 2060 Super clear Amazon
  • GeForce GTX 1660 Super clear Amazon

ບົດຂຽນນີ້ຖືກລົງພິມໃນວັນທີ 7 ສິງຫາ 2019. ໃນຖານະເປັນສ່ວນ ໜຶ່ງ ຂອງການລິເລີ່ມ #ThrowbackThursday ຂອງພວກເຮົາ, ພວກເຮົາໄດ້ປັບປຸງແກ້ໄຂແລະລົ້ມເຫລວ.