Is an ECC ram enabled GPU necessary for a server, or will a normal gpu work fine in a server?

Is an ECC ram enabled GPU necessary for a server, or will a normal gpu work fine in a server?

Обязательно ли серверу использовать ECC RAM на GPU, в то время как обычная память CPU - ECC? Я думаю, что вместо Quadro k6000 или AMD Firepro, мы могли бы использовать GTX 980 или AMD r9 290... если это возможно... Кроме того, если не обязательно использовать ECC RAM... то есть ли "серверный" GPU (процессор i7 "как" серверный E7... E7 обычно предназначен для сервера/рабочей станции, как i7 обычно предназначен для настольного компьютера)... Пожалуйста, помогите!!!

решение1

Самая большая проблема при использовании настольных видеокарт в сервере заключается не в памяти (которая не имеет значения), а в ее пространстве и мощности.

Серверные карты обычно меньше и не имеют массивных радиаторов на 2-3 слота и вентиляторов, которые есть у настольных карт.

Они также обычно не требуют дополнительного кабеля питания. Большинство серверов не имеют 6- или 8-контактного разъема питания видеокарты (некоторые могут иметь, или вы можете взломать его).

Проблема также заключается в нагреве — в небольших стоечных системах отвод тепла может осуществляться только с помощью 1-дюймовых вентиляторов.

И, наконец, драйверы - некоторые настольные карты не имеют соответствующих драйверов для серверных операционных систем. Иногда вы можете использовать эквивалентные драйверы клиентской ОС, иногда нет.

Другое отличие заключается в том, как карты выполняют различные задачи. Карты для настольных ПК предназначены для игр. Карты для серверов и рабочих станций обычно превосходят в производительности 2D для таких вещей, как ускорение графического процессора в терминальных серверах и таких вещей, как рендеринг AutoCAD. Они также, как правило, более стабильны и стоят намного дороже.

Если настольная видеокарта подойдет вашему серверу, имеет соответствующие разъемы питания, не перегревается и обеспечивает необходимую вам производительность, выбирайте ее.

решение2

ОЗУ графического процессора ECC не является строгим требованием для любого сервера; оно никак не связано с использованием системной памяти ECC.

Тем не менее, в некоторых обстоятельствах GPU с памятью ECC настоятельно предпочтительны. По сути, вам нужна ECC VRAM, если вы используете GPU для высокоточных вычислительных задач GPU (например, Folding@Home с двойной точностью или что-то подобное). Неслучайно ECC VRAM в основном встречается в видеокартах вычислительного класса (например, Tesla K10, Titan), в то время как их эквивалентные игровые собратья используют обычную, не-ECC RAM.

При использовании для CAD/CAM и/или постобработки рендеринга ECC RAM является желанным дополнением, но не абсолютной необходимостью. Для игр ECC VRAM практически бесполезен.

Что действительно отличает Quadros от потребительских видеокарт, так это не память ECC, а драйвер, который вы можете установить на первую. CAD/CAM/3D-моделирование требует манипуляции со сложной каркасной моделью, где возможности геометрического движка и сглаживания линий задействованы на пределе (в отличие от игр, которые напрягают текстурирование, скорость заполнения и полноэкранное сглаживание). Правильная карта (например, Quadro низкого или среднего уровня) с правильным драйвером может выжать в 2 или 3 раза больше производительности, чем более дорогая потребительская карта.Здесь вы можете найти несколько примеров.

решение3

Оперативная память не имеет значения. Самая большая проблема в том, что потребительские графические процессоры в настоящее время намеренно сделаны так, что кабель питания туда не влезет (они переместили его с задней части на бок).

You can’t use consumer GPUs in datacenters

Sometimes they intentionally leave known bugs in the GTX/RTX driver while they fix it in the workstation / server cards. Which cost 5 times the money, of course.

NV also put various legal restrictions in the EULAs which explicitly prohibit the use of such cards in data centers. So, yes, you can kinda use consumer GPUs in the data center, but you'll face a lot of problems.

решение4

2023-02-21: Passmark's MemTest86 tool documentation has good info on ECC.


ECC memory is meant to protect you from random bit flips from like cosmic rays.

Google did a study and concluded:

About a third of machines and over 8% of DIMMs in our fleet saw at least one correctable error per year... the number of correctable errors per DIMM is highly variable, with some DIMMs experiencing a huge number of errors, compared to others.

Granted this study was for system RAM and not VRAM but corruption can happen but IMO I'd say its a low probability and thats what backups are for, hopefully :-).

I think there are other more important factors to consider within the same GPU series (3000 series for example) when buying a GPU: amount of VRAM, physical size, cooling/noise, power and nvLink support.

For example I have a RTX A2000 w/ 12GB ECC VRAM and a Asus ROG Strix RTX 3060 w/ 12GB NON-ECC VRAM. The 3060 can use both the Gaming and Studio nVIDIA drivers, its faster, it runs cooler, has the same amount of VRAM, and is quieter. Yes its big taking up 3 slots, uses more power and I can't use nvLink but I have space in my case, only need 1 GPU, power no biggie and will roll the dice on bit flips.

Its just trade offs at the end of the day, like most things in computing.

My main problem with the workstation GPUs is the noise of those whiny blower fans so I'm willing to give up some things for lower noise as long as I get enough VRAM.

Связанный контент