Почему ПК не используют оперативную память с исправлением ошибок «Потому что Intel», — говорит Линус

Искусственная сегментация рынка могла снизить спрос на ECC в настольных ПК.

Джим Солтер. 6 января 2021 г., 21:56 UTC

использовать, память, ошибка, потому, intel, линус

    В этот понедельник создатель ядра Linux Линус Торвальдс разразился разочарованной тирадой об отсутствии оперативной памяти с коррекцией ошибок контрольной суммы (ECC) в потребительских ПК и ноутбуках.

    Аргументы против ECC всегда были полнейшей чушью. Теперь даже производители памяти начинают использовать ECC внутри компании, потому что они наконец признали тот факт, что им абсолютно необходимо.

    Если вы не знакомы с ОЗУ с ECC, вероятно, это связано с тем, что вы не строите и не специфицируете выделенные серверы с использованием процессоров и материнских плат серверного уровня. что, к сожалению, является единственным местом, где вы действительно можете найти ECC. Вкратце, ECC RAM включает в себя небольшой объем дополнительной памяти, используемой для обнаружения и исправления ошибок.

    Ошибки памяти и вероятность

    В большинстве современных реализаций это означает, что на каждое 64-битное слово, хранящееся в ОЗУ, приходится восемь проверочных битов. Единственная битовая ошибка. 0, преобразованный в 1, или 1, преобразованный в 0. может быть обнаружена и исправлена ​​автоматически. Два бита, перевернутые в одном слове, можно обнаружить, но нельзя исправить. Вероятно, будут обнаружены три или более бит, перевернутых в одном слове, но обнаружение не гарантируется.

    Битовые перевороты могут происходить по многим причинам, начиная с удара космических лучей или простого отказа оборудования. Масштабное исследование серверов Google показало, что примерно 32 процента всех серверов (и 8 процентов всех модулей DIMM) в парке Google испытывают хотя бы одну ошибку памяти в год. Но подавляющее большинство из них. однобитовые ошибки, и поскольку Google использует серверные процессоры и ОЗУ ECC, это означает, что рассматриваемые машины продолжают работать.

    На потребительских машинах даже эти однобитовые ошибки, которые, по данным Google, более чем в 40 раз чаще возникают, чем многобитовые ошибки, остаются незамеченными и могут вызвать нестабильность в системе и повреждение данных.

    Битовые перевороты не всегда случаются

    Хотя ОЗУ ECC не может смягчить атаки в стиле RAMBleed, которые определяют значения соседней памяти, она, как правило, может остановить атаки Роухаммера, при которых быстрое переключение битов в одной области ОЗУ приводит к изменению битов в соседней области.

    Даже когда ECC не может активно предотвратить воздействие атаки Rowhammer на систему. например, когда он переворачивает несколько битов в одном слове. он может по крайней мере предупредить систему о проблеме и, в большинстве случаев, предотвратить Rowhammer атака из-за чего-либо, кроме простоя. (Большинство систем ECC настроены на остановку всей машины в случае обнаружения неисправимой ошибки.)

    Торвальдс обвиняет Intel

    Сколько раз такой удар по строкам, как переворот битов, происходил просто из-за чистой неудачи при реальных нагрузках без атаки? Мы никогда не узнаем. Потому что Intel навязывала потребителям дерьмо.

    Торвальдс занимает смелую позицию, что отсутствие оперативной памяти ECC в потребительских технологиях является ошибкой Intel из-за политики компании по искусственной сегментации рынка. Intel кровно заинтересована в том, чтобы подтолкнуть более глубокие предприятия к более дорогим и прибыльным процессорам серверного уровня, вместо того, чтобы позволить этим организациям эффективно использовать потребляющие компоненты с неизбежно более низкой маржой.

    Отказ от поддержки ECC RAM в процессорах, которые не ориентированы непосредственно на серверный мир, является одним из способов, которыми Intel удерживает эти рынки в значительной степени сегментированными. Аргумент Торвальдса здесь состоит в том, что отказ Intel поддерживать ОЗУ ECC в ее ориентированных на потребителя частях. наряду с ее фактической почти монополией в этой области. является реальной причиной того, что ECC почти недоступна за пределами серверного пространства.

    Обычный аргумент в пользу отсутствия ECC в потребительских технологиях вращается вокруг стоимости, но мы подозреваем, что Торвальдс имеет на это право. Несмотря на то, что оперативная память с ECC. это, по сути, сложная специальная деталь, обычно она стоит всего на 20 процентов дороже на модуль DIMM, чем без ECC в розничной торговле. Настоящая проблема в том, что без материнских плат и процессоров, которые его поддерживают, это не принесет вам никакой пользы.

    Источник