Концепты

GeForce RTX 5090 стали зависать в рабочих станциях — причина не ясна, а помогает только перезагрузка

Видеокарты Nvidia GeForce RTX 5090 и RTX Pro 6000 столкнулись с воспроизводимой ошибкой сброса функции виртуализации, из-за которой графические ускорители могут полностью перестать отвечать до физической перезагрузки хост-системы.

В чем уникальность зум-камеры HUAWEI Pura 80 Ultra?

В чем уникальность зум-камеры HUAWEI Pura 80 Ultra?

Обзор видеокарты Acer Nitro Intel Arc B580 OC

Обзор видеокарты Acer Nitro Intel Arc B580 OC

Обзор ноутбука HONOR MagicBook Pro 16 HUNTER 2025. Для игр? Для работы? Для игр и работы!

Обзор ноутбука HONOR MagicBook Pro 16 HUNTER 2025. Для игр? Для работы? Для игр и работы!

Компьютер месяца — сентябрь 2025 года

Компьютер месяца — сентябрь 2025 года

Шестиядерники за 10 тысяч рублей — сравнение и тесты

Шестиядерники за 10 тысяч рублей — сравнение и тесты

Ноутбуки HONOR MagicBook: технологии, дизайн и производительность для любых задач

Ноутбуки HONOR MagicBook: технологии, дизайн и производительность для любых задач

Обзор смартфона HUAWEI Pura 80 Pro: разумный флагман с мощнейшей камерой

Обзор смартфона HUAWEI Pura 80 Pro: разумный флагман с мощнейшей камерой

Обзор планшета HUAWEI MatePad 11,5'' (2025): апгрейд без бликов

Обзор планшета HUAWEI MatePad 11,5» (2025): апгрейд без бликов

 Источник изображения: Reddit

Источник изображения: Reddit

Компания CloudRift, провайдер облачных вычислений с графическими процессорами, опубликовала подробное описание проблемы, обнаруженной на нескольких системах, оборудованных ускорителями Blackwell. Компания даже объявила о публичной награде в размере $1000 за решение ошибки или обнаружение её первопричины. По данным CloudRift, ошибка возникает после того, как графический процессор был подключён к виртуальной машине с помощью KVM и VFIO. При выключении гостевой системы или переназначении графического процессора хост выполняет сброс на уровне функций PCIe (FLR), что является стандартной процедурой очистки устройства, подключённого к хост-системе. Но вместо того чтобы вернуться в заведомо исправное состояние, графический процессор не отвечает, и появляется ошибка ядра: «не завершено через 65535 мс после FLR; сдаюсь» (not ready 65535ms after FLR; giving up). В этот момент карта также становится нечитаемой для lspci, что приводит к ошибкам «неизвестный тип заголовка 7f». CloudRift отмечает, что единственный способ восстановить нормальную работу — это выключить и снова включить всю систему.

Tiny Corp, стартап в области искусственного интеллекта, разработчик фреймворка tinygrad для глубокого обучения, привлёк внимание к этой проблеме, опубликовав результаты CloudRift на X.com с вопросом: «Есть ли у RTX 5090 и RTX Pro 6000 аппаратный дефект? Мы изучили этот вопрос, но не нашли решения».

Обсуждения на форумах Proxmox и в сообществе Level1Techs свидетельствуют о том, что домашние пользователи и другие владельцы карт RTX 5090 также сталкиваются с похожим поведением. Так, в одном случае пользователь сообщил о полном зависании хоста после выключения гостевой системы Windows, при этом графический процессор не смог повторно инициализироваться даже после перезагрузки ОС. В другом случае пользователь сообщил: «Я обнаружил, что мой хост перестал отвечать. Дальнейшая отладка показала, что процессор хоста был заблокирован после тайм-аута FLR, который произошёл после выключения LinuxVM. С моей предыдущей картой RTX 4080 проблем не возникало».

Несколько пользователей подтвердили, что переключение настроек PCIe ASPM или ACS не устраняет проблему. С видеокартами Nvidia предыдущего поколения, такими как RTX 4090, проблем не наблюдалось, что позволяет предположить, что ошибка может быть связана только с актуальным семейством видеокарт Nvidia Blackwell.

FLR — критически важная функция в конфигурациях сквозного доступа к графическим процессорам, позволяющая безопасно сбрасывать устройство и переназначать его между гостевыми системами. Если в работе FLR есть проблемы, многопользовательские рабочие нагрузки ИИ и домашние лаборатории с использованием виртуализации становятся рискованными, особенно когда сбой одной видеокарты приводит к сбою всего хоста. Nvidia пока официально не признала наличие проблемы, и на момент публикации данной заметки не было известно о способах её решения.

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Кнопка «Наверх»