eine alte QLogic IBA7322 Infiniband-Karte auf CentOS8.2 wiederbeleben

eine alte QLogic IBA7322 Infiniband-Karte auf CentOS8.2 wiederbeleben

Ich habe einige HP Blades Gen7 mit QLogic Infiniband-Karten IBA7322, die ich gerne mit CentOS 8 verwenden möchte. Mein Problem ist, dass ich nicht die richtigen Treiber dafür finde. Alle Informationen, die ich finde, sind entweder veraltet oder die Links funktionieren nicht (z. B. die Marvell-Download-Links).

Ich kann die Karte mit LSPCI sehen, aber ansonsten hatte ich kein Glück beim Einschalten (sozusagen).

Kann mir irgendjemand bei diesem Problem weiterhelfen?

Prost.

Bearbeiten:

Ergebnisse von lspci -vv:

01:00.0 InfiniBand: QLogic Corp. IBA7322 QDR InfiniBand HCA (rev 02)
        Subsystem: Hewlett-Packard Company Device 178a
        Physical Slot: 0
        Control: I/O+ Mem+ BusMaster- SpecCycle- MemWINV- VGASnoop- ParErr+ Stepping- SERR+ FastB2B- DisINTx-
        Status: Cap+ 66MHz- UDF- FastB2B- ParErr- DEVSEL=fast >TAbort- <TAbort- <MAbort- >SERR- <PERR- INTx-
        Interrupt: pin A routed to IRQ 10
        Region 0: Memory at fd400000 (64-bit, non-prefetchable) [size=4M]
        Capabilities: [40] Power Management version 3
                Flags: PMEClk- DSI- D1- D2- AuxCurrent=0mA PME(D0-,D1-,D2-,D3hot-,D3cold-)
                Status: D0 NoSoftRst- PME-Enable- DSel=0 DScale=0 PME-
        Capabilities: [70] Express (v2) Endpoint, MSI 00
                DevCap: MaxPayload 512 bytes, PhantFunc 0, Latency L0s <64ns, L1 <1us
                        ExtTag- AttnBtn- AttnInd- PwrInd- RBE+ FLReset- SlotPowerLimit 0.000W
                DevCtl: Report errors: Correctable+ Non-Fatal+ Fatal+ Unsupported+
                        RlxdOrd+ ExtTag- PhantFunc- AuxPwr- NoSnoop-
                        MaxPayload 128 bytes, MaxReadReq 4096 bytes
                DevSta: CorrErr- UncorrErr- FatalErr- UnsuppReq- AuxPwr- TransPend-
                LnkCap: Port #0, Speed 5GT/s, Width x8, ASPM L0s, Exit Latency L0s <4us
                        ClockPM- Surprise- LLActRep- BwNot- ASPMOptComp-
                LnkCtl: ASPM Disabled; RCB 64 bytes Disabled- CommClk+
                        ExtSynch- ClockPM- AutWidDis- BWInt- AutBWInt-
                LnkSta: Speed 5GT/s, Width x8, TrErr- Train- SlotClk+ DLActive- BWMgmt- ABWMgmt-
                DevCap2: Completion Timeout: Not Supported, TimeoutDis+, LTR-, OBFF Not Supported
                         AtomicOpsCap: 32bit- 64bit- 128bitCAS-
                DevCtl2: Completion Timeout: 50us to 50ms, TimeoutDis-, LTR-, OBFF Disabled
                         AtomicOpsCtl: ReqEn-
                LnkCtl2: Target Link Speed: 5GT/s, EnterCompliance- SpeedDis-
                         Transmit Margin: Normal Operating Range, EnterModifiedCompliance- ComplianceSOS-
                         Compliance De-emphasis: -6dB
                LnkSta2: Current De-emphasis Level: -6dB, EqualizationComplete-, EqualizationPhase1-
                         EqualizationPhase2-, EqualizationPhase3-, LinkEqualizationRequest-
        Capabilities: [b0] MSI-X: Enable- Count=32 Masked-
                Vector table: BAR=0 offset=00008000
                PBA: BAR=0 offset=00009000
        Capabilities: [100 v1] Advanced Error Reporting
                UESta:  DLP- SDES- TLP- FCP- CmpltTO- CmpltAbrt- UnxCmplt- RxOF- MalfTLP- ECRC- UnsupReq- ACSViol-
                UEMsk:  DLP- SDES- TLP- FCP- CmpltTO- CmpltAbrt- UnxCmplt- RxOF- MalfTLP- ECRC- UnsupReq+ ACSViol-
                UESvrt: DLP- SDES+ TLP- FCP- CmpltTO- CmpltAbrt- UnxCmplt- RxOF- MalfTLP- ECRC- UnsupReq- ACSViol-
                CESta:  RxErr- BadTLP- BadDLLP- Rollover- Timeout- NonFatalErr-
                CEMsk:  RxErr- BadTLP- BadDLLP- Rollover- Timeout- NonFatalErr-
                AERCap: First Error Pointer: 00, ECRCGenCap+ ECRCGenEn- ECRCChkCap+ ECRCChkEn-
                        MultHdrRecCap- MultHdrRecEn- TLPPfxPres- HdrLogCap-
                HeaderLog: 00000000 00000000 00000000 00000000

Antwort1

Als erstes müssen Sie die PCI-Hersteller- und Geräte-IDs für die betreffende Hardware ermitteln. Ihre Karte scheint 1077:7322 zu sein.schneller Blickin der Linux-Treiberdatenbank steht, dass diese Karte den ib_qib-Treiber verwendet.

Ich habe mir die RHEL-Dokumentation von angesehenTreiber in RHEL 8 entfernt, habe diesen Treiber aber nicht gesehen. Ich habe jedoch eine RHEL 8-VM gestartet und der Treiber ist nicht mehr vorhanden und in der entsprechenden Kernelkonfiguration nicht aktiviert. In RHEL 7 ist er jedoch vorhanden.

Was die Leute in einem solchen Fall normalerweise tun, um die alte Hardware zu verwenden, ist, dieAbonnierenRepository, das für RHEL 8 den fehlenden ib_qib-Treiber (und mehrere andere Treiber, die Red Hat gelöscht hat) enthält. Beispiel:

dnf install https://www.elrepo.org/elrepo-release-8.el8.elrepo.noarch.rpm
dnf install kmod-ib_qib

Antwort2

nach vielen, vielen Versuchen hat mein Freund einen verzweifelten Versuch gewagt und den 4.19-Kernel auf Rocky 8.5 neu kompiliert und den qibTreiber aktiviert. Er war die ganze Zeit da, nur war er nicht im Standardkernel kompiliert.

Jetzt haben wir die alte QLogic-Karte wieder zum Laufen gebracht. Sie ist mit einem (oh Schreck!) Mellanox Infiniband Switch verbunden, auf dem der Subnet Manager läuft.

Die Knoten können untereinander mit 40 Gbit/s kommunizieren und auch mit den viel neueren Mellanox ConnectX5-Karten mit 100 Gbit/s kommunizieren.

Jetzt ist alles gut im Infiniband-Land!

Ich hoffe, das hilft jemandem, und wenn es Fragen gibt, werde ich mein Bestes tun, sie zu beantworten. Denken Sie nur daran, dass ich in diesen Dingen keineswegs ein Experte bin. Nur ein Typ, der sich etwas einfallen lassen und ein altes Gerät wieder relevant machen musste!

verwandte Informationen