18.04 アップデートにより grub が壊れ、起動できなくなる

18.04 アップデートにより grub が壊れ、起動できなくなる

今日、システムが起動できない問題が発生しました。このシステムは新規インストールで、最近、公式の Ubuntu ISO を含むライブ USB 経由で Ubuntu 18.04.3 を再インストールしました。

これは 3 回目か 4 回目の試みですが、同じ問題が発生しています。

  • デフォルトのパラメータでシステムをインストールする

  • インストール後すぐに再起動しても問題はありません。

  • システムを更新します。現在は壊れているため、もう手元にありませんが、システムをインストールした直後に通常の更新を実行しました。

  • 再度再起動すると、システムが壊れたように見えます。Ubuntu を起動できなくなりました。システムは引き続き grub メニューを表示し、オプションを選択すると失敗します。
  • これが起こるたびに、Ubuntu 18.04.3 を再インストールして同じ問題 (更新してブート ループに陥る) が発生します。
  • dmesg によってエラーが表示されます:
EDAC amd64: Error: F0 not found, device 0x1460 (broken BIOS?)
EDAC amd64: Error: Errorprobing instamce: 0

1 週間前にインストールした別のコンピューター (編集: 他の 3 台のコンピューター) でもこのエラーを再現しましたが、まったく同じ問題が発生しました。他のコンピューターには、同様の最新のハードウェア (最新の AMD CPU、AMD Epyc 7302p) が搭載されています。

同僚もアップデートを実行しましたが、同じ問題が発生しました。機能するシステムを回復するには、カーネル バージョンを 5.0.0-36-generic から 5.0.0-35-generic に戻す必要がありました。

アップデート:どうやら、このエラーはパッケージのアップグレードから発生しているようです。私は、カーネル バージョン 5.0.0-23-generic のライブ USB から Ubuntu 18.04 を最初からインストールし、インストール中にインストーラーに更新をダウンロードさせると、grub を壊すことなくカーネルがバージョン 5.0.0-36-generic にアップグレードされます。しかし、他のパッケージをアップグレードしようとしたとき (apt アップグレードを使用)、grub が再び壊れました。

アップグレード中に、1 つのパッケージが /boot パーティション内のいくつかのファイルを変更していることがわかりましたが、残念ながら、どのパッケージが変更されたかを確認する時間はありませんでした。

他にこの問題を経験した人はいますか? 解決策を知っている人はいますか?

答え1

2 台の Dell Precision 5820 で一連の信頼できるアップデートを実行した後、同じ問題が発生しました。1 台目は、別々の 2 TB ドライブに 2 つの OS があります。

  • Ubuntu18.04 の場合
  • Windows10 の

2 番目には、別々の 2 TB ドライブに 3 つの OS があります。

  • Ubuntu18.04 の場合
  • sdb=Fedora31
  • sdc=Debian9

最初に以下を実行しました:

  1. sudo apt update
  2. ソフトウェア アップデータを呼び出しました。
  3. すべて更新することを許可しました。
  4. GRUBのアップデートの際、ローカルのものを交換するか、ローカルのものを使うか、それとも2つを比較するか尋ねられました。ローカルと新しいものを比較することにしました。これは簡単なように思えました。コンソールに次のように表示されました。shim-signed (1.37~18.04.3+15+1533136590.3beb971-0ubuntu1) を設定しています...何らかのアップデートを実行したとき(私はそれをしないと言ったにもかかわらず!)、システムを解放するために再起動が必要になりました。
  5. 戻ってきてターミナルを開いてsudo update-grub
  6. もう一度再起動して入りました。

2 つ目のシステム (昨日の Dell Restore フラッシュ インストールから実行されているため同期しています。このインストールは、Dell がシステム リリースを凍結する前に AMD がドライバーを導入しなかったために発生した「ログイン ループ」を克服しました。2100X グラフィック カードは、16.04 コード/カーネルでは読み取れないログイン入力を延々と待機していました) は、(GRUB アップデートに関する同じクエリで) ローカル OS のままにして、3 つの OS を選択/実行できるようにしたいと私が言ったため、異なっていました。再起動後、3 つすべてでエラーが発生し、GRUB が壊れていることがわかりました (ソフトウェア インストーラー コードも同様)

  • Ubuntu: 以前はF12GRUB メニューをバイパスして Ubuntu を選択しましたが、失敗しました。

    0.3294701 Kernel offset: ...
    0.3294911 --- [ end Kernel panic - not synching: VFS: 
    Unable to mount fs on unknown-block(0,0)
    

    それで再起動しました。

  • Debian: 以前はF12GRUB メニューをバイパスして Debian を選択しましたが、失敗しました。System Tester ウィンドウが表示されましたが、それを終了するためにクリックしEsc、その後再起動しました。

  • Fedora: 以前はF12GRUBメニューをバイパスしてFedoraを選択しました。最初は問題ないように見えました。入ると自動更新されました。
    その後、EFIメニューに入り、再びFedoraを選択しました。紫色のUbuntuが表示されました。低解像度画面が表示され、そこで停止しました。

これは疲れる。コーディングしない人リリースプロセスの品質保証と完全な回帰テスト(ビルド、受け入れ、リリース)の実施、特に変更されたコードによって影響を受けるすべての領域で、新しいコードに対する新しいテストの追加!これは、MicrosoftやAppleのリリースのモデルのようになり始めており、一度動作するようになると、私は決してクリックしません。[わかりました]追跡不可能で致命的な(回避策がない)高優先度/高重大度の「問題」が発生し、他の誰かが省略した QA とテストを行わなければならなくなり、さらに時間を無駄にするのではないかという十分な根拠のある恐怖から、クエリを更新します。

これは、ACM、IEEE、ISO、SQA などで定義されているリリース方法ではありません。ログインできないシステム上の未保存のファイルを置き換える必要があります。つまり、ゼロクリア後に再インストールする必要があります。

答え2

AMD EPYC 7452 32 コア プロセッサでも同様の問題が発生しました。

Aug 28 13:57:40 server01 kernel: [    8.196170] MCE: In-kernel MCE decoding enabled.
Aug 28 13:57:40 server01 kernel: [    8.201319] EDAC amd64: Node 0: DRAM ECC enabled.
Aug 28 13:57:40 server01 kernel: [    8.201320] EDAC amd64: F17h detected (node 0).
Aug 28 13:57:40 server01 kernel: [    8.201375] EDAC amd64: Error: F0 not found, device 0x1460 (broken BIOS?)
Aug 28 13:57:40 server01 kernel: [    8.201378] EDAC amd64: Error: Error probing instance: 0
Aug 28 13:57:40 server01 kernel: [    8.320565] EDAC amd64: Node 0: DRAM ECC enabled.

修正方法は、LTS Enablement Stacks (HWE または Hardware Enablement とも呼ばれる) カーネルをインストールすることでした。

apt install --install-recommends linux-generic-hwe-18.04

これで、システムは次のように起動し、エラーは発生しなくなります。

Aug 28 14:07:39 server01 kernel: [  117.977960] MCE: In-kernel MCE decoding enabled.
Aug 28 14:07:39 server01 kernel: [  117.985049] EDAC amd64: Node 0: DRAM ECC enabled.
Aug 28 14:07:39 server01 kernel: [  117.985051] EDAC amd64: F17h_M30h detected (node 0).
Aug 28 14:07:39 server01 kernel: [  117.985283] EDAC MC: UMC0 chip selects:
Aug 28 14:07:39 server01 kernel: [  117.985285] EDAC amd64: MC: 0: 65536MB 1: 65536MB
Aug 28 14:07:39 server01 kernel: [  117.985286] EDAC amd64: MC: 2: 65536MB 3: 65536MB

関連情報