為什麼運行 ps 會導致“無法分配記憶體”錯誤?

為什麼運行 ps 會導致“無法分配記憶體”錯誤?

我使用的是 Ubuntu 12.04 伺服器。升級到核心3.2.0-38-generic後,ps花了很長時間,最後報告為:

xrealloc: realloc(-2147483648) failed無法分配內存

使用以前的內核引導,3.2.0-37-generic 恢復了ps.

我唯一的線索是,當我使用本機使用者帳戶登入時不會發生這種情況,而僅當使用授權的 Windows AD 帳戶(samba/winbind 設定)登入時才會發生這種情況。

關於如何解決該問題有什麼想法嗎?

答案1

自從套用 12.04.2 更新以來,我也遇到了與 ps 相同的問題。我們使用 AD 帳戶,但具有 LDAP 設定。

我還沒有找到解決方案,但運行較舊的核心也可以解決我的問題。我發現的是

  • 當遠端使用者擁有任何進程時,我會收到任何使用者的 ps 錯誤該用戶是大量群組的成員
  • 如果遠端使用者的群組成員身分不超過 144 個,我不會收到錯誤訊息。 144 是我測試的所有四台伺服器上的神奇數字,但可能會受到可用 RAM 的影響。
  • 我能夠與本地用戶重複這個問題,但需要更多的群組。
  • 在一台擁有大量 RAM 來分配 ps 的伺服器上,失敗並出現錯誤「Signal 11 (SEGV)被 ps 捕獲(procps 版本 3.2.8)」。

這是以 root 身分執行 ps 的 strace 的一部分。當它遇到具有大量群組的用戶擁有的進程時,它會窒息

stat("/proc/31182", {st_mode=S_IFDIR|0555, st_size=0, ...}) = 0
open("/proc/31182/stat", O_RDONLY)      = 6
read(6, "31182 (su) S 24612 31182 24612 34816 31183 4202752 644 0 6 0 0 0 0 0 20 0 1 0 34284825 60358656 481 18446744073709551615 4194304 4224060 140733222184144 140733222183392 140462670197822 0 2147196671 0 16384 18446744071579286484 0 0 17 0 0 0 0 0 0\n", 1023) = 246
close(6)                                = 0
open("/proc/31182/status", O_RDONLY)    = 6
read(6, "Name:\tsu\nState:\tS (sleeping)\nTgid:\t31182\nPid:\t31182\nPPid:\t24612\nTracerPid:\t0\nUid:\t1001\t1001\t1001\t1001\nGid:\t1351\t1351\t1351\t1351\nFDSize:\t256\nGroups:\t1206 1207 1208 1209 1210 1211 1212 1213 1214 1215 1216 1217 1218 1219 1220 1221 1222 1223 1224 1225 1226 1227 1228 1229 1230 1231 1232 1233 1234 1235 1236 1237 1238 1239 1240 1241 1242 1243 1244 1245 1246 1247 1248 1249 1250 1251 1252 1253 1254 1255 1256 1257 1258 1259 1260 1261 1262 1263 1264 1265 1266 1267 1268 1269 1270 1271 1272 1273 1274 1275 1276 1277 1278 1279 1280 1281 1282 1283 1284 1285 1286 1287 1288 1289 1290 1291 1292 1293 1294 1295 1296 1297 1298 1299 1300 1301 1302 1303 1304 1305 1306 1307 1308 1309 1310 1311 1312 1313 1314 1315 1316 1317 1318 1319 1320 1321 1322 1323 1324 1325 1326 1327 1328 1329 1330 1331 1332 1333 1334 1335 1336 1337 1338 1339 1340 1341 1342 1343 1344 1345 1346 1347 1348 1349 1350 1351 1353 1354 1355 1356 1357 1358 1359 1360 1361 1362 1363 1364 1365 1366 1367 1368 1369 1370 1371 1372 1373 1374 1375 1376 1377 1378 1379 1380 1381 1", 1023) = 1023
close(6)                                = 0
mmap(NULL, 135168, PROT_READ|PROT_WRITE, MAP_PRIVATE|MAP_ANONYMOUS, -1, 0) = 0x7f806f2dd000
mremap(0x7f806f2dd000, 135168, 266240, MREMAP_MAYMOVE) = 0x7f806f29c000
mremap(0x7f806f29c000, 266240, 528384, MREMAP_MAYMOVE) = 0x7f806fd68000
mremap(0x7f806fd68000, 528384, 1052672, MREMAP_MAYMOVE) = 0x7f806fc67000
mremap(0x7f806fc67000, 1052672, 2101248, MREMAP_MAYMOVE) = 0x7f806f0fd000
mremap(0x7f806f0fd000, 2101248, 4198400, MREMAP_MAYMOVE) = 0x7f806ecfc000
mremap(0x7f806ecfc000, 4198400, 8392704, MREMAP_MAYMOVE) = 0x7f806e4fb000
mremap(0x7f806e4fb000, 8392704, 16781312, MREMAP_MAYMOVE) = 0x7f806d4fa000
mremap(0x7f806d4fa000, 16781312, 33558528, MREMAP_MAYMOVE) = 0x7f806b4f9000
mremap(0x7f806b4f9000, 33558528, 67112960, MREMAP_MAYMOVE) = 0x7f80674f8000
mremap(0x7f80674f8000, 67112960, 134221824, MREMAP_MAYMOVE) = 0x7f805f4f7000
mremap(0x7f805f4f7000, 134221824, 268439552, MREMAP_MAYMOVE) = 0x7f804f4f6000
mremap(0x7f804f4f6000, 268439552, 536875008, MREMAP_MAYMOVE) = 0x7f802f4f5000
mremap(0x7f802f4f5000, 536875008, 1073745920, MREMAP_MAYMOVE) = -1 EFAULT (Bad address)
mmap(NULL, 1073745920, PROT_READ|PROT_WRITE, MAP_PRIVATE|MAP_ANONYMOUS, -1, 0) = -1 ENOMEM (Cannot allocate memory)
brk(0x40e45000)                         = 0xe3c000
mmap(NULL, 1073876992, PROT_READ|PROT_WRITE, MAP_PRIVATE|MAP_ANONYMOUS, -1, 0) = -1 ENOMEM (Cannot allocate memory)
open("/sys/devices/system/cpu/online", O_RDONLY|O_CLOEXEC) = 6
read(6, "0\n", 8192)                    = 2
close(6)                                = 0
mmap(NULL, 134217728, PROT_NONE, MAP_PRIVATE|MAP_ANONYMOUS|MAP_NORESERVE, -1, 0) = 0x7f7fa74d3000
munmap(0x7f7fa74d3000, 11718656)        = 0
munmap(0x7f7fac000000, 55390208)        = 0
mprotect(0x7f7fa8000000, 135168, PROT_READ|PROT_WRITE) = 0
mmap(NULL, 1073745920, PROT_READ|PROT_WRITE, MAP_PRIVATE|MAP_ANONYMOUS, -1, 0) = -1 ENOMEM (Cannot allocate memory)
write(2, "xrealloc: realloc(1073741824) failed", 36xrealloc: realloc(1073741824) failed) = 36
write(2, "Cannot allocate memory\n", 23Cannot allocate memory

透過這些步驟,我可以僅對本地用戶重複該問題。破解 ps 所需的群組數較大,因此可能取決於伺服器中的 RAM。

root@alowther-d02:~# for i in $(seq 180); do groupadd group$i ; done
root@alowther-d02:~# useradd user1
root@alowther-d02:~# su - user1 -c ps
No directory, logging in with HOME=/
  PID TTY          TIME CMD
 5182 pts/0    00:00:00 su
 5183 pts/0    00:00:00 sh
 5185 pts/0    00:00:00 ps
root@alowther-d02:~# for i in $(seq 180); do adduser user1 group$i; done > /dev/null
root@alowther-d02:~# su - user1 -c ps
xrealloc: realloc(1073741824) failedCannot allocate memory

我可能應該提交一份錯誤報告,但這個問題是我發現的與此問題相關的唯一問題。

相關內容