내 컴퓨터의 온도 값을 모니터링할 때 그 중 하나가 과부하 상태에서 천천히 증가하여 궁극적으로 에서 비상 종료가 발생하는 것을 확인했습니다 thermald
.
열 센서 유형 /sys/class/thermal/thermal_zone*/type
과 해당 온도를 읽습니다./sys/class/thermal/thermal_zone*/temp
그러나 에서 반환된 값의 정의를 어디에서도 찾지 못했습니다 /sys/class/thermal/thermal_zone*/type
. 예를 들어 일부는 꽤 자명해 보입니다 TCPU
. 그러나 나에게 불쾌한 것은 AMBF
그것이 무엇을 의미하는지 전혀 모릅니다.
AMBF
이것이 무엇을 의미하는지 및/또는 다양한 유형의 열 구역에 대한 문서를 어디서 찾을 수 있는지 아는 사람이 있습니까 ?
편집하다:
문제가 처음 발생한 이후로 많은 검색을 수행했으며 결과는 다음과 같습니다.
열 센서를 모니터링하여 다음 차트를 만들었습니다. CPU와 메모리 온도가 잘 처리되어 있음을 알 수 있습니다(CPU TCase는 100°C이므로 결코 초과되지 않습니다). 그러나
AMBF
하나는 임계값인 80°C에 도달할 때까지 계속 성장하여 비상 정지를 촉발합니다.AMBF
ACPI 테이블을 탐색하면서 마침내 그것이 다음을 의미하는 것을 찾았습니다.AMB and Near Fan Temperature (QE3)
테스트라는 독특한 목적으로 Windows 10 OS를 설치했습니다. 그리고:
- 항목
AMBF
이 ACPI 테이블에 표시되지 않습니다(제가 볼 수 있는 한). - 이 문제는 Windows에서는 구체화되지 않습니다. 똑같은 테스트를 실행해도 긴급 종료가 발생하지 않습니다.
- 항목
Dell은 최근 중요한 고객 권고 사항을 발표했습니다.
(Dell Technologies 내부 참조 ID – Dell Technologies ET004676)
이 고객 권고는 최신 대기 모드에서 열 종료가 발생할 수 있는 특정 Optiplex 및 Precision 시스템과 관련된 최근 발견에 대해 알려드리기 위한 것입니다. Dell Technologies는 최적의 시스템 성능을 유지하고 문제 발생을 방지하기 위해 즉시 최신 BIOS로 업그레이드할 것을 권장합니다.
말할 필요도 없이 나는 이미 최신 BIOS 버전을 사용하고 있었습니다. 하지만 이 고객 권고가 Windows에서 문제가 구체화되지 않는 이유를 설명할 수 있다고 생각합니다... 그래서 acpi_osi=! acpi_osi='Windows 2019'
부팅 명령줄을 사용하여 ACPI 관점에서 Windows 시스템인 척하면서 Linux 시스템을 부팅하려고 했습니다. 불행히도 아무런 차이가 없었습니다.
어쨌든, 나는 여전히 기계를 구입한 목적에 맞게 사용할 수 없는 같은 상황에 처해 있습니다. 더 많은 아이디어를 환영합니다.
답변1
내가 이해하는 바에 따르면 열 영역의 이름은 하드웨어에 의해 정의됩니다.
예를 들어 Intel PC 마더보드의 표준 영역 이름은 다음과 같습니다.x86_pkg_temp
Raspberry Pi의 표준 영역 이름은 다음과 같습니다.cpu-thermal
따라서 이와 같은 내용을 보려면 특정 하드웨어에 필요한 드라이버/모듈에 대한 커널 소스 코드를 참조해야 할 것입니다.
운이 좋게 lm-sensors
패키지를 설치한 후 sudo sensors-detect
.
완료되면 감지된 센서에 필요한 커널 모듈이 나열됩니다.
사실, 방금 위의 작업을 수행하고 찾은 내용을 살펴보겠습니다.
Intel digital thermal sensor... Success!
(driver `coretemp')
Intel AMB FB-DIMM thermal sensor... No
AMBF
나는 그 영역이 다음을 참조한다고 확신합니다 Intel AMB FB-DIMM thermal sensor
. 따라서 이 경우에는 아마도 메모리가 손상될 것입니다.
답변2
AMBF
마침내 Dell 지원팀으로부터 센서를 안전하게 무시할 수 있으며 80°C에서의 긴급 종료가 비활성화될 수 있다는 답변을 받았습니다 .
/etc/thermald/thermal-conf.xml
그래서 다음과 같은 파일을 만들었습니다 .
<?xml version="1.0"?>
<ThermalConfiguration>
<Platform>
<Name>Override AMBF critical trip point</Name>
<ProductName>*</ProductName>
<Preference>QUIET</Preference>
<ThermalZones>
<ThermalZone>
<Type>AMBF</Type>
<TripPoints>
<TripPoint>
<Temperature>95050</Temperature>
<type>critical</type>
</TripPoint>
<TripPoint>
<Temperature>80050</Temperature>
<type>hot</type>
</TripPoint>
</TripPoints>
</ThermalZone>
</ThermalZones>
</Platform>
</ThermalConfiguration>
hot
여기서는 처음에 80°C로 레벨 을 설정하고 95°C critical
로 안전망을 유지하기로 결정했습니다 .critical
thermald
또한 다음의 최신 버전을 설치했습니다 .인텔의 github 저장소
거기에서 테스트를 다시 실행했는데 실행 그래프는 다음과 같습니다.
보시다시피 모든 온도는 여전히 잘 관리되고 있으며 AMBF
이제 자유롭게 80°C를 넘을 수 있습니다. 최대 부하 시 약 92°C에서 안정화되고, 실행이 끝나면 천천히 정상 수준으로 돌아옵니다.
이제 문제가 해결되었으며 내 컴퓨터가 완전히 작동합니다.