본문 바로가기

나는/Tech Reviwer

라이젠 3600 블루스크린 : 원인과 완전히 해결하기까지 투쟁의 기록 #1

728x90

AMD 라이젠 3600 CPU는 나에게 정말 좋은 기억의 CPU였다. 친구 기프의 PC를 조립할 때 처음 만나고 그 CPU가 기본 쿨러만으로도 각종 멀티미디어 작업에 사용되고, 전원 종료나 서스펜드suspend 없이 24시간 팽팽 돌아가는 것을 곁에서 지켜보면서, 그 훌륭한 가성비와 만듦새에 감탄했었다.

 

그래서 이번에 장인어른 PC를 새로 조립할때도 망설임없이 AMD 라이젠 3600 CPU를 선택했다. 

그렇게 조립했지만 바로 다음날부터 만난 반갑지 않은 손님. 

 

블루스크린. 

그렇다.

블루스크린이 나를 괴롭히기 시작했다. 

 

이번 포스팅에서는 어떻게 블루스크린을 발견하고 어떤 과정으로 노력하고 어떻게 해결했는지 보자. 

 


블루스크린이란?

 

블루스크린(BSOD / Blue Screen Of Death)

윈도우 기반의 컴퓨터가 치명적인 시스템 에러가 발생되어 동작불능에 빠졌을때 뜨는 화면이다.

늘 치명적인 에러의 상태에서 뜨는 것은 아니며 스톱 에러, 예외 에러이기도 하다. 시스템이 안정적으로 진행될 수 없는 상황에 빠진것만은 확실하며 그래서 시스템을 정지할때 표시된다. 

 

컬러풀한 화면으로 작업을하고, 멀티미디어를 즐기고 있을 때, 갑자기 나타나는 파란색의 화면이 당황스러움을 느끼게 해주며, 빨간색 뿐만 아니라 파란색도 공포를 줄 수 있는 컬러임을 확실히 전세계에 각인시켜주었다. 


발생

설치는 어렵지 않은 일이었다. 

그런데 갑자기 나타난 블루스크린.

이 당황스럽고 달갑지 않은 불청객을 처음 만난게 2020년 10월.

PC를 설치해드리고 얼마 지나지 않아서였다.

 

SYSTEM_SERVICE_EXCEPTION

이걸 만날줄이야. 매우 당황스럽고 땀이 나게 만든다.

새 PC니까 이럴리가 없다. 해결해내야만 한다.

 


최초 트러블 슈팅

 

사실 블루스크린은 컴퓨터를 꽤 오래 사용하고 있는 독자분들이라면 아마 드물지 않게 보아왔을 화면이다.그러나 대부분의 블루스크린이 그렇듯, 새 PC에서 볼 수 있는 건 아니다.
새 PC에서 블루스크린이 발생할 수 있는 경우는 두가지 정도.하드웨어적으로 설치중 부품이 완전히 체결이 되지 않거나 잘못 꽂힌 경우.전원 연결된 상태에서 순간적인 쇼트가 발생해 하드웨어 기판에 손상이 발생한 경우가 그렇다.

처음엔 간단히 재부팅을 해보았다. 그러나 이후 매번 채 30분을 지나지않아 그 종류도 다양하게 계속 다른 코드를 띄우며 PC는 죽어나갔다. 그래서 위의 해결책을 시도해보았다. 

1. CPU / RAM / HDD / SSD 를 탈거 후 다시 장착. 잘 연결된걸 확인하고 다시 장착
2. 쇼트난 부분 확인

 

CPU / RAM은 연결부가 핀과 소켓으로 이루어져있다. 모든 핀이 모든 소켓에 정확히 장착되어야 한다. 오래된 부품은 지우개로 핀부분을 지우면 도움이 되기도 하는데, 이건 인식이 잘 안될때의 경우고, 새 PC는 해당되지 않는다. 

 

쇼트를 확실히 발견해내는건 쉽지않은데, 모든 부품을 살피면서, 온도가 과도하게 뜨거운 부분은 없는지 (CPU 제외) 연기가 나는 부분은 없는지 확인한다. 새 PC에서 흔히 발생하는 현상은 아니므로 혹시 확인 후 발견되지 않는다면 '내 PC에는 쇼트현상이 없다' 라고 안심해도 괜찮다. 


이후 트러블 슈팅

 

이후 하나씩 하나씩 여러가지를 시도해보았다. 

1. 윈도우 포맷 후 재설치 
2. 하드웨어 드라이버 재설치

가장 많이 사용하는 해결책은 윈도우 포맷 후 재설치이다. 

그러나 이경우 역시 새 PC에 설치된건 새 운영체제였고, 그러면 이또한 실제 해결책이 될 가능성이 매우 낮다. PC를 오래 사용중에 그렇게 되었다면 PC를 사용하는 과정에서 함께 설치된 악성 프로그램이나, 호환성이 떨어지는 소프트웨어가 문제를 초래했을 가능성이 높다. 그러나 새 PC였다. 

 

UNEXPECTED_KERNEL_MODE_TRAP

재설치 이후에 또다시 만난 블루 스크린은 당혹감과 패배감을 느끼게한다.

 

두번째로는 드라이버 및 펌웨어 재설치이다. 

윈도우 10은 기본적으로 HW에 자체 제공 SW드라이버를 사용한다. 

기본 Microsoft 드라이버

안정성이 보장된 드라이버라서 성능은 떨어지더라도 안정성은 가장 높다. 그럼에도 매우 드물지만 일부 HW의 경우는 블루스크린을 유발한다고도 한다. 제조사 드라이버를 쓰지 않을경우의 이야기이다.

 

그 경우 각 제품의 제조사 홈페이지에서 다운받을 수 있다. 

드라이버 공급자 칸을 확인하자. (NVIDIA 제조 드라이버)

AMD CPU 및 그래픽카드(라데온) 드라이버 다운로드 사이트

https://www.amd.com/ko/support

그러나 그렇더라도 블루스크린을 막을 수는 없었다.

블루스크린이 뜨더라도 I've got to keep moving. 나는 계속 나아가야한다.

 


해결책

 

 

하지만, 우리는 정말 잘 생각해야한다. 

지금 내가 조립한 PC에서 블루스크린이 뜨는 원인이 몇가지일까? 오래된 노후 시스템도 아니고, 이제 막 새로 뜯은 새 제품들로만 조합한 새 PC다. 

이럴때는 매우 높은 확률로 딱 한가지 원인이 있다고 봐야한다. 

그런데 여러가지 다양한 로그가 뜬다? 이것은 어떻게 해석해야할까? 각각 에러메시지가 뜨는 갯수 만큼의 문제가 내 시스템에 있다고 봐야할까? 아니다. 

한가지 원인이 있고, 그 원인으로 인해 연쇄적으로 발생하는 문제들이 시간순과 관계없이 발생한다고 보는것이 맞다. 

이해하기 쉬운 예를 들어보겠다. 

 

신입사원 A씨의 아침 출근길을 생각해보자. 

아침 6:20에 일어나 6:40에 씻으러 들어간다. 7:20 아침을 먹는다. 7:40 지하철에 탄다. 08:00 회사에 도착

이것이 정상적인 출근길이었을때, '아침에 늦잠을 잔다'는 단 하나의 실수가 발생한다고 생각해보자.'

 

아침 6:50분에 일어남. (6:20에 일어나기 실패)

※ 씻는 것을 건너뜀. (씻기 실패)

※ 아침 먹는것을 건너뜀. (7:20의 아침먹기 실패)

※ 07:50 지하철을 탐. (7:40의 지하철 타기 실패)

※ 08:30 회사에 도착. (8:00에 회사에 도착 실패)

 

어떤가? 아침에 제시간에 일어나는 것을 딱 하나 실패했을 뿐인데, 연달아 네개의 실패가 발생했다. 

자, 우리가 신입사원 A의 직장상사라고 생각하자. 

"죄송합니다 부장님, 출근이 좀 늦었습니다"

"왜 늦었어?"

"맞춰보시겠어요?"

 

이때, 우리는 과연 신입사원의 지각 원인을 맞출 수 있을까? 

지하철이 연착되었을 수도 있고, 아침 식사가 제시간에 나오지 않았을수도 있다.

하지만 여러가지 실패했던 기록들만 가지고 진짜 원인을 찾기는 어렵다. 

앞쪽에 문제가 생기면, 추가 문제는 연쇄적으로 무너지는 도미노처럼 일어나기 마련이다. 

 

BSOD의 로그도 마찬가지다. 

가끔은 진짜 원인을 말해주기도 하지만 (매번 같은 에러코드만을 가리킬 경우), 그로인해 연쇄적으로 발생하는 문제들을 보여주어 진짜 문제를 찾기 힘들게 하기도 한다.

 

어디까지나 참고의 목적으로만 써야한다는 것을 알고있자. 

 


DRIVER_IRQL_NOT_LESS_OR_EQUAL

 

IRQL_NOT_LESS_OR_EQUAL

결과적으로 큰 도움은 안되었다. 이 로그를 보신 분이 있다면 각종 설치된 하드웨어의 소프트웨어를 의심해보게 된다. 드라이버가 잘못된 IRQ 인터럽트를 날리는 경우이다. 

 

www.nvidia.com/en-us/geforce/forums/geforce-graphics-cards/5/311133/driverirqlnotlessorequal-nvlddmkmsys/

 

Topic: DRIVER_IRQL_NOT_LESS_OR_EQU on NVIDIA #GeForce Forums

Posted by NeedNvidiaSupport: “DRIVER_IRQL_NOT_LESS_OR_EQUAL - nvlddmkm.sys”

www.nvidia.com

그래픽카드를 만드는 nvidia의 위와 같은 링크를 참조하자. 이번 포스팅을 쓰면서 주로 도움을 받았던 원글를 링크할 생각이다. 지식의 파편화를 방지하고 잘못된 정보가 퍼져나가는 것을 막기위해서는 글을 퍼나르는것이 아니라 링크하는 습관이 좋다.

 


KERNEL_AUTO_BOOST_INVALID_LOCK_RELEASE

 

기본적으로 이 에러는 윈도우 NTOS 커널이 AutoBoost가 트래킹중인 Lock을 릴리즈하겠다는 것을 나타낸다고 한다. 트래킹중인 잠금을 해제했음을 나타낸다. 

 

KERNEL_AUTO_BOOST_INVALID_LOCK_RELEASE

구체적으로 저 의미가 무엇을 뜻하는지는 지금 알 수 없지만, 발생한 원인에 대해서는 다음과 같이 말하고 있다. 

 

1. 오래된 디바이스 드라이버

2. PC에 쌓인 정크파일

3. 저장공간 부족

4. 비정상적인 메모리의 얼로케이션 (할당)

5. RAM이나 HDD/SSD의 잘못된 영역

6. 비슷한 프로그램들의 병렬 실행

7. 윈도우 이미지파일의 잘못

 

해결은 위 내용들에 대한 제거.

그렇지만 너무 뻔하고, 무엇보다도 역시 새 PC에는 해당되지 않는다는 문제가 있다. 

 

의심할 수 있는 포인트는 RAM의 불량. 

원인 4번과 5번에 대해 집중하는 것이다. 

 

해결책으로 메모리 분석을 실시한다. 

다음 링크에 잘 정리되어있으니 참고한다.

https://itons.net/%EC%9C%88%EB%8F%84%EC%9A%B010-%EB%A9%94%EB%AA%A8%EB%A6%AC-%EC%A7%84%EB%8B%A8%EC%9C%BC%EB%A1%9C-%EB%9E%A8ram-%EB%B6%88%EB%9F%89-%EC%98%A4%EB%A5%98-%EC%A0%90%EA%B2%80%ED%95%98%EA%B8%B0/

 

윈도우10 메모리 진단으로 램(RAM) 불량 오류 점검하기 - 아이티온즈넷

윈도우10 Windows 메모리 진단 도구를 실행하여 램(RAM)을 진단하여 불량인지 혹은 오류가 있는지 없는지 테스트하여 이벤트 뷰어에서 테스트 결과를 확인합니다.

itons.net

 

결과적으로 내 경우 도움은 되지 않았는데, 아래의 RAM을 의심 항목에서 다시 이야기하겠다. 

 


APC_INDEX_MISMATCH

 

굉장히 흔하게 발생하는 BSOD 원인 중 하나.

APC_INDEX_MISMATCH

 

 

 

마이크로소프트에서는 다음과 같이 밝히고 있다. APC(비동기 프로시쳐 호출)의 index가 mismatch난다는 것. 무슨 뜻인지 모르겠다고? 크게 걱정할 필요는 없다. 

 

메모리와 관련된 이야기이며 이것이 가장 주요한 원인이다. 그러므로 마찬가지로 아래의 RAM을 의심 항목에서 다시 이야기하겠다. 

 


DPC_WATCHDOG_VIOLATION

 

DPC_WATCHDOG_VIOLATION

윈도우 7에서 윈도우 10으로 업그레이드를 한 경우 많이 발생하는 오류.

장치관리자에서 아래의 표준 SATA AHCI 컨트롤터 속성에 들어간다. 

설정 화면

드라이버 정보에 storahci.sys 파일이 있는것을 확인한 후 위의 드라이버 업데이트 버튼을 눌러 수동으로 드라이버를 최신으로 업데이트 후 시스템을 재시작할것을 권장하고 있다. 

 

하지만 내 경우는 유효한 로그임이 아니어서겠지만, 도움이 되지 않았다. 


CLOCK_WTCHDOG_TIMEOUT

 

CLOCK_WATCHDOG_TIMEOUT이 떴다. 

와치독은 전공자들은 다 알고있을텐데, 집을 지키는 개라고 생각해도 된다 (실제로 이름의 유래다) 혹은 늘 동작하면서 시간을 재는 초시계라고 생각하면 된다. 정상적으로 시스템이 동작하지 못할 때 갈제로 시스템을 정지 및 리셋 시키는 역할을 한다.

 

CPU(프로세서)가 동작할때는 수많은 인터럽트와 그를 처리하는 과정이 수반된다. 그러나 이 오류는 프로세서가 제 동작을 수행하는데 문제가 있어 주 CPU와는 별개의 secondary processor가 받아야하는 clock 인터럽트가 지연되는 것이 원인이다. 그 과정에서 와치독이 동작하게 된다. 

 

해결책으로 제시하고 있는것은 비슷하다.

 

1. 망가진 하드웨어 드라이버

2. 불완전한 RAM

3. 멀웨어나 바이러스의 감염

4. CPU의 오버클럭

5. 바이오스의 업데이트. 

6. 소프트웨어의 충돌.

7. 시스템 충돌 및 시스템 파일 이상.

8. 멀티코어 CPU의 미스커뮤니케이션

9. 오래된 드라이버나 문제가 있는 HW

 

해결책에서 보다시피 CPU의 이상이 있을 수 있다는 냄새가 난다.  

아래 CPU를 의심 항목에서 더 알아보자.

 

아, 그리고 좀 더 알아보고 싶은 분들은 아래 링크를 참조한다.

https://helpdeskgeek.com/help-desk/how-to-fix-a-clock_watchdog_timeout-bsod-in-windows-10/

 

How to Fix a Clock_Watchdog_Timeout BSOD in Windows 10

Have you ever been in the middle of working on an urgent assignment or playing your favorite game and suddenly get a blue screen with the Clock_Watchdog_Timeout error code? This [...]

helpdeskgeek.com

 


SYSTEM_SERVICE_EXCEPTION

 

그 모호한 표현에서 보다시피, 이 BSOD 메시지는 많은 것들을 포괄하고 있다. 

시스템 서비스에 대한 예외 발생. 

따지고 보면 모든 문제와 이슈가 예외 아닌가? 

그 모호한 메시지만큼 해결하기가 매우 어렵다. 아니 진짜 원인을 알기 어렵다고 표현하는 편이 낫겠다.

SYSTEM_SERVICE_EXCEPTION

시스템엔 특권모드라는 것이 있고 비특권모드라는 것이 있는데, 비특권모드의 코드가 특권모드의 코드로 넘어가려고 할때 주로 발생한다고 한다. 

윈도우도 그렇고 모든 운영체제가 그렇지만, 동작 모드라는 것이 있고 각 동작모드마다 보안 레벨이 다르다. 거기에서 violation(위반)이 발생했다는 것이다. 

 

여기에 따른 권장 해결책은 다음과 같다. 

1. 윈도우 업데이트를 시행할 것.

2. Window Driver Vefifier Tool(윈도우 드라이버 검증 툴)을 돌릴것

 

당연하게도 새 PC와 윈도우엔 해당되지 않는다. 영어로 쓰여있어서 다소 부담스러울 수 있지만 어려운 부분은 없다. 다음 링크를 참조하자.

https://helpdeskgeek.com/windows-10/how-to-fix-system-service-exception-stop-code-in-windows-10/

 

How to Fix System Service Exception Stop Code in Windows 10

While uncommon, Blue Screen of Death (BSOD) errors do still occur in Windows 10. Unlike the wall of blue text that older Windows versions displayed when a system crashed, newer [...]

helpdeskgeek.com

 


RAM을 의심


자, 이제 여기까지 왔다. 새 PC에 블루스크린이 다발할 때 가장 가능성 높은 불량 부품. 바로 RAM이다. 

위에서 윈도우 10 내장 램 점검 프로그램은 한번쯤 돌렸을 것이다. 여기에서 문제가 나온 경우, 그리고 삼성 RAM을 사용하고 있는 경우는 무상 교환을 받을 수 있다

 

에디터의 경우는 삼성 RAM을 사용하고 있었기에, 아래 링크를 통해 삼성 메모리 서비스센터에 제품을 보냈다. 전화통화를 먼저 하고 보내도 되는데, 그냥 보내도 관계없다. 아니 하지만 연락/접수 후 보내는 것을 권장한다. 

주소 : 서울특별시 용산구 원효로2가 92-8번지 라온빌딩 2층

전화번호 : 02-701-0300

업무시간 : 오전 9시~오후 5시 (평일), 오전 9시~오후 12시 (토요일) 일요일 휴무

 

용산에 '정식' 삼성전자 RAM 서비스센터가 있다니, 아무래도 가장 큰 공급처여서가 아닐까 생각한다.

직접 방문하실 분들은 업무종료 1시간 전에 방문해야하고, 택배를 통해 접수하실 분은 CJ대한통운 택배로 접수하면 된다. 보증기간 이내에 수리를 맡기는 경우 왕복 택배비가 무료라고 한다. 갓삼성 메모리. 

찬양해.

 

제품 불량이 확인된 제품만 교환할 수 있다. 본 에디터의 경우는 보냈지만, 다른 이유로 돌려받았는데, 바로 '국내 정식 유통 제품이 아니다' 라는 이유였다. 

바로 티몬의 판매자에게 연락해서 따졌다. 정식 서비스센터에 입고시켰지만 국내 정식 유통 제품이 아니라는 이유로 반송받았다는 설명을 했다. 

 

해외직구 제품이 아닐까. 하지만 제품 사이트에는 국내제품이라고 명시되어 있어, 거짓 설명이 의심되었다. 그래서일까? 판매처에서 다른 RAM으로 교환을 해주겠다고 했다. 그래서 교환받았다. 

이로써 위의 BSOD(블루스크린) 발생 이슈는 모두 해결되었을까?

 

아니, 오래지않아 다시 재발되었다. 

진짜 원인이 아니었던 것이다. 

 

오해하지 마셔야 할 것은, RAM을 의심한 행동이 잘못된 접근이 아니었다는 점이다.

우리가 똑같은 HW 한벌이 더 준비되어있다면 크로스로 검증이 가능하다. 하지만 달랑 한대만 보유하고 있다면? HW 이슈에 대해서는 이와같이 하나씩 가능성을 제거해가면서 검증할 수 밖에 없다. 

 

이것이 현실이다. 첫번째 HW 의심, RAM은 아니었고, 다음으로 넘어가야만 했다.

 


SSD를 의심

 

SSD 설치시 FW업데이트 실패가 되었던 적이 있다. 

그래서 SSD의 불량을 의심하고 기존에 장인어른이 갖고계셨던  샌디스크 Sandisk SSD로 마이그레이션을 진행했다. 데이터를 새로 설치하고 개인자료 Personal contents 들을 잘라내서 제 자리에 붙여넣는 일들은 정말 번거로운 일이다. 그 과정의 번거로움도 문제지만 작업과정에서 미처 발견하지못해 유실되는 자료들이 있을 수 있어 더욱 문제다.

 

그래서 마이그레이션을 진행했다.
마이그레이션이란? 현행 시스템 환경에서 새로운 환경으로 시스템을 전환하는 것을 의미한다. 소프트웨어 분야에서만 한정적으로 쓰이는 것이 아닌 전 분야에 걸친 이동방법을 총칭한다.

그런데 문제가 있었다. 장인어른이 쓰고계시던 구 SSD는 128GB. 반면 이번에 새로 산 SSD는 256GB. 그래서 일반적으로 vendor가 제공하는 툴로는 마이그레이션이 진행되지 않는다.

 

여기서 드리는 꿀팁.

Macrium Reflect를 이용하는 것이다. 

Macrium Reflect 동작화면
Macrium Reflect 동작화면

Macrium Reflect를 이용하면 기존 하드의 모든 공간을 마이그레이션(백업)하는 것이 아니라 필요한 만큼의 공간만을 진행한다.

그래서 256GB -> 128GB로의 마이그레이션도 문제없이 할 수 있는 것이다. 
위 화면들을 보면 과정을 알 수 있는데 256GB SSD 전 영역을 이동시키려는 것이 아니므로 딱 필요한 부분 - 이 경우에는 윈도우 OS 설치분 + 개인데이터 - 을 선택한다.그럼 80GB라고 선택이 되고, 옮겨갈 곳은 128GB로, 80 < 128이므로 마이그레이션이 정상적으로 진행됨을 알 수 있다.

Macrium Reflect를 이용해 마이그레이션 하는 모습

자, 과정이 종료되고 이제는 새로 산 Crucial SSD를 제거하고 기존의 Sandisk SSD를 이용해 부팅했다. 그리고 조금 테스트해보았다. 하지만 또 다시 블루스크린 재발. 

 

SSD의 펌웨어 불량도 아니었던 것이다. 

분량이 길어진다. 다음편으로 분리해서 마저 연재하겠다.  아래를 클릭 바란다.

 

https://www.kapellsquare.uk/376

 

라이젠 3600 블루스크린 : 원인과 완전히 해결하기까지 투쟁의 기록 #2

너무 길어 끊었던 첫번째에 이어 계속해보자. 블루스크린이 너무 힘들었다. 그러나 극복할 수 있다! 힘들지만 새PC였다. '반드시 극복할 수 있다' 라고 생각하고 계속 도전을 이어나갔다. 메인보

www.kapellsquare.uk

 

 

로그인이 필요없는

터치 한번의

공감♡은 블로그 운영에 

큰힘이 됩니다!

↓↓↓↓↓

↓↓↓↓↓

↓↓↓↓↓

↓↓↓↓↓

728x90