What Hash Functions Actually Do (And Why You Should Care)?

A hash function takes an input of any size and produces a fixed-size output called a hash or digest. Think of it as a mathematical meat grinder: you can put in a whole cow or a single hamburger patty, but what comes out is always the same size. The magic is that this process is deterministic—the...

What about md5: the broken hash function that won't die?

MD5 (Message Digest Algorithm 5) was designed by Ronald Rivest in 1991 and produces a 128-bit (16-byte) hash value, typically represented as a 32-character hexadecimal string. For over a decade, it was the go-to hash function for everything from password storage to file integrity verification....

What about sha-256: the workhorse of modern cryptography?

SHA-256 (Secure Hash Algorithm 256-bit) is part of the SHA-2 family, designed by the NSA and published in 2001. It produces a 256-bit (32-byte) hash value, typically represented as a 64-character hexadecimal string. Unlike MD5, SHA-256 has no known practical collision attacks, making it the current...

What about bcrypt: when slow is actually good?

bcrypt was designed in 1999 by Niels Provos and David Mazières specifically for password hashing. Unlike MD5 and SHA-256, which are designed to be fast, bcrypt is intentionally slow. It's based on the Blowfish cipher and includes a work factor that lets you control how slow it is. This might sound...

What about choosing the right hash function for your use case?

After fifteen years of working with hash functions, I've developed a simple decision tree that I share with every developer I mentor. Let me walk you through it, because choosing the wrong hash function is one of the most common security mistakes I see.

Hash Functions Explained for Developers (MD5, SHA-256, bcrypt) [한국어]

💡 Key Takeaways

What Hash Functions Actually Do (And Why You Should Care)
MD5: The Broken Hash Function That Won't Die
SHA-256: The Workhorse of Modern Cryptography
bcrypt: When Slow Is Actually Good

나는 CEO에게 왜 전체 사용자 데이터베이스가 유출되었는지 설명해야 했던 날이 아직도 기억난다. 2016년, 나는 보안 엔지니어로 8년을 근무했으며, 내가 하는 일을 잘 알고 있다고 생각했다. 우리는 비밀번호를 해싱하기 위해 MD5를 사용하고 있었는데, 이것은 내가 합류하기 훨씬 이전에 내려진 결정이었다. 그리고 공격자는 48시간이 채 안 되는 시간 안에 우리의 340,000명의 사용자 비밀번호 중 87%를 해독해냈다. 이 유출 사건으로 인해 우리는 230만 달러의 복구 비용과 수많은 엔지니어링 시간을 소모했으며, 거의 우리의 평판이 파괴될 뻔했다. 이 사건은 해시 함수에 대한 나의 생각을 완전히 바꿔 놓았고, 그가 오늘 이 글을 쓰는 이유이다.

💡 주요 사항

해시 함수가 실제로 하는 일 (그리고 왜 당신이 신경 써야 하는지)
MD5: 결코 사라지지 않는 손상된 해시 함수
SHA-256: 현대 암호학의 주력
bcrypt: 느림이 실제로 좋은 경우

해시 함수는 현대 소프트웨어 보안의 보이지 않는 수호자지만, 내가 멘토링하는 대부분의 개발자들은 그것을 제대로 이해하지 못하고 있다. 그들은 사용해야 한다는 것을 알고 있지만, 왜 하나의 해시 함수가 다른 것과 다른지, 혹은 속도가 자산이 아닌 부채가 되는 경우가 언제인지 알지 못한다. 이 기사는 그 점을 바꿀 것이다. 여러분이 접하게 될 세 가지 가장 중요한 해시 함수—MD5, SHA-256, 그리고 bcrypt—에 대해 설명할 것이며, 각 해시 함수가 어떻게 작동하는지, 그리고 언제 각각을 사용해야 하며, 더 중요한 것은 언제 완전히 피해야 하는지를 설명할 것이다.

해시 함수가 실제로 하는 일 (그리고 왜 당신이 신경 써야 하는지)

해시 함수는 어떤 크기의 입력을 받아 고정 크기의 출력, 즉 해시 또는 다이제스트를 생성한다. 이것을 수학적 고기 분쇄기로 생각하라: 전체 소나 하나의 햄버거 패티를 넣어도 나오는 것은 항상 같은 크기이다. 이 과정은 결정적이라는 점이 마법이다—같은 입력은 항상 같은 출력을 생성하지만, 역으로 헤아리기는 사실상 불가능하다.

좋은 암호 해시 함수의 조건은 다음과 같다: 첫째, 결정적이어야 한다. "password123"을 백만 번 해싱해도 항상 같은 결과가 나와야 한다. 둘째, 한 방향으로는 빠르게 계산할 수 있어야 하며 역으로 계산하는 것은 계산적으로 불가능해야 한다. 셋째, 입력의 아주 작은 변화는 전혀 다른 출력을 생성해야 한다—이를 눈사태 효과라고 한다. 입력에서 한 비트를 변경하면 출력의 약 50% 비트가 뒤바뀌어야 한다.

넷째, 충돌 저항성이 있어야 한다. 충돌은 서로 다른 두 입력이 동일한 해시 출력을 생성할 때 발생한다. 충돌은 수학적으로 피할 수 없는 일이다(가능한 입력은 무한하지만 가능한 출력은 유한하기 때문). 그러나 좋은 해시 함수는 충돌을 찾기 위해 필요한 작업을 극도로 어렵게 만들어서 사실상 불가능하게 만든다. 마지막으로, 출력은 완전히 결정적이지만 랜덤하고 균등 분포되어야 한다.

나는 개발자들이 해시 함수를 암호화와 혼동하는 것을 보아왔으므로, 명확히 하겠다: 암호화는 올바른 키로 역으로 복원할 수 있지만, 해싱은 그렇지 않다. 데이터를 암호화할 때는 나중에 복호화하려는 의도가 있다. 데이터를 해시할 때는 일방적인 지문을 생성하는 것이다. 이 구별은 어떤 도구를 어떤 작업에 사용할지 결정하기 때문에 중요하다.

나는 재무 애플리케이션을 안전하게 보호하는 일상적인 작업에서 해시 함수를 세 가지 주요 용도로 사용한다: 데이터 무결성 검증(파일이 변조되지 않았는지 확인), 디지털 서명 생성, 비밀번호 저장. 각 사용 사례는 서로 다른 요구 사항이 있기 때문에 해시 함수 간의 차이를 이해하는 것이 매우 중요하다.

MD5: 결코 사라지지 않는 손상된 해시 함수

MD5(메시지 다이제스트 알고리즘 5)는 1991년 로널드 리베스트에 의해 설계되었으며 128비트(16바이트)의 해시 값을 생성하고 보통 32자의 16진수 문자열로 표시된다. 10년 이상 동안 비밀번호 저장소에서 파일 무결성 검증에 이르기까지 모든 용도가 MD5였다. 오늘날, MD5는 암호학적으로 파손되어 있지만, 매달 한 번 이상은 여전히 프로덕션 코드에서 보고된다.

"가장 빠른 해시 함수가 종종 보안에는 최악의 선택이다—암호학에서의 속도는 기능이 아니라 취약점이다."

MD5에 대한 첫 번째 심각한 충돌 공격은 2004년 샤오윈 왕과 동료들에 의해 발표되었다. 그들은 충돌을 찾는 것이 이론적으로 필요한 2^64 작업보다 훨씬 더 쉽다는 것을 입증했다. 2008년까지 연구자들은 동일한 MD5 해시를 생성하는 두 개의 완전히 다른 실행 파일을 만들었다. 2012년, Flame 악성코드는 MD5 충돌을 이용해 마이크로소프트 디지털 인증서를 위조했다. 벽에 적힌 글자는 단순히 글씨로 표시된 것이 아니라 네온 문자로 스프레이 페인트된 것이었다.

MD5가 실제로 어떻게 작동하는지 보여드리겠다. 문자열 "Hello, World!"는 MD5 해시: 65a8e27d8879283831b664bd8b7f0ad4를 생성한다. "Hello, World?"로 한 문자만 바꾸면 다음과 같다: 7f138a09169b250e9dcb378140907378. 출력이 완전히 다르다는 점에 주목하라—그것이 바로 눈사태 효과가 올바르게 작동하는 것이다. MD5가 기본 요구 사항에서 실패하는 것이 아니라, 알고리즘에 수학적 약점이 있어 공격자가 충돌을 훨씬 더 빠르게 찾을 수 있게 한다는 점이 문제이다.

그렇다면 왜 개발자들은 여전히 MD5를 사용할까? 속도와 친숙함 때문입니다. MD5는 믿을 수 없을 정도로 빠르다—내 개발 머신에서 초당 약 4억 개의 MD5 해시를 계산할 수 있다. 또한, MD5는 사실상 모든 프로그래밍 언어 및 프레임워크에서 사용할 수 있다. 나는 모든 변명을 들었다: "우리는 단지 체크섬을 위해 사용하고 있을 뿐, 보안을 위한 것이 아니다," 또는 "우리 시스템은 공격당할 만큼 중요하지 않다," 또는 개인적으로 제일 좋아하는 변명, "우리는 항상 이렇게 해왔다."

나는 직접 말하겠다: 2026년에 MD5의 수용 가능한 사용은 정확히 두 가지이다. 첫째, 충돌 저항성이 불필요한 캐시 키 작성이나 데이터 분할과 같은 비암호화 용도로 사용할 수 있다. 둘째, 계승 시스템과의 하위 호환성을 위해 필요할 수 있다. 그게 전부다. MD5를 사용하여 보안과 관련된 어떤 것—비밀번호, 디지털 서명, 인증서 검증—에 대해 사용하고 있다면, 당신은 결국 비용이 발생할 실수를 하고 있는 것이다.

성능 논리는 더 이상 통하지 않는다. SHA-256과 같은 현대 대안들은 사실상 모든 사용 사례에 대해 충분히 빠르며, 보안상의 이점은 미미한 성능 차이를 초월한다. 내가 일하는 재무 시스템에서는 매일 수백만 건의 거래가 처리되며, MD5에서 SHA-256으로 전환하는 데 거래당 2밀리초도 채 안 되는 지연이 추가되었다—사용자가 인지할 수 없는 정도지만 드라마틱하게 더 안전하다.

SHA-256: 현대 암호학의 주력

SHA-256(보안 해시 알고리즘 256비트)은 SHA-2 계열의 일부로, NSA에 의해 설계되어 2001년에 출판되었다. 이 함수는 256비트(32바이트)의 해시 값을 생성하며, 보통 64자의 16진수 문자열로 표시된다. MD5와 달리 SHA-256은 알려진 실용적인 충돌 공격이 없으며, 대부분의 암호 응용 프로그램을 위한 현재의 표준이 되었다.

해시 함수	속도	주요 사용 사례	보안 상태
MD5	매우 빠름 (~300 MB/s)	체크섬, 파일 무결성	암호학적으로 파손됨 - 절대로 비밀번호에는 사용하지 말 것
SHA-256	매우 빠름 (~150 MB/s)	디지털 서명, 인증서, 블록체인	무결성을 위해 안전함, 비밀번호에는 너무 빠름
bcrypt	고의적으로 느림 (조정 가능)	비밀번호 해싱	비밀번호 저장에 추천됨
SHA-1	매우 빠름 (~100 MB/s)	디지털 서명, 무결성 검증, 인증서	안전성 저하, 더 이상 추천하지 않음