복합 인덱스의 순서 관련된 흔한 오해

개발자들이 데이터베이스 성능 최적화를 논할 때마다 항상 나오는 주제다. 인덱스를 어떻게 걸어야 하냐는 것. 그리고 십중팔구 엉뚱한 방향으로 인덱스를 설계하고는 한다. 오늘은 복합 인덱스 순서와 관련된 흔한 오해를 실제 사례로 들춰보겠다.

문제 상황: 생각해보자.

모 개발 커뮤니티에서 아래와 같은 퀴즈가 올라온 적이 있다.
당신이라면 쿼리를 건드리지 않고, 어떻게 아래 쿼리에 대한 인덱스를 설계할 것인가?

SELECT 주문일자, count(*) AS 주문수
FROM 주문
WHERE 주문일자 >= $1 AND 주문일자 <= $2
  AND 배송지 LIKE '%논현동%'
  AND 배송여부 = 'Y'
GROUP BY 주문일자
ORDER BY 주문수 DESC;

이 쿼리는 특정 기간에 논현동으로 배송 완료된 주문을 일자별로 집계하는 것이다.
이런 쿼리에 최적화된 인덱스를 만들어보라는 문제였다. (단, Full text index는 제외하고 생각한다.)

많은 개발자가 인덱스(주문일자, 배송여부, 배송지)를 구성하려고 시도해본다.
왜 이런 생각을 할까? 이유는 단순하다.

하지만, 틀렸다. 이 방식은 전혀 최적의 인덱스 설계가 아니다. 왜일까?

여기서 꼭 알아야 할 두 개념이 있다.
'카디널리티(Cardinality)'와 '선택도(Selectivity)'다.

대다수 개발자는 이 둘을 헷갈린다.
"카디널리티 높은 컬럼을 인덱스 앞에 두라"는 조언만 기억한다.
반은 맞고 반은 틀린 말이다.

실제로 최적의 인덱스는 '인덱스(배송여부, 주문일자, 배송지)'이다.

DB 인덱스는 B-Tree 구조로, 수직 탐색과 수평 탐색으로 이루어진다.
여기서 핵심은 수평 탐색의 범위를 최대한 줄이는 것이다. (인덱스가 사실 필요한 이유가 이것이다.)

주문일자가 먼저인 경우:
(1992-05-01, Y), (1992-05-01, N), (1992-05-02, Y), (1992-05-02, N), ...
배송여부가 먼저인 경우:
(N, 1992-05-01), (N, 1992-05-02), ..., (Y, 1992-05-01), (Y, 1992-05-02), ...

첫 번째는 '주문일자 범위의 모든 레코드(Y와 N 모두)를 스캔한다.
두 번째는 "배송여부 = 'Y'"인 레코드만 먼저 걸러 낸 후, 그 안에서 주문일자 범위를 검색한다.
어느 쪽이 효율적일까? 대답할 필요가 없다.

인덱스 설계 시 조건 유형에 따른 우선순위가 있다.

따라서 "배송여부 = 'Y'"(동등 조건)이 "주문일자 >= $1 AND 주문일자 <= $2"(범위 조건)보다 인덱스 앞에 와야 한다.
앞서 살펴본 예시와 같은 이유에서 말이다.

실제 성능 차이를 보자.

결론: 두 번째 인덱스는 첫 번째보다 5배 적은 데이터를 스캔한다. 성능 차이는 명백하다.

한 수 더 뜨는 최적화 방법이 있다. '커버링 인덱스'다.
쿼리에 필요한 모든 컬럼을 인덱스에 포함시켜 테이블 접근 없이 인덱스만으로 처리하는 방법이다.

인덱스 = (배송여부, 주문일자, 배송지)

이 인덱스는 커버링 인덱스로도 작동한다.
조건 컬럼과 SELECT 컬럼이 전부 포함되어 있기 때문이다. (일석이조다.)

이렇게 설계하면 쿼리 옵티마이저가 효율적인 실행 계획을 세운다.
물론 이렇게 간단한 원칙도 모르고 주문일자부터 인덱싱하는 개발자들이 수두룩하다.