병행 수행과 병행 제어
병행 수행
데이터베이스 관리 시스템은 여러 사용자가 데이터베이스를 동시에 공유할 수 있도록 여러 개의 트랜잭션이 동시에 수행되는 병행 수행을 지원한다. 병행 수행은 실제로 여러 트랜잭션이 차례로 번갈아 수행되는 인터리빙 방식으로 진행된다. 그런데 병행 수행되는 트랜잭션들이 동시에 같은 데이터에 접근하여 변경 연산을 실행하려고 하면 예상치 못한 결과가 나타날 수 있다. 그러므로 병행 수행을 하더라도 각 트랜잭션이 다른 트랜잭션의 방해를 받지 않고 정확한 수행 결과를 얻을 수 있도록 제어해야 한다.
병행 제어
여러 개의 트랜잭션이 병행 수행되면서 같은 데이터에 접근하여 연산을 실행하더라도, 문제가 발생하지 않고 정확한 수행 결과를 얻을 수 있도록 트랜잭션의 수행을 제어하는 것을 병행 제어 또는 동시성 제어라고 한다. 병행 제어를 위해 여러 기법이 존재한다.
병행 수행의 문제
병행 수행을 특별한 제어 없이 진행하면 여러 문제가 발생할 수 있다. 대표적인 문제로 갱신 분실, 모순성, 연쇄 복귀 등이 있다.
1. 갱신 분실(lost update)
하나의 트랜잭션이 수행한 데이터 변경 연산의 결과를 다른 트랜잭션이 덮어써 변경 연산이 무효화되는 것
트랜잭션 T1의 변경 연산이 데이터베이스에 실제로 반영되지 않고 무효화되어 트랜잭션 T1이 수행되지 않은 것처럼 된다.
트랜잭션 T1에 대해 갱신 분실이 발생한 것이다.
2. 모순성(inconsistency)
하나의 트랜잭션이 여러 개의 데이터 변경 연산을 실행할 때 일관성 없는 상태의 데이터베이스에서 데이터를 가져와 연산을 실행함으로써 모순된 결과가 발생하는 것
트랜잭션 T1이 트랜잭션 T2로 인해 데이터 X와 데이터 Y를 서로 다른 상태의 데이터베이스에서 가져와 연산을 실행하기 때문에 결과를 신뢰할 수 없다. 두 트랜잭션을 이와 같이 아무런 제어 없이 동시에 수행하면, 정확한 수행 결과를 얻을 수 없어 데이터베이스는 모순된 상태가 되는 것이다.
3. 연쇄 복귀(cascading rollback)
트랜잭션이 완료되기 전에 장애가 발생하여 롤백 연산을 수행하면, 이 트랜잭션이 장애 발생 전에 변경한 데이터를 가져가
변경 연산을 실행한 또 다른 트랜잭션에도 롤백 연산을 연쇄적으로 실행해야 한다는 것이다. 그런데 장애가 발생한 트랜잭션이 롤백 연산을 실행하기 전에, 변경한 데이터를 가져가 사용하는 다른 트랜잭션이 수행을 완료해버리면 롤백 연산을 실행할 수 없어 큰 문제가 발생하게 된다.
트랜잭션 T1에서 데이터 X에 변경 연산을 실행하고 이를 데이터베이스에 반영한 후 아직 다른 연산들의 실행이 남아 있는 상태에서
트랜잭션 T2가 T1이 변경한 데이터 X 값을 가지고 자신의 모든 연산을 실행한 후 완료되었다. 그 후 트랜잭션 T1이 데이터 Y를 읽어오는 연산을 실행하는 중에 장애가 발생하여 롤백 연산으로 원래의 데이터베이스 상태로 복구되어야 한다면, 잘못된 데이터 X로 연산을 실행한 트랜잭션 T2에도 롤백 연산이 연쇄적으로 실행되어야하지만 트랜잭션 T2가 이미 모든 연산을 실행하고 완료된 상태라 롤백 연산을 실행할 수 없으므로 문제가 발생하게 된다.
트랜잭션 스케줄
병행 수행에서는 트랜잭션들이 차례로 번갈아 가면서 수행되는 인터리빙 방식으로 진행된다고 했었다.
트랜잭션에 있는 연산을 실행하는 순서에 따라 트랜잭션들의 수행 결과가 달라지기도 하고, 병행 수행에 따른 문제가 발생하기도 한다. 그러므로 여러 트랜잭션을 병행 수행할 때는 트랜잭션들의 연산을 실행하는 순서가 중요하다.
트랜잭션 스케줄은 트랜잭션에 포함되어 있는 연산들을 수행하는 순서이다. 일반적으로 하나의 트랜잭션에는 많은 연산들이 포함되어 있어 여러 트랜잭션을 병행 수행하는 경우 트랜잭션들의 각 연산을 실행시키는 순서인 트랜잭션 스케줄도 여러 가지가 있을 수 있다.
트랜잭션 스케줄의 세가지 유형
트랜잭션 스케줄 | 의미 |
직렬 스케줄 | 인터리빙 방식을 이용하지 않고 트랜잭션 별로 연산들을 순차적으로 실행시키는 것 |
비직렬 스케줄 | 인터리빙 방식을 이용하여 트랜잭션들을 병행해서 수행시키는 것 |
직렬 가능 스케줄 | 직렬 스케줄과 같이 정확한 결과를 생성하는 비직렬 스케줄 |
직렬 스케줄(serial schedule)
인터리빙 방식을 이용하지 않고 트랜잭션 별로 연산들을 순차적으로 실행시키는 것이다.
트랜잭션이 직렬 스케줄에 따라 수행되면, 모든 트랜잭션이 완료될 때까지 다른 트랜잭션의 방해를 받지 않고 독립적으로 수행된다.
그래서 직렬 스케줄에 따라 트랜잭션을 수행하고 나면 항상 모순이 없는 결과를 얻는다. 직렬 스케줄에 따라 여러 트랜잭션들을 수행하면 항상 정확한 결과를 얻을 수 있지만, 인터리빙 방식이 아니기에 병행 수행이라 할 수 없다. 성능적으로 불리하기에 직렬 스케줄은 일반적으로 잘 사용하지 않는다.
비직렬 스케줄(non serial schedule)
인터리빙 방식을 이용하여 트랜잭션을 병행해서 수행시키는 것이다.
비직렬 스케줄은 트랜잭션이 돌아가면서 연산들을 실행하기 때문에 하나의 트랜잭션이 완료되기 전에 다른 트랜잭션의 연산이 실행될 수 있다. 비직렬 스케줄에 따라 여러 트랜잭션을 병행 수행하면 갱신 분실, 모순성, 연쇄 복귀 등의 문제가 발생할 수 있다. 최종 수행 결과의 정확성을 보장할 수 없다. 트랜잭션들의 연산들을 실행하는 순서에 따라 다양한 비직렬 스케줄이 만들어질 수 있다.
이 중에는 모순이 없는 정확한 결과를 생성하는 비직렬 스케줄도 있지만, 잘못된 결과를 생성하는 비직렬 스케줄도 있다.
그러므로 어떤 비직렬 스케줄을 선택하여 트랜잭션들을 수행하느냐가 중요하다.
직렬 가능 스케줄(serializable schedule)
직렬 스케줄에 따라 수행한 것과 같이 정확한 결과를 생성하는 비직렬 스케줄이다.
모든 비직렬 스케줄이 직렬 가능한 것은 아니다. 직렬 스케줄은 정확한 결과를 얻을 수 있지만, 인터리빙 방식을 이용하지 않고 트랜잭션들이 독립적으로 수행되므로 병행 수행이 아니다. 반면, 직렬 가능 스케줄은 인터리빙 방식을 이용하여 여러 트랜잭션을 병행 수행하면서도 정확한 결과를 얻을 수 있다.
직렬 가능 스케줄을 이용해 트랜잭션을 병행 수행해야 하지만 직렬 가능 스케줄인지 여부를 판단하는 일은 쉽지 않다.
다수의 트랜잭션을 대상으로 비직렬 스케줄을 찾아내는 것이 어려울 뿐만 아니라, 하나씩 수행해보면서 직렬 스케줄과 같은 결과가 나오는지 비교하는 것도 간단한 작업이 아니기 때문이다. 그래서 대부분의 데이터베이스 관리 시스템에서는 직렬 가능 스케줄인지를 검사하기보다는 직렬 가능성을 보장하는 병행 제어 기법을 사용한다.
병행 제어 기법
병행 제어 기법은 여러 트랜잭션을 병행 수행하면서도 정확한 결과를 얻을 수 있는 직렬 가능성을 보장받기 위해 사용한다.
병행 제어 기법의 기본 원리는 모든 트랜잭션이 따르면 직렬 가능성이 보장되는 나름의 규약을 정의하고, 모든 트랜잭션들이 이 규약을 따르도록 하는 것이다. 그러므로 트랜잭션 스케줄이 직렬 가능 스케줄인지 미리 검사할 필요가 없다.
가장 많이 사용되는 병행 제어 기법으로는 로킹 기법이 있다.
로킹 기법
로킹 기법은 병행 수행되는 트랜잭션들이 동일한 데이터에 동시에 접근하지 못하도록 lock과 unlock이라는 2개의 연산을 이용해 제어한다. 로킹 기법의 기본 원리는 한 트랜잭션이 먼저 접근한 데이터에 대한 연산을 모두 마칠 때까지, 해당 데이터에 다른 트랜잭션이 접근하지 못하도록 상호배제하여 직렬 가능성을 보장하는 것이다.
lock 연산은 트랜잭션이 사용할 데이터에 대한 독점권을 가지기 위해 사용한다.
반대로 unlock 연산은 트랜잭션이 데이터에 대한 독점권을 반납하기 위해 사용한다.
두 연산을 이용해서 다른 트랜잭션의 방해를 받지 않고 데이터에 독점적으로 접근할 수 있게 되는 것이다.
로킹 기법에서 모든 트랜잭션이 가져야 할 기본 로킹 규약
- 트랜잭션이 데이터베이스에 있는 데이터에 접근하는 연산을 실행하려면 먼저 해당 데이터에 lock 연산을 실행하여 독점권을 획득해야 한다. 즉, 트랜잭션이 데이터에 read 또는 write 연산을 실행하기 전에 반드시 lock 연산을 실행해야 한다.
- 다른 트랜잭션이 이미 lock 연산을 실행한 데이터에는 다시 lock 연산이 실행될 수 없다.
- 데이터에 lock 연산을 실행한 트랜잭션만 해당 데이터에 unlick 연산을 실행할 수 있다.
- 데이터 독점권을 얻은 트랜잭션이 모든 연산을 수행하고 나면 unlock 연산을 실행해서 독점권을 반납해야 한다.
- 그래야 다른 트랜잭션이 해당 데이터에 접근할 수 있다.
로킹 단위 (lock 연산을 실행하는 대상 데이터의 크기)
lock 연산은 크게는 전체 데이터베이스부터 작게는 데이터베이스를 구성하는 속성까지 다양한 크기의 데이터를 대상으로 실행할 수 있다. 릴레이션이나 투플도 lock 연산의 대상이 될 수 있다. 만약 전체 데이터베이스에 lock 연산을 실행하면 제어가 간단하다는 장점이 있지만 데이터베이스에 하나의 트랜잭션만 수행되므로 병행 수행이라 할 수 없다. 가장 작은 단위인 속성에 lock 연산을 하면 독점하는 범위가 좁아 많은 수의 트랜잭션을 병행 수행할 수 있다는 장점이 있지만, 제어가 복잡하다는 단점이 있다.
즉, 로킹 단위가 커질수록 병행성은 낮아지지만 제어가 쉽고, 로킹 단위가 작아질수록 제어가 어렵지만 병행성은 높아진다.
그러므로 시스템에 따라 적절한 로킹 단위를 선택하는 것이 중요하다.
lock 연산의 종류
기본 로킹 기법을 사용하면 병행 수행을 제어하는 목표는 이룰 수 있지만 너무 엄격한 제약으로 인해 어떤 순간이든 데이터에 대한 독점권을 하나의 트랜잭션만 가지게 된다. 물론 트랜잭션이 데이터를 변경시키는 write 연산을 실행할 때는 다른 트랜잭션이 방해하지 못하도록 독점권을 가져야 한다. 하지만 데이터를 단순히 읽어오기만 하는 read 연산의 경우, 다른 트랜잭션이 같은 데이터에 동시에 read 연산을 실행해도 문제가 생기지는 않는다. 그러므로 트랜잭션들이 하나의 데이터에 read 연산을 동시에 실행할 수 있도록 허용하여 lock 연산을 두 종류로 구분할 수 있다.
연산 | 설명 |
공용(shared) lock | 트랜잭션이 데이터에 대해 공용 lock 연산을 실행하면, 해당 데이터에 read 연산을 실행할 수 있지만 write 연산은 실행할 수 없다. 그리고 해당 데이터에 다른 트랜잭션도 공용 lock 연산을 동시에 실행할 수 있다. (데이터에 대한 사용권을 여러 트랜잭션이 함께 가질 수 있음. |
전용(exclusive) lock | 트랜잭션이 데이터에 전용 lock 연산을 실행하면 해당 데이터에 read 연산과 write 연산을 모두 실행할 수 있다. 그러나 해당 데이터에 다른 트랜잭션은 공용이든 전용이든 어떤 lock 연산도 실행할 수 없다. (전용 lock 연산을 실행한 트랜잭션만 해당 데이터에 대한 독점권을 가질 수 있음) |
공용 lock과 전용 lock 연산 사이의 양립성
공용 lock | 전용 lock | |
공용 lock | 가능 | 불가능 |
전용 lock | 불가능 | 불가능 |
- 공용 lock이 양립 가능하다는 것은 서로 다른 트랜잭션이 같은 데이터에 공용 lock 연산을 동시에 실행할 수 있다는 뜻이다.
- 다른 트랜잭션이 전용 lock 연산을 실행한 데이터에서는 공용 lock과 전용 lock을 모두 실행할 수 없고, 해당 데이터에 unlock 연산이 실행될 때까지 기다려야 한다.
기본 로킹 규약만으로는 트랜잭션 스케줄의 직렬 가능성을 완벽하게 보장할 수 없다.
이러한 문제가 발생한 이유는 트랜잭션 T1이 데이터 X에 너무 빨리 unlock 연산을 실행하여 트랜잭션 T2가 일관성 없는 데이터에 접근했기 때문이다. 즉 트랜잭션 T2가 데이터 X에는 트랜잭션 T1이 변경한 다음에 접근하고 데이터 Y에는 트랜잭션 T1이 변경하기 전에 접근하여 모순된 결과가 생성된 것이다. 따라서 트랜잭션 스케줄의 직렬 가능성을 보장하려면 기본 로킹 규악으로는 부족하고,
lock과 unlock 연산을 실행하는 시점에 대한 새로운 규약이 추가로 필요하다.
2단계 로킹 규약
기본 로킹 규약의 문제를 해결하고 트랜잭션의 직렬 가능성을 보장하기 위해 lock과 unlock 연산의 수행 시점에 대한 새로운 규약을 추가한 것이 2단계 로킹 규약이다. 2단계 로킹 규약을 따르려면 모든 트랜잭션이 lock과 unlock 연산을 2단계로 나누어 실행해야 한다.
확장 단계 | 트랜잭션이 lock 연산만 실행할 수 있고, unlock 연산은 실행할 수 없는 단계 |
축소 단계 | 트랜잭션이 unlock 연산만 실행할 수 있고, lock 연산은 실행할 수 없는 단계 |
- 트랜잭션이 처음에 수행되면 확장 단계로 들어가 lock 연산만 실행할 수 있다.
- 그러다가 unlock 연산을 실행하면 축소 단계로 들어가 그때부터는 unlock 연산만 실행할 수 있다.
- 2단계 로킹 규약을 준수하는 트랜잭션은 첫 번째 unlock 연산을 실행하기 전에 필요한 모든 lock 연산을 실행해야 한다.
- 2단계 로킹 규약을 적용하면 트랜잭션 스케줄의 직렬 가능성을 보장할 수 있다.
- 하지만 교착상태(deadlock)가 발생할 수 있어 이에 대한 해결책이 필요하다.
교착 상태
- 트랜잭션들이 상대가 독점하고 있는 데이터에 unlock 연산이 실행되기를 서로 기다리면서 수행을 중단하고 있는 상태
- 교착 상태에 빠지면 트랜잭션들은 더 이상 수행하지 못하고 상대 트랜잭션이 unlock 연산을 실행하기까지 무한정으로 기다리게 됨
- 트랜잭션 T1과 T2가 모두 데이터 X와 데이터 Y에 접근하는 상황
- 교착 상태는 처음부터 발생하지 않도록 예방하거나, 발생했을 때 빨리 탐지하여 필요한 조치를 취하는 방법으로 해결한다.
'DB' 카테고리의 다른 글
[CS] 데드락 (0) | 2024.11.28 |
---|---|
[DB] 트랜잭션 회복 기법 (0) | 2024.11.25 |
[DB] Soft Delete VS Hard Delete (0) | 2024.11.24 |
[DB] 트랜잭션 ACID (0) | 2024.11.23 |
[DB] 데이터베이스 설계 (0) | 2024.11.17 |