데이터베이스 성능을 효율적으로 관리하는 방법 중 하나로 '서브쿼리는 조인(join)으로 작성해라'는 말을 들은 적이 있다. 서브쿼리(sub-query)란 기존에 날린 쿼리의 캐시 데이터를 사용하는 또 다른 쿼리인데, 이런 서브 쿼리를 작성할 때는 join을 사용하라는 의미이다.
join을 사용하지 않으면 작성자는 기존에 만든 쿼리의 데이터(캐시 메모리)를 이용해서 쿼리를 만드려고 했지만, 실제로는 데이터베이스에 또 다른 쿼리를 날리게 된다. 즉 한 번 날릴 수 있는 쿼리를 두 번 날리게 되므로 자원을 낭비하는 셈이다.
select_related()와 prefetch_related() 모두 장고 ORM에서 데이터베이스에 접근할 때 사용하는 메소드이다. 또한 join을 사용해서 데이터를 합하고, 쿼리셋(QuerySet)을 리턴한다는 점에서 비슷하다. 하지만 두 메소드는 엄연히 다르다. 둘의 차이점에 대해서 알아보자.
✅공통점
1. 장고 ORM에서 데이터베이스에 접근할 때 사용하는 메소드
2. 결과가 합해진 쿼리셋을 리턴
✅개별 특징 - select_related()
✔️사용 방법
사용하려는 모델[A]이 다른 모델[B]을 외래키(ForeignKey)로 참조하고 있을 때 사용한다.
select_related('참조하는 외래키 필드명')
A의 데이터를 불러오는 쿼리를 작성할 때, A가 참조하는 외래키인 B의 데이터도 같이 캐시 데이터로 불러온다. 그러면 나중에 해당 데이터에서 외래키 정보를 사용해야 할 때, 추가로 DB에 쿼리를 날리지 않아도 된다.
예시를 보자.
# models.py
class Person(models.Model):
name = models.CharField()
age = models.IntegerField()
home = models.ForeignKey(Home, on_delete=models.CASCADE)
class Home(models.Model):
address = models.CharField()
# ORM query without select_related
p = Person.objects.get(id=22)
h = p.home
# ORM query with select_related
p = Person.objects.get(id=22).select_related('home')
h = p.home
select_related()를 사용하지 않은 경우, 해당 객체의 외래키에 대한 캐시 데이터가 없으므로 p 객체의 home 속성을 조회할 때 한번 더 데이터베이스로 쿼리를 날리게 된다.
그러나 select_related()를 사용할 경우, p 객체를 불러올 때 이미 해당 객체의 외래키 데이터도 캐시 데이터로 불러온다. 따라서 데이터베이스에 쿼리를 날리지 않고 이미 불러온 데이터를 사용할 수 있다.
✔️외래키 관계
외래키로 엮인 두 모델은 one-to-one, many-to-one, many-to-many 셋 중 하나의 관계를 갖는다.
select_related()의 경우, many-to-many 관계인 모델의 데이터는 불러올 수 없다. select_related()는 SQL 쿼리에서 JOIN 문을 사용해서 해당 모델이 참조하는 다른 모델의 컬럼 데이터들을 불러오는데, many-to-many 관계인 모델의 데이터까지 불러오게 된다면 SQL 쿼리로 불러오는 결과 데이터 양이 너무 많아질 수 있기 때문이다. 따라서 one-to-one 관계나 many-to-one(해당 모델이 many 쪽) 관계로 참조하는 모델 데이터만 불러올 수 있다.
✔️이중 참조
A가 참조하는 모델[B]이 참조하는 또 다른 모델[C]의 데이터를 가져오는 것도 가능하다.
예시를 보자.
# models.py
class Menu(models.Model):
name = models.CharField()
class Dessert(models.Model):
name = models.CharField()
dessertType = models.ForeignKey(Menu, on_delete=models.CASCADE)
class Chocolate(models.Model):
name = models.CharField()
chocolateType = models.ForeignKey(Dessert, on_delete=models.CASCADE)
# ORM query
c1 = Chocolate.objects.filter(name__contains='white').select_related('chocolateType__dessertType')
c1 객체에는 name에 white를 포함한 Chocolate 객체들의 데이터가 포함되고, 해당 객체들의 chocolateType 필드가 참조하는 Dessert 객체들의 데이터와, 해당 객체들의 dessertType 필드가 참조하는 Menu 객체들의 데이터까지 포함되게 된다.
✅개별 특징 - prefetch_related()
select_related()와 달리 many-to-many, many-to-one의 관계인 모델의 데이터도 가져올 수 있다.
prefetch_related('참조하는 외래키 필드명')
다음 예시를 보자. Student과 Course는 many-to-many 관계이다.
# models.py
class Course(models.Model):
id = models.IntegerField()
name = models.CharField()
class Student(models.Model):
name = models.CharField()
course = models.ManyToManyField(Course)
# ORM query
student = Student.objects.prefetch_related('course')
해당 쿼리는 Student 전체의 데이터와 함께, 개별 student 객체가 참조하는 Course 객체에 대한 데이터도 캐시 데이터로 같이 불러온다.
prefetch_related()를 사용하지 않는다면 총 db에 등록된 students 객체 수 만큼의 쿼리가 실행되어야 할 것이다. 그러나 prefetch_related()를 사용하면 총 두 번의 쿼리로 같은 작업을 할 수 있다.
✔️외래키 관계
prefetch_related()는 select_related()와 마찬가지로 이중 참조가 가능하다. select_related()에서 작성한 방법과 같은 방식으로 쿼리를 작성하면 된다.
✔️사용할 수 없는 경우
prefetch_related()를 사용해서 기존 모델이 참조하는 다른 모델의 데이터를 가져왔지만, 가져온 데이터를 사용할 수 없는 경우도 있으니 주의하자.
1. 가져온 데이터셋에 추가 메소드를 적용하였을 경우
student = Student.objects.prefetch_related('course')
student = students.filter(name__contains='Kim') # 기존 prefetched 데이터 변경
students 변수에는 prefetch_related()를 사용해서 외래키 모델에 대한 데이터까지 저장되어 있었다. 그러나 추가로 filter() 메소드를 사용하면서 데이터가 변경되었다. 기존의 데이터에 추가 메소드를 적용한 경우, 장고에서는 추가로 메소드를 적용한 students.filter() 쿼리셋을 아예 다른 쿼리셋으로 인식한다.
따라서 새 students 쿼리셋에는 prefetch로 불러왔다고 생각했던 데이터가 없는 상태이다.
2. 기존 DB의 데이터가 변경되었을 경우
student = Student.objects.prefetch_related('course')
Student.objects.create(
# code
)
기존 student 객체에는 prefetch_related()로 불러온 캐시 데이터가 있었으나, 이를 사용하기 전에 create, delete, update 등으로 기존 데이터가 변경되었다. 이렇게 DB 데이터가 변경된 경우, 기존에 저장되었던 캐시 데이터는 삭제되어서 이용할 수 없다.
⚠️차이점 1 - 사용 가능한 외래키 참조 관계
외래키로 엮인 두 모델은 one-to-one, many-to-one, many-to-many 셋 중 하나의 관계를 갖는다.
select_related()의 경우, one-to-one, many-to-one(해당 모델이 many 쪽) 관계인 모델의 데이터만 불러올 수 있다. (many-to-many 관계는 불러올 수 없다!)
반면 prefetch_related()의 경우, 참조 관계에 상관 없이 참조하는 모든 모델의 데이터를 불러올 수 있다.
⚠️차이점 2 - JOIN 방식
select_related()는 DB에 엑세스할 때 변환되는 SQL 쿼리에서 JOIN문을 생성하고, 참조하는 모델의 다른 필드들을 SELECT문에 추가하는 방식으로 참조하는 다른 모델의 데이터를 가져온다. 그렇기 때문에 한 번에 너무 많은 데이터를 가져올 수 없어서 one-to-one 관계에만 사용하도록 제한된다.
반면 prefetch_related()는 개별적으로 SQL 쿼리를 날린다. 그리고 DB에서 가져온 쿼리셋을 파이썬에서 합한다. 개별 쿼리에서 JOIN이 발생하지 않기 때문에, 한 번에 적은 데이터를 가져오지 않아도 된다. 따라서 many-to-many, many-to-one 관계에도 적용할 수 있다.
두 메소드 모두 JOIN 과정이 발생한다. select_related()는 SQL 쿼리에서 JOIN을 통해 데이터를 가져오고, prefetch_related()는 개별 쿼리로 데이터를 가져온 뒤 파이썬에서 별도의 JOIN 과정을 통해 데이터를 합한다. 즉 JOIN 과정이 언제 일어나는지의 차이가 있다.
참고한 포스트
QuerySet API reference | Django documentation | Django (djangoproject.com)
Django에서 DB 액세스 최적화하기 – Myungseo Kang
MySQL 쓰면서 하지 말아야 할 것 17가지 – Lael's World
'server-side > Django' 카테고리의 다른 글
python - poetry 사용하기 (0) | 2023.07.12 |
---|---|
signals (0) | 2023.06.21 |
Model.objects.filter() vs Model.objects.get() (0) | 2022.07.11 |
models: on_delete (0) | 2022.07.05 |
admin: Inline, InlineModelAdmin (0) | 2022.07.02 |