* 해당 포스트는 <파이썬 알고리즘 인터뷰> 공부 후 정리 목적으로 작성되었습니다. *

 

leetcode 937번 ( https://leetcode.com/problems/reorder-data-in-log-files/ )

 

풀이방법 1. 

파이썬에서 기본으로 제공하는 정렬함수 sort를 이용하고, key 파라미터를 이용해서 정렬 기준을 함수나 람다표현식(lambda expression)으로 제공한다. 

 

sort() 함수는 리스트 자료형에만 사용할 수 있다. 만약 문자열을 sort() 함수로 정렬하고 싶다면 문자열을 리스트로 바꾼 뒤, 해당 리스트를 정렬하고, 다시 join() 등의 함수를 사용해서 리스트를 문자열로 바꾸는 작업이 필요하다.

또한 sort() 함수는 리스트 내부를 정렬한 뒤 값을 리턴하지 않는다. 

 

반면 sorted() 함수는 리스트를 포함한 iterable(for loop를 사용해서 자신이 가진 원소들을 한 번씩 반환할 수 있는 자료구조)에 사용할 수 있다. 여기에는 set, dictionary 등도 포함된다. 

또한 sorted() 함수는 주어진 iterable 내부를 정렬하지 않고, 새로 iterable을 만든 뒤 정렬해서 값을 리턴한다. 

 

sort(key=None, reverse=False)

sort(), sorted() 함수는 key와 reverse 파라미터 값을 선택적으로 받을 수 있다. 

reverse=True이면 값을 내림차순으로 정렬하고, reverse=False면 값을 오름차순으로 정렬한다. 기본값은 reverse=False이다. 

key 파라미터의 값으로는 람다식이나 함수가 올 수 있다. 람다식도 결국은 함수의 일종이니, 함수만 올 수 있는 셈이다. 

 

람다식은 이름 없는 익명 함수와 같으며, lambda 키워드를 사용해서 선언할 수 있다. 

lambda 변수이름 : 함수 식

lambda x : x+10			# 1 variable
lambda [x, y] : x+y		# multiple variables

 

로그 파일 정렬도 로그 파일 문자열을 단순 abc 정렬한 순서가 아니라, 두 번째 단어 이후의 문자 순서대로 정렬하고, 모든 문자열이 같을 경우만 첫 번째 단어를 고려하여 결정한다. 따라서 이 경우 sort() 함수에서 key 파라미터 값에다가 (두 번째 단어 이후의 문자열 + 첫 번째 단어의 문자열)을 리턴하는 함수를 할당하면, 해당 기준에 맞게 정렬할 수 있다. 

letters.sort(key=lambda x:(x.split[1:], x.split[0]))

 

참고한 포스트

https://docs.python.org/3/howto/sorting.html

https://docs.python.org/3/reference/expressions.html

https://www.pythonlikeyoumeanit.com/Module2_EssentialsOfPython/Iterables.html -> iterable의 정의 참고

 

* 해당 포스트는 <파이썬 알고리즘 인터뷰> 공부 후 정리 목적으로 작성되었습니다. *

 

leetcode 344번 ( https://leetcode.com/problems/reverse-string/ )

 

풀이방법 1. 

투 포인터를 사용한다. left 포인터는 문자열의 맨 처음에, right 포인터는 문자열의 맨 끝에 두고 다중 할당 방식을 이용해서 바꾼다. 

 

파이썬에서 두 변수의 값을 바꿀 경우, 다른 언어들과는 달리 다중 할당을 이용해야 한다. 그렇지 않으면 예상하던 결과가 나오지 않을 수 있다. 파이썬에서는 다른 언어들과 달리 한 변수가 다른 변수에 할당될 때 값을 복사(call by value)하지 않고 값을 참조(call by reference)하기 때문이다. 

 

값을 복사하는 다른 언어의 경우, 임시로 값을 저장할 다른 변수를 만들어서 swap 한다. 

int a = 1; int b = 2;

// swap
int temp = a;
a = b;
b = temp;
System.out.println(a);	# 2
System.out.println(b);	# 1

 

반면 값을 참조하는 파이썬의 경우, 다중 할당을 이용한다. 

a = 1
b = 2
# swap
a, b = b, a
print(a, b)	# 2, 1

 

풀이방법 2. 

파이썬에서 기본으로 제공하는 함수를 사용한다. 

string.reverse()

text = "hello"
print(text.reverse())	# olleh

 

문자열이므로 기본 함수를 사용하지 않고 문자열 슬라이싱으로도 풀 수 있다. 

text = "hello"
print(text[::-1])	# olleh

 

* 해당 포스트는 <파이썬 알고리즘 인터뷰> 공부 후 정리 목적으로 작성되었습니다. *

 

- leetcode 125번 ( https://leetcode.com/problems/valid-palindrome/ )

 

풀이방법 1. 

문제에서는 팰린드롬은 영문자와 숫자만을 대상으로 한다고 했으므로, 조건에 맞는 문자들만 리스트에 넣는다. 

이후 리스트의 맨 앞과 맨 뒤의 원소를 각각 제거한 다음, 두 원소의 값이 같은지를 비교한다. 

값이 하나라도 다르면 앞뒤가 똑같지 않은 것이므로 False를, 전부 같으면 True를 리턴한다. 

 

파이썬에서 기본으로 제공되는 isalnum() 메소드를 사용하면 특정 문자가 alphanumeric(영문자와 숫자)인지 아닌지를 간단하게 구분할 수 있다. 

파이썬에서 제공하는 기본 메소드들은 내부적으로 속도가 훨씬 빠른 C언어를 통해 구현되어 있다. 따라서 직접 파이썬의 for loop로도 코드를 만들 수 있겠지만 기본 메소드를 사용하는 것이 더 속도가 빠르다. 

 

풀이방법 2. 

더 효과적인 데크(deque) 자료형을 사용한다. 

데크와 리스트의 차이점은 맨 앞의 원소를 제거하는 popleft(), pop(0) 메소드에 걸리는 시간이다. 

데크는 투 포인터라서 pop()와 popleft()이 모두 O(1)인 반면, 리스트는 pop()에는 O(1)이 소요되지만 pop(0)에는 리스트 전체 중 0번째 인덱스를 직접 찾는 셈이 되므로 O(n)이 소요된다. 

 

데크 자료형은 외부 라이브러리가 아닌 collections 라이브러리를 사용하며, 간단하게 선언할 수 있다.

deque = collections.deque()

 

collections 라이브러리에는 deque 외에도 편리한 기능이 갖춰진 기본 자료구조를 갖고 있기 때문에 공식문서를 참고해서 알아두면 좋겠다. 

https://docs.python.org/3/library/collections.html

 

풀이방법 3. 

정규식으로 조건에 맞는 문자들만 필터링한 다음, 문자열 슬라이싱으로 비교하는 방법도 있다. 

특히 문자열의 경우 슬라이싱(slicing)을 사용할 수 있는지 고려해보자. 생각보다 다양한 슬라이싱 방법들이 많다. 

 

정규식으로 문자열을 필터링하고 싶은 경우 re 라이브러리를 사용한다. 

https://docs.python.org/3/library/re.html

 

re.sub(정규식 패턴, 대체할 문자열, 원본 문자열)

re 라이브러리의 sub 메소드는 원본 문자열 중 패턴에 일치하는 문자열을 대체할 문자열로 바꾸는 역할을 한다. 

result = re.sub(r"[a-zA-Z]", "eee", "abc123def")
print(result)	# 'eee123eee'

 

문자열 슬라이싱

가장 기본적인 방법으로는 문자열의 특정 왼쪽 인덱스부터 특정 오른쪽 인덱스까지를 가져올 수 있다. 

string[left: right] 은 string 변수의 left 번째 인덱스부터 (right-1)번쨰 인덱스까지를 가져온다. 

string = "little red riding hood"
print(string[7:10])	# red

 

또는 인덱스에 음수를 사용하면 오른쪽 인덱스부터 왼쪽 인덱스까지, 역수 방향으로 문자열을 가져올 수 있다. 

text = "olleh"
print(text[-2:-4])	# el

 

문자열 전체를 뒤집거나, n칸씩 뛰어넘어서 문자열을 가져오는 것도 가능하다. 

text = "hello"
print(text[::-1])	# olleh

 

또는 문자열 슬라이싱으로 기존 문자열을 복사할 수도 있다. 이는 기존의 문자열의 값을 가져오고 싶으나 참조하게 되는 문제로 원본 값을 가져오지 못할 때, 참조가 아니라 값을 복사하기 위해서 사용할 수 있다. 

text = "text"
print(text[:])	# text

 

 

참고한 포스트

https://ponyozzang.tistory.com/335

 

해당 게시물은 유튜브 생활코딩 채널의 WEB2-OAuth 강의를 듣고 작성한 포스트입니다.

 

WEB2 - OAuth 2.0 : 1.수업소개 - YouTube

 

강의 목표

OAuth 개념 이해하기

 

 

1. OAuth의 개념


OAuth를 사용하는 대표적인 예시로는 소셜로그인이 있다. 하지만 소셜로그인만이 전부가 아니다.

OAuth는 다른 서비스(보통은 신뢰할 수 있는 서비스. ex) google, facebook)와 원래 서비스를 연동한다. 
그러려면 사용자가 사용하는 해당 서비스 계정에 접근할 수 있도록 허가를 받아야 한다. 

가장 쉬운 방법은 사용자의 개인정보(아이디, 비밀번호) 등을 전달받아서 이를 SNS 계정에 접근할 때 이용하는 것이다.
그러나 사용자 입장에서는 자신의 개인정보를 처음 보는 서비스에게 맡기는 것은 불안하고, 보안상 문제가 있을 수 있다. 

OAuth는 이런 방법 말고, 토큰(Token)을 사용해서 안전하게 서로 다른 두 서비스가 상호작용할 수 있도록 해 준다. 

OAuth의 장점

1. 사용자의 실제 개인정보를 본래 사이트에서 사용하지 않는다. 즉 보안 면에서의 장점이 있다. 
2. 액세스 토큰으로 이용할 수 있는 SNS 서비스를 제한할 수 있다.

바로 위의 언급한 방법처럼 사용자의 실제 개인정보를 통으로 넘겨주게 되면, 해당 사이트에서 사용자 계정의 모든 권한을 갖는다는 점에서 보안 문제가 있다. 반면 액세스 토큰으로는 할 수 있는 일과 없는 일이 제한되어 있다. 마찬가지로 보안에서의 장점이 있다.

 

OAuth를 사용하는 방법

사용자의 개인정보를 사용해서, 사용하려는 다른 서비스의 사이트에서 로그인한다. 

사용자가 로그인하면 사용자의 실제 개인정보 대신 액세스 토큰을 발급하고, 본래 사이트에서 그 토큰으로 다른 서비스와 상호작용할 수 있다. 

 

2. 역할

 

Oauth에 등장하는 3개의 주체

resource owner : 사용자 
resource server : 기존 사이트에서 제어하고 싶은 자원을 갖고 있는 서버
client : 리소스 서버의 자원을 이용하려는 사이트

OAuth 공식 문서에서는 리소스 서버(resource server)를 resource serverauthentication server로 분리한다. 
resource server : 인증에 필요한 데이터를 갖고 있는 서버
authentication server : 인증 처리 및 작업을 하는 서버


*간단하게 보면 둘을 묶어서 그냥 리소스 서버로 보기도 한다. 


3. 등록


리소스 서버에 클라이언트를 등록하는 절차

클라이언트가 리소스 서버의 리소스를 사용하려면 사전에 미리 등록(register)을 해야 한다.

(Create app 이라는 과정으로도 나온다.)

등록에 필요한 정보

client id : 리소스 서버에서 개별 클라이언트에게 부여하는 id. 노출이 되어도 상관없다. 
client secret : 클라이언트가 리소스 서버에 자신을 인증할 때 사용하는 비밀번호. 노출되어서는 안 된다. 
authorized redirect urls : 리소스 서버는 이 url로 클라이언트에게 authorization code를 보낸다. 
만약 이 url이 아닌 다른 url에서 리다이렉트(redirect)요청이 들어온다면, 리소스 서버는 해당 요청에 대해서 응답을 보내지 않는다. 

실제로 등록하는 방법

사용하려는 리소스 서버 서비스의 developers 사이트에 가서, create app 또는 비슷한 메뉴를 찾아보자. 

 

ex)
Facebook : developers facebook 사이트에서 create app 메뉴 선택
Google : cloud platform 사이트에서 select/create project 메뉴 선택


4. Resource Owner의 승인


리소스 서버에 클라이언트가 사전 등록 작업을 마쳤다고 해 보자. 

클라이언트 서비스에서 리소스 오너의 정보로 리소스 서버의 서비스나 리소스를 이용하려면 추가적인 작업이 필요하다. 

우선 리소스 오너의 승인이 필요하다. 

ex. 리소스 유저가, 클라이언트 사이트가 나의 정보를 가지고 리소스 서버 사이트의 특정 기능을 사용하는 것을 승인

 

그 다음엔 리소스 서버의 승인도 필요할 것이다. 

ex. 리소스 서버 사이트에서 액세스 토큰과 같이 보낸 요청을 승인

과정

우선 등록이 완료된 이후, 클라이언트와 리소스 서버가 oauth에 필요한 어떤 정보를 갖고 있는지를 보자. 

클라이언트가 리소스 서버에 등록했을 때 사용한 client id, client secret, redirect URL의 정보를 둘 다 갖고 있다. 

 

만약 리소스 오너가 클라이언트 사이트를 이용하면서 소셜로그인 등의 '리소스 서버의 리소스를 필요로 하는 서비스'를 사용하려고 한다면, 흔한 소셜로그인 버튼 등이 나타날 것이다. 

리소스 오너가 그 버튼을 누르면(http 요청을 하면), 클라이언트 사이트는 응답과 함께 리다이렉트 URL을 리턴한다. 

리다이렉트 URL 예시

https://resource.server/?client_id=1&scope=B,C&redirect_url=https://client/callback



리다이렉트 URL은 리소스 서버와 클라이언트가 공통으로 가진 3개의 정보(client_id, client_secret, scope)중에서 client_secret을 제외한 2개의 정보를 쿼리 스트링으로 포함하고 있다. 

해당 url을 받은 리소스 오너는 받은 리다이렉트 url으로 리소스 서버에게 GET 요청을 보낸다.

(POST 처럼 따로 데이터를 담아서 보내지는 않는다.)

 

만약 해당 리소스 오너가 이미 리소스 서버에 로그인이 되어 있지 않은 경우(관련 토큰이 헤더에 없는 경우), 리소스 서버는 리소스 유저에게 리소스서버 로그인을 요청한다. 

참고로 로그인을 하지 않은 상태에서는 리소스 서버는 url 파라미터인 client_id, redirect_uri, scope는 아직 보지 않는다. 

여기서 리소스 오너가 로그인을 하면 다음 단계로 넘어간다. 

또는 이미 로그인이 되어 있었다면(관련 토큰을 헤더에 같이 넣어서 보냈다면), 리소스 서버는 이때 client_id와 redirect_uri를 확인한다. 

(만약 리소스 서버가 갖고 있는 client_id, redirect_uri 파라미터가 맞지 않는다면, 리소스 서버는 여기서 응답을 종료한다.)

만약 클라이언트가 보낸 값이 리소스 서버의 값과 일치한다면, 리소스 서버는 리소스 유저에게 클라이언트 사이트에서 scope에 해당하는 권한을 클라이언트에게 부여해도 되는지를 물어본다. 

(선택하는 작은 폼이 뜰 것이다.)

 

클라이언트가 해당 폼에서 allow를 누르면, 리소스 서버에는 리소스 유저의 id해당 리소스 유저가 허용한 scope 변수의 값이 저장된다. 

 

저장하는 이유는, 앞으로 해당 리소스 유저의 액세스 토큰으로 리소스 서버의 서비스나 리소스를 이용할 때, 해당 유저가 어떤 scope의 권한을 허용했는지를 알 수 있게 정보를 저장하는 것이다. 


5. Resource Server의 승인

 

리소스 유저가 scope에 대한 권한을 클라이언트에게 부여하는 걸 허용했다고 해도, 리소스 서버가 바로 액세스 토큰을 부여하지는 않는다. 

절차가 하나 더 있다.

리소스 유저가 scope에 대한 권한을 승인하고, 리소스 서버가 user_id와 scope를 저장한 이후, 리소스 서버는 리소스 유저에게 authorization_code를 리턴한다. 

authorization_code : 리소스 서버가 클라이언트를 인증하는 임시 비밀번호 역할을 한다. 

authorization_code는 아까 리소스 유저가 리소스 서버에게 보냈던 redirect_uri 파라미터 주소의 뒤에 쿼리 스트링을 추가한 형식으로 붙어서 보내진다. 

https://client/callback/?code=3

 

이 정보를 리소스 유저에게 응답으로 보낼 때, 리소스 서버는 이 정보를 헤더의 Location 파라미터에 넣어서 보낸다. 

그러면 리소스 유저의 브라우저는 location 파라미터에 있는 주소로 리다이렉트를 하게 된다. 

그러면 리소스 유저는 클라이언트에게 해당 url로 GET 요청을 보내는 셈이다. 

(redirect_uri의 도메인이 클라이언트의 도메인이기 때문이다)

그러면 클라이언트는 이제 authorization_code의 값도 알게 된다. 

이제 클라이언트는 리소스 유저를 통하지 않고, 리소스 서버에게 직접 요청을 보낼 수 있다. 

쿼리 스트링 파라미터로 url에 값을 넣은 형식이고, GET 방식으로 요청을 보낸다. 

 

url 예시

https://resource.server/token?grant_type=authorization_code&code=3&redirect_url=https://client/callback&client_id=1&client_secret=2

 

해당 url에는 grant_type, code, redirect_url, client_id, client_secret 정보가 포함되어 있다. 

이 중에는 2개의 비밀번호(auth_code, client_secret) 정보도 포함되어 있다.

+

강의에서 다루진 않았지만, 리소스 서버가 클라이언트를 인증하는 방법은 authorization code로 인증하는 방법 말고도 여러 개가 있다고 한다. 그래서 어떤 인증방법을 사용하는지에 대한 정보를 알려주기 위해서 

grant_type=authorization_code

라는 쿼리스트링이 붙는다. 

 


개인적인 Q

더보기

client_secret은 노출되면 안 되는 정보라고 했는데 저렇게 url 쿼리스트링으로 보내도 괜찮은 걸까?

 

리소스 정보는 자신의 DB에서 client_secret, auth_code 정보가 클라이언트가 보낸 정보와 일치하는지를 보고(ex. client_secret=2인 계정의 auth_code는 3이 맞는지), client_id, redirect_url 등의 나머지 정보가 맞는지도 확인한다. 

이제 다음 단계에서 액세스 토큰을 지급한다.


6. 액세스 토큰 발급

 

이제는 리소스 서버가 클라이언트에게 직접 액세스 토큰을 발급한다. 

해당 액세스 토큰은 리소스 서버와 클라이언트의 DB에 각각 저장되며, 각 리소스 유저마다 당연히 액세스 토큰의 값이 다르다. 

처음에 리소스 유저가 한번 '클라이언트에서 자신의 리소스 서버 계정에서 특정 기능들(scope)의 접근 권한을 얻는 것'에 동의하면, 그 이후로는 별도의 동의를 받지 않고 액세스 토큰을 사용할 수 있다. 

순서

1. 리소스 유저가 클라이언트 사이트에서 '소셜로그인' 등의 버튼을 클릭한다(클라이언트에게 요청을 보낸다).

2. 클라이언트는 리소스 유저에게 리다이렉트 응답을 보낸다(리소스 서버 로그인으로 리다이렉트).

3. 정보를 맞게 입력한 경우 기존에는 authorization_code를 보내서 추가 인증을 진행하였지만, 이제는 그러지 않는다. 

셀프 Q&A

더보기

Q. 리소스 유저가 리소스 서버의 로그인 정보를 맞게 입력한 경우 리소스 서버는 리소스 유저에게 어떤 응답을 리턴할까?

A(추측). 클라이언트로 리다이렉트 or (액세스 토큰 유효기간이 지난경우) 새 액세스 토큰 발급할 것 같다. 

 

 

7. API 호출

 

oauth를 이용하는 가장 중요한 목적

액세스 토큰 발급 이후 리소스 서버의 일부 기능을 사용하려면 리소스 서버의 API를 사용해야 한다. 

리소스 서버의 API리소스 서버에서 제공하는 여러 기능을 어떻게 사용할 것인지에 대한 표준 규격이라고 할 수 있다. 

각 리소스 서버는 API들을 어떤 형식으로, 어떤 파라미터 등을 넣어서 사용해야 하는지에 대한 정보를 공식문서로 제공하고 있다. 

ex. "구글 캘린더 API" 를 검색해서 나온 공식문서를 참고해서, 해당 형식으로 요청 보내면 데이터를 받을 수 있다. 

액세스 토큰 보내는 방법(2가지)

1. GET 요청으로 url 쿼리스트링에 access_token={access_token} 값 넣어서 보내기

상대적으로 간편하지만 보안 측면 때문에 덜 사용된다고 한다. 

 

2. GET 요청으로 보내되, 액세스 토큰은 헤더에 Authorization 값으로 넣고, Bearer 토큰 방식으로 보내기

보안 측면에서 더 좋다. 다만 일반적인 url 접근이 불가능하고, curl이나 postman같은 프로그램을 사용해야 한다. 


8. 리프레쉬 토큰 Refresh Token

 

액세스 토큰은 유효기간이 있다. 

리프레쉬 토큰은 처음 액세스 토큰이 발급될 때 액세스 토큰과 같이 발급되는데, 액세스 토큰이 만료되었을 때 새 액세스 토큰을 발급하는 데 사용된다. 

액세스 토큰을 발급받을 때는 보통 액세스 토큰, 리프레쉬 토큰, 만료기간의 값을 같이 리턴하는 것이 일반적이다. 

리프레쉬 토큰이 어떻게 발급되는지도 마찬가지로 사용하려는 각 리소스 서버의 공식문서를 참조하면 알 수 있다. 

ex. 구글의 경우 Google Identity Platform에서 관련 정보를 제공한다. 보통은 특정 url로 필요한 정보(client_id, grant_type, refresh_token 등)를 POST 방식으로 보내면 새 액세스 토큰을 발급하는 방식을 많이 쓴다. 

또한 리프레쉬 토큰의 경우, 새 액세스 토큰의 발급에 사용되면:

(1) 리프레쉬 토큰 값도 새로 발급해 주는 경우도 있고, 

(2) 리프레쉬 토큰 값은 그대로인 경우도 있다. 


9. 수업을 마치며

 

앞으로 공부해 볼 만한 주제

federated identity : 다른 서비스와의 연합을 통해 사용자를 식별하는 인증체계

RESTful API : 많은 형식의 API는 이 방식을 따르고 있다. 

 

'server-side > server' 카테고리의 다른 글

Mac 환경설정  (0) 2024.07.15
Software Release Life Cycle  (0) 2023.07.15
인증(Authentication)  (0) 2022.07.14
linux: cron 사용해서 자동으로 스케줄 실행하기  (0) 2022.07.09
Git: clone, single-branch, checkout  (0) 2022.06.28

1. 이메일로 인증하기

 

보통 회원가입을 위해 이메일을 입력하면 이메일 인증 절차를 거친다. 해당 이메일이 실제 사용자가 사용하는 이메일인지를 인증하기 위해서, 이메일로 링크를 보내고 사용자가 그 링크를 열면 인증이 완료되는 방식이다. 

 

이메일로 보내지는 링크에는 여러 정보가 포함되어 있다. 회원가입으로 생성된 유저의 pk(primary key)를 인코딩한 값이나 고유한 토큰을 쿼리 스트링(query string)으로 받기도 한다. 

 

이번에 구현하는 기능에서는 사용자(유저)의 필드에 계정의 활성화 여부를 나타내는 필드를 사용했다. 

 

즉 이메일 인증이 없다면 입력한 정보 그대로 사용자 계정이 만들어지고 로그인이 된다. 반면 인증이 있다면 사용자 계정은 만들어지지만, 사용자의 활성화 필드가 False로 되어 있어서 계정은 있지만 로그인은 할 수 없다. 로그인하려면 이메일로 전송된 링크를 클릭해야 한다. 

 

따라서 이런 식의 이메일 인증을 구현해 둘 생각이라면, 처음부터 사용자(User) 모델에 계정 활성화 필드(is_active)를 만들고 처음부터 이를 적극 활용하자. 

 

 

2. 이메일로 폼 만들기

 

그러나 이런 링크 하나만 달랑 보내지는 않는다. 요즘 웹사이트들은 html 템플릿에 적절한 텍스트와 링크를 함께 실어서 보내준다. 

 

그러면 그냥 html 파일을 작성하고 이 파일에 적당한 매개변수 넣어서 이메일로 보내면 되는 거 아니야? 라고 할 수 있지만 그렇지 않다. 왜냐하면 html은 단순 텍스트(plain text)가 아니라 일종의 multiform, multipart data처럼 복잡한 데이터로 보기 때문이다. 그러니까 html을 일반 텍스트처럼 매개변수를 넣어서 보낸다면 html 템플릿이 코드로 깨져서 전송된다.

 

요즘은 이메일을 보내는 전용 라이브러리도 많고, html 퍼블리싱이 번거로울 때 사용할 수 있는 템플릿 사이트도 많다고 한다. 

 

내가 했던 삽질(...)은 다음과 같다. 

 

1. html 템플릿에서 장고의 autoescape 템플릿 문법 사용

2. EmailMessage 클래스

3. EmailMultipart 클래스

4. MIMEApplication, MIMEText 등 MIME 클래스 -> 성공

 

사실 EmailMessage나 EmailMultipart 클래스를 통해서도 이메일을 보낼 수 있었을지도 모른다(내가 방법을 몰랐을 뿐). 다행히도 MIME 클래스 타입의 인스턴스를 만들고, 여러 타입의 컨텐츠를 attach() 메소드를 통해서 붙일 수 있었다. 그래서 html 폼 뿐만 아니라 이미지, pdf 등의 파일을 한번에 붙여서 이메일로 보내는 것도 가능했다. 

 

 

3. 이메일 컨텐츠 구성하기

 

2번이 끝나면 다 되었겠거니 생각했다. 하지만 3번에서도 문제는 발생했다. 

 

1) 이메일 템플릿에서는 css 파일이나 style 태그를 통해서 스타일을 적용할 수 없다. html 안 개별 코드의 style 속성을 이용해야 스타일이 폼에 적용된다. 왜냐하면 이메일을 보내기 위해 폼을 인식시킬 때 style 태그를 인식하지 않기 때문이다. 

2) 메일을 확인하는 도메인에 따라서 보여지는 결과가 다를 수 있다. 같은 폼을 보냈는데 Gmail에서는 잘 나왔지만, 네이버 메일에서는 어떤 버튼의 밑부분이 약간 짤려서 나왔다. 

3) body 태그에서 스타일 속성을 적용하면 잘 적용되지 않는다. body 태그 내부에 table 태그를 한번 더 선언해 주자. 

 

 

4. 아쉬웠던 점

1) Gmail에서는 잘 나오던 html 버튼이 네이버 메일에서는 밑부분이 약간 짤려서 나왔었다. 그러나 배포까지 해당 오류를 해결할 시간이 빠듯해서 그냥 버튼을 링크로만 바꿨었다. 

2) EmailMessage, EmailMultipart 클래스 등을 제대로 알아보지 않고 주먹구구식으로 오류를 해결했었다. 오류 원인을 파악하고 잘 접근하기 위해선 관련 클래스의 역할, 메소드 등을 간략하게나마 파악하는 것이 참 중요한 것 같다..!

 

'개발 일기장 > 개발 일지' 카테고리의 다른 글

0706 WED 업무 일지  (0) 2022.07.07

💎목차

✔️인증의 정의

✔️세션과 토큰의 차이점

✔️API를 인증하는 여러 방법들


인증(Authentication)

인증 - 사용자의 개인정보를 사용하여 사용자가 누구인지를 판단

인가 - 사용자가 어떤 일을 할 수 있는지,어떤 권한을 갖고 있는지를 판단

사용자의 개인정보(아이디나 비밀번호)를 직접 인증에 사용하거나 인증을 위해 주고받는 방법은 정보 노출의 위험이 있어서 잘 사용하지 않는다. 대신 사용자의 개인정보를 인코딩 하거나, 해쉬 알고리즘을 통해 암호화한 뒤 이 정보를 주고받을 수는 있다. 


암호화에는 여러 가지 방법이 있다. Base64 인코딩을 거친 정보를 암호화하는 방법도 있고, 클라이언트와 서버만 아는 난수를 생성한 뒤 이를 해쉬 알고리즘에 넣어서 암호화하는 방법도 있다. 

 

그럼 암호화한 정보를 어떻게 사용할까? 클라이언트가 매번 서버에 리소스를 요청할 때마다 암호화를 통해 인증을 하는 것은 매우 번거롭고 시간도 오래 걸린다. 보통은 로그인 등으로 한 번 인증 절차를 거치면 일정 기간동안은 별도의 인증 절차 없이 리소스에 접근할 수 있도록 되어 있다. 

 

이처럼 사용자가 이미 인증 절차를 거쳤음을 증명하는 데 사용하는 것이 세션(session), 토큰(token) 등의 개념이다. 

 

세션과 토큰

토큰과 세션은 모두 사용자를 일정 기간동안 유효하게 인증하는 데 사용하는 방식인데, 인증하는 방식에 따라서 차이가 있다. 예전에는 세션을 많이 사용했다면 요즘은 세션의 단점을 보완한 토큰을 더 많이 사용하는 추세이고, 그 중에서도 json 형식으로 되어있는 JWT(json web token)를 많이 사용한다. JWT에 대해서는 뒤 부분에서 구체적으로 다뤄 보자. 

 

🌟JWT와 세션의 차이

JWT가 활성화되기 전에는 세션을 통한 인증이 활발했으나, 세션은 요청할 때 인증을 위해서 DB를 탐색해야 하는 단점이 있었다. 세션 관련 정보는 DB에 저장되었기 때문이다. 
물론 캐시(cache memory)를 이용해서 세션 정보를 브라우저에 임시로 저장할 수 있긴 하지만, 만료되거나 신규 요청이 들어오면 결국 DB를 탐색해야 했다. 
만약 세션 정보를 저장하는 DB가 분산되어 있다면 각각의 DB를 탐색해야 하는데, 이는 규모가 커질 경우 과정이 복잡해질 수도 있었다. (물론 요즘은 세션을 백엔드에서 편리하게 관리해 주는 프레임워크도 있다.)

JWT는 이런 세션의 단점을 보완한다. 

대략적인 인증 과정은 비슷하다.

클라이언트가 인증 요청을 하고, 서버가 인증을 처리하고 세션이나 JWT를 생성하면 이때 생성한 정보를 만료되기 전까지 일어나는 모든 인증에 사용하는 방식이다.

그러나 세션은 인증 정보를 DB에 저장하지만 JWT는 인증 정보를 클라이언트에 전달하고, 클라이언트가 브라우저에 JWT 토큰을 임시 메모리 형태로 저장한다. 

 

그렇다면 클라이언트가 API에 대해서 인증 요청을 할 때, 토큰을 어떻게 생성하고 인증할까? 

 

🌟API에서 토큰을 생성 및 인증하는 방법

순서

1. 사용자의 개인정보를 이용하여 사용자가 맞는지 판단하고(로그인), 사용자가 맞다면 토큰을 발급한다. 

2. 발급한 토큰은 API 접근 토큰 테이블에 등록된다. 

3. 사용자가 인증이 필요한 API를 요청할 경우, 서버는 사용자가 API 토큰이 있는지, 그리고 토큰이 유효한지(위조된 토큰인지, 유효 기간이 지났는지 등)를 확인해서 토큰이 유효하다면 사용자에게 API나 리소스를 제공한다. 

장점

API 토큰을 주고받는 중 해킹이 일어나도 사용자의 개인정보는 탈취되지 않는다. 토큰은 사용자의 정보와는 관계없는 임의의 문자열이기 때문이다. 

API 토큰 인증의 세부 방법(여러가지가 있음)

 

🌟Base 64 인코딩

클라이언트가 처음에 사용자가 맞는지를 개인정보로 인증할 때, 당연히 그 개인정보를 '직접' 보내지는 않는다. 
클라이언트는 자신의 개인정보를 Base64 인코딩을 거친 뒤, 토큰에 넣어서 서버에게 인증 요청을 보낸다. 그러면 서버가 그 정보를 바탕으로 사용자를 인증한다. 

다만 Base64는 별도의 키 값이 없기 때문에 인코딩한 문자열을 그대로 디코딩할 수 있다. 따라서 이 방법을 쓰려면 반드시 HTTPS 프로토콜을 이용해야 한다. 
안 그러면 해커가 중간에서 정보를 탈취할 수 있고, 탈취한 정보를 그대로 디코딩하면 사용자의 정보가 그대로 노출된다. 

🌟Digest Access Authentication

Base64의 단점을 보완한다. 
클라이언트가 서버에게 인증을 요청할 때, 서버는 클라이언트에게 임의의 난수 값을 준다. 
클라이언트는 이 난수 값을 해쉬 함수의 키 등으로 이용하여, 암호화한 결과를 토큰에 실어서 서버로 전송한다. 

이 경우 토큰 안에 일반 문자열(평문)으로 정보가 담겨 있지 않다. 또한 해커가 인증에 사용된 해쉬 알고리즘을 안다고 하더라도, 난수 키를 모르기 때문에 해시된 값에서 반대로 개인정보를 추출해 내기가 더 어렵다. 

 

📋인증 범위(Realm)

여러 API에 대해서 인증 범위(realm)을 다르게 설정할 수 있다. 
realm은 보호되는 영역인데, API 전체를 부분적으로 나눠서 다른 realm에 위치시킬 수 있다. 
realm을 사용하면 서버가 보호하고 있는 API를 여러 영역으로 나눌 수 있고, 각 영역(realm)마다 요구되는 정보(사용자 이름이나 비밀번호)를 다르게 지정할 수 있다. 

예를 들면 project APIA realm, homework APIB realm에 위치시킨다고 해 보자.
만약 클라이언트가 project API에 대해 인증을 요청한다면, 서버는 사용자가 A 영역(realm)에 접근을 시도했다고 보고 그에 맞는 개인정보를 받아 사용자가 맞는지 판단한다. 
반면 클라이언트가 homework API에 대해 인증을 요청한다면, 서버는 사용자가 B 영역(realm)에 접근을 시도했다고 보고 A영역과는 다른 개인정보를 받아 사용자가 맞는지 판단한다. 

만약 project API와 homework API가 모두 같은 A realm에 위치해 있었다면, 클라이언트가 project, homework API에 대해 각각 인증을 요청할 때 서버는 사용자가 모두 A 영역에 접근을 시도했다고 보고, 토큰을 발급하는 데 같은 정보를 사용했을 것이다. 

realm이 다르다는 것은 클라이언트가 각각 여러 API에 인증 요청을 보낼 때, 클라이언트는 각각 다른 정보를 사용하여 다른 유저로 인증될 수 있다는 의미이다. 

🌟화이트 리스트

API를 호출하는 클라이언트의 API가 일정할 때, 클라이언트가 고정 IP를 사용할 때 사용할 수 있다. 

서버는 특정 API URL에 대해서 들어오는 IP 주소를 화이트 리스트로 유지할 수 있다. 

 

화이트 리스트

기본 정책이 모두 차단인 상황에서 예외적으로 접근이 가능한 대상을 지정하는 방식이다. 
화이트 리스트에 등록된 IP가 아니면 모두 접근을 허용하지 않고, 화이트 리스트에 등록된 IP에 대해서만 인증 절차를 거쳐서 접근이 가능하도록 배치한다. 

 

🌟Oauth

제 3자 인증 방식 중 하나이다. 소셜로그인이 대표적인 예시이다. 
사용자 A가 웹 서비스 B의 리소스(API 등)에 접근하기 위해서, 다른 API 서비스 제공자 C(구글, 페이스북 등 소셜로그인이 가능한 서비스들)에게 인증 요청을 보낸다. 
A가 알맞은 정보로 인증하면, C는 A에게 유효기간이 있는 액세스 토큰을 지급한다. 
그러면 A는 C에게서 받은 토큰을 가지고 B의 리소스를 이용할 수 있다. 

🌟JWT(Json Web Token)

웹에서 토큰을 보낼 때 json 형식으로 주고 받는 토큰이다.

JWT는 claim 기반을 사용한다. claim(클레임)이란 유저의 속성을 의미하는데, 말 그대로 토큰 자체에 유저에 대한 정보가 포함되어 있다. 
이와 달리 Oauth는 토큰에 아무 의미가 없는 랜덤 문자열을 넣는다. 

따라서 JWT 토큰을 발급하면 토큰 내에는 사용자 정보가 포함되기 때문에(정확히는 Base64로 인코딩한 정보가 포함) 서버가 사용자의 정보를 다른 곳에서 추가로 찾거나 가져오지 않아도 된다는 장점이 있다.

반면 토큰 내에 모든 정보가 들어 있기 때문에, 토큰을 잘못 발행했어도 중간에 수정할 수 없다.

따라서 JWT 토큰에는 꼭 유효 기간을 지정해야 하고, 중간마다 리프레시 토큰으로 토큰을 재발행 해야 한다.

뿐만 아니라 토큰은 Base64 인코딩만 된 상태이기 때문에 중간에 누군가가 가로챌 경우 사용자의 정보가 노출될 수 있다.

이런 경우엔 토큰 자체를 암호화하는 JWE를 사용하기도 한다. JWT는 JWE 등으로 암호화를 하더라도, 복호화가 가능하다. 

 

☑️JWT 토큰의 구조

크게 세 가지 영역: 헤더(Header), 페이로드(Payload), 시그니처(Signature)로 나뉜다. 

 

토큰 예시: hhhhh.ppppp.sssss

 

1. Header(헤더)

토큰의 메타 정보가 담겨져 있다. 

어떤 방식으로 인코딩 되었는지, 토큰이 어떤 타입(JWT, Oauth 등)인지 등을 json 방식으로 작성한 뒤 해당 방식에 맞춰서 인코딩한다. 

2. Payload(페이로드)

사용자의 정보, 토큰의 만료 시간 등이 담겨져 있다. 

이때 사용자의 정보는 id 등 사용자를 특정할 수 있는 정보이다. (유저의 아주 중요한 정보(주민번호 등)가 담기진 않았지만, 하나의 유저를 특정할 수 있는 정보가 들어 있다.)

3. Signature(시그니처)

변조 문제를 해결하기 위한 영역이다. 

시그니처 영역을 만들기 위해서는 인코딩 된 헤더, 인코딩 된 페이로드, 그리고 secret_key(장고 프로젝트마다 사용되는 값) 값이 필요하다. 

시그니처는 이 세 값을 합친 뒤, 헤더에 지정한 알고리즘으로 해싱한다. 

그러므로 하나라도 값과 다르다면 결과값이 달라진다. 

☑️실제 인증하는 과정

기존에 만들어진 JWT 토큰은 브라우저에 캐시 형태로 저장되어 있다. 클라이언트가 서버에 특정 리소스에 대해서 인증을 요청한다고 하자. 

 

그러면 [클라이언트가 요청과 함께 보낸 토큰의 시그니처 값] == ([토큰 헤더 인코딩한 값] + [토큰 페이로드 인코딩한 값] + [장고 각 프젝마다 있는 secret_key 값])=>해시 알고리즘 적용

 

이 두 값이 같은지를 비교해서, 같다면 사용자 인증을 허가한다. 

 

 

참고한 포스트

https://dongwooklee96.github.io/post/2021/03/28/rest-api-%EB%B3%B4%EC%95%88-%EB%B0%8F-%EC%9D%B8%EC%A6%9D-%EB%B0%A9%EC%8B%9D/
https://hamait.tistory.com/416
https://developer.mozilla.org/en-US/docs/Web/HTTP/Headers/WWW-Authenticate
https://www.qu3vipon.com/django-jwt

 

'server-side > server' 카테고리의 다른 글

Mac 환경설정  (0) 2024.07.15
Software Release Life Cycle  (0) 2023.07.15
OAuth 2.0 기본원리  (0) 2022.09.26
linux: cron 사용해서 자동으로 스케줄 실행하기  (0) 2022.07.09
Git: clone, single-branch, checkout  (0) 2022.06.28

데이터베이스 성능을 효율적으로 관리하는 방법 중 하나로 '서브쿼리는 조인(join)으로 작성해라'는 말을 들은 적이 있다. 서브쿼리(sub-query)란 기존에 날린 쿼리의 캐시 데이터를 사용하는 또 다른 쿼리인데, 이런 서브 쿼리를 작성할 때는 join을 사용하라는 의미이다. 

 

join을 사용하지 않으면 작성자는 기존에 만든 쿼리의 데이터(캐시 메모리)를 이용해서 쿼리를 만드려고 했지만, 실제로는 데이터베이스에 또 다른 쿼리를 날리게 된다. 즉 한 번 날릴 수 있는 쿼리를 두 번 날리게 되므로 자원을 낭비하는 셈이다. 

 

select_related()prefetch_related() 모두 장고 ORM에서 데이터베이스에 접근할 때 사용하는 메소드이다. 또한 join을 사용해서 데이터를 합하고, 쿼리셋(QuerySet)을 리턴한다는 점에서 비슷하다. 하지만 두 메소드는 엄연히 다르다. 둘의 차이점에 대해서 알아보자. 

 

공통점

1. 장고 ORM에서 데이터베이스에 접근할 때 사용하는 메소드

2. 결과가 합해진 쿼리셋을 리턴

 

✅개별 특징 - select_related()

✔️사용 방법

사용하려는 모델[A]이 다른 모델[B]을 외래키(ForeignKey)로 참조하고 있을 때 사용한다. 

select_related('참조하는 외래키 필드명')

A의 데이터를 불러오는 쿼리를 작성할 때, A가 참조하는 외래키인 B의 데이터도 같이 캐시 데이터로 불러온다. 그러면 나중에 해당 데이터에서 외래키 정보를 사용해야 할 때, 추가로 DB에 쿼리를 날리지 않아도 된다. 

 

예시를 보자. 

# models.py
class Person(models.Model):
	name = models.CharField()
	age = models.IntegerField()
	home = models.ForeignKey(Home, on_delete=models.CASCADE)
    
class Home(models.Model):
	address = models.CharField()
# ORM query without select_related
p = Person.objects.get(id=22)
h = p.home
# ORM query with select_related
p = Person.objects.get(id=22).select_related('home')
h = p.home

select_related()를 사용하지 않은 경우, 해당 객체의 외래키에 대한 캐시 데이터가 없으므로 p 객체의 home 속성을 조회할 때 한번 더 데이터베이스로 쿼리를 날리게 된다. 

 

그러나 select_related()를 사용할 경우, p 객체를 불러올 때 이미 해당 객체의 외래키 데이터도 캐시 데이터로 불러온다. 따라서 데이터베이스에 쿼리를 날리지 않고 이미 불러온 데이터를 사용할 수 있다. 

 

✔️외래키 관계

외래키로 엮인 두 모델은 one-to-one, many-to-one, many-to-many 셋 중 하나의 관계를 갖는다. 

select_related()의 경우, many-to-many 관계인 모델의 데이터는 불러올 수 없다. select_related()는 SQL 쿼리에서 JOIN 문을 사용해서 해당 모델이 참조하는 다른 모델의 컬럼 데이터들을 불러오는데, many-to-many 관계인 모델의 데이터까지 불러오게 된다면 SQL 쿼리로 불러오는 결과 데이터 양이 너무 많아질 수 있기 때문이다. 따라서 one-to-one 관계나 many-to-one(해당 모델이 many 쪽) 관계로 참조하는 모델 데이터만 불러올 수 있다. 

 

✔️이중 참조

A가 참조하는 모델[B]이 참조하는 또 다른 모델[C]의 데이터를 가져오는 것도 가능하다. 

 

예시를 보자. 

# models.py
class Menu(models.Model):
	name = models.CharField()

class Dessert(models.Model):
	name = models.CharField()
	dessertType = models.ForeignKey(Menu, on_delete=models.CASCADE)
    
class Chocolate(models.Model):
	name = models.CharField()
	chocolateType = models.ForeignKey(Dessert, on_delete=models.CASCADE)
# ORM query
c1 = Chocolate.objects.filter(name__contains='white').select_related('chocolateType__dessertType')

c1 객체에는 name에 white를 포함한 Chocolate 객체들의 데이터가 포함되고, 해당 객체들의 chocolateType 필드가 참조하는 Dessert 객체들의 데이터와, 해당 객체들의 dessertType 필드가 참조하는 Menu 객체들의 데이터까지 포함되게 된다. 

 

✅개별 특징 - prefetch_related()

select_related()와 달리 many-to-many, many-to-one의 관계인 모델의 데이터도 가져올 수 있다. 

prefetch_related('참조하는 외래키 필드명')

 

다음 예시를 보자. Student과 Course는 many-to-many 관계이다. 

# models.py
class Course(models.Model):
	id = models.IntegerField()
	name = models.CharField()
    
class Student(models.Model):
	name = models.CharField()
	course = models.ManyToManyField(Course)
# ORM query
student = Student.objects.prefetch_related('course')

해당 쿼리는 Student 전체의 데이터와 함께, 개별 student 객체가 참조하는 Course 객체에 대한 데이터도 캐시 데이터로 같이 불러온다. 

 

prefetch_related()를 사용하지 않는다면 총 db에 등록된 students 객체 수 만큼의 쿼리가 실행되어야 할 것이다. 그러나 prefetch_related()를 사용하면 총 두 번의 쿼리로 같은 작업을 할 수 있다. 

 

✔️외래키 관계

prefetch_related()는 select_related()와 마찬가지로 이중 참조가 가능하다. select_related()에서 작성한 방법과 같은 방식으로 쿼리를 작성하면 된다. 

 

✔️사용할 수 없는 경우

prefetch_related()를 사용해서 기존 모델이 참조하는 다른 모델의 데이터를 가져왔지만, 가져온 데이터를 사용할 수 없는 경우도 있으니 주의하자. 

 

1. 가져온 데이터셋에 추가 메소드를 적용하였을 경우

student = Student.objects.prefetch_related('course')
student = students.filter(name__contains='Kim')		# 기존 prefetched 데이터 변경

students 변수에는 prefetch_related()를 사용해서 외래키 모델에 대한 데이터까지 저장되어 있었다. 그러나 추가로 filter() 메소드를 사용하면서 데이터가 변경되었다. 기존의 데이터에 추가 메소드를 적용한 경우, 장고에서는 추가로 메소드를 적용한 students.filter() 쿼리셋을 아예 다른 쿼리셋으로 인식한다. 

따라서 새 students 쿼리셋에는 prefetch로 불러왔다고 생각했던 데이터가 없는 상태이다. 

 

2. 기존 DB의 데이터가 변경되었을 경우

student = Student.objects.prefetch_related('course')
Student.objects.create(
	# code
)

기존 student 객체에는 prefetch_related()로 불러온 캐시 데이터가 있었으나, 이를 사용하기 전에 create, delete, update 등으로 기존 데이터가 변경되었다. 이렇게 DB 데이터가 변경된 경우, 기존에 저장되었던 캐시 데이터는 삭제되어서 이용할 수 없다. 

 

⚠️차이점 1 - 사용 가능한 외래키 참조 관계

외래키로 엮인 두 모델은 one-to-one, many-to-one, many-to-many 셋 중 하나의 관계를 갖는다. 

select_related()의 경우, one-to-one, many-to-one(해당 모델이 many 쪽) 관계인 모델의 데이터만 불러올 수 있다. (many-to-many 관계는 불러올 수 없다!)

반면 prefetch_related()의 경우, 참조 관계에 상관 없이 참조하는 모든 모델의 데이터를 불러올 수 있다. 

 

⚠️차이점 2 - JOIN 방식

select_related()는 DB에 엑세스할 때 변환되는 SQL 쿼리에서 JOIN문을 생성하고, 참조하는 모델의 다른 필드들을 SELECT문에 추가하는 방식으로 참조하는 다른 모델의 데이터를 가져온다. 그렇기 때문에 한 번에 너무 많은 데이터를 가져올 수 없어서 one-to-one 관계에만 사용하도록 제한된다. 

 

반면 prefetch_related()는 개별적으로 SQL 쿼리를 날린다. 그리고 DB에서 가져온 쿼리셋을 파이썬에서 합한다. 개별 쿼리에서 JOIN이 발생하지 않기 때문에, 한 번에 적은 데이터를 가져오지 않아도 된다. 따라서 many-to-many, many-to-one 관계에도 적용할 수 있다.

 

두 메소드 모두 JOIN 과정이 발생한다. select_related()는 SQL 쿼리에서 JOIN을 통해 데이터를 가져오고, prefetch_related()는 개별 쿼리로 데이터를 가져온 뒤 파이썬에서 별도의 JOIN 과정을 통해 데이터를 합한다. 즉 JOIN 과정이 언제 일어나는지의 차이가 있다. 

 

 

참고한 포스트

QuerySet API reference | Django documentation | Django (djangoproject.com)

Django에서 DB 액세스 최적화하기 – Myungseo Kang

MySQL 쓰면서 하지 말아야 할 것 17가지 – Lael's World

 

'server-side > Django' 카테고리의 다른 글

python - poetry 사용하기  (0) 2023.07.12
signals  (0) 2023.06.21
Model.objects.filter() vs Model.objects.get()  (0) 2022.07.11
models: on_delete  (0) 2022.07.05
admin: Inline, InlineModelAdmin  (0) 2022.07.02

Model.objects.get()Model.objects.filter() 모두 장고와 연결된 데이터베이스에서 조건에 맞는 데이터를 리턴하고 싶을 때 사용한다. 그러나 두 메소드는 엄연한 차이가 있다. 

 

쿼리셋(QuerySet)

둘의 차이를 이해하기 위해서는 쿼리셋이 무엇인지를 먼저 알아봐야 한다. 

쿼리셋(Queryset)이란 장고와 연결된 데이터베이스에 저장된 객체들의 모임을 의미한다. 쿼리셋은 SQL문으로 치면 SELECT문과 같다. 여기에 WHERE, LIMIT 등의 여러 필터를 사용해서 원하는 데이터만 포함한 쿼리셋을 만들 수 있다. 

+ 앞으로 '쿼리를 날린다'는 표현을 사용할 건데, '쿼리를 날린다' = '데이터베이스에 연결한다' 라고 보면 된다. 

 

쿼리셋과 데이터베이스 접근은 다르다. (Querysets are lazy)

기본적으로 쿼리셋은 메모리의 일종인 캐시(cache)를 사용해서 데이터베이스에 접근을 최소화 하려고 한다. 따라서 만약 어떤 메소드가 쿼리셋을 리턴하고 그 리턴된 쿼리셋이 캐시 메모리를 포함한다면, 나중에 같은 정보가 필요할 때 기존에 리턴된 쿼리셋을 사용할 수 있다. 

 

쿼리셋이 만들어지거나 쿼리셋에 추가적인 필터 메소드를 적용한다고 해서 항상 데이터베이스에 쿼리를 날리는 것이 아니다. 쿼리셋이 만들어진 이후, 쿼리셋을 계산(evaluate)하는 메소드가 실행되면 그 때 쿼리를 날리게 된다. 

 

쿼리셋을 계산하는 메소드

이 메소드를 사용할 때는 데이터베이스에 쿼리를 날리게 된다. 

  • 반복
  • (인덱스 기반의) 슬라이싱
  • 피클링/캐싱
  • 쿼리셋을 출력할 수 있는 문자열로 반환: repr()
  • 쿼리셋의 객체 수(길이) 리턴: len()
  • 쿼리셋을 리스트 타입으로 변경: list()
  • 쿼리셋 안에 객체가 존재하는지 판단: bool()

 

get()filter()의 차이

🌟SQL 쿼리의 차이

장고 내부에서 생성된 쿼리셋을 계산할 때는 데이터베이스에 쿼리를 날려야 한다. 즉 쿼리 메소드는 SQL문으로 변환될 수 있다. filter() 메소드의 경우 다음과 같이 변환될 수 있다. 

 

- ORM

Restaurant.objects.filter(name="seoul")

- SQL

SELECT 'id', 'name', 'category', 'email', 'menu'
FROM 'restaurant' WHERE 'restaurant'.'name' = 'seoul'

 

그러나 get() 메소드의 경우는 filter() 메소드와 달리 별다른 SQL 메소드로 변환될 수 없다. 

대신 filter() 메소드에 부가적인 처리를 해서 나타낼 수 있다. 

 

-ORM

Restaurant.objects.get(name='seoul')

-Code

rest = Restaurant.objects.filter(name='seoul')

if len(rest) == 1:
	return rest[0]
else:
	raise Exception

즉 get() 메소드는 filter() 메소드에 부가적인 처리를 한 결과를 리턴한다. 그러므로 같은 코드를 실행해도 filter()의 속도가 get()보다 빠르다.

 

뿐만 아니라, 인덱싱(rest[0])의 경우 쿼리셋에 해당하는 인덱스가 없다면 오류를 발생시킨다. 따라서 filter()는 조건에 해당하는 데이터의 개수에 상관 없이 결과를 리턴하지만, get()은 조건에 해당하는 데이터가 1개가 아닌 이상 오류를 반환한다. 

 

그러므로 get()은 반드시 한 개의 데이터만 리턴하고, 하나가 아니면 오류를 발생시킬 때만 사용하는 것이 더 효율적이라고 볼 수 있겠다! 

 

🌟쿼리셋을 리턴한다 vs 리턴하지 않는다

쿼리셋을 리턴하지 않는 메소드의 경우, 쿼리셋이 없기 때문에 캐시도 갖고 있지 않다. 그렇기 때문에 이 메소드들은 한 번 호출될 때마다 데이터베이스에 쿼리를 날리게 된다. get()은 쿼리셋을 리턴하지 않는 메소드들 중 하나이다. 

반면 filter()는 쿼리셋을 리턴한다. 따라서 filter()를 사용한다고 바로 쿼리를 날리는 것이 아니다. 그래서 메소드를 여러 번 사용할 경우, get() 보다는 filter()가 더 빠르다. 

 

Project라는 모델이 있다고 가정할 때, 아래의 두 코드의 성능은 다르다. 

# get()
p1 = Project.objects.get(id=1)
print(p1)
p2 = Project.objects.get(id=2)
print(p2)
p3 = Project.objects.get(id=3)
print(p3)
p4 = Project.objects.get(id=4)
print(p4)
# filter()
proj = Project.objects.filter(id__lte=4)
for p in proj:
	print(p)

위의 코드는 get을 사용하여 총 4번 데이터베이스에 쿼리를 날리지만, 아래 코드는 filter()를 사용해 쿼리셋을 생성하고, for문을 사용해서 쿼리셋 안의 객체를 문자열로 출력할 때만 데이터베이스에 쿼리를 날린다. 

 

따라서 순서(ordering)가 별 상관이 없다면, get()을 여러 번 사용하는 것 보다는 filter()를 사용해서 적합한 쿼리셋을 생성한 뒤, for문 등을 이용해서 데이터베이스 접근을 최소화하는 것이 더 성능이 좋다. 

 

🌟여러 개의 데이터를 포함할 수 있다 vs 하나의 데이터만 포함한다

또한 filter()는 쿼리셋을 리턴하기에 여러 개의 데이터를 쿼리셋으로 받을 수 있지만, get()은 하나의 데이터만 받을 수 있다. 만약 get() 실행 시 해당하는 데이터가 없다면 Model.DoesNotExist 에러가 발생하고, 또는 해당하는 데이터가 여러 개라면 Model.MultipleObjectsReturned 에러가 발생한다. 또한 해당하는 데이터가 여러 개인 경우, 오류가 발생하기 전에 쿼리의 실행 속도가 상당히 느려지기도 한다. 

 

따라서 get()을 사용해야 한다면 반드시 unique한 컬럼명 또는 인덱스 컬럼명, primary key 등을 사용해서 해당하는 데이터가 여러 개 나오지 않도록 주의하자. 

 

 

참고한 포스트

Django에서 DB 액세스 최적화하기 – Myungseo Kang

QuerySet API reference | Django 문서 | Django (djangoproject.com)

Making queries | Django documentation | Django (djangoproject.com)

django - filter().exists(), Q() 객체, F() 객체 (velog.io)

 

'server-side > Django' 카테고리의 다른 글

signals  (0) 2023.06.21
Model.select_related() vs Model.prefetch_related()  (0) 2022.07.11
models: on_delete  (0) 2022.07.05
admin: Inline, InlineModelAdmin  (0) 2022.07.02
conda 사용해서 가상환경 만들기  (0) 2022.06.29

+ Recent posts