상대성 이론 Theory of Relativity | |||
{{{#!wiki style="margin:0 -10px -5px" {{{#!wiki style="word-break: keep-all;" {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin:-6px -1px -11px" | <rowcolor=#2A1A5B> | 특수 상대성 이론 | 일반 상대성 이론 |
<colcolor=#00a0de><colbgcolor=#2A1A5B> 배경 | 상대성 이론/역사 · 맥스웰 방정식 · 마이컬슨-몰리 실험 | ||
기초 가설 | 상대성 원리 · 광속 불변의 원리 | 등가 원리(중력 · 관성력) | |
이론 체계 | 시공간(세계선 · 고유 시간 · 고유 길이 · 민코프스키 다이어그램 · 아인슈타인 표기법) · 미분기하학(리만 다양체) | ||
로런츠 변환(로런츠 인자) · 로런츠 군 | 아인슈타인 방정식 · 힐베르트 액션 (슈바르츠실트 계량 · 라이스너-노르드스트룀 계량 · 커 계량/커-뉴먼 계량) | ||
현상 | 동시성의 상대성 · 시간 지연 · 길이 수축 · 질량-에너지 등가원리 · 상대론적 효과(도플러) | 중력 렌즈 효과 · 중력파 · 적색편이 | |
응용 및 심화 | 기본 상호작용 · 상대론적 역학 · 상대론적 전자기학 · 양자 전기역학 · 천체물리학(천문학 둘러보기) · 통일장 이론 · 루프 양자 중력 이론 · 타임 패러독스 · 중력 자성 | ||
쌍둥이 역설 · 막대와 헛간 역설 · 아광속 · 초광속 · 타키온 | 중력자 · 블랙홀(블랙홀 둘러보기 · 사건의 지평선 · 중력 특이점 · 양자블랙홀) · 우주론 · 우주 상수 | }}}}}}}}}}}} |
1. 개요
특수 상대성 이론에서 사용되는 두 관성계 사이의 좌표 변환 공식을 일컫는다. 명칭은 네덜란드 물리학자 헨드릭 A. 로런츠(Hendrik Antoon Lorentz)의 이름을 딴 것이다.고전 역학에서는 갈릴레이 변환이 그 역할을 했지만, 19세기 후반에 들어서 대두된 전기동역학의 대칭성 문제를 해결하기 위해 여러 학자들이 제각각 자신의 이론 속에서 공식을 만들었다. 로런츠는 공식을 비교적 늦게 완성한 편(1904년)인데, 로런츠의 이름이 붙은 이유는 일단 로런츠의 이론(전자론)이 당시 난립하던 전기동역학 이론의 선두에 있었으며, 그의 이론을 지지하던 앙리 푸앵카레가 "로런츠 변환"이라 불렀기 때문이다. 실제로, 로런츠의 이론은 알베르트 아인슈타인의 상대성 이론으로 계보가 이어진다. 하지만 이 변환이 갈릴레이 변환에 대응되는 지위를 갖는다는 것은 상대성 이론에 이르러서야 분명해졌다.
대강 설명하면, 특수 상대성 이론은 로런츠 변환이 (갈릴레이 변환을 대체하는) "자연의 진정한 관성 좌표계 간 좌표 변환"임을 전제할 때 얻어지는 이론이다. 로런츠 변환을 얻기 위해서는, 원래 고전 역학에 적용되었던 상대성 원리를 전자기학에 이식해서 맥스웰 방정식이 좌표 변환에 대해 불변임을 요구하면 된다. 그런데 이렇게 하면 로런츠 변환이 전자기적 과정에 의해 얻어지는 것처럼 느껴진다. 이 분야에서 상당한 성과(변환의 물리적 해석, 로런츠 군 등)를 냈던 푸앵카레마저도 이 단계에서 멈췄다. 하지만 아인슈타인은 맥스웰 방정식을 광속 불변 원리, 즉 특정 속력의 절대성으로 추출함으로써 기존의 전자기학적 맥락을 배제하고, 이것만으로 로런츠 변환을 유도함으로써, 로런츠 변환을 순수 운동학적인 맥락으로 이해할 수 있음을 밝혀냈다.
현 시점에서 보았을 때는 아인슈타인이 전제한 두 공리 "상대성 원리"와 "광속 불변 원리" 또한 순전히 이론을 어떻게 "구성하는가", 혹은 어떻게 "보여주는가"의 문제이지 광속 불변 원리를 "무조건" 사용해야 특수 상대론을 전개할 수 있는 것은 아니다. 특수 상대론의 확실함을 알고 있는 오늘날에는 그냥 로런츠 변환을 전제하면 되며 (이 때는 거꾸로 광속의 불변성이 유도된다.) 그것이 훨씬 깔끔하다. 사실, 특수 상대론의 formalism을 연구하는 학자들은 로런츠 변환이 사실상 유일하게 가능한 기준계의 선형 좌표 변환으로 본다. 광속이라고 하는 "[math(c)]"는 임의로 부여할 수 있는 상수이며, 이 때 갈릴레이 변환은 [math(c)]를 무한대로 보낼 때 나오는 굉장히 특수한 변환이 된다.
제대로 된 로런츠 변환식은 널리 알려진 식보다 더 복잡하다. 하지만 그래 봤자 공간에서의 회전 두어 개랑 아래에 설명할 로런츠 부스트를 짬뽕시킨 것에 불과하긴 하다. 현재 일반적인 로런츠 변환은 공간 좌표계들끼리의 회전까지도 모두 포함하고 있다. 여기에서 군(group) 이론, 특히 리 군(Lie group) 이론으로 로런츠 변환을 묘사할 수 있으며 로런츠 군이 바로 그 결과.
2. 의미
두 관성계 [math(S, S')]이 있고, [math(S')]이 [math(S)]에 대해 [math(x)]축 방향으로 [math(v)]라는 속도로 이동하고 있다고 하자. 이때, 한 물체의 좌표가 [math(S)]에서는 [math(\left( x, y, z, ict \right) )]이고, [math(S')]에서는 [math( (x', y', z', ict') )]이면, 두 좌표 사이에는 아래와 같은 관계가 있다.[math(x' = \gamma (x - vt) )]
[math(y' = y)]
[math(z' = z)]
[math(ct' = \gamma (ct - \beta x) )]
[math(y' = y)]
[math(z' = z)]
[math(ct' = \gamma (ct - \beta x) )]
여기서 [math(c)]는 진공에서의 빛의 속도이며,
[math(\beta = \dfrac{v}{c})], [math(\gamma = \dfrac{1}{\sqrt{1 - \beta^2}})]
이다. 특히 여기서 [math(\gamma)]는 로런츠 인자라고 불린다. 여기서 설명된 좌표 변환식은 [math(x)]방향의 로런츠 부스트(Lorentz boost)이다. 물론 [math(y)]축 방향, [math(z)]축 방향 로런츠 부스트도 있다. 각각 [math(x)]축의 역할을 [math(y)]축, [math(z)]축에 위임한 식이 되겠다.
여기서 [math(x^1 = x, x^2 = y, x^3 = z, x^0 = ct)]로 표기하자. [math((x')^\mu)] ([math(\mu = 0, 1, 2, 3)])도 [math(ct', x', y', z')]로 똑같이 정의한다. 그러면 위 변환식은 다음과 같이 쓸 수 있다.
[math((x')^0 = \gamma x^0 - \gamma \beta x^1)]
[math((x')^1 = -\gamma \beta x^0 + \gamma x^1)]
[math((x')^2 = x^2)]
[math((x')^3 = x^3)]
[math((x')^1 = -\gamma \beta x^0 + \gamma x^1)]
[math((x')^2 = x^2)]
[math((x')^3 = x^3)]
물론 행렬로도 쓸 수 있다.
[math(\begin{pmatrix} (x')^0 \\ (x')^1 \\ (x')^2 \\ (x')^3 \end{pmatrix} = \begin{pmatrix} \gamma & -\gamma \beta & 0 & 0 \\ -\gamma \beta & \gamma & 0 & 0 \\ 0 & 0 & 1 & 0 \\ 0 & 0 & 0 & 1 \end{pmatrix} \begin{pmatrix} x^0 \\ x^1 \\ x^2 \\ x^3 \end{pmatrix})]
같은 방식으로 [math(y)]축, [math(z)]축 로런츠 부스트들도 표현할 수 있다. 각각 다음과 같이 표현된다.
[math(\begin{pmatrix} (x')^0 \\ (x')^1 \\ (x')^2 \\ (x')^3 \end{pmatrix} = \begin{pmatrix} \gamma & 0 & -\gamma \beta & 0 \\ 0 & 1 & 0 & 0 \\ -\gamma \beta & 0 & \gamma & 0 \\ 0 & 0 & 0 & 1 \end{pmatrix} \begin{pmatrix} x^0 \\ x^1 \\ x^2 \\ x^3 \end{pmatrix},)]
[math(\begin{pmatrix} (x')^0 \\ (x')^1 \\ (x')^2 \\ (x')^3 \end{pmatrix} = \begin{pmatrix} \gamma & 0 & 0 & -\gamma \beta \\ 0 & 1 & 0 & 0 \\ 0 & 0 & 1 & 0 \\ -\gamma \beta & 0 & 0 & \gamma \end{pmatrix} \begin{pmatrix} x^0 \\ x^1 \\ x^2 \\ x^3 \end{pmatrix})]
여기서 로런츠 부스트에 해당하는 행렬을 [math(\Lambda)]라 하고 이 행렬의 [math((\mu, \nu))]-성분을 [math(\Lambda^\mu_\nu)]라고 표기하자. 그러면 위 식은 다음과 같이 쓸 수 있다.
[math((x')^\mu = \Lambda^\mu_\nu x^\nu)]
여기서 우변은 원래 [math(\displaystyle \sum_{\nu = 0}^3 \Lambda^\mu_\nu x^\nu)]인데, 편의상 생략한다. 이를 가리켜 아인슈타인 표기법(Einstein notation)이라고 부른다. 이는 몇 가지 규칙으로 정해진다.
- 같은 인덱스가 두 번 써져 있으면 그 인덱스에 대한 총합(summation)이라는 뜻이다. 예를 들어 [math(A^\mu B_\mu)]는 [math(\displaystyle \sum_{\mu = 0}^3 A^\mu B_\mu)]에서 [math(\displaystyle \sum_{\mu = 0}^3)]가 생략되어 있다는 것이다.
- 같은 인덱스는 두 번만 쓸 수 있으며, 같은 인덱스를 그보다 많이 쓴 것은 잘못된 표기다. 예를 들어 [math(A^\mu B_\mu C^\mu)] 같은 것은 잘못되었다.
- (두 개의) 같은 인덱스들 중 하나는 위 첨자에, 다른 하나는 아래 첨자에 있어야 한다. 예를 들어 [math(A^\mu B^\mu)] 같은 것은 잘못되었다.[1]
한편, 다음을 알 수 있다.
[math(\begin{pmatrix} \gamma & 0 & -\gamma \beta & 0 \\ 0 & 1 & 0 & 0 \\ -\gamma \beta & 0 & \gamma & 0 \\ 0 & 0 & 0 & 1 \end{pmatrix} = \begin{pmatrix} 1 & 0 & 0 & 0 \\ 0 & 0 & 1 & 0 \\ 0 & 1 & 0 & 0 \\ 0 & 0 & 0 & -1 \end{pmatrix} \begin{pmatrix} \gamma & -\gamma \beta & 0 & 0 \\ -\gamma \beta & \gamma & 0 & 0 \\ 0 & 0 & 1 & 0 \\ 0 & 0 & 0 & 1 \end{pmatrix} \begin{pmatrix} 1 & 0 & 0 & 0 \\ 0 & 0 & 1 & 0 \\ 0 & 1 & 0 & 0 \\ 0 & 0 & 0 & -1 \end{pmatrix}^{-1})] |
[math(\begin{pmatrix} \gamma & 0 & 0 & -\gamma \beta \\ 0 & 1 & 0 & 0 \\ 0 & 0 & 1 & 0 \\ -\gamma \beta & 0 & 0 & \gamma \end{pmatrix} = \begin{pmatrix} 1 & 0 & 0 & 0 \\ 0 & 0 & 0 & 1 \\ 0 & 0 & -1 & 0 \\ 0 & 1 & 0 & 0 \end{pmatrix} \begin{pmatrix} \gamma & -\gamma \beta & 0 & 0 \\ -\gamma \beta & \gamma & 0 & 0 \\ 0 & 0 & 1 & 0 \\ 0 & 0 & 0 & 1 \end{pmatrix} \begin{pmatrix} 1 & 0 & 0 & 0 \\ 0 & 0 & 0 & 1 \\ 0 & 0 & -1 & 0 \\ 0 & 1 & 0 & 0 \end{pmatrix}^{-1})] |
이런 식으로 [math(y)]축, [math(z)]축 로런츠 부스트들을 [math(x)]축 로런츠 부스트의 좌표 변환 버전으로 나타낼 수 있다. 회전 변환에 익숙한 사람들이라면 이때 사용된 (양 옆에 곱해진) 행렬들이 3차원 공간의 회전 변환에 해당하는 행렬임을 볼 수 있을 것이다. 이런 식으로 로런츠 변환들을 간단하게 표현할 수 있다. 한편, 위에서 설명했듯이 일반적으로 저런 3차원 회전 변환(의 4차원 형태) 역시 일반적인 로런츠 변환에 들어간다. 또한 위와 같은 방법으로 [math(x)]축 부스트 말고도 [math(y)]축 혹은 [math(z)]축 로런츠 부스트로 나머지 로런츠 부스트들을 표현할 수 있다.
설명했듯이 일반적인 로런츠 변환은 임의의 방향의 로런츠 부스트에 3차원 공간에서의 임의의 회전변환을 포함하는 개념이다. 위에서 설명한 것까지 생각하면 결국 일반적인 로런츠 변환은 다음과 같다는 것을 알 수 있다.
[math(\Lambda = O_2 \Lambda_{x, \beta} O_1^{-1})]
여기서 [math(\Lambda_{x, \beta})]는 [math(\beta, \gamma = \dfrac{1}{\sqrt{1 - \beta^2}})]로 정해진 [math(x)]축 방향 로런츠 부스트이고, [math(O_1, O_2)]는 3차원 회전 좌표 변환의 4차원 행렬 꼴이다. 즉, 이런 [math(3 \times 3)]-직교 행렬(orthogonal matrix) [math(\tilde{O}_1, \tilde{O}_2)]들이 존재한다는 것이다.
[math(O_i = \begin{pmatrix} 1 & 0 \\ 0 & \tilde{O}_i \end{pmatrix})]
위에서 쓴 [math(y)]축, [math(z)]축 로런츠 부스트들도 이러한 표현에 포함된다는 것을 확인하자. 물론 굳이 [math(x)]축일 필요는 없다.
덧붙여서 [math(O'_2 = O_2 O_1^{-1})]라 하자. 그러면 [math(\Lambda = O'_2 (O_1 \Lambda_{x, \beta} O_1^{-1}))]로 쓸 수 있다. 여기서 [math(\hat{x} = (0, 1, 0, 0))]에 [math(O_1)]을 (왼쪽에) 작용시켜 얻은 것을 [math(\hat{n})]라 하자. 물론 이 벡터는 단위벡터일 것이다. 그러면 [math(O_1 \Lambda_{x, \beta} O_1^{-1})]는 다음과 같은 작용을 하는 변환이라고 볼 수 있다.
- [math(\hat{n})]을 [math(\hat{x})]와 같은 방향이 되도록 좌표를 돌린다.
- [math(x)]축 방향으로 속력 [math(\beta)]만큼 로런츠 부스트를 작용시킨다.
- [math(\hat{x})] 방향이 [math(\hat{n})] 방향이도록 좌표를 도로 돌린다.
- 속도 [math(\vec{v})]에 해당하는 로런츠 부스트를 작용시킨다.
즉, 일반적인 로런츠 부스트를 이런 식으로 간단하게 표현할 수 있다. 실제로 [math(O_1 \Lambda_{x, \beta} O_1^{-1})]를 하나의 행렬 꼴로 정리해서 쓰면 생각보다 꽤 복잡한 꼴이 된다. 한편, [math(O'_2)]는 로런츠 부스트를 시킨 다음에 별도로 공간을 회전시킨 것이 되는 셈이다.
3. 일반적인 정의
로런츠 변환이 광속 불변의 원리를 만족하는 식이라고 했었다. 그 말은 즉 광속 불변의 원리로부터 로런츠 변환이 유도된다는 뜻이다. 물론 상대성 원리와 관성 좌표계의 정의가 필요하긴 하다.Landau, Lifshitz 시리즈 중 Mechanics에 따르면 관성 좌표계는 다음과 같이 정의된다.
관성 좌표계는 시간과 공간에 대해 균질(homogeneous)하고 공간의 방향에 대해 등방(isotropic)한 좌표계를 말한다.
위의 책에 따르면 평행 이동을 제외한 관성 좌표계 간 좌표 변환은 다음과 같은 꼴을 갖는다.
[math(\begin{pmatrix} (x')^0 \\ (x')^1 \\ (x')^2 \\ (x')^3 \end{pmatrix} = \Lambda \begin{pmatrix} x^0 \\ x^1 \\ x^2 \\ x^3 \end{pmatrix})]
여기서 [math(\Lambda)]는 어떤 행렬이다. 일반적인 좌표 변환에서 이 행렬은 [math(x^i)]들에 대한 함수로, 즉 각 지점에 종속적인 값으로 표현이 되어야 한다. 예를 들어 구면 좌표계로 점들을 나타냈을 경우 구면 좌표계 간 좌표 변환은 굉장히 복잡할 것이며 [math(\Lambda)] 역시 각 점마다 다를 것이다. 그런데 지금 우리가 관심을 가지고 있는 건 관성 좌표계로, 그 정의에서 말하는 균질성과 입방성을 고려하면 이 경우에 [math(\Lambda)]는 위치 [math(x^i)]들에 독립적, 즉 상수이어야 한다는 것을 알 수 있다.
또한 이 공간은 어떤 기하학을 가지고 있어야 한다. 벡터 공간에 기하학을 부여한다는 이야기는 이 공간에 내적 혹은 symmetric bilinear form [math((v, w))]를 정의하겠다는 뜻이다.[2][3] 그리고 관성 좌표계들 간의 변환은 이 기하학을 보존시켜야 한다. 즉, 다음 식이 성립해야 한다는 것이다.
[math((\Lambda v, \Lambda w) = (v, w))]
만약 [math(x^0)] 등이 빠진 3차원 공간이었다면 [math((\cdot, \cdot))]는 우리가 잘 아는 유클리드 내적일 것이고, 그러면 [math(\Lambda)]는 직교 행렬일 것이다.[4] 하지만 관성 좌표계 간 좌표 변환 중에는 속도가 서로 다른 관찰자들 간의 좌표 변환도 포함되어야 한다. 자세한 설명은 위의 책 참조. 따라서 필연적으로 4차원 시공간에서 제대로 된 '내적'(아닐 수도 있지만)을 정의해야 한다. 물론 이 내적은 관성 좌표계의 정의(공간에 대한 등방성)에 따라 3차원 유클리드 공간의 내적을 포함해야 한다.
여기서 선형대수학 이론을 잠깐 꺼내 보겠다. 지금 우리가 다루는 좌표 공간은 벡터 공간이다. 따라서 기저(basis)를 생각할 수 있다. 이때 임의의 symmetric bilinear form [math((\cdot, \cdot))]에 대해 [math((v_i, v_j) = a_i \delta_{ij})]가 성립하는 기저 [math((v_i))] ([math(i = 0, 1, 2, 3)])가 존재한다. 여기서 [math(a_i)]는 어떤 실수이다. 특히 지금 우리가 다루고 있는 벡터 공간은 스칼라가 실수이기 때문에 [math(a_i)]가 1 혹은 -1이도록 잡을 수 있다. 모두 1 혹은 모두 -1일 수는 없지만 중요한 건 4차원 실수 공간에 정의되는 모든 symmetric bilinear form은 위와 같이 1 혹은 -1이도록 구해진 [math(a_i)] 중에서 1의 개수 혹은 -1의 개수에 의해 완전히 결정된다는 것이다.[5] 즉, 두 symmetric bilinear form이 있는데 만약 둘로부터 1 혹은 -1이도록 구해진 [math(a_i)]가 같은 개수의 1과 -1을 갖는다면[6] 둘은 실질적으로 완전히 같은 것들이라는 것이다.
그러한 기저에서 벡터들의 성분을 [math(x^\mu)]와 같이 표현한다고 치자. 그러면 위 상황은 다음과 같이 표현될 수 있다는 것이다.
[math(\displaystyle \left( \sum_{\mu = 0}^3 x_2^\mu v_\mu, \sum_{\nu = 0}^3 x_1^\nu v_\nu \right) = \sum_{\mu = 0}^3 a_\mu x_2^\mu x_1^\mu = x_2^T J x_1)]
여기서 [math(J)]는 대각 성분이 순서대로 [math(a_\mu)]인, 흑은 대각 성분들이 1 아니면 -1인 대각 행렬이다. 위에서 설명한 것을 이 표기로 정리하자면 결국 [math(J)]가 무엇이냐를 결정하는 것이 우리가 사는 4차원 시공간의 기하학을 결정하는 것이 된다.
한편 우리에게 익숙한 좌표계라면 각 성분들이 서로 수직한 것이어야 한다는 것을 알 수 있다. 공간 성분들([math(v_1, v_2, v_3)])이야 우리가 흔히 쓰는 직교 좌표계인 것이 좋을 것이다. 한편 나머지 한 성분([math(v_0)])은 시간 성분이어야 할텐데, 만약 나머지 공간 성분들과 시간 성분이 서로 수직하지 않다면 관성 좌표계의 정의에서 시간에 대한 균질성을 말하기가 어렵게 된다. 더군다나 각 성분들의 '크기', 즉 [math((v_i, v_i))]는 되도록 단위 길이인 것이 우리가 원하는 좌표계에 잘 맞을 것이다. 물론 그 값이 1이 아닌 -1일 수도 있지만. 따라서 위와 같이 [math((v_i, v_j) = a_i \delta_{ij})] ([math(a_i = \pm 1)])이도록 좌표계를 잡은 것은 우리가 원하는 관성 좌표계에 가장 알맞는 좌표 선택이라고 볼 수 있다.[7]
이때 관성 좌표계 간 좌표 변환 [math(\Lambda)]에 대해 이 변환이 만족해야 할 조건 [math((\Lambda v, \Lambda w) = (v, w))]을 다음과 같이 다시 쓸 수 있다.
[math(x_2^T J x_1 = (\Lambda x_2)^T J (\Lambda x_1) = x_2^T (\Lambda^T J \Lambda) x_1)]
[math(x_1, x_2)]의 임의성에 의하여 위 식은 다음과 동치이다.
[math(\Lambda^T J \Lambda = J)]
따라서 [math(J)]를 구하면 [math(\Lambda)]가 가져야 할 조건 중 하나가 완성된다.
다시 관성 좌표계의 정의로 돌아가 보자. 이 정의에서는 공간의 등방성을 가정하고 있다. 이 가정에 따라 공간 좌표들은 유클리드 기하학을 만족해야 한다고 앞에서 말했었다. 공간이 유클리드 기하학을 만족한다는 것은 공간 좌표에 해당하는 세 성분이 있어 이들이 직교한다는 것을 말한다. 위에서 정한 기저 중 세 개 성분 [math(v_1, v_2, v_3)]에 대해 [math((v_i, v_j) = \delta_{ij})]이기를 요구한다는 것이다. 따라서 [math(J)]의 대각 성분은 -1, 1, 1, 1 혹은 1, 1, 1, 1로 주어져야 한다.
그런데 관성 좌표계의 정의만으로는 둘 중 어느 것이냐를 결정할 수 없다. 다른 무언가가 필요하다는 것이다. 바로 지금이 광속 불변의 원리를 적용할 때이다. 광속 불변의 원리에 따르면 어떤 관성 좌표계에서 [math(-(x^0)^2 + (x^1)^2 + (x^2)^2 + (x^3)^2 = 0)]이면 이를 다른 관성 좌표계로 좌표 변환하여 얻은 값을 [math((x')^\mu)]라 했을 때 [math(-((x')^0)^2 + ((x')^1)^2 + ((x')^2)^2 + ((x')^3)^2 = 0)]임을 알 수 있다. 즉, 임의의 관성 좌표계 간 좌표 변환 [math(\Lambda)]에 대하여 [math((x')^\mu = \Lambda^\mu_\nu x^\nu)]라고 쓰면, 혹은 [math((x^\mu))]와 [math(((x')^\mu))]를 각각 [math(x, x')]라고 표기했을 때 [math(x' = \Lambda x)]라고 하면, 광속 불변의 원리를 다음과 같이 쓸 수 있게 된다.
[math(x^T J' x = 0 \Rightarrow (\Lambda x)^T J' (\Lambda x) = x^T (\Lambda^T J' \Lambda) x = 0)]
여기서 [math(J')]는 대각 성분이 -1, 1, 1, 1인 대각 행렬이다. 따라서 모든 관성 좌표계 간 좌표 변환 [math(\Lambda)]는 위 식을 만족해야 한다. 한편, [math(J')]는 대각 행렬인데 -1, 1, 1, 1을 대각 성분으로 가질 수도 있다는 점에서 아까 찾은 [math(J)]와 비슷하다. 따라서 [math(J = J')] 같아 보인다.
실제로 만약 둘이 다르다면 모순이 일어난다는 것을 볼 수 있다. [math(J' \ne J)]라고 가정하자. 이 가정에 의하면 [math(J = 1)]이므로 [math(\Lambda^T J \Lambda = J)]를 만족하는 [math(\Lambda)] 중엔 다음과 같은 것이 있다.
[math(\Lambda = \begin{pmatrix} 0 & 1 & 0 & 0 \\ -1 & 0 & 0 & 0 \\ 0 & 0 & 1 & 0 \\ 0 & 0 & 0 & 1 \end{pmatrix})]
이때 다음을 계산할 수 있다.
[math(\Lambda^T J' \Lambda = \begin{pmatrix} 0 & -1 & 0 & 0 \\ 1 & 0 & 0 & 0 \\ 0 & 0 & 1 & 0 \\ 0 & 0 & 0 & 1 \end{pmatrix} \begin{pmatrix} -1 & 0 & 0 & 0 \\ 0 & 1 & 0 & 0 \\ 0 & 0 & 1 & 0 \\ 0 & 0 & 0 & 1 \end{pmatrix} \begin{pmatrix} 0 & 1 & 0 & 0 \\ -1 & 0 & 0 & 0 \\ 0 & 0 & 1 & 0 \\ 0 & 0 & 0 & 1 \end{pmatrix} = \begin{pmatrix} 1 & 0 & 0 & 0 \\ 0 & -1 & 0 & 0 \\ 0 & 0 & 1 & 0 \\ 0 & 0 & 0 & 1 \end{pmatrix})]
이제 [math((x^\mu) = (1, \dfrac{1}{\sqrt{2}}, \dfrac{1}{\sqrt{2}}, 0))]인 경우를 보자. 그러면 다음이 성립한다.
[math(\displaystyle x^T J' x = -1^2 + \left( \frac{1}{\sqrt{2}} \right)^2 + \left( \frac{1}{\sqrt{2}} \right)^2 + 0^2 = 0)]
여기서 광속 불변의 원리에 따라 [math((\Lambda x)^T J' (\Lambda x) = x^T (\Lambda^T J' \Lambda) x = 0)]이어야 한다. 그런데
[math(\displaystyle x^T (\Lambda^T J' \Lambda) x = 1^2 - \left( \frac{1}{\sqrt{2}} \right)^2 + \left( \frac{1}{\sqrt{2}} \right)^2 + 0^2 = 1 \ne 0)]
이다. 이는 모순이다. 따라서 처음 했던 가정은 부정이 되어 결국 [math(J = J')]임을, 즉 [math(J)]가 대각 성분이 -1, 1, 1, 1인 대각 행렬이어야 함을 얻는다.
정리하자. 모든 관성 좌표계 간 좌표 변환 [math(\Lambda)]는 다음을 만족해야 한다.
[math(\Lambda^T J \Lambda = J \quad (J = diag(-1, 1, 1, 1)))]
관성 좌표계 간 좌표 변환이 만족해야 할 중요한 조건을 얻었다. 이제 이 조건으로부터 저 위에서 얻었던 일반적인 로런츠 변환을 이끌어낼 것이다.
구하기에 앞서 몇 가지 성질을 살펴 보자. 위 조건을 만족하는 두 행렬 [math(\Lambda_1, \Lambda_2)]를 생각해 보자. 그러면 다음이 성립한다.
[math((\Lambda_1 \Lambda_2)^T J (\Lambda_1 \Lambda_2) = \Lambda_2^T (\Lambda_1^T J \Lambda_1) \Lambda_2 = \Lambda_2^T J \Lambda_2 = J)]
따라서 [math(\Lambda_1 \Lambda_2)] 또한 관성 좌표계 간 좌표 변환이다. 한편 단위 행렬이 위 조건을 만족한다는 것은 당연하다. 그리고 [math(\Lambda^T J \Lambda = J)] 식 양변을 행렬식에 넣으면 [math(\det{\Lambda} = \pm 1 \ne 0)]임을 알 수 있어 [math(\Lambda)]가 역행렬을 가지며, 또한
[math((\Lambda^{-1})^T J \Lambda^{-1} = (\Lambda^{-1})^T (\Lambda^T J \Lambda) \Lambda^{-1} = J)]
임을 통해 [math(\Lambda^{-1})] 또한 관성 좌표계 간 좌표 변환임을 알 수 있다. 이렇게 세 가지 새로운 행렬들이 관성 좌표계 간 좌표 변환임을 얻었는데, 이 사실로부터 관성 좌표계 간 좌표 변환들의 집합이 군(group)임을 알 수 있다. 특히 그 곱이 항상 미분이 가능하다는 점에서 이 군은 특별히 리 군(Lie group)임을 알 수 있다. 이 군을 가리켜 로런츠 군(Lorentz group)이라고 부른다.
로런츠 변환을 이끌어내는 문제로 돌아가자. [math(\Lambda^T J \Lambda = J)]를 만족하는 임의의 [math(\Lambda)]를 생각해 보자. 먼저 할 일은 로런츠 변환 [math(\Lambda)]를 가했더니 4-벡터 [math((e_0^\mu) = (1, 0, 0, 0))]가 얻어지는 4-벡터 [math((u^\mu))]를 생각해 보는 것이다. 즉,
[math(\Lambda^\mu_\nu u^\nu = e_0^\mu)]
혹은
[math(\Lambda^0_\nu u^\nu = 1, \quad \Lambda^i_\nu u^\nu = 0 \quad (i = 1, 2, 3))]
인 [math(u^\mu)]를 생각해 보자. [math(\Lambda^T J \Lambda = J)] 양변에 행렬식을 취해 보면 [math(\Lambda)]의 행렬식이 1 아니면 -1임을 알 수 있는데, 이는 [math(\Lambda)]가 역행렬을 가진다는 것을 의미하고, 따라서 조금 전의 조건을 만족하는 [math(u^\mu)]는 분명 존재한다. 또한
[math(-(u^0)^2 + (u^1)^2 + (u^2)^2 + (u^3)^2 = u^T J u = e_0^T J e_0 = -1)]
임을 통해 [math((u^0)^2 = (u^1)^2 + (u^2)^2 + (u^3)^2 + 1 > 1)]인 것도 알 수 있다. 여기서 한 가지 가정을 하자. [math(u^0 > 0)]이라는 조건을 달겠다. 이제 [math(\gamma = u^0)]라 표기하고, [math(\beta = \sqrt{\gamma^2 - 1} / \gamma)]라 하자. [math(\gamma = u^0 > 1)]이므로 이들은 잘 정의된 실수들이다. 여기서 [math(v^i = u^i / \gamma)] ([math(i = 1, 2, 3)])라 하자. 그러면 [math(\vec{v} \cdot \vec{v} = \beta^2)]임을 바로 알 수 있다.
이제 [math(\vec{v})]를 [math((\beta, 0, 0))]로 돌리는 회전 변환을 생각해 보자. 이 변환은 [math(\vec{v} \times (\beta, 0, 0))]를 축으로 하여 적당히 회전시키는 것으로 얻을 수 있다. 이 회전 변환을 [math(O_1)]이라 하자. 그러면 [math(O_1^{-1} \Lambda^{-1})]은 [math((1, 0, 0, 0))]를 [math((u^\mu))]로 보냈다가 [math((\gamma, \gamma \beta, 0, 0))]로 보내는 변환이다. 따라서 [math(\Lambda O_1)]는 [math((\gamma, \gamma \beta, 0, 0))]를 [math((1, 0, 0, 0))]로 보내는 변환이다.
[math(O_2)]를 3차원 공간 좌표를 회전시키는 임의의 변환이라고 하자. 그러면 [math(O_2)]가 뭐가 됐든 [math(O_2^{-1})]는 [math((1, 0, 0, 0))]를 바꾸지 않을 것이다. 한편 [math(\Lambda O_1)]는 기존의 [math(y)]축, [math(z)]축을 어디론가로 돌려 버리는 변환일 것이다. 그런데 돌려서 얻은 새로운 공간 축들도 서로 수직이기에 [math(y)]축, [math(z)]축을 [math(\Lambda O_1)]와 똑같은 방향으로 돌리는 [math(O_2)]가 존재할 것이다. 그렇다면 이렇게 얻은 [math(O_2)]에 대해 [math(O_2^{-1} \Lambda O_1)]는 [math(y)]축, [math(z)]축 방향을 그대로 유지시키면서 [math((\gamma, \gamma \beta, 0, 0))]를 [math((1, 0, 0, 0))]로 보내는 변환이다.
이제 확실한 건 [math(O_2^{-1} \Lambda O_1)]는 [math((\gamma, \gamma \beta, 0, 0))]를 [math((1, 0, 0, 0))]로, [math((0, 0, 1, 0))]를 [math((0, 0, 1, 0))]로, 그리고 [math((0, 0, 0, 1))]를 [math((0, 0, 0, 1))]로 보내는 변환인 것이다. 한편 두 수직한 벡터에 관성 좌표계 간 좌표 변환인 [math((O_2^{-1} \Lambda O_1)^{-1})]를 적용한 것 역시 수직이어야 한다. 따라서 [math((O_2^{-1} \Lambda O_1)^{-1})]에 대해 [math((0, 1, 0, 0))]가 보내진 결과는 [math((0, 0, 1, 0))], [math((0, 0, 0, 1))] 둘 다에 수직이어야 한다. 이 사실들에 따라 [math((O_2^{-1} \Lambda O_1)^{-1})]를 행렬로 쓰면 다음과 같다.
[math((O_2^{-1} \Lambda O_1)^{-1} = \begin{pmatrix} \gamma & A^0_1 & 0 & 0 \\ \gamma \beta & A^1_1 & 0 & 0 \\ 0 & 0 & 1 & 0 \\ 0 & 0 & 0 & 1 \end{pmatrix})]
이제 [math(\Lambda^T J \Lambda = J)] 조건을 써 보자. [math(\Lambda_0 = (O_2^{-1} \Lambda O_1)^{-1})]가 관성 좌표계 간 좌표 변환이 맞다면 [math(\Lambda_0^T J \Lambda_0 = J)]이어야 할 것이다. 이걸 계산해 보자.
[math(\Lambda_0^T J \Lambda_0 = \begin{pmatrix} \gamma & \gamma \beta & 0 & 0 \\ A^0_1 & A^1_1 & 0 & 0 \\ 0 & 0 & 1 & 0 \\ 0 & 0 & 0 & 1 \end{pmatrix} \begin{pmatrix} -1 & 0 & 0 & 0 \\ 0 & 1 & 0 & 0 \\ 0 & 0 & 1 & 0 \\ 0 & 0 & 0 & 1 \end{pmatrix} \begin{pmatrix} \gamma & A^0_1 & 0 & 0 \\ \gamma \beta & A^1_1 & 0 & 0 \\ 0 & 0 & 1 & 0 \\ 0 & 0 & 0 & 1 \end{pmatrix})]
[math(= \begin{pmatrix} -\gamma^2(1 - \beta^2) & \gamma (-A^0_1 + \beta A^1_1) & 0 & 0 \\ \gamma(-A^0_1 + \beta A^1_1) & -(A^0_1)^2 + (A^1_1)^2 & 0 & 0 \\ 0 & 0 & 1 & 0 \\ 0 & 0 & 0 & 1 \end{pmatrix})]
[math(= \begin{pmatrix} -\gamma^2(1 - \beta^2) & \gamma (-A^0_1 + \beta A^1_1) & 0 & 0 \\ \gamma(-A^0_1 + \beta A^1_1) & -(A^0_1)^2 + (A^1_1)^2 & 0 & 0 \\ 0 & 0 & 1 & 0 \\ 0 & 0 & 0 & 1 \end{pmatrix})]
이 식이 [math(J)]와 같기 위해선 다음이 만족되어야 한다.
[math(-A^0_1 + \beta A^1_1 = 0, \quad(A^1_1)^2 - (A^0_1)^2 = 1)]
이걸 연립해서 풀면 다음이어야 함을 알 수 있다.
[math(A^1_1 = \gamma, \quad A^0_1 = \gamma \beta)]
여기서 둘 다 부호가 반대인 결과도 위 식을 만족한다는 것을 알 수 있다. 따라서 가능한 경우는 두 가지이다. 그런데 두 값의 부호가 둘 다 음수인 경우는 둘 다 양수인 경우에서 [math(O_2)]의 왼쪽에 [math(x)]축의 부호를 바꾸는 변환을 곱한 것과 똑같은 결과이다. 즉, 음수인 것을 [math(O_2)] 안에 흡수시킬 수 있다는 것이다. 따라서 여기서는 두 값이 모두 양수인 경우만 고려해 줘도 될 것이다.
결국 다음을 얻는다.
[math((O_2^{-1} \Lambda O_1)^{-1} = \begin{pmatrix} \gamma & \gamma \beta & 0 & 0 \\ \gamma \beta & \gamma & 0 & 0 \\ 0 & 0 & 1 & 0 \\ 0 & 0 & 0 & 1 \end{pmatrix})]
이걸 최종적으로 다음과 같이 쓸 수 있다.
[math(\Lambda = O_2 \begin{pmatrix} \gamma & -\gamma \beta & 0 & 0 \\ -\gamma \beta & \gamma & 0 & 0 \\ 0 & 0 & 1 & 0 \\ 0 & 0 & 0 & 1 \end{pmatrix} O_1^{-1})]
이 결과는 전 섹션에서 로런츠 변환이 일반적으로 가질 꼴과 일치한다. 따라서 관성 좌표계 간 좌표 변환은 모두 로런츠 변환이라는 것을 알 수 있다.
...라고 했지만 사실 몇 가지 짚고 갈 것이 있다. 먼저 [math(O_1, O_2)]가 유일하게 정해지지 않는다는 것이다. [math(O_1)]을, [math(\vec{v} \times (\beta, 0, 0))]를 축으로 하여 적당히 회전시키는 변환이라고 정했었다. 그런데 이 [math(O_1)]의 왼쪽에 [math(x)]축을 회전 축으로 하여 공간 성분들을 아무렇게나 회전시키는 변환을 곱하여 그걸 [math(O_1)] 대신에 쓴다고 하자. 그래도 이 변환은 여전히 [math(\vec{v})]를 [math((\beta, 0, 0))]로 보내는 변환이다. 이렇게 [math(O_1)]를 바꿔도 이론 전개에서 수정할 것은 없다. 다군다나 [math(O_1)]을 바꾸면 [math(\Lambda O_1)]도 바뀌는 것일테고 따라서 [math(O_2)]도 바뀌어야 한다. 따라서 [math(O_1)]과 [math(O_2)]가 구체적으로 무엇인지는 정할 수가 없다. 다만 [math(O_1)]이 [math(\vec{v})]를 [math((\beta, 0, 0))]로 보내야 하고 [math(O_2)]가 [math(y)]축, [math(z)]축을 [math(\Lambda O_1)]과 똑같이 보내야 한다는 것은 만족해야 한다.
또 하나 눈여겨 봐야 할 것은 이 변환이 패리티를 바꾸는 변환일 수 있다는 것이다. 즉, 공간 성분을 거울 대칭시킨 것이다. 앞서 말한 [math(O_1)], [math(O_2)]의 조건들은 패리티를 바꾸는 변환이어도 별 상관이 없다. [math(A^0_1, A^1_1)]을 구할 때 두 값이 음수일 수도 있다고 했고 음의 부호를 [math(O_2)] 안에 흡수시킬 수 있다고 했었다. 이렇게 하는 것은 [math(O_2)]가 패리티를 냅두느냐 바꾸느냐를 뒤집는 것이 된다. 일반적으로 [math(\Lambda^0_0 > 0)]이고 [math(\det{\Lambda} < 0)]이면 패리티가 바뀌는 변환이고 이 조건에서 [math(O_1, O_2)]를 구하다 보면 둘 중 하나가 패리티를 바꾸는 변환이거나[8] 만약 그렇지 않다면 [math(A^0_1, A^1_1)]가 둘 다 임수이어야 하는 결과를 얻을 것이다.
여기서 아까 하나 은근슬쩍 가정했던 것 하나를 꺼내 보자. [math((u^\mu))]를 정할 때 [math(u^0)]가 양수일 수도 음수일 수도 있었는데, 양수라고 가정한 대목을 기억할 것이다. 만약 음수라면 이야기가 조금 달라진다. 이론 전개는 똑같이 할 수 있긴 한데, 결과는 항상 다음과 같은 꼴이어야 할 것이다.
[math(\Lambda = O_2 \begin{pmatrix} -\gamma & \gamma \beta & 0 & 0 \\ \gamma \beta & -\gamma & 0 & 0 \\ 0 & 0 & 1 & 0 \\ 0 & 0 & 0 & 1 \end{pmatrix} O_1^{-1})]
로런츠 부스트의 [math(x^0)], [math(x)] 성분들의 부호가 전부 바뀌었다. 그리고 이걸 어느 4-벡터에 적용시키든 그 4-벡터의 시간 성분은 그 부호가 바뀔 것이다. 즉, 시간의 방향을 뒤집는 변환인 것이다.[9] 그런데 문제는 [math(O_1)], [math(O_2)]를 어떻게 잡아도 이 바뀐 부호를 절대 뒤집지 못한다는 것이다. 사실 [math(O_1)], [math(O_2)]는
[math(O_i = \begin{pmatrix} 1 & 0 \\ 0 & \tilde{O}_i \end{pmatrix})]
와 같은 꼴이고 이 꼴로부터 [math(O_2^{-1} \Lambda O_1)]의 (0, 0)-성분이 [math(\Lambda)]의 (0, 0)-성분과 항상 같아야 함을, 즉 [math(O_1)], [math(O_2)]에 관계없이 [math(O_2^{-1} \Lambda O_1)]의 (0, 0)-성분이 일정해야 함을 알 수 있고, 이는 그 부호를 결코 바꿀 수 없다는 것을 말해 준다. 따라서 [math(\Lambda^0_0)] 성분의 부호는 관성 좌표계 간 좌표 변환을 구분시켜 주는 하나의 척도로 작용할 수 있다. 그리고 지금부터 로런츠 변환은 저 위에서 구했던 꼴([math(\Lambda^0_0 > 0)]인 꼴) 말고도 [math(\Lambda^0_0 < 0)]를 만족하는 좌표 변환들까지도 모두 가리키는 말로 하겠다.
결국 일반적인 로런츠 변환 [math(\Lambda)]는 다음을 만족하는 변환이라고 정의할 수 있다.
[math(\Lambda^T J \Lambda = J)]
앞서 밝혔듯이 이를 만족하는 변환은 회전 변환-로런츠 부스트-회전 변환 혹은 회전 변환-(부호가 뒤집힌 로런츠 부스트)-회전 변환으로 쓸 수 있었다. 실제로 계산을 할 때에는 이런 식으로 간단한 꼴로 분해해서 쓴다.덧붙여서, [math(J)] 대신에 [math(-J)]를 넣어도 딱히 상관은 없다. 처음부터 그랬어도 이론 전개에서 몇 개 부호 빼고 바뀌는 것은 없고 논리적으로는 바뀌는 것이 없다. 전자(지금까지 우리가 썼던 경우)는 천체 물리 분야에서 주로 쓰는 꼴이고 후자([math(J)]가 대각 성분이 1, -1, -1, -1인 대각 행렬인 경우)는 입자 물리에서 주로 쓰는 꼴이다. 대단한 건 아니지만 상대성 이론을 베이스로 하는 글들을 읽을 때마다 어떤 부호 규칙이 쓰여졌는가를 항상 체크하고
4. 관련 문서
[1] 이 규칙들이 편의에 의해 이렇게 정해진 것처럼 보일 수도 있겠지만 첫 번째만 제외하면 어떤 수학적인 이유가 있어서 그런 것이다. 이렇게 같은 인덱스로 묶어서 더하는 것을 축약(contraction)이라고 부르는데, 여기에는 기하학적 의미가 숨겨져 있다. 간단하게 말하자면 축약은 일종의 내적이며(후술하겠지만 같은 벡터끼리의 '내적'이 0보다 작은 경우도 있어 정확한 의미의 내적은 아니다.) [math(A^\mu)]와 [math(A_\mu)]와 같이 인덱스가 위와 아래로 차이가 나는 것은 이 '내적'에 의해 정의된 쌍대(dual) 관계에 있다는 것이다. 그리고 이 '내적'을 보통 쌍대끼리의 연산으로 보기도 한다. 자세한 것은 쌍대공간 문서 참조.[2] [math((v, w))]가 어떤 스칼라이되, [math(v, w)]에 대해 각각 선형이며 임의의 [math(v, w)]에 대해 [math((w, v) = (v, w))]인 것을 말한다.[3] 3차원에서는 내적이라고 할 수 있다. 하지만 미리 말하자면 4차원 시공간에서는 더 이상 내적이 아니다. 0이 아닌 [math(v)]에 대해 [math((v, v))]가 0보다 커야 내적인데, 나중에 밝히겠지만 [math((v, v) \le 0)]인 0이 아닌 [math(v)]가 얼마든지 존재하기 때문이다.[4] 사실 경험적으로 알아서 이렇게 말하는 것이지, 앞으로의 논리를 "3차원 시공간"에다가 적용시킬 수도 있는 것이다. 즉, 공간 성분 2차원, 시간 성분 1차원인 공간을 생각해 볼 수도 있다.[5] 증명은 S. Lang의 Algebra 중 Chapter XV, Section 4를 참고할 것. 선형대수학을 어느 정도 배웠다면 바로 봐도 어렵지 않은 증명이다.[6] 뒤집어져도 좋다. 즉, 한 쪽이 -1을 3개 가지고 있는데 다른 한 쪽이 -1을 1개 가지고 있다면 (혹은 1을 3개 가지고 있다면) 그래도 둘은 실질적으로 똑같은 기하학을 표현한다.[7] 시공간의 구조가 좀 더 일반적인 상황을 보면 [math(v_i)]가 좌표 방향이 아닌 미분으로 놓고 다뤄야 할 필요가 있다. 일반 상대성 이론에서는 그렇게 해야 한다. 그럼에도 어차피 미분들로도 벡터 공간을 잘 만들 수 있으며 등가 원리를 잘 쓰면 거의 똑같은 논리를 쓸 수 있다는 것으로부터 특수 상대성 이론이 일반 상대성 이론으로 잘 확장될 수 있게 된다.[8] 예를 들어 [math(O_1)]가 패리티를 바꿀 변환일 필요충분조건은 [math(\det{O_1} < 0)]인 것이다.[9] 패리티를 뒤집는 변환이 한 공간 축의 방향을 뒤집는 변환인 것과 비슷하다. 이런 두 종류의 변환(P, T)은 전하의 부호를 뒤집는(혹은 입자-반입자를 뒤바꾸는) 변환(C)와 더불어 이론물리에서 중요한 요소로 작용한다.