웨이백 머신 Wayback Machine | |
| |
설립 | 1996년 5월 10일 |
공개 | 2001년 10월 24일 |
소유 | Internet Archive |
유형 | 저장, 미러 |
상태 | 사용 가능 |
광고 | 없음 |
회원가입 | 선택 |
작성 언어 | C언어, Perl |
링크 |
1. 개요
브루스터 케일이 창립한 미국의 비영리재단인 인터넷 아카이브(Internet Archive)에서 제작한 디지털 타임캡슐이다. 전세계의 각종 웹사이트를 크롤링한 뒤 날짜와 시간대별로 저장, 보존하여 해당 웹사이트의 과거 모습을 다시 볼 수 있게 해 주는 서비스로, 2025년 9월 기준 현재 9464억 개의 페이지가 아카이브되어 있다.정보의 바다라고 불리는 인터넷이지만, 인터넷상의 정보는 생각보다 쉽게 사라져 버린다. 작성자가 게시글을 삭제하지 않는다고 하더라도, 웹사이트를 운영하는 회사의 사정으로 서비스가 중단되거나[1] 개편되는 등의 원인으로 지금 이 순간에도 수많은 하이퍼링크가 끊어지고 있다. 미국 퓨 리서치 센터의 2023년 연구에 따르면, 2013년에는 접속 가능했던 웹페이지 중 38%가 10년 뒤인 2023년에는 접속할 수 없게 되었고, 또 영어 위키백과의 인용/출처 란에 달린 링크 중 절반 이상은 이미 접속 불가능 상태였다고 한다[2](링크 부패/Link Rot). 이런 현실에서 웨이백 머신은 인터넷 정보의 보존에 큰 기여를 하고 있다.
하지만 아카이브 서비스 자체의 특성상 잊힐 권리와 저작권 관련 문제점들이 존재하는 것도 사실이다. 이에 관련된 내용은 이 문서의 문제점 문단에 서술되어 있다.
2. 상세
웨이백 머신에서 자체적으로 보존한 웹 페이지는 저장하고 6~12개월 후에 공개된다. 저장하는 주기가 다르기 때문에 업데이트 때마다 추적, 기록하는 건 아니다. 하지만 어떤 웹사이트는 몇 주 간격이나 또는 하루도 안되어 공개되는 경우도 있다. 게다가 해당 시간대의 들어간 사이트는 검색도 아예 못하게 되어 있다.특정 웹 페이지의 아카이브를 원하는 경우 https://web.archive.org나 https://archive.org/web/으로 들어가서 자신이 아카이브 하기 원하는 페이지의 주소를 넣으면 된다.
이 방법으로 공식 확장 프로그램으로 들어가는 사이트마다 자동으로 아카이브되게 할 수도 있다. 다만 회원제 사이트, 방화벽이나 클라우드 플레어가 있는 경우는 아카이브되지 않을 수 있다. 물론 이는 개인정보를 어느 정도 보호할 수 있다는 뜻이기도 하다.
방대한 규모의 웹사이트들이 웹 크롤링을 통해 자동으로 아카이브에 저장된다.
robots.txt로 크롤링을 막아놓으면 크롤링하지 않는다. archive.is와 달리 자동화된 로봇으로 크롤링을 하여 아카이빙을 하기 때문이다.
PC 버전 웹페이지 주소를 입력했는데 자동으로 모바일 버전 웹페이지로 저장하는 경우가 있다.반대로 dcinside는 모바일 링크(m.~)을 넣어도 3**을 수신받고 PC 버전(gall.~)을 저장한다.
URL의 날짜부분 끝에 fw_ 를 붙이면 툴바가 삭제된다.[예시][원본]
WaybackMachine에 저장된 웹 페이지의 HTML등의 소스코드는 원본에서 현대 웹브라우저에서 표기가 편리하도록 변형을 하게된다. 하지만 변형을 가하지 않은 원본 소스코드를 보고 싶다면 URL 날자 부분에 id_ 접두어를 붙이면 변형되지 않은 원래 소스코드를 볼 수 있다. 대신 페이지가 원활하게 표기되지 않을 수 있다. wget 이나 브라우저에 view-source 를 이용해서 보도록 하자.
추가 사용 기능
만약 DMCA 같은 이유로 아카이빙에서 제외되면 기존의 저장되었던 페이지들도 전부 삭제된다.
3. 기능
- 웹 페이지의 과거 모습을 볼 수 있다.
- API 제공
- 삭제된 파일 다운로드. 없을 것 같으면서도 있는 경우가 꽤 있다. 오래된 소프트웨어를 찾는 경우에도 도움이 된다.
- 만약 인터넷에서 다운로드하고 싶은 파일이 있는데 그게 삭제된 경우에는 한번 웨이백 머신에 가서 그 파일의 주소나 페이지 주소를 넣어보자. 웬만하면 대부분의 파일은 다 저장되어 있다.[5][6]
- 악성코드가 있는 사이트 보기. 실제로 웨이백 머신에는 악성코드가 있는 저장된 웹사이트도 꽤 있다. 대표적인 예로는 youareanidiot.org.
- 최근에는 일부 사이트의 아카이브 내에 "팩트 체크"와 관련된 안내 문구도 생긴 것으로 보인다. archive.today랑 다르다고 할 수 있는 점.
- 최근에는 Ruffle이 웨이백 머신 내에 내장되어 어도비 플래시로 쓰여진 페이지도 볼 수 있게 되었다.
4. 아카이빙 관련
- 가끔 RH에는 웨이팅을 걸기도 전에 다운돼서 웹 아카이브 홈은 잘도 접속되는데 SavePageNow만 503이 뜨는 경우도 있다.물론 몇번 뒤로가기 했다 다시 시도하면 괜찮아진다.
- 유튜브를 포함한 동영상은 소수의 케이스로 보관이 된 경우도 있지만 대체로 보관되지 않고 영상도 재생되지 않는다.
- 유튜브 영상 저장이 특히 문제가 많은데, 가끔씩 저장하려고 의도한 영상과 아예 다른 영상이 저장되는 오류가 있다. 이오몽이 부른 첫 번째 오리지널 곡인 초담(鷦談)은 5월 28일 20시 18분 아카이브에서 무사히 저장되는 데 성공하였으나, 5월 23일 12시 6분 아카이브에 초담(鷦談)과는 전혀 다른 영상이 저장되는 오류가 발생하였다.
- 트위터 시절에는 많은 트윗이 보관중이였기 때문에 트윗을 보관하는 데 시간이 오래 걸렸지만 저장이 되면 이미지도 같이 저장되었다. 그러나 X로 넘어오고 나서 저장 실패 횟수가 늘어나고 있다.
- 인스타그램 게시물은 저장이 되지 않는다.
- Tumblr는 게시물에 글만 있을 때 저장이 되며 사진과 동영상은 저장이 안 된다.
- 쥬니버는 개편 전까지는 저장이 되었으나 2021년 개편 이후로는 저장이 제대로 되지 않는다.
- 에펨코리아는 과거에는 저장이 되었으나 2025년 이후 아카이빙에서 제외되어 저장이 되지 않으며 기존에 저장되었던 페이지들도 전부 삭제되었다.
- 포스타입은 일자미상으로 아카이빙에서 제외되었다.
5. 삭제 요청 확인
[email protected]로 삭제 요청을 한 경우, 다음의 방법으로 자신의 요청이 어떤 상황인지 대략적으로 알 수 있다.1. https://archivesupport.zendesk.com/ 으로 간다.
2. Sign in 을 클릭한 후 나오는 화면에서 Forgot password 를 입력.
3. 다음 화면에서, 삭제요청을 했을 당시의 본인의 이메일 주소를 입력한 후 Submit 를 클릭.
4. 그러면 본인의 이메일로 패스워드를 새로 설정하라는 메일이 archive.org 에서 오게 된다.
5. 링크를 클릭해서 나오는 화면에서 원하는 패스워드를 설정한다.
6. 다시 https://archivesupport.zendesk.com/로 가서 Sign in을 클릭한 후, 본인의 이메일과 방금 설정한 패스워드로 로그인을 한다.
7. 로그인 후 https://archivesupport.zendesk.com/hc/en-us/requests로 이동. My requests 항목에 자신의 요청이 있는 것을 확인. 내용을 클릭하면 요청이 제대로 들어간건지 알 수 있다. 만약 보낸 내용이 매우 길 경우 시스템에서 스팸으로 블락 했을수도 있으니 확인하는게 좋다.
로그아웃은 https://archivesupport.zendesk.com/access/logout로 할 수 있다.
2. Sign in 을 클릭한 후 나오는 화면에서 Forgot password 를 입력.
3. 다음 화면에서, 삭제요청을 했을 당시의 본인의 이메일 주소를 입력한 후 Submit 를 클릭.
4. 그러면 본인의 이메일로 패스워드를 새로 설정하라는 메일이 archive.org 에서 오게 된다.
5. 링크를 클릭해서 나오는 화면에서 원하는 패스워드를 설정한다.
6. 다시 https://archivesupport.zendesk.com/로 가서 Sign in을 클릭한 후, 본인의 이메일과 방금 설정한 패스워드로 로그인을 한다.
7. 로그인 후 https://archivesupport.zendesk.com/hc/en-us/requests로 이동. My requests 항목에 자신의 요청이 있는 것을 확인. 내용을 클릭하면 요청이 제대로 들어간건지 알 수 있다. 만약 보낸 내용이 매우 길 경우 시스템에서 스팸으로 블락 했을수도 있으니 확인하는게 좋다.
로그아웃은 https://archivesupport.zendesk.com/access/logout로 할 수 있다.
참고로 Status 항목에 open 이라고 써 있는 것은 요청 처리중이라는 뜻 인데, Last activity 부분의 날짜가 한달을 넘었는데도 그대로면 기각당했다고 보면 된다. 또한 Status가 solved라고 나와있으면서 어두운 회색일 때는 처리 완료 되었다는 뜻인데, 그럼에도 불구하고 실제로 아무것도 해결되지 않았을 경우, 마찬가지로 기각당했다고 보면 된다. 그리고 계속해서 항의 메일을 보내면, 해당하는 zendesk 계정이 차단되는 것을 볼 수 있으며, 또 해당 웹사이트의 포럼에 이에 대해 항의 글을 올릴 경우, 해당하는 archive.org 계정이 차단되는 것을 볼 수 있다.
6. 문제점
웨이백 머신, 나아가 인터넷 아카이브 전체가 단순한 박제를 위한 아카이브는 아니지만, 근본적으로 archive.today의 문제점 중 일부 문제(특히 저작권)를 공유한다. 아카이빙 자체가 합법이 되려면, 대상이 되는 홈페이지나 웹사이트 혹은 인터넷상의 해당 컨텐츠 저작권자들의 허가를 먼저 받은 후 진행해야 하는데, 그냥 일단 무단으로 아카이빙을 해 놓고, 후에 항의가 들어오면 삭제하는 방식이기 때문이다. 심지어 삭제 요청에 대해서도 상대방이 일반 개인이다 싶으면 답신도 없이 그냥 무시하는 경향이 크다.그나마 DMCA는 어지간한 이유나 법적 근거가 있지 않는 한 받아주는 편이다. DMCA 요청 자체가 정확한 법 조항을 근거로 요청자의 법적 신분을 공개하고 선서를 동봉해서 보내는 것이므로 법적 효력이 있기 때문이다. 얼티밋 워리어의 옛 블로그가 이런 식으로 아카이빙에서 제외된 적이 있다. # Gizmodo 뉴스
wayback machine 검색창에서 abandonware 가 아닌, 현재도 저작권이 엄연하게 따로 존재하는 음악이나, 영화, 게임, 서적등 디지털 데이터로서 존재하고 공유할 수 있는 것들을 '잘' 검색해 보면 금방 찾을 수 있다. 물론 해당 웹사이트에 신고를 하면 삭제하긴 하지만, 근본적으로 업로드 자체를 막고 있는 것이 아니기 때문에 어차피 금방 또 다시 올라오는 데다가, 관리 인력이 충분하지 않아서 수많은 자료들 중 신고되지 않은 자료들까지 관리자측에서 일일이 찾아가면서 제거하는 것이 현실적으로 불가능하다. 심지어 archive.org 에서는 유저들의 ip를 기록하지 않고 있다고 주장하기 때문에, 저작권 침해로 피해를 입은 사람들이 침해한 업로더들을 찾아 고소하기도 굉장히 힘든 상황이다.
크롤러봇의 경우 도메인 포워딩으로 장난질(?)을 한 웹사이트를 제대로 수집하지 못한다. 아예 포워딩된 도메인만 수집되어있어 404 not found를 반환하는 경우가 많다.
7. 여담
- 2021년 10월 1일 기준 나무위키:대문 페이지는 1,118회 아카이브되었다.
- 위키백과에 InternetArchiveBot 이라는 봇이 있다. 이 봇의 역할은 깨진 링크를 웨이백 머신 링크로 대체하는 것이다.
- 인터넷 아카이브에서 운영하는 Wayforward Machine이라는 사이트도 있다. 말 그대로 웹사이트들의 미래를 볼수 있는 곳이다. 인터넷에 여러 제한사항이 생겨 자유로운 이용이 불가능해질 것을 경고하며 이를 막기 위한 캠페인을 홍보하는 사이트이다.
웨이백 머신의 서버는 이렇게 생겼다. 랙 캐비넷의 이름은 페타박스(Petabox)이고, 왼쪽이 신형 버전, 오른쪽이 구형 버전이다. 서버 옆에 있는 사람이 바로 창립자 브루스터 케일이다.
- 오래된 웹 페이지를 통째로 복원하는 HTTP 프록시 프로젝트인 Protoweb도 있다. Protoweb에선 오래된 웹 페이지를 열람하는 것 외에도 warpstream이라는 YouTube 미러서비스로 동영상을 시청할수 있다. Wayback Machine도 제공하는데 기능을 쓰기 위해서는 주소창에서 도메인 뒤 포트번호에 원하는 년도를 넣으면 된다.[9] 메인 페이지인 inode.com에서도 이용할수 있다. Action Retro가 개발한 HTML 변환 검색엔진인 Frog find와 구글 뉴스 미러 페이지인 68k News도 제공한다.
- 같은 서비스로 아예 DNS로 서비스하는 ucanet이 있다. Protoweb이랑 협약을 맻어서 Protoweb에서 복원한 페이지도 제공한다.
- 1996년 5월에 설립되었기에 설립일 이전의 인터넷 사이트 보존 기록은 없다.
- 현존하는 최초의 웹 아카이브는 웨이백머신 설립일인 1996년 5월 10일 오후 2시 8분에 기록된 펩시코 웹사이트이며, 그로부터 34분 뒤에 인터넷 익스플로러 공식 사이트도 기록되었다.
- 인터넷 아카이브에서 공식적으로 지원하는 크롬 확장 프로그램이 존재한다.#
8. 관련 문서
[1] 한국어 웹의 예를 들면, 이글루스, 다음 블로그가 서비스 종료되면서 해당 블로그들에 접속할 수 없게 되었다. 해당 블로그 서비스를 이용하던 블로거가 손수 블로그 내용을 백업받아 다른 사이트로 옮기지 않았다면, 그 블로그에 올라왔던 글들은 모두 삭제된 것이다.[2] Chapekis, A.; Bestvater, S.; Remy, E.; Rivero, G. (2024-05-17). "When Online Content Disappears". Pew Research Center.[예시] https://web.archive.org/web/20180101010338fw_/http://www.example.com:80/[원본] https://web.archive.org/web/20180101010338(비움)/http://www.example.com:80/[5] 대부분이 있다는 것은 꽤 신기한 내용인데, 없을 것 같으면서도 있는 경우가 꽤 있다. 나온 지가 엄청 오래되어 공식 홈페이지가 폐쇄되어 더 이상 패치를 받을 수 없게 된 수많은 고전게임들도 웨이백머신을 사용하면 웬만한 패치를 받을 수 있을 정도.[6] 단 Windows 95의 중요 업데이트 같은건 소스를 뜯어서 링크를 얻어내야 한다.[7] 그러나 완전히 막힌 페이지가 아니라면 문서의 역사를 보면 된다.[8] 원인은 아직 불명이다.[9] Protoweb에선 자체적으로 보관하고있는 웹페이지가 얼마 없는데다 수많은 웹페이지들을 다 보관하지 못한다. 거기다가 저작권 문제같은 변수도 있고.. 문제는 일부 URL에서 경로가 포함된 경우 좀 기다렸다가 새로고침을 하면 가능하지만 이렇게해도 불가능한 경우가 있다..[10] 당시 WWW의 크기는 2.5테라바이트에 불과했다.