바로듣기:
https://www.podbbang.com/channels/1783528/episodes/25097586
이번 아카이브다 주제는 디지털 타임캡슐 만들기입니다. 기록 전공자라면 누구나 들어본.. 하지만 설명은 못 하는 OAIS를 다뤘는데요. 오랫만에 컴백한 츄츄와 대진의 케미스트리 덕인지 녹음하는 내내 유쾌함을 유지할 수 있었습니다. 래도의 눈높이 맞춘 질문도 좋았구요. 이번에도 즐겁게 들어주세요.
1부: 디지털 다크 에이지와 OAIS의 등장
안녕하세요, 오늘 우리는 아주 특별한 여행을 떠나볼 거예요. 바로 미래로의 여행입니다.
여러분, 혹시 이런 생각해 보신 적 있나요?
“100년 후에 내 사진들은 어떻게 될까?”,
“1000년 후의 사람들이 내 일기를 읽을 수 있을까?”
서기 3025년 미래의 고고학자들이 2025년의 USB를 발견했다고 상상해보세요. 그 때 쯤이면 USB 포트가 사라지지 않았을까요? 미래의 사람들은 내 USB 안의 한글 문서를 열 수 없을 겁니다. 이걸 '디지털 암흑시대(Digital Dark Age)'라고 합니다. 종이 문서는 500년 전 것도 보존되지만, 디지털 파일은 읽을 수 없는 형식으로 변해버리기 때문이죠.
디지털 다크 에이지: 사라지는 디지털 기록들
먼저, 우리가 왜 이런 걱정을 해야 하는지부터 이야기해 볼까요? 여러분, 혹시 집에 플로피 디스크나 CD, DVD 있으신가요? 있다고요? 그런데 그걸 읽을 수 있는 기기도 있나요? 아마 대부분 없을 거예요. 제 어릴 적 추억이 담긴 플로피 디스크들, 지금은 그저 장식품이 되어버렸죠. CD나 DVD도 마찬가지예요. 10년만 지나도 긁힘 하나에 내용이 다 날아가 버리더라고요. 디지털 기록이 사라지는 이유는 크게 두 가지예요. 하나는 저장 매체 자체가 망가지는 거고, 다른 하나는 그걸 읽을 수 있는 기술이 사라지는 거죠. 예를 들어, CD나 DVD는 시간이 지나면서 표면이 산화되어 데이터를 잃어버립니다. USB나 하드디스크도 5-7년 정도면 수명이 다해요. 그리고 설령 매체가 멀쩡해도, 그걸 읽을 수 있는 기기나 소프트웨어가 더 이상 존재하지 않는 경우가 많죠.
Palantir: the ‘special ops’ tech giant that wields as much real-world power as Google
https://www.theguardian.com/world/2017/jul/30/palantir-peter-thiel-cia-data-crime-police
OAIS의 등장: NASA의 우주 기록 보존 프로젝트
자, 이런 상황에서 OAIS(Open Archival Information System, 개방형 아카이브 정보 시스템) 참조모형이 등장합니다. 간단히 말해, 디지털 기록을 오랫동안 안전하게 보존하기 위한 국제적인 표준입니다. 디지털 타임캡슐을 만드는 법이라고 생각하면 이해하기 쉽죠. 사실 이 모델은 NASA에서 시작되었습니다. 1990년대, NASA는 우주 탐사 데이터를 수십 년 동안 안전하게 보존할 방법을 고민했습니다. 당장엔 문제가 없어 보이지만, 몇십 년이 지나면 데이터 포맷이 바뀌고, 하드웨어가 사라질 위험이 있었거든요. 그래서 NASA가 개발한 개념이 바로 OAIS 모델이고, 이후 국제 표준으로 자리 잡게 된 것입니다.
OAIS의 핵심 개념
OAIS 모델에서는 기록이 단순히 저장되는 게 아니라, 입수(Ingest), 저장(Preservation), 액세스(Access)의 과정을 거쳐 체계적으로 관리됩니다. 예를 들면, 우리가 1만년 후 사람들에게 남길 타임캡슐을 만든다면 단순히 USB에 넣어 두는 게 아니라, 다음과 같은 과정을 거쳐야겠죠.
- 어떤 데이터를 보낼지 정한다.
- 미래에도 읽을 수 있도록 표준화된 형식으로 변환한다.
- 데이터를 여러 매체에 저장하고 백업한다.
- 미래 사람들이 쉽게 이해할 수 있도록 설명서(메타데이터)를 함께 저장한다.
이 과정을 미리 상상해서 문서로 만들어 놓은 게 바로 OAIS 모델입니다.
OAIS의 6단계 원칙: 디지털 타임캡슐 제작 가이드
OAIS 모델에서는 디지털 타임캡슐을 만들 때 6가지 핵심 원칙을 제시합니다. 이걸 우리의 개인 기록에 적용해 볼까요?
- 수집 및 선별: 어떤 기록을 보존할지 정합니다. 예를 들어, 가장 소중한 사진 100장, 일기 중 가장 의미 있는 10편 등을 고르는 거죠.
- 표준화: 선택한 기록들을 오래 보존할 수 있는 표준 형식으로 변환합니다. 예를 들어, 문서는 PDF/A로, 사진은 TIFF로 변환할 수 있어요.
- 메타데이터 생성: 각 기록에 대한 설명을 추가합니다. “이 사진은 2025년 8월 15일 제주도 여행 때 찍은 것으로, 사진 속 인물은…” 이런 식이죠.
- 패키징: 기록들을 하나의 패키지로 묶습니다. 이게 바로 우리의 타임캡슐이 되는 거죠.
- 저장: 패키지를 안전한 곳에 저장합니다. 여러 복사본을 만들어 다른 장소에 보관하는 것도 좋아요.
- 관리 계획: 주기적으로 타임캡슐의 상태를 확인하고, 필요하다면 새로운 저장 매체로 옮기는 계획을 세웁니다.
타임캡슐 패키지 구성품
OAIS에서는 정보 패키지라는 개념을 사용해요. 이는 세 가지 단계로 나뉩니다:
- SIP (제출정보 패키지=콘텐츠 상자): 우리가 처음 타임캡슐에 넣기로 한 기록들이에요.
- AIP (보존정보 패키지=해독기 상자): SIP에 보존에 필요한 정보를 추가한 버전이에요. 이게 실제로 보관되는 타임캡슐이죠.
- DIP (배포정보 패키지=전시 상자): 미래의 누군가가 우리의 타임캡슐을 열어볼 때, 그들에게 전달되는 형태예요.
그리고 설명서가 동봉됩니다.
- PDI(설명서): 타임캡슐 구성품들에 대해 설명한 문서예요. 예시: "이 사진들은 2024년 서울의 모습이며, 삼성 갤럭시 S24로 촬영한 것입니다. 갤럭시S24는 어중간한 채도, 특히 붉은색 표현이 잘 안되는 걸로 유명하니 보정이나 현상할 때 참고하세요"
OAIS의 한계
OAIS에 대해 공부해 보니 어떠세요? OAIS가 대충 뭔지는 알겠는데 구체적으로 어떻게 하라는지 잘 모르시겠죠? 맞습니다. 많은 사람들이 OAIS의 한계를 지적하고 있습니다. OAIS가 너무 추상적이어서 아카이브시스템으로 만들려면 엄청난 상상력을 발휘해햐 해요. 그 한계는 아래와 같은 것들이에요.
1. 실질적인 구현 지침 부족
OAIS는 디지털 보존의 개념적 모델을 정의하지만, 구체적인 기술적 방법론이나 구현 방안을 제시하지 않습니다. 따라서 조직이나 기관이 이 모델을 기반으로 시스템을 구축하려면 추가적인 표준(예: PREMIS, METS, Dublin Core)이나 기술적 결정을 내려야 합니다.
2. 지나치게 일반적인 개념
OAIS는 다양한 유형의 아카이브를 포괄하기 위해 넓은 개념을 사용합니다. 하지만 이로 인해 구체적인 아카이빙 절차나 도구 선택을 직접적으로 안내하지 못하는 한계가 있습니다. 특히, 전자기록 관리, 연구데이터 보존 등 특정 도메인에서의 적용을 위해서는 추가적인 프레임워크가 필요합니다.
3. 비용과 자원 문제
OAIS 기반의 디지털 보존 시스템을 운영하려면 전문 인력, 지속적인 자금 지원, 기술 인프라가 필요합니다. 특히, 장기적으로 보존할 수 있는 신뢰성 있는 저장 환경을 유지하는 것이 어렵기 때문에 현실적으로 많은 기관이 부분적인 구현에 그치는 경우가 많습니다.
4. 빠르게 변화하는 기술 환경 대응 부족
OAIS는 2002년에 ISO 표준(ISO 14721)으로 제정된 이후 일부 개정이 이루어졌지만, 빠르게 변화하는 디지털 기술 환경(예: 클라우드 컴퓨팅, AI 기반 보존, 블록체인 기록관리)에 대한 구체적인 지침이 부족합니다. 예를 들어, 현재 많은 기관이 클라우드 스토리지 기반의 보존을 고려하지만, OAIS 모델은 이러한 최신 기술을 직접 다루고 있지 않습니다.
5. 생산 시스템과의 연계 부족
OAIS는 아카이브 환경을 중심으로 한 모델이므로, 전자기록 관리 시스템(ERMS)이나 연구데이터 관리 시스템(RIMS)과의 연계를 명확하게 설명하지 않습니다. 따라서, 생산 시스템에서 OAIS 기반의 저장소로 데이터를 자동으로 연계하는 과정은 별도의 설계와 개발이 필요합니다.
6. 사용자 접근성 및 활용 방안 부족
OAIS는 주로 보존과 관련된 개념을 정의하고 있으며, 이용자 관점에서의 접근성을 깊이 다루지 않습니다. 이에 따라, 장기 보존된 데이터가 실제로 어떻게 검색되고 활용될 것인지에 대한 구체적인 가이드가 부족합니다.
디지털 보존 전략
자, 이제 이 개념들을 실제로 어떻게 적용할 수 있을까요?
- 마이그레이션: 주기적으로 파일 형식을 업데이트하세요. 예를 들어, 5년마다 한 번씩 모든 문서를 최신 버전의 PDF로 변환하는 거죠.
- 에뮬레이션: 옛날 파일을 열 수 있는 프로그램의 복사본도 함께 보관하세요. 미래에 이 프로그램을 실행할 수 있는 에뮬레이터와 함께요.
- 인캡슐레이션: 이게 바로 우리의 타임캡슐 만들기예요! 관련된 모든 정보를 하나의 패키지로 묶는 거죠.
- 컴퓨터 뮤지엄: 옛날 파일과 미디어, 파일을 읽을 수 있는 기기를 모두 보존하고 해당 기술을 지속시키는 방법이예요.
자, 여기까지 들으니 어떠신가요? 우리의 소중한 디지털 기록들을 보존하기 위해 어떤 고민들이 이뤄지고 있는지 아시겠죠?
2부에서는 SF 소설과 함께 OAIS 모델의 세부적인 내용을 이해해 보겠습니다. 또 이 모델이 우리의 디지털 기록 보존에 어떤 팁을 줄 수 있는지도 알아보겠습니다. 잠시 후에 돌아오겠습니다!
2부. 프로젝트 피닉스 : 1만년 후를 위한 디지털 타임캡슐 만들기
2부에서는 재미있는 주제를 다뤄볼 거예요. 바로 “1만년 후 사람들에게 보낼 디지털 타임캡슐 만들기”입니다. Perplexity를 이용해 DeepResearch, DeepSeek R1 모델로 생성한 짧은 SF 소설도 감상해 보세요.
프로젝트 피닉스: 1만년을 넘어선 희망
(래도) 서기 3025년, 지구는 거대한 소행성과의 충돌을 피할 수 없게 되었다. 과학자들은 이 충돌로 인해 지구의 대부분이 파괴되고, 인류 문명이 거의 전멸할 것이라고 예측했다. 하지만 그들은 한 가지 희망을 발견했다. 바로 1만년 후, 지구가 다시 생명체가 살 수 있는 환경으로 회복될 것이라는 사실이다.
인류의 지도자들은 긴급 회의를 소집했고, ‘프로젝트 피닉스’라는 대담한 계획을 수립했다. 이는 1만년 후의 후손들에게 인류의 지식과 문화를 전달할 수 있는 초고성능 디지털 타임캡슐을 만드는 것이었다. 이 캡슐은 지구 깊숙한 곳에 묻혀, 대재앙을 견뎌내고 미래의 인류에게 희망의 메시지를 전달할 것이다.
(츄츄) 전 세계의 과학자, 역사학자, 아키비스트, 예술가들이 힘을 모아 타임캡슐에 담길 내용을 선별했다. 여기에는 인류의 역사, 과학 기술, 예술, 문화, 그리고 지구를 재건하는 데 필요한 모든 지식이 포함되었다. 심지어 인공지능 기술을 이용해 미래의 언어 변화를 예측하고, 이를 바탕으로 번역 시스템도 개발했다.
이제 우리는 이 귀중한 정보들을 묶어 안전하게 패키징해야 한다. 1만 년 후에도 데이터가 온전히 유지되기 위해서는 특별한 기술이 필요하다. 소행성과의 충돌에도 견딜 탄소 섬유로 만든 디스크와 레이저 각인, 그리고 NASA의 우주 탐사 데이터를 보존하기 위해 만들어졌던 ISO 14721, OAIS 모델이 선정되었다.
1단계: SIP | 인류의 디지털 유산 원본을 보존하라!
프로젝트팀은 모든 데이터를 SIP(제출 정보 패키지)로 만들었다. 여기에는 원본 파일들과 각 파일에 대한 메타데이터가 포함된다. 인류의 재건에 기꺼이 데이터를 보내온 전 세계의 학술기관과 연구소, 기업들의 이름과 제공 자료 목록이 PREMIS 메타데이터로 첨부되었다.
- SIP(원본 데이터): 21세기 모든 디지털 유산 원본(유전자 지도, 기후변화 데이터셋, SNS, 연구 논문, 의료 기록) + 메타데이터
- PREMIS (장기보존 메타데이터): 패키지 설명서(PDI)를 만들 때 PREMIS 메타데이터를 주로 사용한다. 프로젝트 피닉스의 첫 번째 패키지인 SIP_001의 내용물을 설명하고 있다. NASA가 달 탐사 데이터를, 서울대 규장각이 조선왕조실록을 제공했음이 적혀 있다. 데이터가 수집된 날짜가 2025년 3월 15일이고, 인류 문명 재건 목적으로만 사용하도록 허락되어 있다.
2단계: AIP | 1만년 후까지 안전하게 보존하라!
다음은 이 SIP를 AIP로 만드는 단계이다. 이 과정에서 모든 파일은 장기 보존에 적합한 형식으로 변환되고, 상세한 메타데이터가 추가된다. 모든 텍스트 데이터를 유니코드로 변환하여 언어의 보편성도 확보해야 한다. 그 다음, PRONOM 레지스트리를 기반으로 모든 파일 포맷을 재생성한다. 이 과정은 원본 데이터의 무결성을 간직한 원본과 장기 보존에 유리한 보존 포맷, 미래의 인류가 쉽게 접근할 수 있는 재현 포맷으로 마이그레이션하는 방대한 작업이다.
초기 생성된 SIP의 크기는 3경 바이트였지만, 모든 파일의 비트스트림을 Base64로 인코딩하여 만든 AIP는 3.9경 바이트로 33%증가했다. 이 AIP에는 PDI가 첨부되어 각 데이터의 출처, 맥락, 참조 정보, 고정성 정보를 상세히 설명했다.
- AIP(보존 패키지): 디지털 유산을 안전하게 보존하기 위한 패키지. 원본+보존포맷+재현포맷+메타데이터
- PRONOM: TNA에서 운영하는 파일 포맷 레지스트리. 전 세계의 1,200개 파일 포맷 정보 관리. 파일 고유의 비트스트림을 감지하여 PRONOM과 매핑하는 툴 DROID를 제공한다.
- Base64: 바이너리 데이터를 텍스트 형식으로 인코딩하는 방식. 64개의 안전한 문자(A-Z, a-z, 0-9, +, /)를 사용하여 모든 종류의 데이터를 표현.
- PDI(보존 설명 정보=설명서): 디지털 객체의 장기 보존을 위해 필요한 메타데이터. 네 가지 주요 요소로 구성
- 출처 정보(Provenance Information): 객체의 기원, 소유권 이력, 처리 과정 등을 기술
- 맥락 정보(Context Information): 객체가 생성된 배경, 관련된 다른 객체와의 관계 등을 설명
- 참조 정보(Reference Information): 객체를 고유하게 식별할 수 있는 정보를 제공 (UUID)
- 고정성 정보(Fixity Information): 객체의 무결성을 확인할 수 있는 정보(체크섬, SHA-256)를 포함
3단계: DIP | 1만년 후에도 해석 가능하게 하라!
긴 여정이 끝나간다. 프로젝트팀은 최종 단계인 DIP 생성에 돌입했다. 여기에는 AIP의 내용을 해석하고 사용할 수 있는 도구들이 추가된다. 미래의 인류에게 전하는 감동적인 메시지와 함께, 정보의 중요도에 따른 등급별 접근 권한 체계도 포함되었다. 가장 주목할 만한 것은 ’크로노스 엔진(Chronos Engine)’이라 명명된 에뮬레이터였다. 이 에뮬레이터는 2025년 현재 지구에 존재하는 모든 파일 포맷을 해독할 수 있는 RI(해석정보)가 탑재되었으며, DIP와 함께 인캡슐레이션되었다.
- DIP(배포용 패키지): 시대별 맞춤형 데이터 (과거→기술 설계도, 미래→문맥 설명서). 원본+보존포맷+재현포맷+메타데이터+접근정보+에뮬레이터
- 에뮬레이터(Emulator): 다른 컴퓨터 시스템의 동작을 모방해 주는 소프트웨어. 원래의 하드웨어나 운영 체제가 없어도 특정 시스템에서 만들어진 프로그램이나 데이터를 실행하거나 접근할 수 있게 함.
- RI(Representation Information=재현정보): 디지털 객체의 내용을 이해하고 해석하는 데 필요한 모든 정보. 디지털 객체를 의미 있는 정보로 변환하는 데 필요한 구조적, 의미적 정보를 포함.
- 구조 정보: 데이터의 형식, 파일 유형, 인코딩 방식 등을 설명 (ASCII, Raster, Vector)
- 의미 정보: 데이터의 내용이 무엇을 의미하는지 설명
이렇게 만들어진 디지털 타임캡슐은 지구 지하 1,000m 심층과 달 기지 양쪽에 1만년 동안 분산 보존된다. 인류의 마지막 희망을 담은 이 캡슐이, 먼 미래에 우리의 후손들에게 무사히 도달하기를 온 인류가 간절히 기도하며, 프로젝트 피닉스는 막을 내렸다.
디지털 저장장치 가이드
마지막으로, 실제로 우리가 사용할 수 있는 저장 장치들을 알아볼까요?
- 외장 하드와 USB:
- 빠른 이동이 필요하다면 SSD를 추천해요. NVMe나 썬더볼트, USB4를 지원하는 외장하드 케이스와 함께 사용하면 초당 5GB 이동 가능
- 대용량 백업용으로는 좀 더 저렴한 SATA HDD를 사용할 수 있어요.
- 간편한 데이터 이동은 USB나 SD카드가 편해요.Satechi 외장하드 케이스와 SSD 2TB
- LTO 테이프: 전문가들이 사용하는 대용량 백업 솔루션이에요. 비용은 좀 들지만, 수명이 30년 이상으로 길어요.
- 아직도 '테이프'를 쓴다고? 구글도 버리지 못한 100년 된 저장장치
- 30TB 10만원, 리더기 몇백만원
- NAS (Network Attached Storage): 집에서 개인 클라우드처럼 사용할 수 있는 저장 장치예요.
- 클라우드 스토리지: Amazon Web Services의 Glacier 같은 서비스를 이용하면 저렴한 비용으로 대용량 데이터를 안전하게 보관할 수 있어요.
자, 여러분! 이제 여러분만의 디지털 타임캡슐을 만들 준비가 되셨나요? 우리의 소중한 기록들이 1만년 후에도 살아남을 수 있도록, 오늘 배운 내용을 꼭 실천해 보세요. 다음에 또 만나요!
의견을 남겨주세요