보관은 얼마나 효율적입니까?

하이퍼 스케일 시스템 관리자 (주로 Microsoft 및 Facebook 엔지니어 및 과학자)의 최근 연구는이 질문에 대답하려고했습니다. 그리고 답은 오늘날 우리가 가지고있는 것보다 낫습니다.

코끼리 XORING : 큰 데이터에 대한 소설 삭제 코드에서 저자 인 Maheswaran Sathiamoorthy, Alexandros G. Dimakis, Megasthenis Asteris, Dhruba Borthakur 및 Dimitris Papailiopoulos (USC 및 Ramkumar Vadali 및 Scott Chen)가이 문제에 깊이 관여합니다. 기술적으로 이것은 작년에 Microsoft가 발표 한 작업과 관련이 있습니다.

RAID 복구 문제 : 오늘날의 거의 모든 RAID 어레이에서 사용되는 표준 리드 – 솔로몬 삭제 코드는 오늘날의 하이퍼 스케일 요구에 적합하지 않습니다. 원래 RAID가 새로운 디스크 미러링이었습니다. 그 RAID에 비해 마술처럼 보였다.

리드 – 솔로몬 코드는 효율성 대 수리 트레이드 오프의 문제를 안고있다. RAID5 또는 RAID6을 합리적으로 효율적으로 만들려면 최소 8 개 드라이브에 걸쳐 넓은 스트라이프가 필요하며 그 이상이 더 좋습니다.

그러나 넓은 스트라이프로 인해 장애가 발생한 디스크를 훨씬 오래 복구 할 수 있습니다. 부족한 디스크 I / O 및 내부 저장소 대역폭을 사용하여 스트라이프의 다른 모든 디스크에서 데이터를 전송해야합니다.

복제 국가 :이 문제를 방지하기 위해 초기 확장 저장 장치는 이중 또는 삼중 복제를 위해 리드 솔로몬 코드가 필요하지 않았습니다. 값 비싼 어레이가 아닌 값싼 디스크를 사용하면 경제적입니다.

그러나 기하 급수적 인 데이터 증가로 인해 Google, Microsoft, Amazon, Facebook 및 기타 부유 한 웹 회사도 데이터의 쓰나미를 처리 할 수있을만큼 충분히 빠르게 인프라를 구축 할 수있는 능력을 압도했습니다. 뭔가를주고 복제를해야만했습니다.

주요 웹 저장소 인프라는 표준 RAID6가 접근 할 수없는 중복 수준에서 해결됩니다. 일반적으로 이러한 시스템은 데이터 손실없이 디스크, 서버, 노드 또는 전체 데이터 센터까지 최대 4 개의 스토리지 요소를 잃어 버릴 수 있습니다. 더욱 놀라운 점은이 문서에서 보여 주듯이이 코드는이 신뢰성을 단지 40 %의 오버 헤드로 달성한다는 것입니다.

Xorbas the Geek, Facebook은 막대한 저장 문제를 안고 있습니다. 대규모 분석 클러스터에는 각각 약 15TB의 데이터를 저장하는 3000 개의 노드가있을 수 있습니다.

그것은 45PB의 기본 용량입니다. 분석의 경우. 우와!

데이터는 확장 성이 뛰어난 Hadoop 클러스터에 저장됩니다. 이 논문의 저자는 디스크 I / O 및 대역폭 요구 사항을 효율적으로 수정할 수있는 로컬 수정 가능 코드 또는 LRC라는 새로운 삭제 코드 집합을 개발했습니다.

그들은 HDFS-Xorbas라는 새로운 Hadoop 모듈에서 이러한 코드를 구현했습니다. 그들은 아마존과 페이스 북에서 클러스터로이 시스템을 테스트했다.

코드가 저장 용량에있어 최적보다 약간 적지 만, 네트워크 및 I / O가 훨씬 적게 사용되면서 오류로부터 신속하게 복구됩니다. 네트워크 사용이 줄어들어 데이터 가용성이 향상되고 가용성이 향상됩니다.

스토리지 비트 사용; 좋은 소식 : Facebook은 이전보다 훨씬 효율적으로 방대한 양의 데이터를 저장할 수 있습니다. 나쁜 소식은 NSA와 다른 모든 사람들도 마찬가지입니다.

이 코드는 수십 개의 노드가 효율적이기 때문에 가정 및 소규모 사무실 스토리지에 직접 적용 할 수 없습니다. 그러나 시간이 지남에 따라 프로세서가 더 강력 해지고 더 많은 사람들이 데이터 저장소의 오류 방지의 중요성을 인식함에 따라 이러한 코드를 사용하는 소규모의 탄력적 인 저장소를 볼 수있었습니다.

스토리지, Zaloni, 클라우드, EMC 파트너 사인 Michael Dell과 함께하는 데이터 레이크 용 중간 계층 시스템 출시 : ‘수십 년 내에 생각할 수있는 데이터 센터, Dell 기술의 리프트 : Dell, EMC, 기업 기업의 무리 결합, 스토리지, 페이스 북의 오픈 소스 Zstandard 데이터 압축 알고리즘, 지퍼 뒤에 기술을 대체하는 것을 목표로

약속은 항상 그렇듯이 환영합니다. 웹 산업이 환경 영향을 줄이기 위해 충분히 노력하고 있다고 생각하십니까?

NetApp, Zaloni와 파트너 인 데이터 호수를위한 미드 티어 시스템 출시

마이클 델 (Michael Dell)은 “EMC는 수십 년 안에 생각할 수있다.

델 테크놀로지가 떠오른다 : 엔터프라이즈 비즈니스가 결합 된 델, EMC의 모습을 볼 수있다.

페이스 북의 오픈 소스 Zstandard 데이터 압축 알고리즘, 지퍼 뒤에 기술을 대체하는 것을 목표로