IT/SQLD(SQL개발자)

[SQLD] 대량 데이터에 따른 성능

pandada 2019. 6. 18. 13:29
반응형

대량 데이터 발생에 따른 성능

대량 데이터 발생에 따른 테이블 분할 개요

  - 일의 처리되는 양이 한군데에 몰리는 현상은 어떤 업무에 있어서 중요한 업무에 해당되는 데이터가 특정 테이블에 있는 경우에 발생이 되는데 이런 경우 트랜잭션이 분산 처리 될 수 있도록 테이블단 위에서 분할의 방법을 적용할 필요가 있다.

 

<트랜잭션 집중>

  - 대량의 데이터가 존재하는 테이블에 많은 트랜잭션이 발생하여 성능이 저하되는 테이블 구조에 대해 수평/수직 분할에 의한 성능향상을 볼 수 있다.

 

 

* 하나의 테이블에 대량의 데이터가 존재하는 경우

  - 인덱스의 Tree 구조가 너무 커져 효율성이 떨어져 데이터를 처리(입력, 수정, 삭제, 조회)할 때 디스크 I/O를 많이 유발하게 된다.

 

* 한 테이블에 많은 수의 칼럼이 존재하는 경우

  - 데이터가 디스크의 여러 블록에 존재하므로 인해 디스크에서 데이터를 읽는 I/O량이 많아지게 되어 성능이 저하되게 된다.

 

로우체이닝

  - 로우 길이가 너무 길어서 데이터 블록 하나에 데이터가 모두 저장되지 않고 두 개 이상의 블록에 걸쳐 하나의 로우가 저장되어 있는 형태

 

로우마이그레이션

  - 데이터 블록에서 수정이 발생하면 수정된 데이터를 해당 데이터 블록에서 저장하지 못하고 다른 블록의 빈 공간을 찾아 저장하는 방식

 

많은 수의 칼럼이 있는 테이블

  - 트랜잭션을 분석하여 적절하게 1:1 관계로 분리해야함.

 

 

테이블에 많은 양의 데이터가 예상될 경우

  * 파이셔닝 적용

  * PK에 의해 테이블을 분할하는 방법을 적용

    - Range Partition 적용

      - 대상 테이블이 날자 또는 숫자값으로 분리가 가능하고 각 영역별로 트랜잭션이 분리된다면

      - 데이터보관주기에 따라 테이블에 데이터를 쉽게 지우는 것이 가능하므로 데이터 보관 주기에 따른 테이블 관리가 용이함.

 

    - List Partition 적용

      - 핵심적인 코드값 등으로 PK가 구성되어 잇고 대량의 데이터가 있는 테이블이라면.

      - 대용량 데이터를 특정값에 따라 분리 저장할 수는 있으나 데이터 보관주기에 따라 삭제기능 제공 하지 않는다.

 

    - Hash Partition 적용

      - 지정된 HASH 조건에 따라 해슁 알고리즘이 적용되어 테이블이 분리되며 설계자는 테이블에 데이터가 정확하게 어떻게 들어갔는지 알 수 없다.

      - 성능 향상을 위해 사용하며 데이터가 보관주기에 따라 삭제기능은 제공하지 않는다.

 

 

테이블에 대한 수평/수직 분할의 절차

  1) 데이터 모델링을 완성한다.

  2) 데이터베이스 용량산정을 한다.

  3) 대량의 데이터가 처리되는 테이블에 대해서 트랜잭션 처리 패턴을 분석한다.

  4) 칼럼 단위로 집중화된 처리가 발생하는지, 로우단위로 집중화된 처리가 발생하는지 분석하여 집중화된 단위로 테이블을 분리하는 것을 검토한다.

 

정리!!

  -> 용량 산정이란 어느 테이블에 데이터의 양이 대용량이 되는지 분석하는 것.

  -> 특정 테이블의 용량이 대용량인 경우 칼럼의 수가 너무 많은 지 확인한다.

  -> 칼럼의 수가 많은 경우 트랜잭션의 특성에 따라 테이블을 1:1 형태로 분리할 수 있는지 검증.

  -> 칼럼의 수가 적지만 데이터 용량이 많아 성능저하가 예상이 되는 경우 테이블에 대해 파티셔닝 전략을 고려하도록 한다.

  -> 임의로 파티셔닝할 것인지 데이터가 발생되는 시간에 따라 파티셔닝을 할 것인지를 설명된 기준에 따라 적용할것.

반응형