
3. 데이터를 압축해요
【언플러그드 활동】
1. 글자수를 줄여요. [Ⅰ]
2. 글자수를 줄여요. [Ⅱ]
3. 원래의 데이터 알아보기
1컴퓨터는 데이터를 왜 압축할까?
여러분이 공책을 다 쓰게 되면, 공책을 새로 사고 다 쓴 공책은 집에 잘 보관할 수 있다. 그러나 컴퓨터는 데이터 저장 공간을 다 써버리게 되면 여러분처럼 학교 앞 문구점에서 데이터 저장 공간을 사서 사용할 수 있는 것이 아니다. 컴퓨터에서 0과 1을 1비트(bit)라고 하고, 글자 또는 숫자 등은 1비트 8개로 이루어진 1바이트(byte)로 표현한다. 일반적으로 4MB의 메모리를 가지고 있다. 1MB는 백만 바이트이기 때문에 4MB는 4백만 바이트의 저장 공간이 있는 것이다. 많은 저장 공간이 있기는 하지만 컴퓨터는 데이터 저장 공간을 늘 효율적으로 쓰기 위해 노력한다. 모든 정보는 0과 1로 표시되기 때문에 컴퓨터는 데이터를 압축했다가 다시 풀어쓰기를 반복하며 데이터 저장 공간을 효율적으로 사용하고 이 과정에서 데이터의 정보는 달라지지 않는다.
기본적인 데이터 압축 체계는 핵심 단어 부호화 방법을 사용하는데, 영어의 ‘the’와 같이 자주 사용되는 단어를 2바이트의 기호로 변화시키는 것이다. 더 발달된 기술에서는 자주 사용되는 문장 형태들을 분석하고 확인하여 간단한 문자나 기호로 바꾸어준다. 예를 들면, ‘going to’에서 ‘ing to’를 ‘$’로 바꾸어줌으로써 문장 블록의 크기를 상당히 줄일 수 있다. 이러한 압축 기술로, 문자나 기호를 부호화하는데 8비트 미만의 문자열을 사용하고, 가장 자주 쓰이는 문자들은 가장 적은 비트로 나타낼 수 있다. 다양한 길이의 문자열을 사용하는 방법에서 성공적으로 압축을 해독하기 위해서는 문자의 끝을 나타내는 부분을 분명하게 인식할 수 있어야 한다. 허프만(Huffman) 부호화 방식은 가장 널리 사용되는 방법 중 하나이다. 반복되는 문자들을 포함하고 있는 데이터의 압축에는 런렝스 부호화 방식이 사용된다. 이 방식에서는 반복되는 단위를 1회만 저장하고, 반복 횟수를 표시한다.
데이터 압축의 장점으로는 데이터 저장용량을 확대할 수 있고, 팩스나 모뎀을 통한 정보의 전송을 간편하게 해주며, 정보에 담긴 의미를 암호화하거나 숨길 수 있다는 것 등이 있다.
(출처 다음백과)
2압축은 비손실 압축과 손실 압축 2가지 유형이 있다
데이터를 압축하는 유형에는 비손실 압축과 손실 압축이 있다. 먼저 비손실 압축(Lossless Compression)은 압축 과정에서 원래 데이터의 내용을 분실하지 않는다. 즉, 압축 해제를 통해 얻은 데이터가 압축 이전의 데이터와 완전히 동일하다. [그림 b]처럼 비손실 압축 알고리즘을 사용해 압축한 데이터를 해제하면 원래 데이터를 복원할 수 있다. [그림 b]에서 원 데이터와 복원 데이터는 완전히 동일하다.
대표적인 비손실 압축파일로는 Zip 파일이 있다.
이에 비해 손실 압축(Lossy Compression)은 압축 해제한 데이터가 원래 데이터와 동일하지 않다. 데이터 손실 정도는 응용 환경에 따라 허용 범위가 다를 수 있다. 예를 들어, 화상 정보나 음성 정보처럼 사람들이 감각적으로 느끼는 정보는 사용자 환경에 따라 손실 범위를 조절할 수 있다. 원래 데이터의 손실을 허용하면서 압축을 하는 이유는 압축 효율을 높이기 위함이다. [그림 a]처럼 손실 압축 과정을 거친 압축 데이터는 압축 해제가 되었을 때, 원래 데이터를 완전히 복원할 수 없다.
대표적인 손실 압축파일로는 MP3, MP4, JPG 등이 있다.

3데이터 압축 활동을 체험해 보자
활동1글자 수 줄이기 [Ⅰ]
얼마나 많은 글자가 중복되어 있는지 알 수 있다.
노래를 듣고 노래를 불러보자. 그리고 노래 가사에 나오는 글자가 전부 몇 글자인지 확인해 보고, 가사 중 중복된 글자를 지워서 노래 가사를 얼마나 압축할 수 있는지 알아보자.
우리가 부른 노래의 가사 중 얼마나 많은 글자가 사용되었는지 알아보자. 그리고 비슷한 글자는 몇 개인지 알아보자. 비슷한 글자를 지우면 전체 가사의 몇 %를 압축할 수 있는지 알아보자.

활동지(3-1), 필기구
1.점자를 활용하는 학생의 경우 따로 점자를 활용한다.
2.노래는 학생의 수준에 따라서 해당 학년에서 배우는 노래를 활용하여 활동할 수 있다.
3.글씨를 지우거나 대각선으로 그려보는 활동 대신 포스트잇을 활용하여 가리는 활동 등으로 대체하여 활동할 수 있다.
3-1글자 수 줄이기 (Ⅰ)
보기를 보고 우리가 알고 있는 동요의 가사 중 얼마나 많은 글자가 사용되었는지 알아보고 중복된 글자는 몇 개인지 알아보자. 그리고 중복된 글자를 지우면 남는 글자는 몇 개인지 알아보자.
꼬부랑 고갯길을
꼬부랑 꼬부랑
넘어가고 있네
→
넘어가고 있네

호랑나비 흰나비 춤을 추며 오너라.
↓

↓
활동2글자수 줄이기 [Ⅱ]
기호를 활용하여 글자 수를 줄일 수 있다.
노래를 듣고 노래를 불러보자. 그리고 노래 가사에 나오는 글자 중 반복되는 글자를 기호로 바꾸어 보고, 어떻게 압축되는지 알아보자.
노래를 듣고 노래를 불러보자. 그리고 노래 가사 중 반복되는 말은 보기와 같은 기호로 표시해서 노래를 만들어 보자.
꽃 찾으러 왔단다 왔단다 왔단다
무슨 꽃을 찾으러 왔느냐 왔느냐
예쁜 꽃을 찾으러 왔단다 왔단다
우리 집에 ☆ ☆ ☆
★ ◆ ◇ ◇ ◇
무슨 ★을 ◆ □ □
예쁜 ★을 ◆ ◇ ◇
활동지(3-2), 필기구
1.점자를 활용하는 학생의 경우 따로 점자를 활용한다.
2.노래는 학생의 수준에 따라서 해당 학년에서 배우는 노래를 활용하여 활동할 수 있다.
3.글씨를 지우거나 대각선으로 그려보는 활동 대신 포스트잇을 활용하여 가리는 활동 등으로 대체하여 활동할 수 있다.
3-2글자 수 줄이기 (Ⅱ)
노래를 듣고 노래를 불러보자. 그리고 노래 가사 중 반복되는 말은 보기와 같이 기호로 표시해서 노래를 만들어 보자.
왜 왔니 = ☆, 꽃 = ★,
왔단다 = ◇, 찾으러 = ◆, 왔느냐 = □
꽃 찾으러 왔단다 왔단다 왔단다
★ ◆ ◇ ◇ ◇

아름답게 = ◇, 비치네= ◆, 하늘에서도 = □
동쪽 하늘에서도 서쪽 하늘에서도

활동3원래의 데이터 알아보기
기호로 압축된 데이터를 보고 원래의 데이터를 알 수 있다.
앞의 활동은 데이터를 압축한 후 데이터를 왜 압축하는지 그 이유를 알아보았다. 이번 활동은 앞의 활동과는 반대로 압축된 데이터를 통해서 원래의 데이터를 알아보는 활동으로 구성하였다.
다음은 노래의 가사를 압축한 데이터이다. 보기에서 기호로 압축한 가사를 찾아 노래를 완성시킨 후 노래를 불러보자.
먼지먹자 = ☆, 먼저먹자 = ◇
☆ ☆
배부르게 ☆
걸레가 먹기전에
먼지먹자 먼지먹자
배부르게 먼지먹자
걸레가 먹기전에
활동지(3-3), 필기구
1.점자를 활용하는 학생의 경우 따로 점자를 활용한다.
2.노래는 학생의 수준에 따라서 해당 학년에서 배우는 노래를 활용하여 활동할 수 있다
3.글씨를 지우거나 대각선으로 그려보는 활동 대신 포스트잇을 활용하여 가리는 활동 등으로 대체하여 활동할 수 있다.
3-3원래의 데이터 알아보기
다음은 노래의 가사를 압축한 데이터이다. 보기에서 기호로 압축한 가사를 찾아 노래를 완성시킨 후 노래를 불러보자.
산= ☆, 토끼= ★, 깡총= □,
어디= ◇, 가느냐= ◆
☆★ ★야 ◇로 ◆
□□ 뛰면서 ◇로 ◆
산토끼 토끼야 어디로 가느냐
깡총깡총 뛰면서 어디로 가느냐

☆ ☆
배부르게 ☆
걸레가 먹기전에
◇ ◇
구석구석 ☆
회오리처럼 힘차게
☆ ☆
☆ ☆


☆ ☆
□ ◇
☆ ☆
□ ◇
☆ ☆
땅을 짚어라
☆ ☆
만세를 불러라
☆ ☆
잘 가거라

