정보리터러시
#1. 왜 정보리터러시?
-1. 데이터 시대의 기회와 위협
-2. 데이터와 정보의 이해
-3. 정보 리터러시의 개념
#2. 정보의 비판적 수용
-1. 왜곡된 시각정보
-2. 프레임에 갇힌 정보
-3. 모호한/ 익숙한 정보
-4. 따지기 어려운 인과관계
#3. 정보의 적극적 활용
- 가치있는 데이터 수집
- 데이터 시각화와 탐색
-. 데이터 시각화 실습
#1. 왜 정보리터러시?
-1. 데이터 시대의 기회와 위협
-2. 데이터와 정보의 이해
-3. 정보 리터러시의 개념
#1-1. 데이터 시대의 기회와 위협
원시 - 농경 - 산업 - 정보 - 빅데이터/인공지능... (데이터 기반으로 된 혁명의 중심이 될 것임)
데이터 댐? 물을 가두는 댐처럼 데이터를 한 곳에 모으는 것.
But 데이터의 활용은 사회적 약자들에게 위협으로 작용될 수 도 있음.
(안면인식, 걸음걸이.. 등등 데이터화 , 가짜뉴스 등등)
#1-2. 데이터 정보의 이해
-데이터 : 어떠한 현상을 기록한 것 (숫자, 문자. 영상, 이미지 모두 )
-정보 : 데이터의 축적과 맥락이 더해져서 가치가 부가된 데이터를 의미함
★ 데이터와 정보의 구분은 절대적인 것이 아니라 상대적임.
현실세계에서의 아파트 매매거래 - 데이터(아파트 실거래가 데이터) - 아파트 매매가 정보 (데이터에 의미부여)
- 데이터/정보/인공지능
1. 데이터 - 기호 그자체
2. 정보 : 축적이되고 맥락을 더한 데이터
3. 인공지능 : 데이터의 학습과정을 거쳐 스스로 동작하는 알고리즘
#1-3. 정보 리터러시의 개념
literacy = 글을 읽고 쓸 줄 아는 능력 (문해력)
리터러시는 20세기 이후, 리터러시를 갖춘 사람들이 증가하기 시작함. (86.25% 인구가 문해력 갖춤)
21세기부터는 언어 뿐만 아니라, 영상, 미디어 등등 다양한 분야의 리터러시 능력이 생김.
- 정보 리터러시?
: 정보가 필요한 때를 인식하고 필요한 정보를 효과적으로 찾아내서 평가하고 이용하는 정보활용 능력을 의미함.
- 인류의 진화 과정에도 불구하고, 인간은 아직 지적으로 불완전한 존재임.
한스 로슬링 (팩트풀니스 저자) - 의사이자, 통계학자.
->> 세상의 잘못된 인식을 바꾸기 위해 연구를 함.
In factfulness ,, 사람은 10가지 편향적인 본능을 가진다고 봄.
1. 간극 본능 (양극화 하는 경향)
2. 부정 본능 (좋은 것 < 나쁜 것)
3. 직선 본능 (어떤 현상이 동일한 추세로 나타날 것이라고 생각하는 경향)
4. 공포 본능 (언론에 노출된 극단적이고 공포스러운 일에만 신경을 쓰는 본능)
5. 크기 본능 ( 비율을 왜곡하여 실제보다 사실을 부풀리려는 성향)
6.일반화 본능 (특정 사례를 들어 집단 전체를 일반화 시키는 성향)
7. 운명 본능 ( 타고난 무언가가 운명을 결정한다는 본능)
8. 단일관점 본능 (하나의 관점만으로 모든 것을 평가하려는 본능)
9. 비난 본능 ( 모든 잘못된 일들을 특정 개인이나 집단에게 전가하려는 본능)
10. 다급한 본능 (위험이 임박했다고 느낄 때 즉각 행동하고 싶어 하는 성향)
(그럼에도 불구하고, 인간이 축적한 정보들의 증가는 엄청남)
* 데이터 시대의 특징
과잉 정보로 인한 일상 위협/ 비즈니스를 위한 활용으로 사생활 침해 등등
** 데이터 시대 정보 리터러시 능력
1. 넘쳐나는 정보에서 현실 세계를 정확하게 인식할 수 있는 능력
2. 현실 세계에서 발생한 데이터를 정보로 활용할 수 있는 능력
#2. 정보의 비판적 수용
-1. 왜곡된 시각정보
-2. 프레임에 갇힌 정보
-3. 모호한/ 익숙한 정보
-4. 따지기 어려운 인과관계
#2. 정보의 비판적 수용 -1. 왜곡된 시각정보
정보 소비자들에게 시각적으로 동일한 비율처럼 인식하도록 함!
** 시각 정보가 중요한 이유?
- 뇌로 전달되는 정보의 90%가 시각적 정보!
** 시각 정보 작성시 원칙 !
1. 막대 그래프의 y축은 반드시 0에서 시작해야 함.
2. 파이차트는 5개 이상으로 만들지 말고, 5개 이상이라면 기타항목으로 정보를 제공해야 함.
3. 선 그래프에서는 1단위, 또는 2 단위로 증가해야힘
4. 선 그래프에서의 선은 차트의 2/3정도를 차지해야 함.
" 시각화는 정보를 표현하는 효과적인 수단이지만, 왜곡되기가 쉬우므로, 그 요소들을 면밀하게 살펴봐야 한다."
#2. 정보의 비판적 수용
-1. 왜곡된 시각정보
-2. 프레임에 갇힌 정보
-3. 모호한/ 익숙한 정보
-4. 따지기 어려운 인과관계
정보가 프레임에 갇히게 되는 이유.
1. 2차원과 3차원으로 정보를 접하는 것이면 선택의 문제가 됨. (비행기 경유 지도를 보면 이해가 됨)
2,. 인구밀도를 고려한 지지율 표시 (이것을 보완 하고자 나온 것이 카토그램)
(더불어 정보 생산 과정 ==> 여론 조사 방법 도 결과를 왜곡 시키기에 쉬움)
" 거짓말에는 세 가지가 있다. 그냥 거짓말, 새빨간 거짓말, 그리고 통계가 그것이다."
- Mark Twain-
통계는 바라보는 관점에 따라 그 결과가 왜곡될 수 있음을 간파한 마크 트웨인의 말.
동일한 정보가 다른 결과를 내놓을 수 있음.
" 정보의 프레임에 갇히지 않기 위해선, 비율 등 정보 생산 방법과
그 과정을 살펴볼 줄 알아야 한다."
#2. 정보의 비판적 수용
-1. 왜곡된 시각정보
-2. 프레임에 갇힌 정보
-3. 모호한/ 익숙한 정보
-4. 따지기 어려운 인과관계
"돈 방석에 앉혀 줄게"
-> 돈 방석? 동전 방석?
= 모호한 말은 권력자의 무게 ! ( 김영민 - 공부란 무엇인가 ) => 말 바꾸기가 쉬워짐
** 분석 (나눌 분/ 쪼갤 석) : 모호함을 극복하기 위한 최선의 방법
예 ) 육하원칙 = 모호함을 쪼개기 위한 훌륭한 쪼개기 방법임.
** 평균 : 모든 값을 더하고 그 갯수로 나눈 것으로 우리가 익숙하게 받아들이는 개념임.
그러나 평균에 아웃라이어가 있다면, 평균값의 대표성이 떨어짐.
(매우 크거나, 작은 값 때문에 전체를 대표하기 어려워 지는 것을 평균의 함정이라고 언급함)
so, 평균값을 피하기 위해선 중앙값을 고려하는 게 합리적임.
" 모호함은 권력자에게 유리한 정보이고, 익숙함은 함정에 빠지기 쉬운 정보다. 분석적인 사고와 함께 대안을 찾으려는 노력이 중요하다."
#2. 정보의 비판적 수용
-1. 왜곡된 시각정보
-2. 프레임에 갇힌 정보
-3. 모호한/ 익숙한 정보
-4. 따지기 어려운 인과관계
Q. 흡연과 폐암은 밀접한 관계가 있는가?
흡연과 폐암은 상관관계는 있지만, 인과관계는 없다.
( 건강보험공단이 담배회사에게 패소하게 됨.)
* 상관 관계와 인과 관계에 대한 개념
상관 관계 : 두개의 변수가 선형적으로 연관이 되어 있어서 함께 변화하는 관계
( 아이스크림 판매가 증가할 수록, 선글라의 판매도 증가함 (어떠한 상관성이 있음) 그러나, 인과관계는 없음)
인과 관걔: 두 개의 한 쪽이 원인이고, 다른 한쪽은 결과인 관계
( 날씨가 더워질수록 아이스크림 판매량이 증가한다.)
-상관관계로 원인에 대한 규명이 어려운 이유는?
1. 각각의 요인이 서로에게 영향을 주거나
2. 제3의 요인이 양쪽에 영향을 준 경우.
- 상관 관계와 인과관계가 구별 되어야 하는 이유? 상관관계는 인과관계로 포장 될 수 있다. 그러나 정확한 인과관계가 없을 경우 혼란을 야기하여 비용을 초래한다.
- 인과관계의 성립 조건
( by 존 스튜어트 밀)
1. 원인이 결과보다 시간적으로 앞서야 하고
2. 서로 관련이 있어야 하고
3. 결과는 원인이 되는 변수만으로 설명이 되어야 한다.
- 인과 관계의 연구 방법
1. 종단 연구
(장기간, 반복적. 자료 수집)
예] 추세연구, 동류집단..
2. 횡단 연구
(특정시점, 노 반복, 자료수집)
예] 무작위, (RCT = randomized controlled trial)
" 섣부른 인과관계 추정은 후유증을 유발시킬 수 있다.
단순 상관관계를 인과관계로 확대 해석하는 오류를 경계해야만 한다. "
#3. 정보의 적극적 활용
- 가치있는 데이터 수집 ( 공공데이터 이용하기 포스팅 참조)
-1. 왜곡된 시각정보
-2. 데이터 시각화와 탐색
-3. 데이터 시각화 실습
가치있는 데이터 수집
- 서울시 열린 데이터 광장 data.seoul.go.kr :서울의 성별. 시간대 별 움직임 동향 파악 가능
- 지방행정인허가 데이터 개방 localdata.go.kr : 업종별로 상세한 파악 가능 (신규 창업 위한 상권 분석 등등)
- 부동산 실거래가 공개시스템 rtdown.molit.go.kr : 부동산 관련된 매매가격, 시기에 따른 매매가 추이 분석 가능
** AI 학습용 데이터 : aihub.or.kr/ai_data
** 비공개/상용 데이터 (서울시 빅데이터 캠퍼스) : 저작권 이슈 때문에 구하기 어려운 데이터들을 구할 수 있음.
(사전 예약 후 방문하면 비공개 데이터를 직접확인하고 분석할 수 있음.,)
** 통계청 통계 데이터 센터 data.kostat.co.kr
데이터 산업진흥원데이터 안심구역
데이터 산업 진흥원 ( 기업들이 데이터 바우처 지원사업을 사용하여 원하는 데이터 겟 가능함.)
" 무료로 사용할 수 있는 공공 데이터가 꾸준히 증가하고 있으므로
손품과 발품을 팔면 더욱 가치있는 데이터를 얻을 수 있게 된다. "
#3. 정보의 적극적 활용
- 가치있는 데이터 수집 ( 공공데이터 이용하기 포스팅 참조)
- 데이터 시각화와 탐색
- 데이터 시각화 실습
** 데이터 시각화란? 현실 세계에서 추출한 정보로 가치 있는 정보를 만드는 것.
(데이터 시각화 도구 - 엑셀/ 파워 비아이/ 태블로/ 데이터 스투디오/ 파이썬)
1. 엑셀 (MS) 성능과 시각화 품질에 한계가 있음
2. 데이터 스튜디오 (구글) 접근성 좋고 무료. 성능 미미
3. 파워 비아이 (MS) 무료. 학습 난이도 높고, 시각화, 전처리 굿.
4. 파이썬 (오픈소스) : 확장성, 무료. 배우기 어려움. 결과 공유 어려움
" 데이터 시각화는 데이터로부터 유의미한 정보를 얻는 첫번째 과정으로서,
공공데이터와 시각화툴을 활용하면 비전문가도 누구나 인사이트를 얻을 수 있다."
#3. 정보의 적극적 활용
- 가치있는 데이터 수집 ( 공공데이터 이용하기 포스팅 참조)
- 데이터 시각화와 탐색
- 데이터 시각화 실습
실습 준비물 : 인터넷 가능 피시 / 엑셀/ 구글 드라이브
1. 데이터 다운로드
2. 엑셀이용하여 데이터 전처리
3. 구글 드라이브 업로드 (구글시트로 변환)
4. 데이터 스튜디오로 데이터 시각화
마우스 우측 버튼 클릭 후 구글 드라이브 시트로 변환시킴.
(save as google sheet 클릭)
google sheet 로 변환된 것이 드라이브에 저장됨.
-> 데이터 스튜디오에서 활용할 수 있게끔 만들어짐.
이후에 데이터 스튜디오에 접속하여 (datastudio.google..com)
데이터 스튜디오 창이 열리면 기본으로 생성된 창은 필요 없으므로 삭제하면 됨.
차트추가 - 시계열 차트
(시기별 거래건수가 자동으로 생성이 됨)
같은 방법으로 차트추가 방법으로 막대 그래프로 시각화 시킬 수도 있음.
(오른쪽 측정 도구에서 '구'를 선택함)
(하단의 인터랙션에서 데이터의 필터적용 + 스타일에서 데이터 라벨 표시를 통해 거래건수가 표시되도록 함)
해당 차트를 복사를 한 후 오른쪽에 붙여넣기 함.
데이터의 측정기준을 '동'으로 변경을 함.
다음은, 도넛차트를 통해 면적별 거래 건수를 시각화 함.
거래건수를 선택한 후 차트를 추가함. (측정기준을 면적구분으로 변경함.)
스코어 카드 추가
측정항목을 거래금액으로 설정하고,
왼쪽의 볼펜 버튼을 클릭하면
소수점 0으로 만들어줌.
누구나 내가 만든 대시보드를 볼 수 있고, 공유도 가능함.
완성본!
2020년 서울 특별시 아파트 실거래가 대시보드
1. 아파트 실거래가 대시보드 (시계열)
2. 구단위 아파트 실거래가
3. 동단위 아파트 실거래가
4. (도넛) 면적별 아파트 매매 비율
5. 구/동/단지명/전용면적 표
6. '구' 단위 거래면적과 전용면적별 분포 비율.
# 완성된 대시보드
https://datastudio.google.com/reporting/42534ad8-90a2-4fcd-9f61-0edabbf47b9d/page/1BFSC
'STUDY-Data education > Seoul smart campus' 카테고리의 다른 글
[온라인] 데이터시대 정보 리터러시(2기) 수료증 (0) | 2021.07.06 |
---|---|
[공공데이터 구경하기] - 공공데이터 오픈 API (0) | 2021.06.30 |
[공공데이터 구경하기] - 대기 오염 데이터 이해(1) (0) | 2021.06.30 |
[공공데이터 구경하기] - 부동산 실거래 분석(1) by excel 피벗테이블 (0) | 2021.06.30 |
[공공 데이터 구경하기] 데이터 탐색 및 간단한 분석 (0) | 2021.06.30 |