본문 바로가기

프로그래밍/R

(3)
[R] 시계열 그래프 그리기 1. 시계열그림(time-series plot) 시계열 그림은 시간에 따른 자료의 변화나 추세를 파악하는 데 적절하다. 위 그림은 5월 대선 후보자들의 1달 검색량 추이를 보여주는 구글 트렌드(Google Trend)이다. 2. 시계열 그래프 그리기(ggplot2 라이브러리 이용) 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 13 9 32 38 54 36 39 47 56 14 30 41 30 8 16 5 15 21 13 32 26 27 (출처 : 위키디피아)위 표는 야구선수 이승엽의 홈런 개수다. 이를 이용해 시계열 그래프를 그려보도록 하자. 2-1 데이..
[통계+R] 카이제곱검정 [초급] 1. 먼저, 범주형(category) 변수가 무엇인지 이해할 필요가 있다. 나도 처음에 이해하기가 힘들었다. 용어들에 대해서 익숙해지려면 반복해서 자꾸자꾸 봐야하는 듯 하다. 2. 범주는 우리 주위에서 쉽게 살펴볼 수 있다. 온라인 서점을 들어가보면 우리가 흔히 말하는 책의 '카테고리'들이 있다.이 카테고리에 값을 줘서 평균을 낸다고 의미가 있을까? 3. 연속형 변수는 '172.1cm, 169.7cm, 183.0cm' 처럼 수치로 부여된다. 범주형 변수는 '빈도(도수, Frequency)'의 형태로 주어지는 것이 대부분이다. 남 여 도수 72명 48명 4. 그러면 범주형 자료를 분석할 수 있는 기법들은 어떤 것들이 있을까? [중급] 범주형 변수에서 주는 거라곤 꼴랑 '빈도'뿐인데, 우리는 어떤 ..
서울시 분실물 공공데이터 CSV 읽어들이기 http://data.seoul.go.kr/에 접속해 "분실물"로 검색하면 SHEET라고 파란색 네모칸이 쳐져있는 글이 있다.여기서 나는 일단 XLS(엑셀)파일로 받았다. CSV파일로 받아서 읽으니까 깨지는 곳이 있었다. 엑셀파일을 받으면 3개의 시트로 이루어진 것을 알 수 있다. 한 시트에 65535행 밖에 담지 못하므로 3개의 시트로 나뉘어져 있다. 그중에서 나는 일단 2번 시트만을 사용하기로 했다. 2번 시트를 열어보면 여러 필드(A, B, C, D, ...)들이 있는데 내가 필요한 5개 필드만 남기고 잘라냈다.다른 파일 이름 저장을 통해서 확장자를 csv로 저장하자. (아래 파일에 정제한 데이터를 따로 붙여넣었다.) lost = read.csv('lost.csv')lost 습득물품명의 name이 ..