본문 바로가기

프로그래밍/R

서울시 분실물 공공데이터 CSV 읽어들이기

http://data.seoul.go.kr/에 접속해 "분실물"로 검색하면 SHEET라고 파란색 네모칸이 쳐져있는 글이 있다.

여기서 나는 일단 XLS(엑셀)파일로 받았다. CSV파일로 받아서 읽으니까 깨지는 곳이 있었다.


엑셀파일을 받으면 3개의 시트로 이루어진 것을 알 수 있다. 한 시트에 65535행 밖에 담지 못하므로 3개의 시트로 나뉘어져 있다. 그중에서 나는 일단 2번 시트만을 사용하기로 했다.


2번 시트를 열어보면 여러 필드(A, B, C, D, ...)들이 있는데 내가 필요한 5개 필드만 남기고 잘라냈다.

다른 파일 이름 저장을 통해서 확장자를 csv로 저장하자. (아래 파일에 정제한 데이터를 따로 붙여넣었다.)

 lost.csv


  1. lost = read.csv('lost.csv')
  2. lost


습득물품명의 name이 지나치게 길게 되어있는 것도 있기 때문에 여러 줄에 걸쳐서 출력이 된다.

이 이하로 59800줄이 생략되어서 나온다.


  1. head(lost) # 가장 위 6줄만 출력
  2. str(lost)  # 변수, 관측치 수, 데이터 타입 등을 출력

head(lost)와 str(lost)를 통해서 해당 데이터가 잘 들어왔는지 확인해보자.


str(lost)를 통해 살펴보면 

'$습득물품명'의 수준(level) 수는 12821개로 나타난다.

똑같은 가방이더라도 습득물품명는 '검은색 가방', '줄무늬 가방' 처럼 다양하게 기입되기 때문이다.

반대로 '$습득물분류'의 수준(level) 수는 10개로 정갈하게 나타난다.


이제 무엇을 할 수 있을지 고민해봐야 한다.

활용가능성에 대해서는 차차 포스팅하도록 하겠다. 



'프로그래밍 > R' 카테고리의 다른 글

[R] 시계열 그래프 그리기  (0) 2017.04.30
[통계+R] 카이제곱검정  (2) 2017.04.05