데이터 분석/BigQuery

BigQuery 빅쿼리에 공개 데이터 세트(public dataset) 추가하고 활용하는 방법

된장찌개냠냠 2023. 11. 29. 15:25
반응형

본격적으로 빅쿼리에 대한 블로그 글을 작성하기 위해서 어떤 데이터를 활용하면 좋을까 고민을 하다가 BigQuery Public dataset을 활용하기로 했습니다. 빅쿼리 마켓플레이스에는 여러 유료/무료의 데이터 셋이 공개되어 있는데요. 이중 누구나 무료로 사용할 수 있도록 공개되어 있는 것을 공개 데이터 세트(public dataset)라고 합니다. 앞으로는 이 데이터 셋을 활용해서 포스팅을 하려고 합니다.

 

먼저 이번 포스팅에서는 빅쿼리에서 제공하는 공개 데이터 세트를 추가하고 활용하는 방법에 대해 알아보겠습니다.

 

빅쿼리 공개 데이터 추가하기

빅쿼리에서는 공개 데이터 세트를 제공합니다. 이를 통해서 자사 서비스와 다른 도메인의 데이터를 간접적으로 경험해 볼 수 있으며, 빅쿼리를 공부하는 단계에서도 공개 데이터 세트를 활용해 여러 쿼리를 날려보며 빅쿼리에 익숙해질 수 있습니다.

빅쿼리 프로젝트가 이미 생성되어 있다고 가정하고 공개 데이터 세트를 추가해 보도록 하겠습니다.

 

아래는 공개 데이터셋을 내 빅쿼리에 추가하는 방법에 대한 가이드입니다.

 

1) 빅쿼리 페이지로 이동 후 왼쪽 패널에서 +ADD 버튼을 클릭합니다.

BigQuery Public datasets 추가 (1)

 

 

2)스크롤을 내리면 Public Datasets가 보이는데 이걸 선택해 줍니다.

BigQuery Public datasets 추가 (2)

 

 

3) 200개 이상의 공개 데이터 세트가 보이는데요. 아무거나 클릭해서 VIEW DATASET 버튼을 클릭해 줍니다. 저는 COVID-19 퍼블릭 데이터 셋을 선택했는데, 어차피 어떤 것을 선택하더라도 모든 공개 데이터 세트가 추가되므로 크게 상관없습니다.

빅쿼리 COVID-19 데이터 세트 추가하기

 

 

4) 위 단계에서 버튼을 클릭하면 새로운 탭이 열리는데요. bigquery-public-data 폴더 내에 여러 공개 데이터 세트가 추가되어 있는 것을 볼 수 있습니다.
만약 이 단계에서 열린 탭을 닫아버리면, 나중에 빅쿼리 페이지에 들어갔을 때 왼쪽 Explorer 패널에서 공개 데이터 세트가 사라지게 됩니다. 이를 방지하기 위해서 아래 그림처럼 별표를 클릭해서 왼쪽 패널에 고정해 줍니다. 그러면 다음에 새로운 창에서 빅쿼리에 접속해도 계속 왼쪽 패널에 해당 데이터셋이 고정되어서 나타납니다.

빅쿼리 공개 데이터 세트 빅쿼리 탐색 탭에 고정하기

 

 

 

공개 데이터 세트에 Google SQL 쿼리 수행

이제 추가된 공개 데이터 세트에 쿼리를 한번 날려보겠습니다.

  1. 저는 bbc_news라는 데이터 세트에 있는 fulltext 테이블을 선택했습니다. 테이블 점 세 개를 클릭해서 Query를 선택해 줍니다.
  2. 쿼리문을 작성하고 실행버튼을 눌러줍니다. 이때, 자동으로 들어가 있는 테이블명을 보시면 알 수 있듯이 데이터셋이름과 테이블명을 모두 작성해 줘야 정상적으로 쿼리가 실행됩니다.
  3. 아래 RESULTS 탭에서 쿼리 결과를 확인할 수 있습니다.

빅쿼리 공개 데이터 세트에 쿼리 실행하기

 

 

 

공개 데이터 사용 시 주의사항 - 공개 데이터는 무료일까?

  • 요금 체계
    • 퍼블릭 데이터의 저장 비용은 구글이 부담합니다. 따라서 스토리지 비용은발생하지 않습니다.
    • 이 데이터를 사용하는 유저가 실행한 쿼리에 대해서는 비용이 발생합니다.
    • 단, 일반 쿼리 비용과 동일하게 매달 첫 1TB까지는 무료로 사용할 수 있습니다.
  • 쿼리 언어
    • 완전한 테이블 이름을 사용해야 합니다.
    • SELECT * FROM bigquery-public-data.bbc_news.fulltext 처럼 데이터세트, 테이블명까지 작성을 해줘야 합니다.
    • Legacy SQL과 Google SQL 둘 모두 사용이 가능합니다.

 

참고사이트

https://cloud.google.com/bigquery/public-data

반응형