Excelでもプログラミングでもないデータ加工と分析

Web上ですぐ使えるETLツール "HowData"を使ったデータ加工&分析を紹介しています

シリア内戦の原因をデータで見る

2011年からのシリア内戦の原因のひとつは、2007~2010の4年間の増える人口と減る穀物生産による混乱と考えられる。データで確認してみた データ加工のフロー データ加工がもっと簡単にできるインブラウザ型のデータ加工/分析サービス HowDataで行いました how…

日本の医療コストは高いのか?

日本に医療費は高齢化から年間42兆円に拡大する一方で、医療費削減の議論も始まっている。ここでは、日本に医療費は他の国々に対して、高いのかどうかをデータで確認してみた。比べる指標はGDPの何%を医療費に使っているを用いた。 その結果が下記である。ア…

日本から中国へのODAはいくら返済されているのか?

日本から中国へのODAがいくら返済されているかを調べてみた。 結論 2016年までに、日本からの中国へのODA総額210億ドルのうち、48億ドルが返済済みになっている。 データ分析の手順 世界銀行からデータを取得する 横持ちデータを縦持ちデータへ返還する 国名…

アメリカ-メキシコの不法入国者、不法移民はトランプ就任1年後にどうなったのか?

不法移民の強制送還を訴え大統領に当選したトランプ氏の影響から、米国とメキシコの国境で逮捕される不法入国者の数は激減した、というニュースは以前に聞いたことがあった。その後をデータで確認してみた。また、政策の影響がわかりやすいように、オバマ元…

NHKの受信料と予算は何に使われているのか?

テレビがなくても携帯のワンセグからも受信料を徴収する、ネット接続が受信料金負担の条件、などNHK受信料負担については、これまでも多くの議論が続いてきています。 ここでは、議論の前に、そもそもNHKが受信料をどのようなことに使っているのかをデータか…

使いづらい労働力調査統計ExcelファイルをきれいなCSVファイルにする

統計局から労働人口や完全失業率のExcelファイル(1953年~ 月次データ)がダウンロードできます。 www.stat.go.jp 主要項目(エクセル:407KB) (労働力人口,就業者,雇用者,完全失業者,非労働力人口,完全失業率)(1953年1月~) しかし、下のように表形…

重複するデータの最初だけを抽出する

下のように月データ(2月、3月、4月、5月、6月、7月)が重複しているとします。 この重複するデータからの重複を削除し、最初の行だけを抽出する場合を考えてみましょう。 データ加工の元データ A B C 1 月 日付 値 2 2月 2/15/84 183.203 3 2月 2/29/84 182.…

生年月日をもとに年齢を求める

業務の中で、CSVやExcelからのデータ加工を行うとき、新たなデータを既存データから作成しなくてはならないことがよくあります。 下のように顧客データ集計で顧客の年齢が必要になったとします。顧客の生年月日のデータはあるので、購入日等の日付データと生…

複数Excelファイルで複数ワークシートのデータを一つにまとめる

Excelでデータではよく、別々のファイルに別々のワークシートにある表(データ)を1つにまとめる必要がでてきます。しかも、ファイル名やワークシート名自体に年や月、地域名などデータ集計に必要な情報が含まれていることも珍しくありません。 例えば、下…

複数ワークシートにまたがるデータを1つにまとめる

Excelでデータではよく、別々のシートにある表(データ)を1つにまとめる必要がでてきます。しかも、ワークシート名自体に年や月、地域名などデータ集計に必要な情報が含まれていることも珍しくありません。 例えば、下のようなワークシート名に地域名が、…

条件を満たす文字列を抽出する

業務の中で、CSVやExcelからのデータ加工を行うことは多い思います。しかしそういったデータの中には不十分であったり、乱れていることはよくあります。 そういった場合に、手作業でデータの書き換えを行うのは膨大な手間と時間が必要になってしまいます。そ…

商品区分別かつ商品ID別で売上金額の多い順に順位を付ける

下のような顧客情報、店舗、商品区分、金額など、多くの要素からなる売上データがあるとします。このデータから、商品区分別かつ商品ID別で売上個数、売上金額を算出し、売上金額の高い順に商品IDに順位を付けていきます。 データ集計の元となるデータ A B C…

複数条件でのカウント:売上データから店舗別かつ商品区分別でのカウントを求める

下のような顧客情報、店舗、商品区分、金額など、多くの要素からなる売上データがあるとします。このデータから、店舗別かつ商品区分別(複数条件)でデータ行をカウントし、取引件数をデータ集計してみます。 データ集計の元となるデータ A B C D E F G H I J…

1つの条件でのカウント:売上データから店舗別でのカウントを求める

下のような顧客情報、店舗、商品区分、金額など、多くの要素からなる売上データがあるとします。このデータから、店舗別(1つの条件)でデータ行をカウントし、取引件数をデータ集計してみます。 A B C D E F G H I J K L M N 1 ID 氏名 氏名(カタカナ) 性別…

複数条件の合計:売上データから店舗別で商品区分別の売上金額の合計を求める

下のような顧客情報、店舗、商品区分、金額など、多くの要素からなる売上データから、店別、商品区分別など複数条件ごとにデータ集計をします。集計は繰り返しになるので、他の人にもわかりやすく、手間がかからないように進めていくようにしましょう。 A B …

1つの条件での合計:売上データから店舗別の売上金額の合計を求める

下のような顧客情報、店舗、商品区分、金額など、多くの要素からなる売上データから、条件ごとにデータ集計をします。集計は繰り返しになるので、他の人にもわかりやすく、手間がかからないように進めていくようにしましょう。 A B C D E F G H I J K L M N …

米国と各国との貿易収支はどうなっているのか?

米国が、対中貿易赤字や知的財産権の侵害を理由に1000億ドル(10.7兆円ぐらい)の貿易制裁を検討しているという。これに対して、中国は貿易制裁が実行されれば反撃を行うとの声明をすでに出している。「米中経済戦争が始まった!」、との声も聞かれる。ここで…

1年間の移民数は世界中でどれくらいなのか?

少子高齢化、人手不足の解決策に必ずでてくるのが、移民政策です。 「年間20万人の移民が日本の人口と経済維持に必要だ」、という話も聞くことがあります。それに対して、「日本はすでに移民先に選んでもらえる国にはない」、という話も聞くことがあります。…

為替相場と日経平均株価は似たような動きをする、は本当か

「為替相場と日経平均株価は似たような動きをする」、という格言を新聞やニュース、Youtubeで度々聞くことがあります。 「円安で株価上昇、円高で株価下落」、というものです。 理由には、 日経平均株価を構成する会社に輸出企業が多く、円安は輸出企業に有…