細粒度ゴミ排出量収集手法の研究1.1 研究背景人が生活を営む上でゴミは発生する．そのため，ゴミ回収業務は都市において重要な公共サービスの1つと

細粒度ゴミ排出量収集手法の研究

慶應義塾大学政策・メディア研究科三上量弘

目次

第 1章序論 1

1.1 研究背景 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1.2 本研究の目的 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1.3 本論文の構成 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

第 2章関連研究 8

2.1 Automotive Senseing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

2.2 深層学習による物体検出 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

2.2.1 2段階手法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2.2.2 1段階手法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

第 3章 DeepCounter:ゴミの排出データセンシングシステム 13

3.1 藤沢市におけるゴミ回収 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

3.2 DeepCounterのシステム構成 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

第 4章 Detection-Tracking-Counting Algorithm 17

4.1 Detectionプロセス . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

4.1.1 Single Shot Multi Box Detector . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

4.1.2 YOLOv3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

4.1.3 M2Det . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

4.2 Trackingプロセス . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

4.3 Countingプロセス . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

第 5章実証実験と性能評価 24

5.1 実験システム開発 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

5.1.1 清掃車への搭載 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

5.1.2 可視化アプリケーションの開発 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

5.2 実験環境 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

5.2.1 実験プラットーフォーム . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

5.2.2 データセット . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

5.2.3 モデルの学習 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

5.3 評価 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

i

第 6章結論 38

6.1 考察と今後の課題 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

6.2 結論 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

参考文献 43

ii

図目次

1.1 世界のゴミの総量と処理費用の予想 [1]． . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.2 日本のゴミ排出量，処理費用とリサイクル率 [2]． . . . . . . . . . . . . . . . . . . . . . . . 4

1.3 藤沢市 13地区のゴミは排出量 [3]． . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.4 清掃車ルート最適化による燃料費や人件費の削減 . . . . . . . . . . . . . . . . . . . . . . . . 6

1.5 ゲームフィケーションによるゴミの減量・リサイクル促進 . . . . . . . . . . . . . . . . . . . 6

1.6 藤沢市の清掃車が走行する範囲 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2.1 R-CNNのアーキテクチャー . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2.2 YOLOv1のアーキテクチャー . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2.3 SSDのアーキテクチャー . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

3.1 ゴミのデータ収集プロセス . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

3.2 藤沢市における可燃ゴミや不可燃ゴミ，プラスチックなどのゴミ分別の例 . . . . . . . . . . . 15

3.3 DeepCounterのアーキテクチャ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

4.1 ベースネットワークが VGG-16の SSD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

4.2 ベースネットワークが 5層の SSD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

4.3 SSD [4]による動画フレームに写るゴミ袋の位置検出 . . . . . . . . . . . . . . . . . . . . . . 19

4.4 DTCアルゴリズム . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

4.5 IoUの定義 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

4.6 回収作業員は回収したゴミ袋を loading hopperへ投入し，投入されたゴミ袋は packer panel

により圧縮され清掃車の内部に押し込まれ堆積されていく． . . . . . . . . . . . . . . . . . . 22

4.7 Countingプロセス . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

5.1 清掃車に搭載された DeepCounter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

5.2 清掃車後方に取り付けられたカメラ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

5.3 動画の時間帯、計数されたゴミ袋の個数，FPSがあるテキストデータ . . . . . . . . . . . . . 27

5.4 可視化アプリケーションのプロトタイプ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

5.5 学習データセットの例 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

5.6 作業員の帽子を誤って計数した例． . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

5.7 左の画像ではフレーム間でのゴミ袋の移動距離が小さいため計数に成功している一方，右の

画像では移動距離が大きいため失敗している． . . . . . . . . . . . . . . . . . . . . . . . . . 37

iii

6.1 誤って異なる物体をゴミ袋として計数した例． . . . . . . . . . . . . . . . . . . . . . . . . . 41

iv

表目次

2.1 各物体検出フレームワークの精度と処理速度の比較 [5] . . . . . . . . . . . . . . . . . . . . . 10

4.1 DTC アルゴリズムのバラメータの説明 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

5.1 実験プラットフォームの詳細． . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

5.2 5層のベースネットワークのアーキテクチャ . . . . . . . . . . . . . . . . . . . . . . . . . . 31

5.3 異なるベースネットワークの Average Precision . . . . . . . . . . . . . . . . . . . . . . . . 32

5.4 Pascal VOCにおける Average Precision . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

5.5 異なるベースネットワークの FPS(jetson tx2) . . . . . . . . . . . . . . . . . . . . . . . . . 32

5.6 異なるベースネットワークの FPS(Desktop) . . . . . . . . . . . . . . . . . . . . . . . . . . 33

5.7 τiou = 0における異なる τc での DTCの計数精度． . . . . . . . . . . . . . . . . . . . . . . 34

5.8 τc = 0.4における異なる τiou での DTCの計数精度． . . . . . . . . . . . . . . . . . . . . . 34

5.9 SSD(5層)-IoU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

5.10 SSD(5層)-Sort . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

5.11 YOLOv3(Tiny288)-IOU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

5.12 YOLOv3(Tiny288)-SORT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

5.13 それぞれの DTCアルゴリズムの平均計数精度 . . . . . . . . . . . . . . . . . . . . . . . . . 36

5.14 異なる 6台の清掃車における DTCの TP，FN，FP(SSD-IOU) . . . . . . . . . . . . . . . 36

v

第 1章

序論

本章では，はじめに本研究における背景を述べる．ついで，本研究の目的を述べる．最後に本論文の構成を示す．

1

1.1 研究背景

人が生活を営む上でゴミは発生する．そのため，ゴミ回収業務は都市において重要な公共サービスの１つと

なっている．．図 1.1は 2010年と将来予想される世界におけるゴミ排出量と処理費用のグラフである．世界

の後ゴミ排出量は 2010から 2050年の間に 1.7倍の年間 34億トンに増加すると予想されている．また，処理

費用は 2010年から 2025年の 15年間で約 1.8倍の 3750億ドルに増加すると予想される．図 1.2は平成 17

年から平成 27年までの日本におけるゴミの排出量と処理費用，リサイクル率の推移のグラフである．日本に

おけるゴミの排出量は近年減少傾向にあるものの，ゴミの処理費用は増加傾向にある．また，リサイクル率は

近年停滞し，その率も 20%と低い．

図 1.3は，神奈川県藤沢市のゴミ排出量に関するデータである．図 1.3bより郊外の遠藤地区では一世帯

当たりのゴミ排出量が多い一方，都市中心部の藤沢地区では少ない．また，図 1.3cよりゴミ排出量は 2月ご

ろに減少し，6月ごろに増加している．これらのデータは，住民の家族構成やその生活パターンがゴミ排出量

に影響を与えることを示す．つまり，ゴミ排出量は，都市そのものの変化を反映する．したがって，ゴミ排出

量データが取得可能となれば，清掃車のルート最適化や排出量削減のための啓蒙など，様々な行政施策に利活

用可能と考えられる．

しかし，現在取得可能なゴミ排出量データは清掃車ごとの回収量にとどまっており，粒度が粗く細微な都市

の変化を捉えることは困難である．ゴミ排出量に基づく多様な行政施策を可能とするには，回収地点や量を含

む細粒度データが必要となるが，そのようなデータを取得する実際的な手法は欠如している．例えば，ゴミの

排出量は回収作業員や住民によって測定することも可能ではあるが，費やす労力，時間，金銭的コストは自治

体や住人にとって大きな負担となるため，細粒度なゴミ排出量を推定可能なデータ収集手法が必要である．

近年，深層学習を用いた物体検出技術は飛躍的な進歩を遂げている．その技術を用いるこで，動画フレーム

内に写るゴミ袋の位置を検出するシステムが実現可能となる．組み込みシステムの性能向上により，清掃車で

のエッジ処理が可能となり，多くの計算資源を必要とする動画の処理が可能となった．無線通信技術の発展に

より，清掃車が回収業務を行いながら取得したデータををデータサーバーへ送信することも可能となった．道

路整備や交通状況の推定，環境モニタリングなどを行うために，これらの技術的進歩を組み合わせ活用したセ

ンシングシステムが多くある [6–13]．これらの研究は，回収されたゴミの排出量を自動的かつリアルタイムに

センシングする手法の実現可能性を示唆している．

1.2 本研究の目的

本研究では，回収したゴミ袋の個数を自動的に推定するシステム，DeepCounterを提案する．DeepCounter

は清掃車に搭載され，清掃車の後方動画に深層学習による物体検出技術を適用することで，清掃車が回収

作業をしながらリアルタイムに回収したゴミ袋の個数を推定するセンシングシステムである．ゴミ袋は

Detection-Tracking-Countingアルゴリズム (DTC)によって計数される．DTCは動画に写るゴミ袋を自動

的に検出し，追跡，計数できる．通常，清掃車には事故を記録するため後部にドライブレコーダが取り付けら

れている．しかし，ドライブレコーダによって撮影された動画は他の目的に活用されていない．その動画を活

用することで，ゴミ回収とゴミ排出量データの収集を同時に行える．また，文献 [6]にある清掃車搭載のセン

シングシステムとネットワークと，隈なく市内を走行する清掃車の性質 (図 1.6)を活用し，網羅的な細粒度排

出量データを取得できる．評価実験では藤沢市を走行する清掃車の後部ドライブレコーダで撮影した動画 (以

2

(a) 2010 年に約 20 億トンだった世界のゴミの量は 2050 年には約 34億トンに増加すると予想されている．

(b) 2010年に 2054億ドルだった世界のゴミ処理費用は 2025

年に 37 50億ドルに増加すると予想されている．

図 1.1 世界のゴミの総量と処理費用の予想 [1]．

後，ゴミ回収動画と呼ぶ)を用いて，提案手法の有効性を検証した．

1.3 本論文の構成

本論文は，本章を含め全 6 章からなる．本章では，本研究における背景と研究の目的を述べた．第 2 章

では，自動車にセンサーを搭載したセンシング手法（Automotive Sensing）と，深層学習を用いた物体検出

手法の既存研究について述べる．第 3 章では，本研究で提案するゴミの排出量をセンシングするシステム

である DeepCounter の概要について説明する．第 4 章では，DeepConter においてゴミ袋をカウントする

Detection-Tracking-Counting(DTC)アルゴリズムについて説明する．第 5章では，DTCアルゴリズムの精

度や性能を測定するための評価実験とその結果について述べる．第 6章では，本論文の結論と今後の展望につ

いて述べる．

3

(a) 平成 17年から平成 27年までの日本における年間ゴミ排出量の時系列変化．

(b) 平成 17年から平成 27年までの日本における年間ゴミ処理費用の時系列変化．

(c) 平成 17年から平成 27年までの日本におけるリサイクル量と率の時系列変化．

図 1.2 日本のゴミ排出量，処理費用とリサイクル率 [2]．

4

(a) 藤沢市のカテゴリー毎におけるゴミ排出量．

(b) 藤沢市 13地区それぞれの可燃ゴミ排出量．

(c) 2014年 11月から 2017年 6月までの藤沢市 13地区における月毎のゴミ排出量．

図 1.3 藤沢市 13地区のゴミは排出量 [3]．

5

図 1.4 清掃車ルート最適化による燃料費や人件費の削減

図 1.5 ゲームフィケーションによるゴミの減量・リサイクル促進

6

図 1.6 藤沢市の清掃車が走行する範囲

7

第 2章

関連研究

本章では，はじめに車載センサーによるセンシング (Automotive Senseing)の関連研究について述べる．次いで，深層学習による物体検出の関連研究について述べる．

8

2.1 Automotive Senseing

Automotive Sensing(Automotive Senseing) は自動車に GPS やドライブレコーダ，加速度計など様々な

センサを搭載することで，都市のセンシングを行いデータを収集する．無線通信やセンサデバイス，深層

学習の発展により，これらの技術を組み合わせることで，多様なデータの取得が可能となった．これまで

に，Automotive Senseing は交通状態のモニタリングなど，多くの場所に適用されている．Chen et al. は，

Automotive Senseingの時空間的カバレッジの定義を新たに提案し，清掃車に設置した GPSで取得したデー

タを用いて評価した [14]．Rezaei et al.は GPS，車輪の速度，ステアリングの角度，ジャイロスコープなど

のセンサデバイスによって取得したデータを入力として，GPSが使用不可能な状況でも，位置の推定が可能

なアルゴリズムを提案した [7]．Fujii et al.は GPSによる位置情報と車間距離を測定可能なセンサデバイス

を用いてデータを収集し，そのデータを近隣の車同士で共有することで，位置の推定が可能なシステムを提案

し，GPSのみの位置推定よりも 85%精度の高い推定を行えることを示した [8]．

また Automotive Senseing は，都市の状態を検知するためにも広く利用されてきた．Eriksson et al. は，

タクシーに搭載した加速度センサで取得したデータを機械学習のモデルに学習させ，道路表面のくぼみを検

知するシステムを提案した [9]．Kawano et al.は，清掃車に搭載したドライブレコーダで撮影した動画を畳

み込みニューラルネットワーク (CNN) に学習させることで，掠れた路面標示を検出するシステムを提案し

た [10]．Du et al.は，自動車を動的なセンサとして交通情報を取得し，都市の交通状況をモニタリングする

システムを提案した [15]．

Automotive Senseingは，細粒度な環境情報をモニタリングするためにも利用される．David et al.は，走

行する公共交通機関の車両に大気汚染を測定可能なセンサを搭載し，取得したデータから大気汚染マップを構

築する回帰モデルを提案した [11]．Chen et al. は，ゴミを戸別回収する藤沢市の清掃車に PM2.5 センサを

搭載し，3G通信システムを用いることで，リアルタイムな PM2.5のデータを住民へ提供するシステムを提

案した [12]. Kishino et al.は清掃車に搭載したモーションセンサを用いてゴミの量を推定する手法を提案し

た [13]．しかし，この手法では清掃車が回収する領域全体におけるゴミの排出量を推定することは可能だが，

各ゴミ回収地点のような細粒度なゴミ排出量データを取得することはできない．収集可能なデータに限りはあ

るものの，様々なセンサデバイスと機械学習，無線通信技術を組み合わせることにより，多様なデータを収集

し，利活用する可能性を Automotive Senseingは示している．

2.2 深層学習による物体検出

深層学習による物体検出が登場する以前は，人が設計した特徴量を利用した物体検出が主流だった．Viola et

al.は画素の明暗を利用した Haar特徴量を提案し，少ない計算量で高い顔検出精度を達成した [16]．Dalal et

al.は画素の勾配を利用した HOG特徴量を提案し，人物検出において既存手法を大きく上回る精度を達成し

た [17]．

しかしながら，全ての物体の特徴を捉え検出できる網羅的特徴量を人が設計するのは困難である．一方，深

層学習は自動的に特徴量を獲得し，層を深めることで特徴量の多様性を表現できる．そのため，人が設計した

特徴量と比較し，高精度かつ多様な物体検出ができる．

深層学習による物体検出は CNNを使用し，主に 2段階と 1段階で物体を検出する手法の 2つに分けられ

る．一般的に，2 段階手法では物体検出の精度で優れており，1 段階手法は検出の処理速度において優れて

9

いる．表 2.1 に主な物体検出フレームワークの精度と処理速度を示す．mAP(mean Average Precision) と

FPS(Frame per second) はそれぞれ物体検出の精度と処理速度を表す．mAP は物体検出のコンペティショ

ンである PASCAL VOC [18]の 2007年のテストデータセットを用いて評価されている．

表 2.1 各物体検出フレームワークの精度と処理速度の比較 [5]

物体検出のフレームワーク手法 Train mAP FPS

R-CNN(VGG16)　 2段 2012 66.0 0.03

Fast R-CNN 2段 2007+2012 70.0 0.5

Faster R-CNN(VGG16) 2段 2007+2012 73.2 9.1

Faster R-CNN(ResNet101) 2段 2007+2012 83.8 0.4

YOLO v1 1段 2007+2012 57.9 45

SSD(300) 1段 2007+2012 74.3 46

SSD(500) 1段 2007+2012 76.8 19

YOLO v2(554 x 554) 1段 2007+2012 78.2 40

2.2.1 2段階手法

2段階手法では，第 1段階で物体と推定した領域の候補を生成し，次の段階で CNNを用いて推定した候補

から正しい領域選択とクラス分類を行う．Girshick et al.が提案した R-CNNでは，図 2.1のように，まず

入力画像にある物体を selective searh [19]による物体の領域推定を行い，次いで CNNによって物体の特徴量

抽出し，その特徴量を使って複数の SVMにより正確な物体領域の検出と分類を高精度で行う [20]．一方で，

R-CNNは物体検出を多数の機構で行なっていたことに加え，全ての物体領域の候補に対して CNNを適用し

ていたため，計算コストが高かった．

この問題を改善したのが，Fast R-CNN [21]である．Fast R-CNNでは，画像そのものを CNNへ渡して特

徴量抽出を行い，その特徴量から物体領域の候補を提案するなどにより，R-CNNと比較して物体検出精度と

処理速度両方において改善された．Fast R-CNNを更に改良した Faster R-CNN [22]では，Fast R-CNNで

処理速度のボトルネックとなっていた selective searchによる物体領域候補の生成を，CNNを用いた Region

Proposal Networkへと変更することにより Fast R-CNNより高い mAPを達成しながらも 18倍の処理速度

を達成している．しかし，いずれの 2段階手法においても．まず物体領域の候補を生成し，その候補の中から

正しい候補を選択することによって物体検出を行なっているため，検出精度は高いものの，検出する処理に多

くの時間を必要とした．この問題を解決するために考案されたのが１段階手法である．

2.2.2 1段階手法

1段階手法では，2段階手法では分けられていた物体領域候補の生成と正しい候補の選択を，一つの CNN

で同時に行う．これにより，2段階手法より高速な処理を実現している．Redmon et al.によって提案された

YOLO [23]は，図 2.2のように単一の CNNによって物体領域の推定と物体のクラス分類を行うことで物体

検出を行う．表 2.1が示すように，YOLOは Faster R-CNNと比較すると検出精度は劣りながらも大幅な処

理速度の高速化を達成している．

10

図 2.1 R-CNNのアーキテクチャー

図 2.2 YOLOv1のアーキテクチャー

SSD [4] は，図 2.3 のように単一の CNN で特徴量抽出を行い，大きさの異なる複数の特徴マップと

Multibox [24] による物体領域推定を組み合わせることにより，画像に写る大きさの異なる様々な物体に対

して自然な検出を実現している．これにより SSD(300) は，YOLO よりも高速な検出速度を実現しながら

も，Faster R-CNN よりも高い検出精度を実現している．YOLOv2，YOLOv3 [25, 26] や Retinanet [27]，

DSSD [28]のように，より高速な検出速度かつ高精度な新しい物体検出システムが継続的に提案されている．

また，RefineDet [29]のように 1段階手法でありながらも 2段階手法の良いところを取り入れた手法も提案さ

れている．2段階手法により，高精度かつ高速度での物体検出が可能となった．

11

図 2.3 SSDのアーキテクチャー

12

第 3章

DeepCounter:ゴミの排出データセンシングシステム

本章では，まず藤沢市におけるゴミ回収について説明し，次いで本論文で提案する細粒度なゴミの排出量センシングシステムであるDeepCounterの設計について述べる．

13

3.1 藤沢市におけるゴミ回収

ゴミ回収は，定められた集積場に近隣の住宅がゴミを出し一括で回収する方法や，各戸や集合住宅の前にゴ

ミを出してもらい，戸別毎に回収する方法などがある．藤沢市では，家庭のゴミは戸別かつ日毎に回収してい

る．図 3.2aと図 3.2のように，各家庭や集合住宅は，ゴミ袋を入れるためのバケツやコンテナを設置してい

る．図 3.2b，図 3.2c，図 3.2dのように，住民はそれぞれ定められた色のゴミ袋を使用し，可燃ゴミ，不可

燃ゴミ，プラスチックなどゴミを分別する．そして藤沢市により定められたスケジュールに従い，種類に応じ

た回収日に清掃車が回収していく．ゴミの回収地点に清掃車が到着すると，ゴミ回収作業員はトラックから降

りてコンテナに移動し，ゴミ袋を清掃車のトランクに投げ入れていく．投げ込まれるプロセスは，清掃車後部

に設置したドライブレコーダで撮影され，その動画に深層学習による物体検出技術を用いることで，回収した

ゴミを自動的に検知できる．ゴミ袋は戸別かつ種類毎に回収されるため，GPSによって取得した位置と時刻

を付与することで，細粒度な種類毎のゴミ排出量の時空間データを取得することが可能となる．ゴミ排出量

データ取得プロセスを図 3.1に示す．

図 3.1 ゴミのデータ収集プロセス

3.2 DeepCounterのシステム構成

図 3.3 に示すように，DeepCounter はドライブレコーダ，GPS レシーバ，組み込みコンピュータ，およ

び無線通信デバイスで構成される．DeepCounterは組み込みコンピュータ上でゴミ回収動画を処理し，ゴミ

袋の個数を計数する．計数したゴミ袋の個数は，時刻と位置情報とともに，通信ネットワークを介してデー

タサーバへ送信される．なお，プライバシ保護の観点から，撮影された動画データはデータサーバに送信し

ない．本研究では，組み込み型コンピュータとして，NVIDIA Jetson TX2 開発キットを採用した．Jetson

TX2には GPUが搭載されているため，深層学習による物体検出を高速に行える．そのため清掃車でのエッ

ジ処理が可能となり，清掃車が回収作業をしながらリアルタイムでゴミの排出量データを取得できる．

リアルタイムでデータを取得する利点は２つある．１つはコスト削減である．リアルタイムに清掃車での

14

(a) 藤沢市にある一般的なゴミ収集場． (b) 可燃ゴミは黄色い袋に入れられる．

(c) 不可燃ゴミはピンク色の袋に入れられる (d) プラスチックゴミは透明の袋に入れられる．

図 3.2 藤沢市における可燃ゴミや不可燃ゴミ，プラスチックなどのゴミ分別の例

エッジ処理を行うことで，動画データを保存する設備コストに加え，送信する通信コストなどが不要になる．

2つ目はプライバシーの高さである．動画データの保存・通信が不必要になるため，付随する住民のプライバ

シー情報の流出が妨げられる．

15

図 3.3 DeepCounterのアーキテクチャ

16

第 4章

Detection-Tracking-Counting Algorithm

本章では，DeepCounter 上でゴミ袋をカウントする Detection-Tracking-

Counting(DTC) アルゴリズムについて説明する．DTC アルゴリズムは，清掃

車のコンテナに投げ入れられたゴミ袋の個数を推定することを目的としている．

図 4.4に示すように，DTCアルゴリズムは Detection，Tracking，Countingの３つ

のプロセスで構成され，それぞれの機能は以下のように定義される．

1. Detection：清掃車後部から撮影された動画の各フレーム内に存在するゴミ袋の位

置を検出する．

2. Tracking：連続する動画の各フレーム間で同一のゴミ袋を同定する．

3. Counting：ゴミ袋が回収されたかどうかを定められた条件により判定し，カウン

トを行う．

17

4.1 Detectionプロセス

Detection プロセスでは，動画の各フレームに写るゴミ袋の位置を検出する，ゴミ回収動画のフレームを

入力とし，検出したゴミ袋の画像における位置を表す Bounding Box(BB)と，検出した物体がゴミ袋である

確率を出力する．また，検出した物体を閾値 τc 以上の確率でゴミ袋であると判定した場合，その BBデータ

を Trackingプロセスへ渡す．表 4.1に DTCのパラメータを示す．Detectionプロセスにおけるゴミ袋の検

出は CNN をベースとした深層学習による物体検出で行う．DTC では Liu et al. らにより提案されている

Single Shot Multi Box Detector(SSD) [4] ，Yolo v3とM2Det [30]を用いる．

4.1.1 Single Shot Multi Box Detector

表 2.1が示すように，SSDは検出精度，処理速度ともに優れている．SSDは，VGG-16 [31]を特徴量抽出

のためのベースネットワークとして使用している (図 4.1)．しかし，VGG-16は計算コストが高く，高速な処

理が求められる DeepCounterには適さない．

そこで，DTCでは，VGG-16を参考に，ベースネットワークの層を削減することで処理の高速化を図った．

その一例として，5層のベースネットワークからなる SSDのアーキテクチャを図 4.2に示す．

300×300×3300×300×16

convolution (+BN)+ ReLU

max pooling

150×150×32

75×75×128

38×38×51219×19×512

10×10×51219×19×1024

5×5×2563×3×256

1×1×256

Deteciotns: 8732 × ( class+ 4)

Non-Maximum Suppression

Base network

図 4.1 ベースネットワークが VGG-16の SSD

4.1.2 YOLOv3

YOLOv3 [26] は YOLO [23] と YOLOv2 [25] と比べ大幅に検出精度と処理速度が向上した．入力画像が

320× 320の YOLOv3(320)は SSD(VGG)と比較すると検出精度は同等ながら処理速度は約 3倍である．本

研究では v 検出精度が高い YOLOv3(416) と処理速度が高い YOLOv3 のニューラルネットワークを削減し

た YOLOv3-tiny(288)を用いた．

18

Conv +BN+ ReLU

Max Pooling

300×300×3300×300×32

150×150×64

75×75×128

38×38×256

19×19×51210×10×128

5×5×643×3×64

1×1×64

Deteciotns: 8732 × ( class+ 4)

Non-Maximum Suppression

Base network

図 4.2 ベースネットワークが 5層の SSD

4.1.3 M2Det

M2Det [30]は，SSDと YOLOv3と比較し処理速度は劣るものの，検出精度は最も高い．文献では VGG-

16 [31]と Resnet-101 [32]をベースネットワークとして用いてる．ResNetの方が検出精度は優れるものの処

理速度が劣るため処理速度の高速がが求められる本研究では VGG-16をベースネットとして採用した．

図 4.3 SSD [4]による動画フレームに写るゴミ袋の位置検出

4.2 Trackingプロセス

動画に映る物体を Trackingするアルゴリズムとして，カラーヒストリグラムを用いる手法がある [33]．し

かし，Detectionプロセスが出力するのはゴミ袋の位置情報であるため，カラーヒストグラムを有効活用する

ことは難しい．そこで本研究では，Trackingプロセスにおいてフレーム間におけるゴミ袋の同一性を判定す

る手法として Intersection over Union(IoU) と Simple Online and Realtime Tracking(SORT) [34] それぞ

19

図 4.4 DTCアルゴリズム

表 4.1 DTC アルゴリズムのバラメータの説明

パラメータ説明

τc 検出した物体がゴミ袋である確率の閾

値である．閾値以上の時に，Tracking

プロセスへ送られる．

τiou Tracking プロセスにおいてフレーム間

でゴミ袋の同一性を判定するための閾

値である．

τf τf フレーム連続で Tracking しない場

合，そのゴミ袋は Trackingリストから

削除される．本研究では τf = 3を使用

する．

xmin, ymin BBの左上を表す座標．

xmax, ymax BBの右下を表す座標．

れに基づく判定基準を採用する．Detectionプロセスからゴミ袋の BBを受け取ると，現在のフレームと前の

フレームで検出したゴミ袋の同一性を判定する．フレーム間におけるゴミ袋の同一性を判定するため，DTC

は Trackingの対象となっているゴミ袋のリストを保持する．このリストを TrackingList(TL)と呼ぶ．TLの

各要素は検出したゴミ袋を識別するための IDと BBからなる．Trackingプロセスでは，現在のフレームにお

いて検出したゴミ袋の BB情報と，TLに保持している全てのゴミ袋の BB情報を用いて IoU値を算出する．

算出した IoU値が閾値 τiou を超えた場合，Trackingプロセスは現在のフレームで検出したゴミ袋と TLに保

持しているゴミ袋でマッチングを行い，同一性を判定する．検出したゴミ袋を TL内のあるゴミ袋と同一のも

のとして判定した場合，同一と判定した TLのゴミ袋の BB情報を検出したゴミ袋の BB情報に更新する．検

出したゴミ袋が TL に存在するどのゴミ袋とも一致しない場合は，新しいゴミ袋として TL に追加する．ま

た，τf フレームの間いずれのゴミ袋と一致しなかった場合，TL に保持しているゴミ袋を TL 内から削除す

る．SORTは IOUと Hungarian Algorithm [35]と Kalman filter [36]を合わせた Trackingアルゴリズムで

ある．Trackingプロセスのアルゴリズムを Algorithm 1に示す．

[37]

20

Algorithm 1 TrackingアルゴリズムInput: P, C{P := {p0, p1, ...} be the array of indexed objects detected in the previous frame.}{C := {c0, c1, ...} be the array of objects detected in the current frame.}

1: Initialize: P ′, C′ ← ∅2: Compute O := {oci,pj ← IoU(ci, pj)},∀cj ∈ C, pi ∈ P {Calculate the IoU matrix}3: while min{C.len,P.len} = C′.len and arg maxO ≥ τiou do

4: {c∗, p∗} ← arg max{oci,pj: ∀cj ∈ C, pi ∈ P}

5: p∗.location← c∗.location

6: p∗.frameNO← c∗.frameNO

7: P ′.add(p∗)

8: C′.add(c∗)9: oci,pj

← −1,∀oci,pj∈ O where pj = p∗ or ci = c∗

10: end while{Track the detected objects}11: for all c ∈ C − C′ do

12: p.init(c.location, c.frameNO)

13: P ′.add(p)

14: end for{Add new detected objects}15: for all p ∈ P − P ′ do

16: if CurrentFrameNO− p.frameNO ≤ τf then

17: P ′.add(p)

18: end if

19: end for{Remove the lost objects}Output: P ← P ′ {Update the tracked objects}

図 4.5 IoUの定義

21

Loading hopper Packer panel

Body

図 4.6 回収作業員は回収したゴミ袋を loading hopperへ投入し，投入されたゴミ袋は packer panelに

より圧縮され清掃車の内部に押し込まれ堆積されていく．

4.3 Countingプロセス

図 4.6 のように，作業員はゴミ袋を清掃車後部にあるトランクに投入する．このゴミ回収業務のプロセ

スから，図 4.7a と図 4.7b に示すように，検出したゴミ袋をその位置に基づいて計数する．図 4.7a およ

び図 4.7b で示されている Counting Barrier(CB) と呼ぶ判定線を画像の下から 1/10 の高さに設定した．

清掃車と地面の境目は画像の下から 1/10 の高さより少し高い位置にあり，CB を画像下から 1/10 の高さ

に設定すれば路面標識などの誤検出を減少できると考えた．また，図 4.7a で赤色で示している Reference

Point(RP) と呼ぶ計数を判定する点を，BB の左上座標から横に 1/2，縦に 6/7 の位置に設定した．横から

1/2に設定したのは，実験を行う時に RPを見やすくするためである．また，RPの縦の位置を高い位置に設

定してしまうと，ゴミ袋が CBを通過して計数判定される時，ゴミ袋の一部分が画面下へ見切れてしまい検出

されない事例が見られたため，6/7に設定した．

TLに保持しているゴミ袋は，以下の 3つの条件を満たした場合に回収したものとして計数する．

• 前のフレームでゴミ袋の RPが CBの上にある．

• 現在のフレームでゴミ袋の RPが CBの下にある．

• ゴミ袋が２つのフレームにおいて同じ IDを持つ．

計数した TLにあるゴミ袋の情報は削除される．また，回収されたゴミ袋は清掃車内部へ押し込まれる前まで

に，動画のフレームに写り続けることがある．そのため，誤った計数を防ぐため，RPが CBの下にある時検

出したゴミ袋の Trackingは行わない．

22

Counting barrier

Reference point

Location region

(a) Reference pointが counting barrierの上にある.

(b) Reference pointが counting barrierの下にあるため，回収されたと判定され，図左上の countの数字が 7 → 8に変化している.

図 4.7 Countingプロセス

23

第 5章

実証実験と性能評価

本章では提案した DeepCounterの評価実験とその結果について述べる．

24

5.1 実験システム開発

5.1.1 清掃車への搭載

本研究では、検出システムである DeepCounterが搭載されたハードウェアを作成し，藤沢市を走行する清

掃車への取り付けを行った．図 5.1にそのハードウェアを示す．ハードウェアは Jetson tx2やカメラ，動画

保存用ハードディスクドライブなどから構成される．清掃車後方に取り付けられたカメラ (図 5.2)から USB

ケーブルが清掃車運転席まで伸び，Jetson tx2に接続されいる．図 5.1は清掃車のエンジンが起動すると自

動的に起動し，エンジンが停止すると自動的に停止する．

実験では図 5.1 を清掃車に搭載し、2020 年 11/21 11/28 二鎮までの一週間分のデータを取得した．この

実験で使用した Detectionモデルは YOLOv3で Trackingアルゴリズムは SORTである．取得したデータは

動画が 90GBと動画が撮影された時間帯，合計の個数と FPSのデータが記載されているテキストデータであ

る．動画は 5000フレーム撮影されると，ファイル保存され別の動画ファイルを新しく作成する．図 5.3にそ

のテキストデータを示す．左のカラムから，動画撮影の時間帯，その時間帯に計数されたゴミ袋の個数，平均

FPSである．一週間の実験の間に 8461個のゴミ袋が計数された．また，今回の実験では今後別の Detection

及び Trackingアルゴリズムで実験を行うために動画を保存した．そのため平均 FPSは約 10前後と遅いが動

画保存を行わなければより高速な処理速度でゴミ袋の計数を行えると考えられる．

図 5.1 清掃車に搭載された DeepCounter

5.1.2 可視化アプリケーションの開発

清掃車に搭載された GPS で取得した位置情報とゴミ回収動画を用いて可視化アプリケーションを開発し

た．位置情報は動画 1フレーム毎に取得され，時間によって動画と紐づけられている．図 5.4は可視化アプリ

ケーションのプロトタイプである．今後，細粒度なゴミの排出量データを可視化し，回収業者や住民へフィー

ドバックすることで，業務効率化やゴミの削減を行うアプリケーションの社会実装を検討する．

25

図 5.2 清掃車後方に取り付けられたカメラ

5.2 実験環境

実験ではゴミ回収動画を使用し，DTCの処理速度と計数精度を評価した．

5.2.1 実験プラットーフォーム

実験には NVIDIA GeForce GTX 1080 GPU を搭載した Desktop コンピューターと Jetson TX2 を使用

した (以後，Desktopと Jetsonと呼ぶ）．それぞれのプラットフォームの仕様を表 5.1にまとめる．

5.2.2 データセット

Detectionモデルを学習するために，ゴミ回収動画からデータセットを作成した．8台の清掃車が 2017年 5

月の午前 8時から午前 11時の間に撮影した動画を含む．なお，動画は約 2分毎で分割され，動画の解像度は

640× 480で，フレームレートは約 8FPSである．動画撮影時の天候は晴れであった.

26

図 5.3 動画の時間帯、計数されたゴミ袋の個数，FPSがあるテキストデータ

図 1.3aで示したように，ゴミ排出量全体において可燃ゴミが大部分を占めていることから，可燃ゴミ袋の

排出量を取得できればゴミ全体の排出量の大部分を得ることができる．そのため，本研究では可燃ゴミを評価

の対象とした．8つの動画のうち，2つを物体検出モデルの学習用データセット作成に使用し，残る 6つを評

価用データセット作成と評価実験に使用した．

学習用の 2つの動画を全てフレーム化し，そのうちゴミ袋が映っているフレームのみを抽出し，図 5.5の

ように，ゴミ袋を短形でアノテーションし，約 5500個の学習用データセットを作成した．全ての評価実験で，

この学習用データセットで学習したモデルを使用した．

同様の手順で，6つの動画からそれぞれ約 80個づつ，合計約 500個の評価用データセットを作成した．

ソースコード 5.1 図 5.5dと対応するアノテーションデータ (XML形式)

1 <annotation>

27

図 5.4 可視化アプリケーションのプロトタイプ

2 <folder>2</folder>

3 <filename>kanen_2_05m11d08h00m_REC_170511_080600_00390.jpg</filename>

4 <size>

5 <width>640</width>

6 <height>480</height>

7 <depth>3</depth>

8 </size>

9 <segmented>0</segmented>

10 <object>

11 <name>gomi</name>

12 <pose>Unspecified</pose>

13 <truncated>0</truncated>

14 <occluded>0</occluded>

15 <difficult>0</difficult>

16 <bndbox>

17 <xmin>452</xmin>

18 <ymin>361</ymin>

19 <xmax>552</xmax>

20 <ymax>478</ymax>

21 </bndbox>

22 </object>

23 <object>

24 <name>gomi</name>

25 <pose>Unspecified</pose>

26 <truncated>0</truncated>

28

表 5.1 実験プラットフォームの詳細．

プラットフォームディスクトップ Jetson TX2

CPU Intel(R) Core(TM) i7-6950X,

3.00 GHz, 10 Cores

Dual Denver 2/2MB L2,

2GHz, 　 2 　 Cores + Quad

ARM R⃝ A57/2MB L2, 2GHz,

4 Cores

GPU GeForce GTX1080,

1733MHz, 2560 CUDA

Cores

NVIDIA Pascal, 1300MHz,

256 CUDA Cores

Memory GDDR5X, 256bit, 8GB,

320GB/s

LPDDR4, 128bit, 8GB,

59.7GB/s

OS Ubuntu 16.04 Ubuntu 16.04

Software Python 3.7.0, PyTorch 0.41,

OpenCV 3.4.3

Python 3.7.0, PyTorch 0.41,

OpenCV 3.4.3

27 <occluded>0</occluded>

28 <difficult>0</difficult>

29 <bndbox>

30 <xmin>436</xmin>

31 <ymin>273</ymin>

32 <xmax>547</xmax>

33 <ymax>333</ymax>

34 </bndbox>

35 </object>

36 </annotation>

5.2.3 モデルの学習

SSDの学習

実験では，ベースネットワークとして VGG-16，Mobilenet v2 [38]，VGG-16を参考にベースネットワーク

の層を 6，5，4，3，2層に削減した合計 7つの SSDを学習した．層を削減したモデルは，Convolutional層の

後に Batch Normalization [39]による正規化を行い，Max Poolingで down samplingを繰り返す VGG-16

の構造を参考にした．また，層の削減は Convolutional層の削減である．

一例として，5層に削減したベースネットワークの構造を表 5.2に示す．活性化関数には ReLU [40]を使

用した．Mobilenet v2はモバイルデバイス向けに開発されたMobilenet [41]を改良した，更に速い処理速度

と高い精度を持つ CNNアーキテクチャーである．本研究では，SSDのベースネットとして使用するため一部

29

(a) データセット例 1． (b) データセット例 2．

(c) データセット例 3． (d) ソースコード 5.1に対応する画像データ．

図 5.5 学習データセットの例

Convolutional層のストライドを 2から 1へ変更したMobilenet v2を使用している．7つの SSD全て同じ条

件で学習を行なった．重みの初期値として，xavier [42]の初期値を使用した．また，入力画像は 640× 480か

ら 300× 300にリサイズした．そのため，処理速度は向上する一方，検出精度は低下する．学習は，500epoch

行い，学習率の初期値は 1e− 3であり，350epoch後に 1e− 4に，450epoch後に 1e− 5へと減少させた．そ

の他のハイパーパラメータは [4]に従う．

YOLOv3の学習

実験では，ベースネットワークを削減し処理速度を高速化した Tinyモデルと通常のモデルを使用して実験

した．また入力画像は 288× 288と 416× 416にリサイズして実験を行った．入力画像の大きさを縮小するこ

とで処理速度の高速化が図れる一方，検出精度は低下すると考えられる．また SSDと同様に学習率の初期値

は 1e− 3であり，350epoch後に 1e− 4に，450epoch後に 1e− 5へと減少させた．その他のハイパーパラ

メータは [26]に従う．

M2Detの学習

文献 [30]では，ベースネットワークに VGG-16と ResNet-101を使用している．本研究では高速な処理速

度が求められるため，VGG-16をベースネットに使用した．同様に学習率の初期値は 1e−3であり，350epoch

30

表 5.2 5層のベースネットワークのアーキテクチャ

Type Filters Size Output

Convolutional 32 3× 3 300× 300

Max Pooling - 2× 2 150× 150


Max Pooling - 2× 2 75× 75






後に 1e− 4に，450epoch後に 1e− 5へと減少させた．その他のハイパーパラメータは [30]に従う．

5.3 評価

実験では以下の 5つの項目について評価を行なった．

• Detectionプロセスにおけるゴミ袋の検出精度

• DTCの処理速度

• Detectionプロセスにおける最適な閾値 τc の選択

• Trackingプロセスにおける最適な閾値 τiou の選択

• 異なる 6台の清掃車における DTCの計数精度

Detectionプロセスにおけるゴミ袋の検出精度

本研究では，Detection プロセスにおけるゴミ袋の検出精度として， [18] の定義に基づいた，Average

Precision(AP)の算出方法を採用した．APは約 500個の評価用データセットを使用して算出した．評価した

モデルは 5.2.3でそれぞれ述べたモデルである．

AP の評価結果を表 5.3 に示す．SSD では，ベースネットワークの中で VGG-16 の AP が最も高いが，

Mobilenet v2，6層，5層の APと大差はないことが分かる．一方，4層になると APが 50.6と大きく精度が

低下し，2層になると 9.1となり殆どゴミ袋を検出できていない．

YOLOv3では入力画像が 416× 416で通常のモデルが最も検出精度が高かった．また入力画像が小さくな

ると検出精度が低下することがわかる．

M2Detはベースネットワークが同じ VGGの SSDと比較して，検出精度が低い．また，YOLOv3のどの

モデルと比較しても精度は劣っている．

追加実験として，層の減少による検出精度の影響を調べるため，SSD(VGG-16)，SSD(5層)，SSD(Mobilenet

v2)，それぞれをベースネットワークとする SSDに Pascal VOC [18]のデータセットを学習させ，mAPを測

定した．Pascal VOCは人や車など，20クラスを検出，分類するタスクである．表 5.4には，Pascal VOC

に含まれる aero，bike など 20 の物体の AP と 20 の物体の AP について平均した mAP を示す．表 5.4 か

31

ら，VGG-16がベースネットワークの SSDの mAPが最も高いことがわかる．ゴミ袋検出の APでは 3つの

ベースネットワークでそれ程差が出なかった一方，Pascal VOCデータで大きく差が出たのは，ゴミ袋検出の

場合はクラスが 1種類の比較的簡単な検出であり，少ない層でもゴミ袋の特徴量を獲得できたためだと考えら

れる．一方で，Pascal VOCでは，20クラスの物体の特徴量を少ない層で全て獲得することができず，層の

深浅でmAPに大きく差が出たと考えられる．

表 5.3 異なるベースネットワークの Average Precision

VGG-16 Mobile v2 6層 5層 4層 3層 2層 v3(288) v3(416) v3(Tiny288) v3(tiny416) M2Det(VGG)

AP 79.8 78.8 77.9 78.9 50.6 33.6 9.1 90.0 91.5 86.2 86.62 75.5

DTCの処理速度

評価用動画 6つのうちから 2分間のゴミ回収動画を用いて，desktopと Jetson両プラットフォームで DTC

の処理速度を測定した．指標は FPSを用いた．

各プラットフォームで 5回処理速度を測定し，その平均した FPS値を表 5.5と表 5.6にまとめた．SSDで

は層が減っていくにしたがって処理速度が上昇していることがわかる．特にベースネットワークが VGG-16

の SSD以外は 8FPSを超えており，走行中の清掃車において，リアルタイムでのゴミ袋を計数することが可

能である．

YOLOv3ではベースネットワークが Tinyかつ入力画像がが 288 × 288でモデルが最も処理速度が高速で

ある．モデルの層に加え，入力画像が処理速度に影響を与えることがわかる．

M2Detは処理速度が同じベースネットワークを使用する SSD(VGG-16)と比較して処理速度が遅い．

また，Desktopを用いた実験では，どのモデルも高い FPSである．このことは現在 Jetson tx2ではリアル

タイム処理ができないモデルも，今後ハードウェアの向上により，リアルタイムでの処理が可能となることを

示唆している．

以上の実験結果から，リアルタイム処理が可能なものの中で SSDと YOLOv3において最も APが高かっ

た 5層からなるベースネットワークの SSDと Tinyモデルかつ入力画像が 288× 288の YOLOv3(Tiny288)

を DTCの検出器として採用した．この２つのモデルで計数精度の評価を行う．

表 5.4 Pascal VOCにおける Average Precision

VOC 2007 test mAP aero bike bird boat bottle bus car cat chair cow table dog horse mbike person plant sheep sofa train tv

VGG-16 74.2 79.3 83.7 68.7 65.6 46.8 83.7 86.0 85.0 57.0 75.0 75.5 78.7 85.1 84.6 77.2 44.9 72.2 76.6 84.5 73.6

5層 56.2 64.1 66.7 42.2 41.3 21.4 69.0 73.4 69.9 35.7 53.2 54.7 62.3 73.5 68.7 61.8 25.2 55.5 58.0 70.2 57.3

Mobilenetv2 54.6 61.9 62.7 43.0 40.7 17.6 69.5 62.8 69.1 39.6 43.3 65.1 59.9 70.9 70.2 53.3 22.3 49.3 67.3 71.3 51.9

表 5.5 異なるベースネットワークの FPS(jetson tx2)

VGG-16Mobile v2 6層 5層 4層 3層 2層 v3(288)v3(416)v3(Tiny288)v3(tiny416)M2Det(VGG)

Jetson TX2 5.2 fps 11.2 fps 14.0 fps15.2 fps16.6 fps18.1 fps18.7 fps7.16 fps 5.2 fps 21.6 fps 18.7 fps 3.1 fps

32

表 5.6 異なるベースネットワークの FPS(Desktop)

VGG-16Mobile v2 6層 5層 4層 3層 2層 v3(288)v3(416)v3(Tiny288)v3(tiny416)M2Det(VGG)

GTX 1080 63.8 fps 91.8 fps 120.4 fps133.1 fps159.3 fps167.4 fps172.6 fps56.9 fps45.7 fps 167.0 fps 143.5 fps 31.2 fps

Detectionプロセスにおける最適な閾値 τc の選択

Detectionプロセスでゴミ袋を検出する際，BBの座標とともに検出した物体がゴミ袋である確率も出力す

る．Detectionプロセスでは，この確率が閾値 τc 以上である場合のみ，検出した物体をゴミ袋であるとで判定

し，その BBを Trackingプロセスへ送る．DTCにおけるゴミ袋計数の精度を最大化する最適な閾値 τc を探

索するため，異なる τc が計数の精度に与える影響を評価した．評価用動画 6つのうちから合計 30分間のゴミ

回収動画を用いて，以下のように行なった．

1. DTCが計数したゴミ袋の個数を記録．

2. 人が動画を見て計数した個数を記録．

3. 得られた数値をもとに，Recall，Precision，F-measureを算出．

Recall，Precision，F-measureをそれぞれ式 (5.1)-(5.3)に示す．Recallは全ての回収されたゴミ袋のうち，

DTCが正しく計数できたゴミ袋の個数の割合で，Precisionは DTCがゴミ袋として計数した個数のうち，実

際にゴミ袋であった個数の割合，F-measureは Recallと Precisionの調和平均である．ここで，TPは DTC

が正しく計数できたゴミ袋の個数，FNは DTCが見逃して計数できなかったゴミ袋の個数，FPは DTCが

ゴミ袋ではないものを誤ってゴミ袋として計数した個数である．例えば，DTCが 3つのゴミ袋を回収したと

推定した一方，人は 4つのゴミ袋が回収されたと推定したとき，TP = 3，FN = 1となる．

Recall =No. of TPs

No. of TPs + No. of FNs(5.1)

Precision =No. of TPs

No. of TPs + No. of FPs(5.2)

F −measure =2Recall × Precision

Recall + Precision(5.3)

上述した実験プロセスに従い，異なる τc において Recall，Precision，F-measureの指標に基づき，DTC

のゴミ袋の計数精度を評価した．この時，Trackingプロセスにおける閾値 τiou を 0に設定した．

この実験は Detectionのモデルが SSD(5層)かつ Trackingアルゴリズムが IoUの DTCアルゴリズムを使

用した．評価結果を表 5.7に示す．表 5.7より，τc が 0.05から 0.8に増加するにつれて，Precisionの値は

0.34から 0.90に増加するが，Recallは 0.68から 0.29に減少することがわかる．また，F-Measureは最初増

加し，次いで減少している．これらの結果は，閾値 τc を上げることで，ゴミ袋でないものを誤って計数する

ことを低減できる一方，同時にゴミ袋を正しく計数する精度を低下させること示す．実験結果に基づき，以後

の評価では F-Measureが最も高かった τc = 0.4を採用した．

33

Trackingプロセスにおける最適な閾値 τiou の選択

本節では，Trackingプロセスにおける IoUの閾値 τiou が DTCの計数精度に及ぼす影響を評価する．実験

のプロセスは閾値 τc を求めるプロセスと同様である．

表 5.8に，閾値 τiou が 0から 0.1まで変化するときの DTCの計数精度を示す．ここで，閾値は τc = 0.4

である．表 5.8から，τiou が増加すると，Recall，Precision，F-measureそれぞれ３つの評価指標は全て単

調に減少していくことがわかる．これは実験で使用している動画のフレームレートが 8FPSと低いことが原因

であると考えられる．動画のフレームレートが低いため，連続する 2つのフレーム間においてゴミ袋の移動距

離が大きくなり，ゴミ袋の重なる位置領域が小さくなる．そのため，閾値 τiou を高く設定すると τiou を満た

すことができず，Trackingに失敗する．したがって，τiou の増加によって３つ全ての指標が単調に減少して

いく結果となった．実験結果より，F-measureが最も高かった τiou = 0を選択した．

表 5.7 τiou = 0における異なる τc での DTCの計数精度．

τc 0.05 0.1 0.2 0.3 0.4 0.5 0.6 0.8

Recall 0.68 0.66 0.54 0.55 0.52 0.49 0.44 0.29

Precision 0.34 0.33 0.71 0.84 0.91 0.92 0.92 0.90

F-measure 0.45 0.44 0.61 0.66 0.66 0.64 0.60 0.44

表 5.8 τc = 0.4における異なる τiou での DTCの計数精度．

τiou 0 0.001 0.005 0.01 0.05 0.1

Recall 0.52 0.51 0.51 0.51 0.42 0.37

Precision 0.91 0.91 0.91 0.91 0.89 0.84

F-measure 0.66 0.65 0.65 0.65 0.58 0.52

異なる 6台の清掃車における計数精度評価

最後に，ドライブレコーダの設置位置や角度，作業員など変動要素が存在する環境における DTC の計数

精度を検証するため，6つの評価用動画全てを用いて実験を行なった．異なる清掃車の動画について Recall，

Precision，F-measure を算出することで，異なる環境下での影響を調べる．また，Iou と SORT，２つの

Trackingアルゴリズムの計数制度への影響を検証するため，本実験では，SSD(5層)-IoU，SSD(5層)-SORT，

YOLOv3(Tiny288)-IoU，YOLOv3(Tiny288)-SORTの４つの DTCアルゴリズムにおいて評価を行った．

実験結果を表 5.9，表 5.10，表 5.11，表 5.12，表 5.13と表 5.14にまとめる．閾値はそれぞれ τc = 0.4，

τiou = 0に設定した．表 5.13から，最も Recallが高いの DTCアルゴリズムは SSD(5層)-SORTであるこ

とがわかる．平均 Recall が 0.67 であることは清掃車が回収した全ゴミ袋のうち 71% を計数できた一方で，

29%を見逃して計数できなかったことを示している．また最も Precisionが高かったアルゴリズムは，SSD(5

層)-IoUであることがわかる．平均 Precisionが 0.82は，アルゴリズムがゴミ袋として計数したもののうち，

82%はゴミ袋で，18%はゴミ袋ではないものを誤ってゴミ袋として計数してしまったことを示している．最

も高い F-measureをもつ DTCアルゴリズムは SSD(5層)-SORTで，この亜 DTCアルゴリズムが最も精度

が良いアルゴリズムと言える．

34

どの DTC アルゴリズムでも清掃車 No.4 の３つの計数精度が他の清掃車と比較して低下している．特に，

表 5.14では No.4と No.1の清掃車では FPに 4倍の差があることがわかる．No.4の動画を調べてみると，

図 5.6のように，作業員がゴミ袋を押し込む時，帽子を連続的に誤ってゴミと計数していた．作業員が DTC

の安定性に影響を与える一方，ドライブレコーダの設置位置や角度の影響は見られなかった．

また Trackingにおける２つのアルゴリズムでは，IoUが Rescisionが高く、SORTでは Recallが高い傾向

があることが表 5.13からわかる．これは，IoUでは Trackingの失敗が多い一方誤った Trackingが少なく，

SORTでは Trackingの成功は多い一方，誤った Tackingが多いことを表していると考えられる．

ゴミ袋の検出評価実験では SSDよりも高い検出精度であった YOLOv3のモデルが，ゴミ袋の計数評価実

験ではいずれの指標でも SSDより低い数値となった．

表 5.9 SSD(5層)-IoU

Truck No.1 No.2 No.3 No.4 No.5 No. 6 Average

Recall 0.64 0.66 0.69 0.61 0.69 0.72 0.67

Precision 0.92 0.82 0.84 0.70 0.88 0.81 0.82

F-measure 0.76 0.73 0.76 0.65 0.77 0.76 0.74

表 5.10 SSD(5層)-Sort


Recall 0.72 0.68 0.71 0.68 0.72 0.77 0.71

Precision 0.81 0.68 0.70 0.59 0.75 0.69 0.70

F-measure 0.76 0.68 0.70 0.63 0.73 0.73 0.70

表 5.11 YOLOv3(Tiny288)-IOU


Recall 0.44 0.46 0.59 0.38 0.50 0.51 0.46

Precision 0.57 0.70 0.62 0.63 0.76 0.67 0.65

F-measure 0.50 0.56 0.55 0.48 0.60 0.58 0.54

表 5.12 YOLOv3(Tiny288)-SORT


Recall 0.54 0.54 0.55 0.49 0.56 0.52 0.53

Precision 0.51 0.57 0.54 0.54 0.60 0.58 0.55

F-measure 0.53 0.55 0.54 0.51 0.58 0.55 0.54

35

表 5.13 それぞれの DTCアルゴリズムの平均計数精度

Model YOLOv3(Tiny288)-IOU YOLOv3(Tiny288)-SORT SSD(5層)-IoU SSD(5層)-Sort

Recall(Average) 0.46 0.53 0.67 0.71

Precision(Average) 0.65 0.55 0.82 0.70

F-measure 0.54 0.54 0.74 0.70

表 5.14 異なる 6台の清掃車における DTCの TP，FN，FP(SSD-IOU)

Truck No.1 No.2 No.3 No.4 No.5 No. 6 Sum

TP 537 538 550 494 514 522 3155

FN 300 277 245 311 235 201 1569

FP 44 121 103 214 70 126 678

図 5.6 作業員の帽子を誤って計数した例．

36

図 5.7 左の画像ではフレーム間でのゴミ袋の移動距離が小さいため計数に成功している一方，右の画像で

は移動距離が大きいため失敗している．

37

第 6章

結論

本章では，実験で得られた結果の考察と今後の課題を述べる．

38

6.1 考察と今後の課題

計数の Recall低下の大きな要因として，ゴミ回収動画の FPSが 8FPSと低いことが挙げられる．FPSが

低いためフレーム間でのゴミ袋の画面内における移動距離が大きくなる．そのため，図 5.7(左)のように，フ

レーム間でのゴミ袋の移動距離が小さいと領域の重なりが大きくなり，閾値 τiou を満たし，ゴミ袋を計数で

きる．一方で，図 5.7(右) のように，フレーム間でのゴミ袋の移動距離が大きいと領域が全く重ならず，閾

値 τiou を満たせず，Detectionプロセスでゴミ袋の検出は正しくできていても Trackingできず，計数に失敗

する．そのため，動画の FPSを増加することで Recallを改善できる．その一方，動画の FPSを増加させる

ことで，処理速度の面で新たな課題となる．本研究で最も計数精度が高かった DTC アルゴリズムの SSD(5

層)-IoUの Jetson tx2での処理速度は 15.2FPSである．よって，今後動画の FPSを約 15FPSに増加させ，

DTCアルゴリズムの評価実験を検討する．そのため，今後行う清掃車への搭載実験で，DTCアルゴリズム

を停止してゴミ袋の回収動画を撮影する kとを検討する．DTCアルゴリズムが動作した状態では 10FPS前

後だったが，停止させることで搭載されたカメラの上限 FPSで撮影することが可能となる．そのようにして

撮影された動画を用いて上述の FPSの増減による計数精度への影響を調査する．

本研究では，IoUと SORT，２つの Trackingアルゴリズムを用いた．Trackingアルゴリズムでは深層学習

を用いた DeepSORT [34] が提案されている．Detection プロセスが出力したゴミ袋の位置情報だけでなく，

位置情報に加え深層学習による画像の特徴量を利用することで Tracking 精度の改善が図れると考えられる．

そのため，今後 Trackingアルゴリズムに DeepSORTを用いることを検討する．

Precision低下の要因は，図 6.1に示すように，Detectionプロセスにおいて，ゴミ袋と似た特徴を持つ物

体を誤って検出してしまうためである．特に図 5.6の誤った計数の例では，ゴミ袋を押し込む時，作業員の帽

子が計数判定線である CBを前後するため，連続的な誤った計数が引き起こされた．これは，帽子などを新し

いクラスとして分類し検出することで低減できると考えられる．

今後実用化するためには精度の改善が求められる．今回の実験では，作業員の帽子を除き環境的差異の影響

は見られなかった．つまり，帽子が要因となるもの以外，FNと FPは一様に分布して発生すると考えられる．

したがって，帽子をクラス分類し，藤沢市全体のゴミ排出量データと比較することで，実用可能な各地点のゴ

ミ排出量データの推定が可能になると考える．そのための具体的な目標として，Recallと Precisionそれぞれ

0.80，0.90を目指し改善していく．

今回は可燃ゴミ 1 クラスと比較的簡単な物体検出タスクであったため，ある一定以上の深さを持つベース

ネットワークにおいてはその深浅によって検出精度の指標である APに差がそれ程無かった．一方， Pascal

VOCのように多クラスの物体検出タスクだと，深浅によって大きく差が表れた．そのため，可燃ゴミだけでな

く不燃ゴミやプラスチックなど多種類のゴミ袋を検出するには，Cascade R-CNN [43]や RefineDet [29]，[44]

などのように今回用いた Detectionモデルより検出精度が高い物体検出手法が求められる．一方，これらは今

回用いたモデルと比較し処理速度の面で劣るため，より DTC アルゴリズム全体の処理速度高速化が求めら

れる．

また清掃車に搭載可能なGPU搭載の組み込みコンピュータでは，今回用いた Jetson tx2より高速な処理を

行える Jetson xavierが登場している．ハードウェアを向上させることで，より計算処理がかかる Detection

モデルや Trackingアルゴリズムを使用可能となり，多様な DTCアルゴリズムを構築することが可能となる．

図 6.1aや図 6.1cのように，影や太陽光など，明度が精度に影響を与える事例がみられた．今回学習した

データセットは晴れのみであるため，学習したデータセットと明度が異なる曇りや雨，夜間など暗い環境下で

39

は，精度の低下が考えられる．そのため，異なる環境のデータセット作成と，明度が精度にもたらす影響の検

証実験を検討する．

今後はこれらの点を改善していくとともに，DeepCounterによって得られたゴミの排出量データを可視化

し住民へフィードバックするアプリケーションの開発を検討している．また，排出量データを分析し，何時何

処でゴミの排出量が増減するのか，つまり時空間的なゴミ排出量変化の傾向を明らかにし，清掃車のルート最

適化など，効率的都市の実現に役立つ手法を検討する．回収作業員の方に話を伺ったところ，ゴミ袋の大きさ

の分類や重さの測定ができると助かるといった意見があった．そのため，今後ゴミ袋の大きさを分類する手法

と，大きさからゴミ袋の重さを推定する手法の開発も検討する．

6.2 結論

深層学習による物体検出技術と清掃車に搭載可能な組み込みシステムを組み合わせることで，回収したゴミ

袋の個数をセンシングするシステム，DeepCounter を提案した．DTC アルゴリズムを実装し，ゴミ回収動

画を用いて評価実験を行なった．実験では，システムの有効性が示された一方，実用的なシステムとして用

いるには，考察で述べた問題点を改善する必要がある．今後，考察で述べた問題点を改善していくとともに，

DeepCounterによって得られたゴミ排出量データを実際に利活用していく方法を検討する．本研究の提案手

法によって得られるデータを利活用することで，清掃車のルート最適化や排出量削減のための啓蒙など，様々

な行政施策に寄与する事が期待される．

40

(a) 影がかかった足場．

(b) 白線．

(c) 太陽光が反射したマンフォール.

図 6.1 誤って異なる物体をゴミ袋として計数した例．

41

謝辞

本研究の一部は森基金の助成を受けたものである．

42

参考文献

[1] The World Bank. What a Waste 2.0 : A Global Snapshot of Solid Waste Management to 2050.

https://openknowledge.worldbank.org/handle/10986/30317.

[2] 環境省. 一般廃棄物の排出及び処理状況等（平成 27年度）について. https://www.env.go.jp/press/

103839.html.

[3] Kitagawa Amagasa Data Engineering Laboratory, Tsukuba University. Gomi G1 Grand Prix. http:

//bigdata.kde.cs.tsukuba.ac.jp/~g1gp/index.html.

[4] Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott Reed, Cheng-Yang Fu, and

Alexander C Berg. Ssd: Single shot multibox detector. In European conference on computer vision,

pp. 21–37. Springer, 2016.

[5] Zhong-Qiu Zhao, Peng Zheng, Shou-tao Xu, and Xindong Wu. Object detection with deep learning:

A review. arXiv preprint arXiv:1807.05511, 2018.

[6] 中澤仁, 陳寅, 米澤拓郎, 大越匡, 徳田英幸. ユニバーサルセンサネットワークと清掃車を活用した藤沢市

のスマート化. デジタルプラクティス, Vol. 8, No. 3, pp. 244–252, jul 2017.

[7] S. Rezaei and R. Sengupta. Kalman filter-based integration of dgps and vehicle sensors for local-

ization. IEEE Transactions on Control Systems Technology, Vol. 15, No. 6, pp. 1080–1088, Nov

2007.

[8] S. Fujii, A. Fujita, T. Umedu, S. Kaneda, H. Yamaguchi, T. Higashino, and M. Takai. Cooperative

vehicle positioning via v2v communications and onboard sensors. In 2011 IEEE Vehicular Technology

Conference (VTC Fall), pp. 1–5, 2011.

[9] Jakob Eriksson, Lewis Girod, Bret Hull, Ryan Newton, Samuel Madden, and Hari Balakrishnan.

The pothole patrol: Using a mobile sensor network for road surface monitoring. In Proceedings of

the 6th International Conference on Mobile Systems, Applications, and Services, MobiSys ’08, pp.

29–39, New York, NY, USA, 2008. ACM.

[10] M. Kawano, K. Mikami, S. Yokoyama, T. Yonezawa, and J. Nakazawa. Road marking blur detection

with drive recorder. In 2017 IEEE International Conference on Big Data, pp. 4092–4097, Dec 2017.

[11] David Hasenfratz, Olga Saukh, Christoph Walser, Christoph Hueglin, Martin Fierz, and Lothar

Thiele. Revealing the limits of spatio-temporal high-resolution pollution maps. In Proceedings of

the 11th ACM Conference on Embedded Networked Sensor Systems, SenSys ’13, pp. 28:1–28:2, New

York, NY, USA, 2013. ACM.

[12] Yin Chen, Jin Nakazawa, Takuro Yonezawa, Takafumi Kawasaki, and Hideyuki Tokuda. An empir-

ical study on coverage-ensured automotive sensing using door-to-door garbage collecting trucks. In

43

Proceedings of the 2Nd International Workshop on Smart, SmartCities ’16, pp. 6:1–6:6, New York,

NY, USA, 2016. ACM.

[13] Yasue Kishino, Yoshinari Shirai, Koh Takeuchi, Futoshi Naya, Naonori Ueda, Yin Chen, Takuro

Yonezawa, and Jin Nakazawa. Detecting garbage collection duration using motion sensors mounted

on garbage trucks toward smartwaste management. In SPWID 2017 : The Third International

Conference on Smart Portable, Wearable, Implantable and Disability-oriented Devices and Systems,

2017.

[14] Yin Chen, Takuro Yonezawa, Jin Nakazawa, and Hideyuki Tokuda. Evaluating the Spatio-temporal

Coverage of Automotive Sensing for Smart Cities. In the Tenth International Conference on Mobile

Computing and Ubiquitous Networking (ICMU 2017), October 2017.

[15] R. Du, C. Chen, B. Yang, N. Lu, X. Guan, and X. Shen. Effective urban traffic monitoring by

vehicular sensor networks. IEEE Transactions on Vehicular Technology, Vol. 64, No. 1, pp. 273–

286, Jan 2015.

[16] Paul Viola and Michael Jones. Rapid object detection using a boosted cascade of simple features.

In Computer Vision and Pattern Recognition, 2001. CVPR 2001. Proceedings of the 2001 IEEE

Computer Society Conference on, Vol. 1, pp. I–I. IEEE, 2001.

[17] Navneet Dalal and Bill Triggs. Histograms of oriented gradients for human detection. In Computer

Vision and Pattern Recognition, 2005. CVPR 2005. IEEE Computer Society Conference on, Vol. 1,

pp. 886–893. IEEE, 2005.

[18] M. Everingham, L. Van Gool, C. K. I. Williams, J. Winn, and A. Zisserman. The PASCAL Visual

Object Classes Challenge 2012 (VOC2012) Results.

[19] Jasper RR Uijlings, Koen EA Van De Sande, Theo Gevers, and Arnold WM Smeulders. Selective

search for object recognition. International journal of computer vision, Vol. 104, No. 2, pp. 154–171,

2013.

[20] Ross Girshick, Jeff Donahue, Trevor Darrell, and Jitendra Malik. Rich feature hierarchies for accu-

rate object detection and semantic segmentation. In Proceedings of the IEEE conference on computer

vision and pattern recognition, pp. 580–587, 2014.

[21] Ross Girshick. Fast r-cnn. In Proceedings of the IEEE international conference on computer vision,

pp. 1440–1448, 2015.

[22] Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun. Faster r-cnn: Towards real-time object

detection with region proposal networks. In Advances in neural information processing systems, pp.

91–99, 2015.

[23] Joseph Redmon, Santosh Divvala, Ross Girshick, and Ali Farhadi. You only look once: Unified,

real-time object detection. In Proceedings of the IEEE Conference on Computer Vision and Pattern

Recognition, pp. 779–788, 2016.

[24] Dumitru Erhan, Christian Szegedy, Alexander Toshev, and Dragomir Anguelov. Scalable object

detection using deep neural networks. In Proceedings of the IEEE Conference on Computer Vision

and Pattern Recognition, pp. 2147–2154, 2014.

[25] Joseph Redmon and Ali Farhadi. Yolo9000: Better, faster, stronger. arXiv preprint

arXiv:1612.08242, 2016.

44

[26] Joseph Redmon and Ali Farhadi. Yolov3: An incremental improvement. arXiv, 2018.

[27] Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He, and Piotr Dollar. Focal loss for dense object

detection. arXiv preprint arXiv:1708.02002, 2017.

[28] Cheng-Yang Fu, Wei Liu, Ananth Ranga, Ambrish Tyagi, and Alexander C Berg. Dssd: Deconvo-

lutional single shot detector. arXiv preprint arXiv:1701.06659, 2017.

[29] Shifeng Zhang, Longyin Wen, Xiao Bian, Zhen Lei, and Stan Z Li. Single-shot refinement neural

network for object detection. In Proceedings of the IEEE Conference on Computer Vision and

Pattern Recognition, pp. 4203–4212, 2018.

[30] Qijie Zhao, Tao Sheng, Yongtao Wang, Zhi Tang, Ying Chen, Ling Cai, and Haibing Lin. M2det:

A single-shot object detector based on multi-level feature pyramid network. In The Thirty-Third

AAAI Conference on Artificial Intelligence,AAAI, 2019.

[31] K. Simonyan and A. Zisserman. Very Deep Convolutional Networks for Large-Scale Image Recog-

nition. ArXiv e-prints, September 2014.

[32] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recogni-

tion. In Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 770–778,

2016.

[33] Keinosuke Fukunaga and Larry D. Hostetler. The Estimation of the Gradient of a Density Function,

with Applications in Pattern Recognition. IEEE Transactions on Information Theory, Vol. 21, No. 1,

pp. 32–40, 1975.

[34] Nicolai Wojke, Alex Bewley, and Dietrich Paulus. Simple online and realtime tracking with a deep

association metric. In 2017 IEEE International Conference on Image Processing (ICIP), pp. 3645–

3649. IEEE, 2017.

[35] Harold W Kuhn. The hungarian method for the assignment problem. Naval research logistics

quarterly, Vol. 2, No. 1-2, pp. 83–97, 1955.

[36] Rudolph Emil Kalman. A new approach to linear filtering and prediction problems. 1960.

[37] Alex Bewley, Zongyuan Ge, Lionel Ott, Fabio Ramos, and Ben Upcroft. Simple online and realtime

tracking. In 2016 IEEE International Conference on Image Processing (ICIP), pp. 3464–3468. IEEE,

2016.

[38] Mark Sandler, Andrew Howard, Menglong Zhu, Andrey Zhmoginov, and Liang-Chieh Chen. Mo-

bilenetv2: Inverted residuals and linear bottlenecks. In Proceedings of the IEEE Conference on

Computer Vision and Pattern Recognition, pp. 4510–4520, 2018.

[39] Sergey Ioffe and Christian Szegedy. Batch normalization: Accelerating deep network training by

reducing internal covariate shift. arXiv preprint arXiv:1502.03167, 2015.

[40] Vinod Nair and Geoffrey E Hinton. Rectified linear units improve restricted boltzmann machines.

In Proceedings of the 27th international conference on machine learning (ICML-10), pp. 807–814,

2010.

[41] Andrew G Howard, Menglong Zhu, Bo Chen, Dmitry Kalenichenko, Weijun Wang, Tobias Weyand,

Marco Andreetto, and Hartwig Adam. Mobilenets: Efficient convolutional neural networks for

mobile vision applications. arXiv preprint arXiv:1704.04861, 2017.

[42] Xavier Glorot and Yoshua Bengio. Understanding the difficulty of training deep feedforward neural

45

networks. In Proceedings of the thirteenth international conference on artificial intelligence and

statistics, pp. 249–256, 2010.

[43] Zhaowei Cai and Nuno Vasconcelos. Cascade r-cnn: High quality object detection and instance

segmentation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019.

[44] Mingxing Tan, Ruoming Pang, and Quoc V Le. Efficientdet: Scalable and efficient object detection.

arXiv preprint arXiv:1911.09070, 2019.

46

Documents

細粒度ゴミ排出量収集手法の研究1.1 研究背景 人が生活を営む上でゴミは発生する．そのため，ゴミ回収業務は都市において重要な公共サービスの1つと

細粒度ゴミ排出量収集手法の研究1.1 研究背景人が生活を営む上でゴミは発生する．そのため，ゴミ回収業務は都市において重要な公共サービスの1つと