スパースモデリングは、医療などのイメージセンシングの分野(例えばMRIなどの高解像度化)で20年近く前から使われてきた手法です。最近では「ブラックホールの姿を捉えた手法」の一部ということで耳にした人も多いのではないでしょうか。今回はそんなスパースモデリングについて説明していきます。

スパースモデリングとは

近年、ビッグデータや機械学習といったワードがよく話題になりますが、実際のビジネスではデータばかり抱えてそれを利用することができないケースがあります。データを目的に合わせて有効に使うには、データにはどんな法則性があって、どの情報が重要であるのかを取捨選択しながら見極めなければいけません。

そこで、スパースモデリングが「データが持つスパース性を利用して本質的な情報のみでデータを表現する技術」として注目されています。

スパースとは「疎」という意味で、「一見複雑そうな事柄であっても、本質的に重要な情報は少数で、大部分が0である」という性質のことを指します。
スパース性を仮定することによって、どの要素が必要でどの要素が不必要なのか、自動的に判別しながらデータをうまく説明するための入力を抽出することができます。逆に言えば、重要でないと判断した要素を切り捨て、残った重要な要素のみで学習を実施するのがスパースモデリングです。

また、スパースモデリングはデータを理解するための分析技術としても用いられています。少ないデータで情報を表現し、またその出力した情報を人間が理解しやすい形にすることで、情報の本質を得ることができるのです。

Lassoとは

先ほど、重要でないと判断した要素を切り捨て、残った重要な要素のみで学習を実施するのがスパースモデリングであると述べました。このパラメータ(データの種類)の選択と推定を自動化したのがLasso(least absolute shrinkage and selection operator)と呼ばれるスパースモデリングの代表的な手法です。これはL1正則化法とも言われ、スパース性を持つため必要ないとされた変数選択と推定を同時に行うことができる効果があります。

さらに、Lassoにはモデルの過学習を抑える効果があります。過学習とは、訓練誤差は小さいにもかかわらず、汎化誤差(未知のデータを判定したときの誤差)が小さくならない状態です。つまり、教師データばかりに忠実になり、実際は現実とかけ離れている状態と言えます。Lassoでは、正則化項というペナルティを加えることにより、制約が加わった中で誤差を最小とする制約付き最小化問題を解くことになります。すると、多くの特徴量の中からより少ない特徴量で元の事象を表現すし、過学習を抑えることができるのです。

スパース性の活用例

スパースモデリングの活用例をいくつかご紹介します。

  • 圧縮センシング

スパース性に関連した考え方の応用例で最近とりわけ注目されているものの一つに、圧縮センシングがあります。MRIへの活用が、その分かりやすい例として挙げられます。圧縮センシングの背景にある重要な考え方は、画像、音声、映像のような、実生活における信号の大多数は、スパース性を使って上手く近似できる、ということです。これにより、少ないセンシングデータから高解像度画像を得ることが可能になりました。

  • 製造データから、不良要因を同定する

近年、多くの工場では、製造ビッグデータの活用により製品不良の要因を特定して生産性向上が目指されています。しかし、サンプリング検査などでデータに多くのエラーが含まれると、要因解析が計算量・精度の両面で困難になる場合があります。また、欠陥品の例が極端に少なく、不良品特定に十分なデータが得られないケースもあるそうです。そこでスパースモデリングの技術を用いることにより、測定誤差を削減することができます。研究によると、多くの欠損を含んでいても不良要因の同定が可能となり、製造現場の生産性、信頼性の向上が期待できるそうです。このようにスパースモデリングは、外観検査や異常検知など、産業用、工業用への活用も求められています。