適時開示情報の業績に対するリスク有無の自動判定こちらは弊社で取り組んでいるテキストマイニングの活用事例になります。以下より論文を入手できます。 >>適時開示情報の業績に対するリスク有無の自動判定
弊社の代表が共同著者となっています。
コロナ鍋や、日本の少子高齢化のため、年金を受け取ることが出来ないのではないかといった将来に向けた心配から、近年個人投資家の数が増加してきています。投資をする上で、投資を検討しようとしている企業及び、既に投資をしている企業についての情報を知ることはとても重要になってきます。
重要な会社情報を上場企業が開示しないといけないということを、適時開示情報と呼びます。
適時開示情報の中には、上場企業の株価に影響を与える可能性の情報もあります。業績に関連する情報は、株価への影響を大きく与えます。
適時開示情報は、常に更新し続けるため、すべてを閲覧することはとても難しく、業績に関連する情報のみを選ぶのも難しくなっています。
テキストマイニングの手法を用いて、投資家に、リスクの有無を判定をすることで、投資において有利になることを目標とします。
◆提案手法
実際にどのように、リスクの有無を判定するのかを段階に分けて紹介していきます。
◆手法概要 ① 適時開示情報の中から業績にリスクがあると考えられる情報を人手で抽出して、学習データを作成します。 その学習データを後述のワードリスト(表1)に示す語により分類します。
②学習データ・テストデータを適時開示情報の文書ごとに Doc2Vecと呼ばれるものによりベクトル化します。
③深層学習におけるモデルの最適な中間層や batch を決定します。
④Chainer を用いて学習データを用いて学習を行い,Chainer のモデルを作成します。
⑤作成されたモデルに基づき,リスクがある文書をリスクあり,リスクなしに分類し,さらに,リスクありと判定された文書を,その内容に基づいて分類します。
◆使用するデータ 学習データには 2017 年の適時開示情報を使用し,テストデータには 2016 年の適時開示情報を使用します。
①学習データの作成方法として、下記に含まれる単語を含む文章を「リスク有り」とし、含まれない単語を「リスク無し」とします。
表1 災害, 紛争, テロ, 地震, 風水害, 疫病, パンデミック, 国際紛争, 訴訟, 法改正, 知的財産侵害, 事件, 事故, 不正, 金融犯罪, コンダクトリスク,(以下略 全99個)
②「リスク有り」と分類したものを、「特別損失」、「違反」、「その他」の3種類に分類する。「その他」には「火災」、「訴訟」、「損害」といった情報を含みます。 分類は下記に示されている語とラベル名に基づいて分類をします。
ラベル名 含まれている語(一部) 特別損失 特別損失,減損損失 違反 違反,不正 その他 災害,紛争,訴訟 リスクなし /
◆深層学習に使用するモデル 深層学習について詳しく知りたい方はこちらをご覧ください。 深層学習について説明します!
①epoch を 30 として中間層 X のユニット数を変化させて,テストデータにおける精度を比較します。
②最適な中間層 X におけるユニット数を中間層に使用します。
③batch の値を変化させて,テストデータにおける精度を比較します。
④最適な batch の値を使用します。
◆評価 ラベル 精度 特別損失 95.2% 違反 88.2% その他 74.7% リスクなし 89.4% 全体 87.4%
最も低い精度であったラベルは「その他」で 74.7%,最も高い精度であったラベルは「特別損失」で 95.2%でありました。これは,「特別損失」の文書の特徴は掴めているが,「その他」は特徴が掴みづらかったと言えます。
◆リスク有無判定-まとめ
リスクのあり、無しの判断間違えは、1番の問題です。リスクを無しを判断して、投資してしまった結果、大損をしてしまうということに繋がってしまったり、リスク有りと判断をして、投資することを見逃して、一攫千金のチャンスを逃してしまったりするかもしれません。
今回の深層学習を用いた手法では、「リスクのあり」、「リスクのなし」の判断の有無は89.4%ととても精度の高いものとなっています。
リスクありの単語が含まれていなくても、学習することで、類義語が含まれてると判断しリスクありと判断することもできています。
また、適時開示情報を「特別損失」「違反」「その他」「リスクなし」の4種類に分類をする精度は87.4%となっています。
実際には、リスク有りと判断されたものが、他の企業に及ぼすリスクについても考える必要があります。したがって、取引関係や資本関係のある会社との関連性についても考える必要があります。