調査・研究

ホーム > 調査・研究 > ワーキングペーパー・日銀レビュー・日銀リサーチラボ > 日銀リサーチラボ・シリーズ > (リサーチラボ)景況感は何に基づき形成されるのか:テキスト分析で探る景気ウォッチャーの着目点

景況感は何に基づき形成されるのか:テキスト分析で探る景気ウォッチャーの着目点 三上朝晃、山縣広晃、中島上智(日本銀行)

Research LAB No. 21-J-2, 2021年12月20日

キーワード:
ビッグデータ、テキスト分析、景気ウォッチャー調査、共起ネットワーク図
JEL分類番号は省略
Contact
jouchi.nakajima@boj.or.jp (中島上智)

要旨

内閣府が実施する景気ウォッチャー調査では、毎月、景気判断のDIに加え、調査回答者(景気ウォッチャー)が景気判断の際に着目したポイントを示すコメント集を公表している。本稿では、このコメント集を題材として、最近注目されているテキスト分析手法の景気分析への活用例を紹介する。具体的には、岡崎・敦賀(2015)[PDF 600KB]大高・菅(2018)[PDF 3,641KB]が提案した、コメント集から景気ウォッチャーの景気認識の背景を探る、共起ネットワーク図という手法を解説する。共起ネットワーク図からは、2021年半ば時点で、景気ウォッチャーは、(1)新型コロナウイルス感染症に関連した緊急事態宣言や営業制限、(2)ワクチン接種の進捗状況、(3)自動車生産における半導体不足、などに着目して景気の現状を判断していたことが窺われる。本分析が示すように、テキストという「ビッグデータ」は、経済・物価情勢を分析していくうえで有用であり、今後、分析手法を磨いていくことが重要である。

1.はじめに

近年、経済・物価情勢の分析において、取引データ等の高粒度・高頻度データ、スマートフォン等から捉えた位置情報データ、更には、定型的な数字以外の情報データなど、新たなデータの活用が進んでいる。これらのデータは、従来の統計等とは性質が異なるという意味で「オルタナティブデータ」、あるいは情報量が膨大であるという意味で「ビッグデータ」と呼ばれる。ビッグデータの多くは、必ずしも経済分析を目的に元データが収集されたわけではなく、内容の解釈が難しい場合もあるが、経済・物価情勢をより早いタイミングで把握したり、従来の統計とは異なる角度から捉えたりするために必要な情報を含んでいる可能性があり、その利活用が模索されている。

こうしたビッグデータ分析の一つとして、近年、注目されているのが、従来の数値データではなく、我々が使う言葉をデータとして用いるテキスト分析である。テキスト分析の考え方自体は長い歴史があるが、近年、情報技術の発展によりテキストデータの収集や分析が容易になったことなどから、研究が急速に進展している(図1)。

図1.Google Scholar:「Text analysis」を含む論文数の推移

  • Google ScholarでText analysisという言葉を含む論文数の推移。グラフでは2000年から2020年までの推移が示されており、年々、増加傾向にあることが分かる。

本稿では、こうしたテキスト分析の例として、景気ウォッチャー調査を用いた分析を紹介する。

景気ウォッチャー調査は、内閣府が2000年1月から毎月実施している調査であり、企業の経営者やスーパーの店員など、景気動向を敏感に把握できると考えられる調査回答者(景気ウォッチャー)が、現在の景気の状況や数か月先の見込みを5段階評価で回答したものである。回答者の地域分布をみると、北海道から沖縄まで日本全国をカバーしている。また、回答者の約7割が家計動向関連の業種に属しており、消費者との距離が比較的近い業種に従事する回答者が多いのが同調査の特徴である。さらに、毎月下旬に調査が行われ、翌月の上旬頃には結果が公表されるため、速報性が高い。回答値を集計した景況感(景気の現状判断、先行き判断)のDIは、景気変動を捉えるマクロ経済指標と相応の連動性を示すため、リアルタイムの景気判断に有用な指標とされている。

同調査では、回答値がDIとして集計されることに加え、各景気ウォッチャーが回答する際に着目したポイントが「景気判断理由集(コメント集)」として公表されている点も大きな特徴の一つである(表1)。大高・菅(2018)で指摘されているとおり、このコメント集のテキストは、ほぼ全てが経済・物価情勢に関連したコメントであるため、テキスト分析の対象としては、経済関連以外のテキストも多く含まれている新聞記事やSNSのテキストデータよりもノイズが少ない。また、回答者間の表記ゆれ(言い回しの違い)が補正された形で公表されており、通常のテキスト分析に必要な補正作業を省くことができる点も、今回のようなテキスト分析に適している。コメント集は、毎月、約10万の単語におよび、テキストベースの「ビッグデータ」と言える。

表1.景気ウォッチャー調査:「景気判断理由集」のコメント例
景気の現状判断 業種・職種 コメント
やや良くなっている スーパー(店長) 客単価の前年割れは続いているものの、来客数の動きに回復がみられている。
変わらない 職業安定所(職員) 求人数が前年に比べ減少傾向にあるものの、なかなか充足せず、依然として介護や建設分野では人手不足感がある。

岡崎・敦賀(2015)や大高・菅(2018)は、このコメント集に様々なテキスト分析手法を適用し、経済・物価情勢を把握することを試みた 1。以下では、最初に、ごく簡単な手法を用いて、コメント集のテキストデータとしての有用性を確認する。次に、上記の先行研究で、景況感の背景を窺うために用いられた「共起ネットワーク図」の概念を解説し、実際の共起ネットワーク図をみながら、新型コロナ感染症拡大下において、景気ウォッチャーが景況感を形成するうえで、どのような点に着目していたかを探ることとする。

  1. 1このほか、景気ウォッチャー調査のコメント集をテキストデータとして分析した研究として、山澤(2018)、五島ほか(2019)、Goshima et al.(2021)、生田ほか(2020)、中島ほか(2021)等がある。

2.特定単語の使用頻度からみた景気ウォッチャーの着目点

まず、近年の景気ウォッチャー調査でみた景況感(景気の現状判断、先行き判断)のDIを確認する(図2)。これをみると、2020年春先に、感染症の拡大から急低下した後、現状・先行きのいずれの判断も、過去と比べ、大幅に変動している。感染症の状況が刻一刻と変化するもとで、景気ウォッチャーの景況感も、その時々の情勢に応じて大きく変化したことが窺われる。

図2.景気ウォッチャー調査:景気の現状判断DI・先行き判断DI

  • 景気ウォッチャー調査のDIの動きを折れ線グラフで示している。詳細は本文のとおり。

こうした景気ウォッチャーの判断の背景は、コメント集からどのように探ることができるであろうか。テキストデータを分析するうえで、基本的な手段は、特定の単語の使用頻度をみることである。例えば、感染症の帰趨に強く関連すると思われる「ワクチン」という単語を含むコメントの数が全コメント数に占める割合をみると、2021年入り後、「先行き判断」での言及が急速に増加しており、6月には「現状判断」でも言及が増加した(図3(1))。このことは、ワクチン普及への期待が次第に強まり、また実際に接種が進捗するもとで、経済の現状への影響も徐々に表れてきたことを示唆している。

一方、「倒産」という単語を含むコメント数の割合は、2020年の感染症拡大の初期局面で大きく上昇したが、その後は低水準にとどまっている(図3(2))。このことは、政府・日本銀行による資金繰り支援策の拡充や景気の底打ちを受けて、感染症拡大の早い段階で、資金繰り不安の高まりに一定の歯止めがかかったことを示唆している。

図3.景気ウォッチャー調査:特定単語を含むコメントの割合

  • 特定単語を含むコメントの割合を折れ線グラフで示している。詳細は本文のとおり。

3.共起ネットワーク図の考え方:単語間の関係性の客観的な把握

このように、単純に特定の単語の使用頻度をみるだけでも、コメント集というテキストデータは、景況感の背景を探るうえで有用であることがわかる。

もっとも、こうした単純な手法には、自ずと限界がある。使用頻度を測るための用語の選定は恣意的にならざるを得ないし、同じ単語でも、局面に応じて意味合いが変わってくる可能性もある。例えば、上述の「ワクチン」という単語についても、「接種が遅い」という文脈で使われるのか、「普及が進展した」という文脈で使われるかで、意味合いは反対となりかねない。

岡崎・敦賀(2015)や大高・菅(2018)は、こうした問題点を克服するために、コメント集に、「共起ネットワーク図」の手法を適用することを提案した。ここで、「共起」とは、2つの単語が同じ文脈で使われることを意味する。例えば、「ワクチン」と「来客」という単語が同じコメント内で使われる頻度が高ければ、「ワクチン」と「来客」の共起関係は強いと考える。一定の手法に基づき、様々な単語間の共起関係を図として可視化することで、それぞれの単語がどのような文脈で用いられ、景気ウォッチャーがどのような点に着目して景況感を形成したのかを把握することが可能になると考えられる(図4)。

図4.共起ネットワーク図の概要

  • コメント集から共起ネットワーク図を作成する過程を概念図で示している。詳細は本文のとおり。

具体的に、共起ネットワーク図を作成するためには、以下の3つのステップを踏む。

ステップ1:重要性の高い単語を各月のコメント集から抽出
最初に必要となるのが、各月で、多く言及されている重要性の高い単語を抽出することである。この際、重要性を捉える手段として、Dice(ダイス)係数という指標を用いている。Dice係数は、過去の同月に比べて当月の使用数が多ければ高くなるように定義される 2。ここで、過去の同月対比で使用頻度を計測しているのは、コメント集で用いられる単語の中には、季節性があるものも含まれるためである。例えば、夏場と比べ、12月に「クリスマス」という単語の使用頻度が高まるのは当然である。ある年の12月に、真に「クリスマス」という単語が重要であったかを判断するためには、過去の12月対比で言及が増えているかどうかを見なければならない。本稿では、Dice係数を基準として、毎月100単語を重要な単語として抽出している 3
ステップ2:重要性の高い単語間の共起関係の計測
次のステップでは、この抽出した100単語が1つでも含まれるコメントを対象に、単語間の共起関係を計測する。共起性を図るために用いているのが、Jaccard係数という指標である。単語Xと単語YのJaccard係数は、「XとYが同時に使用される頻度」を「XまたはYが使用される頻度」で割った値と定義され、同時に使用される頻度が高い(共起関係が強い)ほど、Jaccard係数は大きくなる 4
ステップ3:共起ネットワークの図示
最後に、Jaccard係数に基づき、一定以上の共起関係をもつ単語を取り出して、ネットワーク図を描く。具体的な図の見方については、次節で、感染症拡大下での事例を用いて説明する 5
  1. 2詳しくは、大高・菅(2018)を参照。
  2. 3テクニカルであるが、日本語では、文章を言語的に意味がある最小の単語(形態素と呼ばれる)へと分解することも簡単ではない。例えば、ワクチンという言葉が出てきた場合、「ワ」や「ワク」、「ワクチ」ではなく、「ワクチン」という単語として認識する必要がある。こうした日本語の形態素解析のために、いくつかの手法が開発されている。
  3. 4「使用される頻度」は、一文中において使用されるかどうかを基準として計算した。
  4. 5本稿では、テキスト分析用のソフトウェアである「KH Coder」を用いて、共起ネットワーク図を描画した。

4.共起ネットワーク図からみた景気ウォッチャーの着目点

図5は、実際に、2021年6月の景気の「現状判断」のコメント集から作成した共起ネットワーク図である。

まず、各単語が記載されている円の大きさは、Dice係数でみた使用頻度を表している。すなわち、その単語が多く言及されるほど、大きい円となっている。次に、円と円を結び付ける線の太さは共起関係の強さを表している。太い線ほど、Jaccard係数が高く、同じ文脈で使われる頻度が高いことを表している 6

実際に、各単語の円の大きさをみると、「新型コロナウイルス」や「緊急」「事態」「宣言」といった単語が大きく目立っているほか、「来客」という単語も頻繁に言及されている。

図5.2021年6月の共起ネットワーク図(現状判断)

  • 共起ネットワーク図が描かれている。詳細は本文のとおり。

次に、単語間の共起関係をみると、「A」の単語群では、「新型コロナウイルス」に関連して、「緊急」「事態」「宣言」や「まん延」「防止」「重点」「措置」が言及されている。これらは、「来客」という大きな円と強くつながっており、更に、「来客」は「少ない」という言葉に結びついている。また、これらの単語は、「飲食店」の「時短」「要請」や「酒類」「提供」「制限」にもつながっている。これらからは、同時期に、感染症の拡大に伴い公衆衛生上の措置が再強化されたことにより、飲食店を中心に来客数の減少につながったことが、景気の現状判断の評価に影響を及ぼしたと推測される。「B」の単語群では、「ワクチン」「接種」に関する話題の言及がみられる。これらは、「今後」や「期待」という単語とも結びついており、ワクチン接種の進展への期待が、景気の現状判断にも何某か影響を及ぼしている姿が窺われる。この間、「C」の単語群では、「自動車」と「半導体」「不足」といった単語が結びついており、自動車業界を中心に、半導体不足が生産面の制約として意識されていたことを示唆している。

図6.2021年6月の共起ネットワーク図(先行き判断)

  • 共起ネットワーク図が描かれている。詳細は本文のとおり。

次に、同じ2021年6月の「先行き判断」のコメント集から作成した共起ネットワーク図をみてみよう(図6)。「新型コロナウイルス」や「ワクチン」「接種」、「東京」「オリンピック」、「感染」といった単語の円が大きくなっており、また共起関係も強くなっている。もっとも、共起関係をみると、これらは「懸念」といった慎重な単語と「期待」や「回復」といった前向きな単語の双方とつながっている。このことは、景気ウォッチャーの中でも、感染症の帰趨やその経済活動への影響について、相反した見方が交錯していることを示唆している。

このように、DIの動きに加え、その背景にある着目点を捉えることで、多角的に経済・物価情勢を把握していくことが可能になると考えられる。

  1. 6円の色については、実線でつながっている一連の単語を同色に設定している(色の濃淡には意味がない)。

5.おわりに

本稿では、景気ウォッチャー調査のコメント集から、景気ウォッチャーの判断の背景を可視化する共起ネットワーク図という手法を紹介した。そのうえで、この手法を用いて、感染症が拡大するもとで、景気ウォッチャーがどのようなポイントに着目して景況感を形成したのかを考察した。

今回の景気ウォッチャー調査のコメント集を用いた分析により、経済・物価情勢を的確に把握していくうえで、テキスト分析が有用であることが確認された。複雑化する経済・物価情勢を的確かつタイムリーに判断していくうえでは、テキスト分析手法の開発や、こうしたテキストデータを含めたビッグデータの更なる活用が望まれる。

参考文献

日本銀行から

本稿の内容と意見は筆者ら個人に属するものであり、日本銀行の公式見解を示すものではありません。