社会発信

2021年度開催イベント
アフターレポート

成蹊大学Society 5.0研究所主催 第1回講演会(2021年10月9日開催)

講演会を受けて

成蹊大学理工学部情報科学科 4年 齊藤 脩平

    •  「データサイエンス」という言葉は10年前には存在しないほど、実に真新しい言葉であるが、その実態は手元のデータを分析して様々な知見を得るという、古くは天文学で著名なガリレオ・ガリレイやヨハネス・ケプラーがいた中世にまで遡れるほどに普及しきっている概念である。では、なぜこの2020年代になってデータサイエンスなどと造語してまでこの概念を見つめ直す必要があったのか。第4次産業革命以前の産業がモノを中心に成り立っていたのに対し、現代の産業が「データ」を中心に据えたものであるからである。それを踏まえて、私が樋口知之教授の講演を聞いて、特に深く印象に残った3つのテーマ「日本のデータの性質」、「広がるデータサイエンス」、そして「AIの説明責任」について、考えを述べたいと思う。    
    •  まず一つ目についてであるが、この日本のデータの性質とは、日本のデータには、他の国に比べ、虚偽の情報がより多く含まれているというものである。それは樋口教授曰く、日本では空欄を叱る文化のために過去からの類推などでそれを埋めてしまうのが原因であるそうだ。実はこのような問題は機械学習の分野でも「Noisy label」や「Noise tolerance」という名称で研究がなされており、不適切なラベルをどのように処理するかについて日夜議論されている。同様に、空白を対処する研究もされており、これは「半教師あり学習」、つまりラベルのある分だけでモデルを訓練し、この訓練したモデルによって残りのデータへ仮ラベル与えた後、それらも含めて再度学習する、ということを繰り返すことでラベルのないデータも学習に活用するといったことがなされている。(実はこうして与えたラベルの方が人力のみで割り振られたラベルより高品質であるという論文も存在する。)この半教師あり学習だが、察せられるように誤ったラベルが貼られたデータを学習に使うと誤った方向へ学習が加速する危険がある。そして誤ったラベル付けが恐ろしいのはそれが単に頻度の低いだけで有意なデータなのか、解析者には見分けがつかないのである。以上のことから、私はわからないことはわからないと安心して宣言できる環境が整うことを願っている。
    •  次に二つ目であるが、樋口教授がこの講演を行った目的としてデータ分析を従来から専業している統計学者などだけでなく、より多様な分野の方へ広めたいと強く願っていることが挙げられるだろう。その理由は先にも述べたように、今はAI全盛であり、高品質なデータが大量に必要とされる時代だからである。では講義後の質問にもあったようにデータサイエンスというものに対して、異分野の人は本来の分野に割くべき時間を当ててまで、どこまで向き合わなければならないのだろうか。私は例えばデータ作成ツールの機能を学びヒューマンエラーによるデータのノイズを減らしたり、樋口教授が回答したように、データ分析のツール(例えばGoogleのAutoMLなど)を使って簡易的な分析が行えるようになっていれば良いのではないかと思う。特にExcelは現場で使う方が多い一方、入力時に関数をあまり使わない方が一定数いると聞くので、その割合が減るように理解しやすい教材(講義やサイトなど)が増えれば良いと思う。
    •  さて最後のテーマは、「AIの説明責任」である。講演では、「Fairness」という題目でAIを社会実装するために解決しなければならない課題がいくつか提示されていたと思うが、今回はその中から、データを分析する際の「説明責任」について述べようと思う。説明責任が必要な一例としては医療における腫瘍検出が挙げられる。もしなんの根拠もなしに機械が腫瘍だとしたから摘出するなどと言われたとして、それにどれだけの人が納得するだろうか。そうした背景もあり、XAI(説明可能なAI)の分野もまた大いに議論されている。例えば表形式のデータに利用されるランダムフォレストと呼ばれるタイプのモデルは、二択を繰り返すことで結果を得るため結果への説明が容易いXAIと呼べるものだと言える。一方で、画像判別で主流の深層学習モデルはあまりにもモデルが複雑なため、注目部分を赤くするヒートマップで表示するなどして根拠を知ろうとする試みがなされている。しかし深層学習は高い予測精度を持つ一方でノイズに対し敏感なので、一眼でわからないほどのノイズであっても全く別の結果を出力したり、実は対象そのものではなく背景に注目して訓練していたなどという珍事が起きるなど、信頼性に欠ける側面があるのは事実である。そして忘れがちなのがAIにどのように説明させるかである。我々も大人に説明するのと子供に説明するのとでは語り方を変えるように、AIもまた対象に合わせた説明が求められるだろう。この「説明」という行為に多様な表現を持たせてこそ、真に人に役立つ社会的なAIと呼べるものになるのではないと私は思う。そうしたことを踏まえると、これらの事情を知らない人でもAIを使えるような社会はまだ遠いのではないかと思うので、修士課程では研究テーマの一つとして私自身も取り組んでみようと思う。
    •  さて長々と語ったので3つのテーマに対する私の意見をまとめて締めとする。まずデータにラベルを割り当てる際になんらかの理由でそれができない場合は、無理に虚偽のラベルを降らなくても良い環境気作りが不可欠であると思う。そして、データサイエンスを意識した社会においては、データ作成はなるべく人力に頼らない入力方法を用い、データ分析についても、中身を理解したうえでAutoMLなどの簡易ツールを使いこなせ,分析までができる人材が増えるのが理想的であると思う。そして最後にAIの説明責任についてであるが、まず十分妥当な分析が出来ているかという意味での課題が残っているのでそれの解決と、多様な説明方法を備えることで、どのような相手に対しても結果に対する根拠を理解できるように示せるAIが理想的だと思われる。