グーグルはなぜ新しい肌の色の評価尺度を導入したのか 画像検索などで利用

MSTスケールのデモ|Business Wire

 グーグルは、先日開催されたデベロッパー向けカンファレンス「Google I/O 2022」にて、多様な肌の色に対応した新しい肌色スケール「モンク・スキン・トーン(Monk Skin Tone: MST)・スケール」の導入を発表した。新しいスケールは、グーグルやテック・カンパニーが開発するプロダクトにおける肌色表現の改善を図るためのものだ。その背景および詳細とは。

◆マシン・ラーニングにおける肌色バイアス
 MITメディア・ラボの研究員、ジョイ・ブォロムウィニ(Joy Buolamwini)が率い、元グーグルのAI研究員ティムニット・ゲブル(Timnit Gebru)らが2018年に発表したMITメディア・ラボでの研究プロジェクト「ジェンダー・シェイズ(Gender Shades)」は、ピープル・オブ・カラーの人々と女性の画像に関して、既存の画像認識プロダクトの精度が相当低いという研究結果を明らかにした。ジェンダー・シェイズは、すでに商用化されている画像に基づいてジェンダーを判断するAIプロダクトの精度評価の研究で、中国の顔認識技術であるフェイス++、さらにマイクロソフトとIBMの顔認識プロダクトが比較評価された。精度テストにあたっては、欧州3ヶ国(フィンランド、アイスランド、スウェーデン)およびアフリカ3ヶ国(ルワンダ、セネガル、南アフリカ)から1270の顔の画像が選ばれ、ジェンダー、肌のタイプ、さらにそのインターセクションによって分類された。皮膚科で使われている肌色の区分に基づいて分類では、46.4%が濃い肌色、残りが薄い肌色の画像だ。

 研究結果によると、3つすべてのプロダクトにおいて、女性の画像に対してのジェンダー認識の精度が低いことがわかった。エラー率の差は8.1パーセンテージ・ポイント(pp)から20.6ppという結果だ。さらにジェンダーと肌色のインターセクションにおけるサブグループでは、濃い肌色の女性の画像認識の精度が最も低いという結果が出た。一方で、薄い肌色の男性の画像に関しては3つのプロダクトともにほぼ100%に近い精度という結果。この2つのサブグループの精度率の差が最も大きかったのはIBMのプロダクトで、その差は34.4ppだ。また、マイクロソフトのプロダクトがジェンダーを誤認識したケースの93.6%が、濃い肌色の画像だという結果も明らかになった。

 研究は、ジェンダー、肌のタイプ、民族、年齢などといったさまざまな要素を考慮したテストの実施やプロダクト開発を進めるべきであると示唆する。アルゴリズムによる判断は、雇用、社会保障・健康保険制度、住宅、教育といった機会の損失、信用や異なる価格設定などといった経済的損失、不自由、監視強化、ステレオタイプ増強などといった社会的スティグマといったさまざまな損害をもたらすリスクがある。AIを活用した顔認識の技術開発にあたって、さらなる透明性と責任が求められる。

Text by MAKI NAKATA