Read Article

【研究者の肖像Vol17】本質的なテーマは自分で見つける。そして「自分の頭で考えていく」。それこそが研究本来の姿であり、最高の面白さを味わえる 関根 聡

本質的なテーマは自分で見つける。そして「自分の頭で考えていく」。
それこそが研究本来の姿であり、最高の面白さを味わえる
国立研究開発法人理化学研究所
革新知能統合研究センター
言語情報アクセス技術チーム チームリーダー
博士(コンピュータサイエンス)

自然言語処理は、現代社会において欠かせない技術だ。同技術をベースとする、例えば日本語入力、機械翻訳や情報検索などといったアプリケーションはいたるところで利用され、人々の日常にある。関根聡は、この自然言語処理技術における第一人者であり、なかでも情報抽出、言語的知識獲得、言語解析などの研究で最前線に立つ。研究を始めてからずっと、基礎技術と応用技術の開発を両軸に活動してきたのは、「社会の役に立ちたい」という思いが強いからだ。そして、既成の枠や場にとらわれず、「あったらいいもの」「面白そうなこと」をとことん自分で追究するのが、関根の流儀である。

興味・関心の赴くまま、「自由に学ぶ」楽しさを知り、会得した少年時代

幼少期の愛読書は『時刻表』。数字の羅列を見ているうちに「日本のつながり具合がわかってきて面白かった」という関根は、明らかな理系で、特に数学の成績は一貫してズバ抜けていた。加えて好奇心が強く、知りたいことがあれば自分で調べる、見たいものがあれば自分で動く子供で、研究者としての素養は早くから備わっていたようだ。

Image Alignment 300x200

本取材は、2018年10月19日、
理化学研究所・革新知能統合研究センターが入居する、
日本橋一丁目三井ビルディング(東京・中央区)
で行われた。関根氏がリーダーを務める
言語情報アクセス技術チームのメンバーと

今思えば、小学校4年の時にやった夏休みの自由研究が僕の原点のような気がします。それは、地元の目黒区に20校以上あった小学校すべてを自分の足で回って調べ、結果をまとめるというもの。写真を撮り、職員室を訪問して生徒数や学校の特色などを取材し、それらの調査結果を一枚の模造紙にレイアウトしたわけです。担任の先生が褒めてくれて、「100点満点のところ、これは200点だ」と。うれしかったし、「自分で調べる」ということを強く意識するようになりました。今も大切にしている僕の根っこです。

もう一つ、高校2年になる頃の話で、記憶に残っていることがあります。僕を可愛がってくれた数学の先生が、新しい教科書を渡す時、「これを自分で学習して1カ月で終わらせたヤツがいた」と言う。多分、仕かけられたんですよ(笑)。「なら、半分でやってやる」と思った僕は、実際、2週間で1年分をやり終えた。微分積分が初めて出てくる教科書でしたが、何とか独学で。以降も数学の勉強をよく見てもらったし、僕は「自由にやらせてくれる」先生に恵まれましたね。

それは両親も同じ。「勉強しろ」と言われたことは一度もなく、興味・関心のあることを自由にさせてくれた。自転車が好きな僕は、高校時代に東京ー九州を走る旅行に出たのですが、心配したであろう母親も口出しはせず。いろんな知らない土地へ行き、自分で見たり聞いたりして、様々な人にも出会い、特に覚えているのは「年上の人から受けた恩は年下の人に返せ」と教えられたこと。こういう自由な活動を見守ってくれた家庭環境も、今の僕をつくってくれたのだと思います。

「国語ができなくて東大は狙えなかった」と笑言する関根は、東京工業大学応用物理学科に進学。東工大のことは受験生になるまで知らなかったそうだが、新宿高校への電車通学に疲れていたため、自宅から自転車で通える距離感も気に入って選んだという。

高校までの数学はパズルみたいで楽しかったけれど、その先は論理とか、違う世界になっていくので、数学の学者になろうとは考えていませんでした。大学入学前から興味を持っていたのは気象学で、この頃は、雲の動きを予測するシステムのモデルをつくってみたかった。すでにパソコンが好きになっていましたし。ところが、いざ学科に入ると、東工大には気象学の先生がいない。それで、比較的近いと思った地震予知の研究室に進んだのです。保険会社の依頼で取り組んだ日本の地震危険度マップ作成の研究は面白かったけれど、扱うデータがまだ少ない時代で、ちょっと物足りない感じもありました。

そもそも大学時代、僕はあまり勉強しなかったんですよ。野球をやったり、遊び歩いたりで。応用物理学科というのが、どうも……。いろいろな分野を全方位的に勉強しなければならず、正直ついていけませんでした。加えて、当時の日本の大学教育は、その分野では一流でも教育方法論を知らない先生方によるもので、〝教科書順の授業〞がどうにもつまらなかった。まぁ言い訳ですけど(笑)。落ちこぼれた僕は、大学院の試験に失敗。それでも地震予知は面白かったから、もう1年やって大学院へとも思ったのですが、当時はバブル全盛期、企業からの「来てくれ」がすごかった。ラブコールに背中を押され、結局は就職することにしました。

※本文中敬称略

自然言語処理に出合い、生涯のテーマへと発展。渡米して研究に勤しむ

関根が新卒入社したのは松下電器産業(当時)の研究所。LISPシステムやコンパイラ開発といったプログラミング言語に携わった後、配属された先が自然言語処理のプロジェクトチームだった。「これは面白い!」。関根が強く惹かれる研究テーマに出合ったのは20代半ばになってから。多くの研究者に比べて遅いスタートを切った関根は、ここから走り始めたのである。

Image Alignment 300x200

1993年、ニューヨーク大学へ。当時の執務室にて

僕は元々「コンピュータを使った応用技術」をやりたかった。自然言語処理はサイエンスではなく工学ですから、社会の役に立ってなんぼ。僕の感覚にとても合っていました。当時はワープロが出始めた頃で、単語の検索アルゴリズムを知ったあたりから、これは面白そうだと。何十万語とある単語がこんなに高速で検索できるのかと一気に引き込まれ、勉強し始めたのです。

今でもよく覚えているのは、「自然言語処理には知識とアルゴリズムの領域がある」という上司の言葉です。つまりは言語的知識の構築と、その知識を使って文章や会話を解析するアルゴリズム。「どっちをやりたい?」と問われた時、僕は絶対的に知識構築をやりたかった。上司には驚かれましたが、世の中はどういうふうにできていて、何が重要なのか、そこに触れる研究に重きを置きたかったから。難しいし、ゆっくりとしか進めないけれど、今もその思いは変わりません。

プロジェクトチームでは、EDRと呼ばれる電子化辞書の研究に携わっていましたが、入社して3年経った頃、上司からイギリスへの留学話をもらったのです。「喜んで行きます」と即答して向かった先がマンチェスター工科大学。共同研究していた辻井潤一教授の下で、知識獲得の研究に就きました。ちょうど、自然言語処理に統計手法を用いることが注目され始めた時代で、それを構文解析に応用していたという点では、先駆け的な研究ができた。タイミングにも恵まれた留学でしたね。

マンチェスター工科大学で修士号を取得、好機にも恵まれた関根だったが、帰国した92年、バブル経済は終焉を迎えていた。待っていたのは研究所の縮小、人員削減という事態。結果として翌年、関根は招聘に応じてニューヨーク大学に足場を移すのだが、そこには導きともいえるエピソードがある。

きっかけはイタリアで開かれた自然言語処理の国際会議でした。僕にとっては初めての発表でしたが、わりに好評で、いろんな研究者が声をかけてくれた。その一人が、ニューヨーク大学のグリッシュマン教授で、ここからが〝偶然による縁結び〞。この会議中、僕らは偶然同じホテル泊で、ある日夕食を取るためにロビーに降りたタイミングも同じ、ばったり顔を合わせた。それですっかり話し込み、以降もメールでやり取りをする間柄になったのです。

ある時、グリッシュマンに研究所縮小の事情を話したら、「うちに助手として来ないか」と誘われたのです。迷いはなく、ほぼ即断でした。辞意を伝えた上司からは「会社に籍を置いたまま行ったら」と言われましたが、退路を断って……というか、僕は感覚的に面白いと思うと、後先考えずにけっこう無茶するんですよ(笑)。

ニューヨーク大学に移ってからメインとなった研究は、グリッシュマンの専門でもある情報抽出です。これは、新聞記事にあるテキストから、あらかじめ指定されたイベントや事柄に関する情報を抽出し、その情報を表形式のデータベースに入力する技術。例えば企業合併なら、「いつ・会社名・どのように」など5W1Hを抽出し、整理したかたちで提示するわけです。これが一般的な情報抽出ですが、「あらかじめ指定されたトピック」ゆえに限界がある。なぜなら、世の中には山のような数のトピックがあるから。その都度、トレーニングデータをつくるのは大変で、ならばトピックなし、つまり教師なしで情報抽出ができたら、すごくいいよねと。それを実現していったのが「オンデマンド情報抽出」です。

僕は教師なしの情報抽出の分野では世界的にも先駆けの一人で、NSF(アメリカ国立科学財団)から5年間、2億円のグラントを獲得して研究を重ねました。実は当初、この分野の権威であるグリッシュマンでさえも「そんなことは不可能だ」とダメ出ししていたんですよ。でも〝できる〞と思っていた僕は、それを証明したくて、NSFに提案書を出す前に実験を繰り返し、提案書の半分くらいは実装しちゃった。1カ月間、文字どおり寝食を忘れて。結果、アイデアの基本部分が「本当に動く」ことを見せたからこそ、NSFの審査員全員から満点を取れたのだと思います。グリッシュマンの批判に発奮してよかったという話です(笑)。

※本文中敬称略

足場を広げながら、研究・技術開発で確かな成果を挙げる

次いで関根は、教師なしの情報抽出を進化させる道具立てとして、固有表現抽出の研究に着手する。当時、固有表現として定義されていたのは「人名」「地名」「日付」などの7種類しかなく、関根はその裾野拡大に挑んだ。そして、並行して進めたプロジェクトが、日本のWeb上では初めての公開となったQA(質問応答)システムの開発である。これを機に、自然言語処理のコンサルティング会社「ランゲージ・クラフト研究所」を設立、関根は自身の裾野をも広げていく。

Image Alignment 300x200

例えば「日本に温泉はいくつあるか?」といった問いに応えるQAシステム。従前、こういったシステムに利用できる情報源は新聞記事しかなかったのですが、百科事典があるじゃないかと。そう考えて、日本のいろんな出版社に研究協力を仰いだところ、小学館が興味を示し、QAシステム開発の仕事を依頼してくれたのです。

百科事典って知識の宝庫でしょう。固有表現の分類設計については、ニューヨーク大学の言語学者と研究を進めていましたが、百科事典のカテゴリーも参考にしつつ、定義を増やしていきました。当時で分類は120になり、現在では200種類くらい。これを「拡張固有表現」と呼び、公開し、世界的にも使われています。当時は、誰も固有表現を拡張するという考え方をしていなかったから、結果的に、新しいパラダイムをつくったのだと思います。

ランゲージ・クラフト研究所は、この仕事の受皿として設立したもの。その後、この会社を通して日本企業などからいろんな開発仕事を受けていたので、アメリカの研究室には、継続して日本の学生を呼んでいました。大学を問わず日本中で公募する、いわば私設のインターン制度にして。訪れた学生はトータルで50人ほどになるでしょうか。付き合いは多くの人と今も続いているし、皆がいろんな分野で活躍する姿を見るのは、うれしいものです。

ランゲージ・クラフト研究所の仕事の一つに、楽天との共同研究があった。これを機に開設されたのが「楽天技術研究所New York」で、2010年、関根は初代所長に就任。以降5年間、楽天の膨大なデータを利用した様々な研究開発をリードした。

あれほど大規模なリアルデータを持っている会社は少ないですからね、僕にとっては非常に魅力的だった。それで共同研究を続けるなか、「ニューヨークに研究拠点をつくる意向があれば僕がやります」と名乗りを上げたわけです。三木谷浩史社長に快諾され、楽天に入社したのは45歳の時。それからは、ニューヨーク大学が週1日、週4日は楽天という生活を送っていました。

折しも、事業のグローバル化が加速し、世界中にマーケットを広げている時期でした。例えば日本の商品をブラジルで売る、ブラジルの商品をアメリカで売るためには、世界中のデータをつなげなければなりません。膨大なデータをフル活用して、より良いサービスを提供するための技術を開発しました。かなり濃密な時期を過ごし、「データを使えば何ができるか」を、本質的に考えられたことは有意義でしたね。そして再認識したのは、知識の重要性です。やっぱりここを突き詰めたくなった。自由人の僕としては、長く同じ組織に属すのは窮屈だし、一定やれることはやったと感じていたので、5年経ったタイミングで楽天を〝卒業〞することにしたのです。

※本文中敬称略

世界知識の構造化に向けて。フロンティア開拓に挑み続ける

「次は何をやるか」。関根は、ひとまずニューヨーク大学に戻ろうかと考えていたが、聞けば、ここから意外な話が出てきた。楽天退職と時を同じくして、「実家をテナントビルに建て替える計画」が持ち上がったのだ。築70年の古い一軒家だが、駅に近く、目の前に遊歩道が続く好立地にあり、不動産会社が食指を動かしていた。帰国した折にそれを知った関根は、この〝一大プロジェクト〞に自ら取り組むことにしたのである。

Image Alignment 300x200

「ここにビルを建てませんか」と、不動産会社がちょくちょく来ていたらしいのです。でも、不動産会社の意向でつまらない建物をつくられるのは嫌だから、「そもそもビルって自分で建てられるのか」を調べまして。すると何とかなりそうだったし、こんなこと一生に一回経験できるかどうかでしょう。また「面白い!」がうずいた(笑)。

まず建築家を公募し、どんな事業を展開するかも含めて提案してもらったんです。18人もの建築家がコンペに参加してくれて、提案内容もそれぞれ面白かった。いい点や悪い点、注意点などをブラッシュアップしていく作業はすごく勉強になりましたね。不動産会社、銀行、建築会社、会計士、弁護士など様々な人たちとも自ら会いました。2年かけて完成したビルは「New York Corner 161」と名付け、今、飲食店3店舗、インドアゴルフとパーソナルトレーニングジムが入っています。このビルに合ったテナントを探す際にも、東京中を歩いて回り、徹底的にこだわりました。ニューヨークに大好きなカフェレストランがあるんですけど、そこで過ごせるような素敵な時間と空間を地元につくりたいという思いが強かったのです。この間、自然言語処理の研究はほぼお休み状態。興味や面白さを感じると、とことんやってしまうのは、子供の頃から変わっていませんね(笑)。

ビル建築後には、地元の商店街に入ってすぐ副会長に。提案やプレゼンの経験を生かして、桜ライトアップの大きな補助金や、東急電鉄からは緑化に関する協力を獲得しました。さらには、大学生とコラボしたイベントを行ったり、青年部をつくったり。役所や区議、商業連合会の人たちとも、すっかり仲良くなりました。僕自身もゴミ拾いや水撒き、花苗の植え込み、チラシ配り、何でもやります。育った街をより良くするための活動も本気で、こちらもとことん(笑)。自由奔放にやらせてもらって、アメリカに残してきた妻には感謝ですね。ただ、子供たちには父親不在で申し訳ないと思っていますが。

「理化学研究所に新しい研究センターができるから来ないか?」。ビルの運営が落ち着いた頃、研究仲間から声がかかった。その新設された研究センターの言語情報アクセス技術チームのリーダーに就任したのは17年。ニューヨーク大学研究准教授、経営者、地元商店街の副会長など、様々な立場を持つ関根に、また一つ〝顔〞が加わった。フル回転だが、「どれも自分が望んでやっていることなので、ストレスは全然ない」と本人は笑顔を浮かべる。

現在メインでやっているのは「森羅」というプロジェクト。あのウィキペディアに書かれている世界知識を計算機が扱えるように変換し、構造化したデータを構築していくものです。すでに約73万項目を、先述した200種類の拡張固有表現に分類したデータが完成しています。ウィキペディアって「これ以上ない」くらいのすごいリソースでしょう。ただ、自然言語処理のための知識として活用しようと考えると、障壁は高い。ウィキペディアは人が読んで理解できるように書かれているし、誰もが書き換え可能だから、知識も構造もバラバラ。そこに挑み、いずれはドメインを限定せず、世界知識全部を構造化したい。このプロジェクトは数多くの研究者の力を結集しないとやり遂げられません。知識作成を手伝ってくれている言語系の方々や古くからの研究者仲間だけではなく、新たに志を同じくする世界中の研究者に声をかけて進めようとしています。

構造化された知識を計算機が利用できるようになった先には、人工知能の進化があります。現状の人工知能は、課題を与えられたら答えを出す〝だけ〞。チームで掲げている目標は、それがなぜなのか、システムが自らの判断を説明できるようにすること。例えば「あなたのガンの可能性は65%」という答えが出た時、医師のようにその根拠を説明できるシステムをつくりたいのです。特定の分野ではすでに研究が進んでいますが、僕は欲張って全方位でやりたい(笑)。まだ先は遠いけれど、道は切り拓いていけると信じています。

最近つくづく思うのは、「これをやらずにはいられない」というエネルギーを持つ人は、本当に強いということ。何かを成す研究者って、自分のやりたいことをとことん突き詰めている。昨今、評価型のワークショップなどを見ていると、他人が設計したタスクに対して「一番を取る」ことが研究だと思っている人が増えているようで、それが気になるところ。本質的なテーマを自分で見つけて、「自分の頭で考えていく」ことが、研究の本来の姿だと思う。だからこそ面白い。僕がそうであるように、これからの人たちにも〝面白い世界〞を楽しんでほしいですね。

※本文中敬称略

Profile

biographies01国立研究開発法人理化学研究所
革新知能統合研究センター
言語情報アクセス技術チーム チームリーダー
博士(コンピュータサイエンス)
関根 聡

1965年 3月5日 東京都中野区生まれ
1987年 3月 東京工業大学応用物理学科卒業
   4月 松下電器産業株式会社
東京情報通信研究所入所(~1994年)
1992年 6月 マンチェスター工科大学より 修士号を取得
1998年 6月 ニューヨーク大学より博士号を取得
   10月 ニューヨーク大学研究助教授に就任
2000年 7月 株式会社ランゲージ・クラフト研究所設立
2007年10月 ニューヨーク大学研究准教授に就任(現任)
2010年 4月 楽天技術研究所ニューヨーク所長に就任(~2014年)
2017年 5月 国立研究開発法人理化学研究所
革新知能統合研究センター
言語情報アクセス技術チーム
チームリーダーに就任

URL :
TRACKBACK URL :

コメント

*
*
* (公開されません)

日本語が含まれない投稿は無視されますのでご注意ください。(スパム対策)

Return Top