岩月憲一
歴
研究歴
- 平成31年4月~令和3年3月,日本学術振興会特別研究員(DC2)[KAKEN]
- 令和3年4月~令和5年3月,日本製鉄株式会社 特別研究員
- 令和5年4月~,株式会社みらい翻訳 シニアリサーチエンジニア
学歴
- 平成23年3月,愛知県立岡崎高等学校全日制普通科卒業
- 平成24年4月,東京大学教養学部前期課程理科一類入学
- 平成26年3月,東京大学教養学部前期課程理科一類修了
- 平成26年4月,東京大学教養学部学際科学科総合情報学コース進学
- 平成28年3月,東京大学教養学部学際科学科総合情報学コース卒業
- 平成28年4月,東京大学大学院情報理工学系研究科コンピュータ科学専攻修士課程入学
- 平成30年3月,東京大学大学院情報理工学系研究科コンピュータ科学専攻修士課程修了
- 平成30年4月,東京大学大学院情報理工学系研究科コンピュータ科学専攻博士後期課程進学
- 令和3年3月,東京大学大学院情報理工学系研究科コンピュータ科学専攻博士後期課程修了
博士(情報理工学)の学位を取得
趣味・特技
- 紅茶検定中級
- TOEIC L&R 940点
- TOEFL iBT 102点
- 実用英語技能検定1級
- 2級知的財産管理技能士
- 行政書士試験合格(未登録につき業務不可)
- 応用情報技術者
- 東京大学教養学部教養学科学際言語科学サブメジャープログラム修了
- 東京大学フューチャーファカルティプログラム修了
これまでの自然言語処理の研究開発
自然言語処理と機械翻訳を活用したDX推進
企業での仕事については守秘上の理由で,公知になっていないものについては書けません。 基本的なスタンスは,手段を選ばず,きちんとDXを推進する,です。
みらい翻訳での仕事で公知になったもの:なし
英語定型表現の抽出と分類
英語の論文でよく使われる言い回しがあります。自然言語処理だと,"the contributions of this paper are as follows"なんてIntroductionでよく見ます。これを定型表現と言います(英語だと,formulaic expressions, formulaic sequences, lexical bundles, phrase frames, phraseologyなど言い方が流派によってバラバラです)。 この定型表現を抽出して,分類すると何かと便利そうです。有名なのが,John MorleyのAcademic Phrasebankです。 これを分野別かつ自動的に大量に作ったのが私の大学院での研究です。
まず定型表現とは何なのか,という点で非常に苦労しました。これらは必ずしも完結した句構造を取る必要がありません。例えば,"in this paper, we"も"in this paper, we propose"も"in this paper, we propose a new method to"も定型表現と言えますが,"paper, we propose a new"はそうでもありません。 English for Academic Purposes (EAP)やジャンル分析(Genre Analysis)の分野では,とりあえず頻度の高い単語3-gram(たまに4-gram)を抽出してくるということでした。 言語処理をやっていると,そんなんで良いのかとツッコみたくなりますが,2019年に大家John M. Swalesにツッコまれています[論文]。 これでは何ともならんということで,よりリッチな定型表現を抽出する方法を提案しました[論文]。
次に,定型表現をどう分類するかで悩みました。論文のIntroductionについては,やはりSwalesがCARSモデルというものを提案しています。Move, Stepという階層構造があり,文章が展開されていきます。 このmove/stepというのも,communicative functionと言ってみたり,communicative purposeと言ってみたり,様々です。 結局,Academic Phrasebankをベースに作り直して[論文],SciBERTで分類するとうまくいくことを示しました[論文] 最終的に,4分野にわたる大量の定型表現データセット(定型表現数:86,931個)を作成し[データ],検索できるアプリケーションを構築しました[定型表現検索アプリ]。 この検索も少し凝っています。"in this paper, we propose"という定型表現を探したい人は,検索窓に"in this paper, we propose"とは入力できません。そこで,入力していない定型表現を検索するような方法を採用しています(これは博論の一部にて説明)。
論文情報抽出
論文から情報を抽出できると,色々と便利なことがあります。情報抽出と言っても,ただ文章を抜き出してくるだけでは,どこに何が書かれているのか分かりません。論文が持つ構造と文章をセットで抽出すると有用です。タイトルや著者といった書誌情報に加え,見出し,図,表,本文といったラベルを付与する手法の研究に取り組んでいました[論文]。
論文の中で,特段異なる処理ができると嬉しいのが数式です。数式は自然言語とは異なる情報伝達手段だからです。特に文字式は,その文字の定義さえ一致していれば,何の文字を使ったとしても全く同じ式です。さらに,数学的に同値の表現もあり得ます。このように数式に対する情報処理は色々と考え得るのですが,そのためには論文から数式だけを抜き出してこなければなりません。 所謂独立行の数式は,比較的簡単に抜き出せます。しかし,本文の中に出てくるインライン数式はそう簡単ではありません,例えば,定数のaなのか,冠詞のaなのかは明確に区別する必要があります。 このインライン数式の抽出に取り組み[論文][データ],その結果を使ってACL Anthology Sentence Corpusが作成されました[論文][コーパス]。
論文等
論文
- 岩月憲一, 赤木俊夫, 平野弘二. (2023). 自然言語処理技術活用による業務プロセス変革. 日本製鉄技報, (421), 115–119. [PDF]
- 岩月憲一. (2022). ドメインに特化した比較的少量のデータによる事前学習済みBERTの利用可能性:鉄鋼業における事例. 言語処理学会第28回年次大会発表論文集, 741–745. [URI]
- Iwatsuki, Kenichi, Boudin, Florian, Aizawa, Akiko. (2022). Extraction and Evaluation of Formulaic Expressions Used in Scholarly Papers. Expert Systems with Applications, 187(115840). [doi]
- Iwatsuki, Kenichi, Aizawa, Akiko. (2021). Communicative-Function-Based Sentence Classification for Construction of an Academic Formulaic Expression Database. Proceedings of the 16th Conference of the European Chapter of the Association for Computational Linguistics, 3476–3497. [doi] [data]
- Iwatsuki, Kenichi. (2021). Towards Extracting Formulaic Expressions from Japanese Scholarly Papers. In Mika Hämäläinen, Niko Partanen & Khalid Alnajjar (Eds.), Multilingual Facilitation (pp. 74–82). University of Helsinki Library. [doi]
- Iwatsuki, Kenichi, Aizawa, Akiko. (2021). Extraction of Formulaic Expressions from Scientific Papers. Proceedings of the Workshop on Scientific Document Understanding. [URI]
- Iwatsuki, Kenichi, Boudin, Florian, Aizawa, Akiko. (2020). An Evaluation Dataset for Identifying Communicative Functions of Sentences in English Scholarly Papers. Proceedings of the 12th International Conference on Language Resources and Evaluation, 1712–1720. [URI]
- Iwatsuki, Kenichi, Aizawa, Akiko. (2018). Using Formulaic Expressions in Writing Assistance Systems. Proceedings of the 27th International Conference on Computational Linguistics, p. 2678–2689. [URI]
- Iwatsuki, Kenichi, Sagara, Takeshi, Hara, Tadayoshi, Aizawa, Akiko. (2017). Detecting In-line Mathematical Expressions in Scientific Documents. Proceedings of the 2017 ACM Symposium on Document Engineering, 141–144. [doi] [data]
- 岩月憲一, 相澤彰子. (2017). 英語論文の執筆を支援する定型表現集のカテゴリ構造の分析. 言語処理学会第23回年次大会発表論文集, 951–954. [URI]
- 岩月憲一, 加藤恒昭, 山口和紀. (2016). レイアウト認識に基づく論文構成要素の抽出. 第12回インタラクティブ情報アクセスと可視化マイニング研究会発表予稿集, 61–68. [URI]
- 加藤恒昭, 岩月憲一, 山口和紀. (2015). 文書構造に基づく対話的情報アクセスにむけて. 第10回インタラクティブ情報アクセスと可視化マイニング研究会発表予稿集, 1–8. [URI]
発表
- Aizawa, Akiko, Sagara, Takeshi, Iwatsuki, Kenichi, Topic, Goran. (2018). Construction of a New ACL Anthology Corpus for Deeper Analysis of Scientific Papers. Third International Workshop on Scientific Document Analysis.
- Aizawa, Akiko, Sagara, Takeshi, Topic, Goran, Iwatsuki, Kenichi. (2018). Bridging the Gap between Layout, Logical, and Semantic Structures of Documents. International Interdisciplinary Symposium on Reading Experience & Analysis of Documents.
公開特許公報・特許公報
- 日本製鉄株式会社. 岩月憲一,赤木俊夫,平野弘二. 検索装置、検索方法、コンピュータプログラム及びモデル生成装置. 特開2024-15704.
学位論文
- Iwatsuki, Kenichi. (2021). Extraction, Classification, and Retrieval of Formulaic Expressions in Scientific Papers. [Doctoral thesis, The University of Tokyo]. [doi]
キムワイプ卓球
キムワイプ卓球の普及発展に努めております。
メディア掲載等
- テレビ東京「テレ東卓球塾」(2022年12月4日放映)
- 「卓球王国」2021年6月号
- withnews「理系の定番、キムワイプで卓球?ルール無用、研究会も…ひそかに流行」(2019年12月29日)[URI]
- J-CASTニュース「理系が愛するスポーツ「キムワイプ卓球」 競技者団体は創立10年、会員は550人以上も」(2018年11月5日)[URI]
- マイナビ学生の窓口「今徐々に来てる!? 理系ならピンと来る「東京大学キムワイプ卓球会」ってなんのこと?」(2015年12月21日)[URI]
- 「卓球王国」2014年5月号
- 中京テレビ「オードリーさん、ぜひ会って欲しい人がいるんです!」(2013年9月7日放映)