岩月憲一
概要
- 氏名
- 岩月憲一(いわつき けんいち)
- 学位
- 博士(情報理工学)(東京大学)(2021年,課程)
- 専門
- 自然言語処理
- メールアドレス
- iwatsuki@iktta.org
- 所属学協会
- 言語処理学会(2014年~)
Association for Computing Machinery(2017年~)
研究歴
- 平成31年4月~令和3年3月,日本学術振興会特別研究員(DC2)
- 令和3年4月~令和5年3月,日本製鉄株式会社 特別研究員
- 令和5年4月~,株式会社みらい翻訳 シニアリサーチエンジニア
学歴
- 平成23年3月,愛知県立岡崎高等学校全日制普通科卒業
- 平成24年4月,東京大学教養学部前期課程理科一類入学
- 平成26年3月,東京大学教養学部前期課程理科一類修了
- 平成26年4月,東京大学教養学部学際科学科進学
- 平成28年3月,東京大学教養学部学際科学科卒業
- 平成28年4月,東京大学大学院情報理工学系研究科コンピュータ科学専攻修士課程入学
- 平成30年3月,東京大学大学院情報理工学系研究科コンピュータ科学専攻修士課程修了
- 平成30年4月,東京大学大学院情報理工学系研究科コンピュータ科学専攻博士後期課程進学
- 令和3年3月,東京大学大学院情報理工学系研究科コンピュータ科学専攻博士後期課程修了
資格・検定
- TOEIC L&R 940点(2022年9月)
- TOEFL iBT 102点(2019年5月)
- 実用英語技能検定1級
- 2級知的財産管理技能士
- 行政書士試験合格(未登録につき業務不可)
- 応用情報技術者
論文等
国際会議論文,雑誌論文,博士論文,ほか。
国際会議論文(査読あり)
- Iwatsuki, Kenichi, Aizawa, Akiko. (2021). Communicative-Function-Based Sentence Classification for Construction of an Academic Formulaic Expression Database. Proceedings of the 16th Conference of the European Chapter of the Association for Computational Linguistics, 3476–3497. [doi] [data]
- Iwatsuki, Kenichi, Aizawa, Akiko. (2021). Extraction of Formulaic Expressions from Scientific Papers. Proceedings of the Workshop on Scientific Document Understanding. [URI]
- Iwatsuki, Kenichi, Boudin, Florian, Aizawa, Akiko. (2020). An Evaluation Dataset for Identifying Communicative Functions of Sentences in English Scholarly Papers. Proceedings of the 12th International Conference on Language Resources and Evaluation, 1712–1720. [URI]
- Iwatsuki, Kenichi, Aizawa, Akiko. (2018). Using Formulaic Expressions in Writing Assistance Systems. Proceedings of the 27th International Conference on Computational Linguistics, p. 2678–2689. [URI]
- Iwatsuki, Kenichi, Sagara, Takeshi, Hara, Tadayoshi, Aizawa, Akiko. (2017). Detecting In-line Mathematical Expressions in Scientific Documents. Proceedings of the 2017 ACM Symposium on Document Engineering, 141–144. [doi] [data]
雑誌論文(査読あり)
- Iwatsuki, Kenichi, Boudin, Florian, Aizawa, Akiko. (2022). Extraction and Evaluation of Formulaic Expressions Used in Scholarly Papers. Expert Systems with Applications, 187(115840). [doi]
書籍論文(査読あり)
- Iwatsuki, Kenichi. (2021). Towards Extracting Formulaic Expressions from Japanese Scholarly Papers. In Mika Hämäläinen, Niko Partanen & Khalid Alnajjar (Eds.), Multilingual Facilitation (pp. 74–82). University of Helsinki Library. [doi]
国内会議論文(査読なし)
- 岩月憲一. (2022). ドメインに特化した比較的少量のデータによる事前学習済みBERTの利用可能性:鉄鋼業における事例. 言語処理学会第28回年次大会発表論文集, 741–745. [URI]
- 岩月憲一, 相澤彰子. (2017). 英語論文の執筆を支援する定型表現集のカテゴリ構造の分析. 言語処理学会第23回年次大会発表論文集, 951–954. [URI]
- 岩月憲一, 加藤恒昭, 山口和紀. (2016). レイアウト認識に基づく論文構成要素の抽出. 第12回インタラクティブ情報アクセスと可視化マイニング研究会発表予稿集, 61–68. [URI]
- 加藤恒昭, 岩月憲一, 山口和紀. (2015). 文書構造に基づく対話的情報アクセスにむけて. 第10回インタラクティブ情報アクセスと可視化マイニング研究会発表予稿集, 1–8. [URI]
口頭発表(査読あり)
- Aizawa, Akiko, Sagara, Takeshi, Iwatsuki, Kenichi, Topic, Goran. (2018). Construction of a New ACL Anthology Corpus for Deeper Analysis of Scientific Papers. Third International Workshop on Scientific Document Analysis.
- Aizawa, Akiko, Sagara, Takeshi, Topic, Goran, Iwatsuki, Kenichi. (2018). Bridging the Gap between Layout, Logical, and Semantic Structures of Documents. International Interdisciplinary Symposium on Reading Experience & Analysis of Documents.
テクニカルレポート
- 岩月憲一, 赤木俊夫, 平野弘二. (2023). 自然言語処理技術活用による業務プロセス変革. 日本製鉄技報, (421), 115–119. [PDF]
公開特許公報・特許公報
- 日本製鉄株式会社. 岩月憲一,赤木俊夫,平野弘二. 検索装置、検索方法、コンピュータプログラム及びモデル生成装置. 特開2024-15704.
学位論文
東京大学学術機関リポジトリにございます。- Iwatsuki, Kenichi. (2021). Extraction, Classification, and Retrieval of Formulaic Expressions in Scientific Papers. [Doctoral thesis, The University of Tokyo]. [doi]
研究付随活動
獲得資金,受賞等,査読への取り組みについて。
獲得資金
- AtlanSTIC 2020 Visiting Researchers Programme:10,000ユーロ(2020年7月~12月)(採択後COVID-19のため辞退)
- 科学研究費補助金(特別研究員奨励費):2,100,000円(2019~2020年度)(19J12466)
- 言語処理学会・COLING 2018 学生参加旅費支援:350,000円(2018年6月)
受賞等
- 独立行政法人日本学生支援機構・特に優れた業績による返還免除(全額免除:1,464,000円)(2019年5月)
- 第2回東京公共交通オープンデータチャレンジ・東京地下鉄特別賞(主催:公共交通オープンデータ協議会)(2019年3月)
査読
- 2023年:EACL, ACL, EMNLP, NLP4DH
- 2022年:ACL,EMNLP,NLP4DH, ARR
- 2021年:NAACL-HLT,ACL-IJCNLP,EMNLP,NLP4DH, ARR
研究
就職後は,製造業のDXをNLP技術でどう進めるかを考え,その後は機械翻訳やLLMを使ってどうDXを進めるかについて考えています。
みらい翻訳では,機械翻訳とその周辺機能の研究開発を行っています。
日本製鉄での取り組みのうち,公知になっているものは,ドメイン特化のBERTの事前学習,専門用語の類義語が云々です。
大学院では,英語論文執筆支援を目的とし,定型表現の抽出・分類・検索に取り組んでいました。
学術論文には,"in this paper, we propose"のような定型表現が多く用いられています。論文執筆支援(英語論文を0から書く際と,推敲する際)という観点では,この定型表現がうまく検索できると捗ります。 よくGoogleで2つの定型表現候補を検索して件数の多い方を「定型だ」とみなして採用することがありますが,これをもっと体系立てて,かつ便利にしたいという動機があります。
まず学術論文から定型表現を抽出する技術が必要ですが,定型表現とは何か?という問題に直面します。自然言語処理の立場では,こういう面倒なことを上手に避けて,例えば定型表現ではなく節や文単位で生成してしまえという発想もあり得ますが,学習者の立場から明示的に知識として定型表現集がほしいという思いがあったので,この問題に取り組むことにしました。 高頻度の単語n-gramというのは,うまくいきません。例えば,"this paper we propose a"のような表現を捨てるのは至難です。 定型表現の抽出については,正解データを使って機械学習を適用するのではなく,依存構造解析やPMIなどを色々と組み合わせて手法を開発しました。詳細は2021年の2論文をご覧下さい(それぞれ違う手法です)。
コンピュータを使って定型表現を抽出すると,コーパスの規模にもよりますが数千件~数万件は得られてしまいます。これを定型表現集として見せられても使いようがありませんので,何らかの分類をする必要があります。 学術論文における文章の伝達機能として,Swalesがmoveという概念を提唱していますが,これを踏襲しました。 これについてはたくさんの先行研究を元に,分類の体系を整理するという非常に面倒なところから始めました。 分類そのものは学術論文用のBERTであるSciBERTを用いて行いました。2021年のEACLの論文に詳細が書かれています。
修士課程の時にインライン数式の認識にも取り組みました。
数式には独立行数式とインライン数式があります。前者の認識は簡単ですが,後者は至難です。 インライン数式というのは,多くの場合数式の説明のために用いられているものですから,これが正確に認識できないと,数式の説明を抽出できず,数式が何であるかコンピュータに理解させられないという問題が生じます。 詳細は2017年のACM DocEngの論文に書かれています。またこの手法はACL Anthology Sentence Corpusに適用されています。
学部では,スキャンしてOCRにかけた論文から構成要素を抽出する研究をしました。
構成要素の抽出は,分類問題です。大抵の場合OCRにかけるとテキストの矩形がいくつか生成されますから,その矩形に対してそれが見出しなのか著者なのか本文なのかといったタグを付与していきます。 ところがスキャンした文書で特に古い文書の場合,OCRのエラーが発生します。文字のエラーはもちろん,矩形も随分バラバラになります。 これに対処する手法を提案し,2016年のSIG-AMで発表しました。
キムワイプ卓球
キムワイプ卓球の普及・発展に努めています。
雑誌
- Iwatsuki, Kenichi. (2021). Preface: Is Impact of Scientific Humour Predictable?. Scientific Sports, 6(2), 1–3. [URI]
- Iwatsuki, Kenichi. (2016). Laws of Kimwipe Table Tennis. Scientific Sports, 1(1), 1–4. [URI]
国際会議・国内会議
- 岩月憲一. (2020). 科研費データベースに見るキムワイプの地位と用途. 第5回キムワイプ卓球研究会予稿集, 7–10. [URI]
- Iwatsuki, Kenichi. (2018). History of Kimwipe Table Tennis and the Association (keynote speech). The First Decennial Conference on Scientific Sports.
- 岩月憲一. (2018). キムワイプ卓球は11点制で良いのか. 第3回キムワイプ卓球研究会予稿集, 6–8. [URI]
制作物
- Scientific Phrases - 英語論文執筆支援用フレーズ検索サービス
役員等
- 座長, 第1回キムワイプ卓球研究会, 東京大学キムワイプ卓球会, 東京, 2017.
メディア掲載等
- テレビ東京「テレ東卓球塾」(2022年12月4日放映)
- 「卓球王国」2021年6月号
- withnews「理系の定番、キムワイプで卓球?ルール無用、研究会も…ひそかに流行」(2019年12月29日)[URI]
- J-CASTニュース「理系が愛するスポーツ「キムワイプ卓球」 競技者団体は創立10年、会員は550人以上も」(2018年11月5日)[URI]
- マイナビ学生の窓口「今徐々に来てる!? 理系ならピンと来る「東京大学キムワイプ卓球会」ってなんのこと?」(2015年12月21日)[URI]
- 「卓球王国」2014年5月号
- 中京テレビ「オードリーさん、ぜひ会って欲しい人がいるんです!」(2013年9月7日放映)