アーカイブ情報
2024/7/26
【くずし字AI-OCR】熊本大学とTOPPAN、永青文庫所蔵の「細川家文書」における未解読の古文書約5万枚を短期間で全文テキスト化に成功
熊本大学とTOPPANホールディングスのグループ会社であるTOPPANは、熊本大学が永青文庫から寄託を受けている歴史資料『細川家文書(ほそかわけもんじょ)』のうち、専門家でも解読が困難な難易度の高いくずし字で書かれた約5万枚の未解読の古文書(藩政記録)をAI-OCRを用いて短期間で解読し、約950万文字のテキストデータを生成することに成功した。
さらに、くずし字資料の解読システムと連動するキーワード検索システムを構築することにより、江戸時代前期の細川藩領国(小倉領40万石から熊本領54万石)の、約90年間にわたるあらゆる社会的事件や統治制度の変容を示す記述を含んだ資料を即時に検索収集できるようになった。
今回解読した古文書は、『細川家文書』のうち、細川家奉行所の執務記録である「奉行所日帳(ぶぎょうしょにっちょう)」、藩主細川忠利の口頭での命令を日次に記録した「奉書(ほうしょ)」、参勤中の細川藩主が国元の家老・奉行衆に発した書状の控えである「御国御書案文(おくにごしょあんもん)」、小倉・熊本の惣奉行衆から各業務を担当する奉行たちへ発せられた指示書類の控えである「方々(かたがた)への状控(じょうひかえ)」など、合計約5万枚。
また、くずし字AI-OCRにより作成したテキストデータに対して、今回「地震、大雨、洪水、虫、飢、疫」などの災害に関連するキーワードで検索・調査を実施したところ300件以上の記述を発見した。その中には、知られざる自然災害、疫病流行や飢饉など、歴史学・地域防災研究において重要な資料も含まれる。
今後、熊本大学とTOPPANは、『細川家文書』の解読と分析を進め、江戸時代の社会史研究の通時的深化に貢献するとともに、新しく発見された災害関連の記録を活用することで、現代における防災意識の醸成、防災計画の策定等にも活用を目指す。
取り組みの背景
古文書は、日本国内に数十億点以上残存すると言われているが、そのなかには現代の社会課題にも直結する災害や地域文化の記録など、防災や観光資源の創出・地域の活性化にもつながる貴重な情報が記されているものがある。しかし、古文書のほとんどは「くずし字」で書かれているため現代人にとって判読が困難となってしまい、当時の記録・文献を活用する際の大きな障壁になっている。
TOPPANは、これらの課題を解決する新たな手法として、2015年より人間文化研究機構 国文学研究資料館との共同研究を開始し、以後、多数の研究機関等とくずし字AI-OCR技術の開発・実証を重ねてきた。2017年からは古文書解読とくずし字資料の利活用サービス「ふみのは®」として、様々なくずし字解読ソリューションを提供している。
熊本大学は、永青文庫が所有する、九州の国持大名・肥後細川家(1600~1632年 小倉藩主、以降1871年まで熊本藩主)に伝来した歴史資料や美術品のうち、約5万7,000点、約288万枚を寄託されている。寄託資料の中でも、今回解読した「奉行所日帳」をはじめとした、17世紀初期から後期にかけて奉行所に蓄積された大量の統治記録は、当該時期の九州地域の社会状況を知る上でもきわめて貴重な歴史資料。熊本大学では2010年に熊本大学永青文庫研究センターを設置し、永青文庫から寄託されている歴史資料や書籍等の基礎研究を推進して、ひろく社会に発信している。
このような中、熊本大学とTOPPANは、2021年より文献資料の新たな大規模調査手法の検討と、永青文庫所蔵資料に対するAI-OCRの精度向上に取り組んでおり、文部科学省における2023年度の科学研究費助成事業において『永青文庫資料と「くずし字AI-OCR」の活用による17世紀社会論・公儀権力形成史の再構築』として採択された。このたび約5万枚・約950万文字を全文テキスト化し、大規模な古文書解読のためのシステム構築を行うとともに、地域における災害記録をはじめとした網羅的な調査を開始した。
くずし字AI-OCRによる解読と検索システムが一体になることによって、これまでくずし字の解読が障壁となっていた古文書などの一次史料への網羅的調査が容易になる。検索により発見した資料を研究者が精査し、先行研究や定説との照合を行うことで、新たな発見や、歴史学をはじめとした様々な分野への一次史料の活用を促進する。
今回解読した『細川家文書』の約5万枚の資料に対し、災害に関するキーワード「大雨、虫、飢、疫」などで調査したところ、洪水、作物虫害、飢饉、疫病の発生と、それへの対応が行政課題化した事実を示す記述などを、300件以上発見した。
また、それらの中には、いままでよく知られていなかった17世紀後期の気象災害に起因する大規模な飢饉と疫病の蔓延を物語る熊本藩奉行所の執務記録の記述など、未知の重要な記述が含まれることが確認され、熊本における地域防災などに今後活用するための研究を進めていく。
両者の役割について
・熊本大学:研究計画、史料選定、処理結果の評価、応用研究検討
・TOPPAN:プロジェクトの管理・実行、くずし字AI-OCRおよび解読システムの開発
『細川家文書』について
『細川家文書』は、江戸時代に小倉藩主・熊本藩主をつとめた近世大名細川家に伝来した5万点以上、約288万枚の歴史資料群。現在は永青文庫が所有し、その大半が熊本大学に寄託されている。『細川家文書』の資料群は主に以下の通り。
①「奉行所日帳(ぶぎょうしょにっちょう)」:小倉城や熊本城にあった細川家奉行所の日次の執務記録であり、当該時期の九州地域の社会状況が記された貴重な歴史資料
②「奉書(ほうしょ)」:藩主細川忠利が、側近を通して口頭で命令した内容を日次で書きとめた記録
③「御国御書案文(おくにごしょあんもん)」:参勤中の細川忠利が国元の家老・奉行衆に発した書状の写し(案文)を集成したもの
④「方々(かたがた)への状控(じょうひかえ)」:小倉・熊本の惣奉行衆から各業務を担当する奉行たちへ発せられた書状の写しを集成したもの
今後の展開
今後、熊本大学およびTOPPANは、共同で『細川家文書』を解読し、当研究を通じて現代における防災計画や、歴史学の学習・研究の拡大に貢献する。
熊本大学は、『細川家文書』の解読と分析を進め、一時代の中でも細分化された短期間の枠内で完結するような研究法を克服して、江戸時代の長期にわたる社会変容の過程を通時的に把握し、九州に基点をすえた江戸時代社会史研究の深化に取り組んでいく。
また、TOPPANはグループ会社であるTOPPANデジタル、TOPPANエッジとも連携し、AI-OCRによる古文書解読支援システム「ふみのは®」の精度向上を目指すとともに、全国の様々な教育機関、博物館・資料館、地方自治体などと提携し、全国各地に眠る貴重な歴史的資料の研究・活用の支援に取り組んでいく。
- カテゴリー
- コンバーティングニュース