漢字仮名混じり文をローマ字に変換

AWS運用自動化サービス「Cloud Automator」

ローマ字はイタリア語と習った男塾技術四課のテツカです。

  1. Pykakasi とは?
  2. インストール
  3. スクリプト作成
  4. テスト
  5. まとめ

1. Pykakasi とは?

漢字仮名混じり文をローマ字に変換する Python Natural Language Processing(NLP)ライブラリです。

pykakasi is a Python Natural Language Processing (NLP) library to transliterate hiragana, katakana and kanji (Japanese text) into rōmaji (Latin/Roman alphabet).

引用元: Pykakasi > Overview

2. インストール

2019/12/13 現在、Pykakasi がサポートする Python は以下の通りです。

Pykakasi supports python 2.7, python 3.5, 3.6, 3.7, 3.8 and PyPy.

引用元: Supported python versions

今回は Python 3 が使える EC2 検証機を 1 台用意します。
[参考] Linux 仮想マシンの起動 / クラウドならアマゾン ウェブ サービス 【AWS 公式】

ログイン後、python3 と pykakasi をインストールします。

今回使用したバージョンは Python 3.7.4 、Pykakasi 1.2 です。

3. スクリプト作成

以降のテストでは Examples を元にした下記スクリプトを利用します。

kana2romaji.py

4. テスト

早口言葉

完璧です。

山手線の駅一覧

[ソース] yamate

[結果]

「toukyou」「uguisu tani」「shin’ookubo」が気になりますが、ちょっと試してみたいことが。

これもすごい。高田馬場は takada no baba ですが、ジャイアント馬場は jaianto と baba の間に no がありません。

そして最後にー

ウエイ!(語彙力不足)

5. まとめ

Pykakasi で漢字仮名混じり文をローマ字に変換しましたが、かなりの精度で驚きました。
タグやリソース名の作成、チャット時の飛び道具としていかがでしょう?

以上

AWS運用自動化サービス「Cloud Automator」