re:annkara

日々学んだことを書き留めておく。

日本語文書内の不自然なアルファベットを検出する

Kibana 7.2.0から日本語に対応している。
使っているとちょいちょい不自然なアルファベットが紛れ込んでいることに気づいて、2度ほどissueを挙げた経緯がある。

目視で検出するのも良いが、機械的に検出できないかと思ってGoで実装した。

GitHub - annkara/Unnatural-Alphabet: 日本語文書内の不自然なアルファベットを検出する。

単純に正規表現で 日本語1文字 + アルファベット1文字 + 日本語1文字 のパターンにマッチするものを出力するだけ。

試しにv7.4.0のja-JP.jsonファイルを対象に使ってみるとissueとして挙げた二か所が検出できたので、ある程度の精度は保てていそう。

というか、他にもあることに気づいたので最新のバージョンで直ってなかったらissueあげておこう。

"kbn.management.objects.objectsTable.howToDeleteSavedObjectsDescription": "ここから保存された検索などの保存されたオブジェクトを削除できます。保存されたオブジェクトの生データを編集することもできます。通常、オブジェクトは関連アプリケーションでのみ編集され、こn画面で編集するよりもそちらのほうが賢明です。",

"timelion.topNavMenu.save.saveAsDashboardPanelDescription": "Kibana ダッシュボードにチャートの追加が必要ですか?できます!このオプションは、現在選択されている式を、他のオブジェクトの追加と同じように Kibana ダッシュボードに追加可能なパネルとして保存します。他のパネルへのリファレンスが使用されている場合、リファレンスの表現を直接保存する表現にコピーして、リファレンスを削除する必要があります。他の表現式を保存するよう選択すrには、チャートをクリックします。",

"xpack.monitoring.metrics.beats.failRates.droppedInPipelineDescription": "N 回の試行後ドロップされたtイベントです (N = max_retries 設定)",
"xpack.monitoring.metrics.beatsInstance.failRates.droppedInPipelineDescription": "N 回の試行後ドロップされたtイベントです (N = max_retries 設定)",
"xpack.security.loginPage.welcomeDescription": "Elastic Stack へのi入口",

参考

不自然なアルファベットを見つけるtextlintルール | Web Scratch

CiNii 論文 -  日本語文章校正ツール"Chanterelle" : 入力ミス及び表記揺らぎについて