チケット #42654

UTF-8 without BOM「日本語①」の自動判定

登録: 2021-07-21 20:37 最終更新: 2021-07-21 20:40

報告者:
担当者:
(未割り当て)
チケットの種類:
状況:
完了
コンポーネント:
(未割り当て)
マイルストーン:
(未割り当て)
優先度:
5 - 中
重要度:
5 - 中
解決法:
なし
ファイル:
なし

詳細

こんにちは,日本語 TeX の開発関係者です。既に報告があるのかもしれませんが,過去チケットを検索しても見つけられませんでしたので報告します。

現在,Windows 版の pTeX(日本語 TeX)では nkf をライブラリとして組み込んで文字コード推定に使わせて頂いております。その中で,nkf が文字コード推定を誤る例が(ずいぶん前から)指摘されていることに今更気づきました。

確かに nkf 単体で「日本語①」を test.txt として UTF-8 without BOM で保存しても,nkf --guess test.txt で Shift_JIS と返ってきます。ところが

  • 「日」だけ → UTF-8
  • 「日本」まで → UTF-8
  • 「日本語」まで → UTF-8
  • 「日本語①」まで → Shift_JIS
  • 「日本語①あ」まで → UTF-8

となり「日本語①」の時だけ判定を誤るのを不思議に思っています。100%判定が当たるとは思っていませんが,不思議なので理由だけでも分かるとありがたいです。よろしくお願いします。

チケットの履歴 (2 件中 2 件表示)

2021-07-21 20:37 更新者: aminophen
  • 新しいチケット "UTF-8 without BOM「日本語①」の自動判定" が作成されました
2021-07-21 20:40 更新者: aminophen
  • 状況オープン から 完了 に更新されました
コメント

申し訳ありません,なぜか2個オープンしてしまいました。 https://osdn.net/projects/nkf/ticket/42653 に統一します。

添付ファイルリスト

添付ファイルはありません

編集

ログインしていません。ログインしていない状態では、コメントに記載者の記録が残りません。 » ログインする