pandocは、utf8以外の文字がないように見えますが、utf8以外の文字について文句を言い続けます。

Question

まあ、長い間問題を解決するために戦い、掘り下げた後。ついに問題の根本原因を見つけました。

理由

問題は、test.mdバックスラッシュで始まるテキストが実際にリテラルとして扱われるべきいくつかの場所に存在することです。例えば、

* 一般现在时\过去时\将来时，simple present\past\future
* 现在(过去\将来)进行时，present(past\ future) continuous
* 现在（过去\将来）完成时，present(past\future) perfect
* 现在（过去\将来）完成进行时，present(past\future) perfect continuous

上記の段落のバックスラッシュは、さまざまな状況間の区切り記号にすぎません。これは効果的な値下げです。しかし、残念ながら、それらはpandocコマンドによって処理されます。

解決策

代わりに、次のコマンドを使用してください。

pandoc -f markdown-raw_tex --pdf-engine=xelatex -V CJKmainfont=KaiTi test.md -o test.pdf

バックスラッシュで始まるテキストを歪めるには、バックスラッシュを使用するか（必ずしも必要ではない）、2つのバックスラッシュを使用してください。

いくつかのアイデア

Pandocのエラーメッセージは、問題がUTF-8デコードに関連していないため、誤解を招く可能性があります。なぜこのようなエラーメッセージが表示されるのかわかりません。

また、この問題に関するエラーメッセージは一貫性がないようです。たとえば、上記のテキストにバックスラッシュが含まれているとします。次のようにコンパイルすると

pandoc -f markdown --pdf-engine=xelatex -V CJKmainfont=KaiTi test.md -o test.pdf

エラーメッセージは次のようになります。

PDFの生成中にエラーが発生しました。
！未定義の制御順序。
l.75単純現在時刻\過去時間

これにより、utf-8関連の問題を掘り下げるよりも問題のある場所を見つけるのがはるかに簡単になります。

フォローアップ

これは実際にxelatexのバグです。誤った制御シーケンスが見つかった場合、誤ったUTF-8バイトが生成される可能性があります。しかし、pandocは有効なutf-8シーケンスを受け取ると仮定します。したがって、エラーが発生しました。詳しくはこちらをご覧くださいこの投稿。

2017.12.29 更新
とともに読み取り2.0.6リリース、この動作はより適切に処理されます。

UTF8で常に正しくエンコードされていないLatexエラーログの緩いデコードを可能にします。

これで、これらの問題をデバッグする方が簡単になりました。

Answer 1

まあ、長い間問題を解決するために戦い、掘り下げた後。ついに問題の根本原因を見つけました。

理由

問題は、test.mdバックスラッシュで始まるテキストが実際にリテラルとして扱われるべきいくつかの場所に存在することです。例えば、

* 一般现在时\过去时\将来时，simple present\past\future
* 现在(过去\将来)进行时，present(past\ future) continuous
* 现在（过去\将来）完成时，present(past\future) perfect
* 现在（过去\将来）完成进行时，present(past\future) perfect continuous

上記の段落のバックスラッシュは、さまざまな状況間の区切り記号にすぎません。これは効果的な値下げです。しかし、残念ながら、それらはpandocコマンドによって処理されます。

解決策

代わりに、次のコマンドを使用してください。

pandoc -f markdown-raw_tex --pdf-engine=xelatex -V CJKmainfont=KaiTi test.md -o test.pdf

バックスラッシュで始まるテキストを歪めるには、バックスラッシュを使用するか（必ずしも必要ではない）、2つのバックスラッシュを使用してください。

いくつかのアイデア

Pandocのエラーメッセージは、問題がUTF-8デコードに関連していないため、誤解を招く可能性があります。なぜこのようなエラーメッセージが表示されるのかわかりません。

また、この問題に関するエラーメッセージは一貫性がないようです。たとえば、上記のテキストにバックスラッシュが含まれているとします。次のようにコンパイルすると

pandoc -f markdown --pdf-engine=xelatex -V CJKmainfont=KaiTi test.md -o test.pdf

エラーメッセージは次のようになります。

PDFの生成中にエラーが発生しました。
！未定義の制御順序。
l.75単純現在時刻\過去時間

これにより、utf-8関連の問題を掘り下げるよりも問題のある場所を見つけるのがはるかに簡単になります。

フォローアップ

これは実際にxelatexのバグです。誤った制御シーケンスが見つかった場合、誤ったUTF-8バイトが生成される可能性があります。しかし、pandocは有効なutf-8シーケンスを受け取ると仮定します。したがって、エラーが発生しました。詳しくはこちらをご覧くださいこの投稿。

2017.12.29 更新
とともに読み取り2.0.6リリース、この動作はより適切に処理されます。

UTF8で常に正しくエンコードされていないLatexエラーログの緩いデコードを可能にします。

これで、これらの問題をデバッグする方が簡単になりました。

pandocは、utf8以外の文字がないように見えますが、utf8以外の文字について文句を言い続けます。

試してみたが成功しなかったこと

utf8 以外の文字を探す Grep

無効な文字を削除してみてください。

私の質問

その他の情報

ベストアンサー1

理由

解決策

いくつかのアイデア

フォローアップ

おすすめ記事