Dataset Viewer
Auto-converted to Parquet Duplicate
key
stringlengths
5
10
normalized_text
stringlengths
6
43
normalized_pron
stringlengths
10
60
固_かためる_0
新しいプロジェクトを進めるため、チームの結束を固める必要がある。
アタラシープロジェクトオススメルタメ、チームノケッソクオ<カタメ>ルヒツヨーガール。
固_かためる_1
注文する際、ラーメンの麺を固めでお願いした。
チューモンオスルサイ、ラーメンノメンオ<カタメ>デオネガイシタ。
固_かためる_2
彼は目標達成への決意を固めて、計画を実行に移した。
カレワモクヒョータッセーヘノケツイオ<カタメ>テ、ケーカクオジッコーニウツシタ。
股_コ_0
彼はランニング中に股関節を痛めた。
カレワランニングチューニ<コ>カンセツオイタメタ。
股_コ_1
ボールが急に飛んできて、股間に当たった。
ボールガキューニトンデキテ、<コ>カンニアタッタ。
股_コ_2
格闘技では、股間を保護するプロテクターを着用する。
カクトーギデワ、<コ>カンオホゴスルプロテクターオチャクヨースル。
固_かたい_0
この肉は少し固くて、噛み切りにくい。
コノニクワスコシ<カタ>クテ、カミキリニクイ。
固_かたい_1
彼は固い決意を持って留学を決めた。
カレワ<カタ>イケツイオモッテリューガクオキメタ。
固_かたい_2
パンの固さを調節するために水を加えた。
パンノ<カタ>サオチョーセツスルタメニミズオクワエタ。
故_コ_0
彼は彼女を故意に無視した。
カレワカノジョオ<コ>イニムシシタ。
故_コ_1
昨夜、大きな交通事故があったらしい。
サクヤ、オーキナコーツージ<コ>ガアッタラシー。
故_コ_2
彼は都会での生活を捨て、故郷へ帰った。
カレワトカイデノセーカツオステ、<コ>キョーヘカエッタ。
虎_コ_0
虎穴に入らずんば虎子を得ず。
<コ>ケツニイラズンバコジオエズ。
虎_コ_1
彼はプロ野球チームの猛虎を応援している。
カレワプロヤキューチームノモー<コ>オオーエンシテイル。
虎_コ_2
彼は虎視眈々と昇進のチャンスを狙っている。
カレワ<コ>シタンタントショーシンノチャンスオネラッテイル。
弧_コ_0
重要な語句は括弧で囲んでください。
ジューヨーナゴクワカッ<コ>デカコンデクダサイ。
弧_コ_1
定規を使って正確な円弧を描くのが難しい。
ジョーギオツカッテセーカクナエン<コ>オエガクノガムズカシー。
弧_コ_2
虹は空に美しい弧状の線を描いていた。
ニジワソラニウツクシー<コ>ジョーノセンオエガイテイタ。
虎_とら_0
あの動物園には、白い虎が二頭いる。
アノドーブツエンニワ、シロイ<トラ>ガニトーイル。
虎_とら_1
彼は虎の威を借る狐のような人間だ。
カレワ<トラ>ノイオカルキツネノヨーナニンゲンダ。
虎_とら_2
今年は虎年なので、何事にも積極的に挑戦したい。
コトシワ<トラ>ドシナノデ、ナニゴトニモセッキョクテキニチョーセンシタイ。
枯_コ_0
異常な乾燥により、多くの植物が枯死した。
イジョーナカンソーニヨリ、オークノショクブツガ<コ>シシタ。
枯_コ_1
彼の作風は、若い頃の情熱的なものから、年齢を重ねるにつれて枯淡なものへと変化した。
カレノサクフーワ、ワカイコロノジョーネツテキナモノカラ、ネンレーオカサネルニツレテ<コ>タンナモノヘトヘンカシタ。
枯_コ_2
歴史は栄枯盛衰を繰り返す。
レキシワエー<コ>セースイオクリカエス。
孤_コ_0
その戦争で多くの子供たちが孤児となった。
ソノセンソーデオークノコドモタチガ<コ>ジトナッタ。
孤_コ_1
彼は深い孤独を感じながらも、創作活動を続けた。
カレワフカイ<コ>ドクオカンジナガラモ、ソーサクカツドーオツヅケタ。
孤_コ_2
議論の末、彼の提案は孤立することになった。
ギロンノスエ、カレノテーアンワ<コ>リツスルコトニナッタ。
庫_コ_0
彼らは新しい倉庫に荷物を運び入れた。
カレラワアタラシーソー<コ>ニニモツオハコビーレタ。
庫_コ_1
私は読書が好きなので、文庫本をたくさん持っている。
ワタクシワドクショガスキナノデ、ブン<コ>ボンオタクサンモッテール。
庫_コ_2
車庫のシャッターが故障したので、修理を依頼した。
シャ<コ>ノシャッターガコショーシタノデ、シューリオイライシタ。
故_ゆえ_0
彼が病に倒れた故を尋ねる人は多い。
カレガヤマイニタオレタ<ユエ>オタズネルヒトワオーイ。
故_ゆえ_1
彼の言葉には説得力がある。故に、皆彼の意見に従う。
カレノコトバニワセットクリョクガアル。<ユエ>ニ、ミナカレノイケンニシタガウ。
故_ゆえ_2
若さ故の無謀な行動は許されない。
ワカサ<ユエ>ノムボーナコードーワユルサレナイ。
個_コ_0
彼女は個人の意見を尊重する。
カノジョワ<コ>ジンノイケンオソンチョースル。
個_コ_1
この箱にはリンゴが五個入っている。
コノハコニワリンゴガゴ<コ>ハイッテール。
個_コ_2
彼の個性はとても魅力的だ。
カレノ<コ>セーワトテモミリョクテキダ。
湖_コ_0
湖畔でバーベキューをしました。
<コ>ハンデバーベキューオシマシタ。
湖_コ_1
彼の調査対象は湖沼学です。
カレノチョーサタイショーワ<コ>ショーガクデス。
湖_コ_2
湖水の色が神秘的に輝いていた。
<コ>スイノイロガシンピテキニカガヤイテイタ。
庫_ク_0
庫裡とは、仏教に関する用語です。
<ク>リトワ、ブッキョーニカンスルヨーゴデス。
庫_ク_1
彼は庫院で、修行僧たちの食事を準備しています。
カレワ<ク>インデ、シュギョーソータチノショクジオジュンビシテーマス。
庫_ク_2
庫裡は、お寺の台所としての役割を持っています。
<ク>リワ、オテラノダイドコロトシテノヤクワリオモッテイマス。
枯_からす_0
忙しくて、水をあげるのを忘れてしまい、植木を枯らしてしまった。
イソガシクテ、ミズオアゲルノオワスレテシマイ、ウエキオ<カラ>シテシマッタ。
枯_からす_1
庭の雑草を根こそぎ枯らすために、強力な除草剤を撒いた。
ニワノザッソーオネコソギ<カラ>スタメニ、キョーリョクナジョソーザイオマイタ。
枯_からす_2
木枯らしが吹く季節になり、コートが必要になった。
コ<ガラ>シガフクキセツニナリ、コートガヒツヨーニナッタ。
湖_みずうみ_0
あの湖はとても深く、青く澄んでいる。
アノ<ミズーミ>ワトテモフカク、アオクスンデール。
湖_みずうみ_1
湖のほとりでキャンプをした。
<ミズーミ>ノホトリデキャンプオシタ。
湖_みずうみ_2
早朝の湖に霧がかかり、幻想的な景色だった。
ソーチョーノ<ミズーミ>ニキリガカカリ、ゲンソーテキナケシキダッタ。
雇_やとう_0
彼は新しいスタッフを雇うことに決めた。
カレワアタラシースタッフオ<ヤト>ウコトニキメタ。
雇_やとう_1
私は安定した会社に正社員として雇われたい。
ワタシワアンテーシタカイシャニセーシャイントシテ<ヤト>ワレタイ。
雇_やとう_2
若い頃、彼は日雇いの仕事で学費を稼いだ。
ワカイコロ、カレワヒ<ヤト>イノシゴトデガクヒオカセーダ。
雇_コ_0
政府は若者の雇用対策を強化した。
セーフワワカモノノ<コ>ヨータイサクオキョーカシタ。
雇_コ_1
彼は不正行為のため、会社から解雇された。
カレワフセーコーイノタメ、カイシャカラカイ<コ>サレタ。
雇_コ_2
彼は市の臨時雇員として働いている。
カレワシノリンジ<コ>イントシテハタライテール。
誇_コ_0
彼は自分の財力を誇示するために、高価な時計を身につけていた。
カレワジブンノザイリョクオ<コ>ジスルタメニ、コーカナトケーオミニツケテイタ。
誇_コ_1
その広告は効果を誇大に表現しており、信頼性に欠ける。
ソノコーコクワコーカオ<コ>ダイニヒョーゲンシテオリ、シンライセーニカケル。
誇_コ_2
彼女は話を面白くするために、事実を誇張して話す癖がある。
カノジョワハナシオオモシロクスルタメニ、ジジツオ<コ>チョーシテハナスクセガアル。
誇_ほこる_0
彼女は自分の国が持つ豊かな歴史と文化を誇っています。
カノジョワジブンノクニガモツユタカナレキシトブンカオ<ホコ>ッテーマス。
誇_ほこる_1
困難な状況で成功を収めたことは、私たちにとって大きな誇りです。
コンナンナジョーキョーデセーコーオオサメタコトワ、ワタシタチニトッテオーキナ<ホコ>リデス。
誇_ほこる_2
卒業式で代表としてスピーチをする娘の姿が、とても誇らしく感じられました。
ソツギョーシキデダイヒョートシテスピーチオスルムスメノスガタガ、トテモ<ホコ>ラシクカンジラレマシタ。
顧_コ_0
彼は会社の顧問弁護士になった。
カレワカイシャノ<コ>モンベンゴシニナッタ。
顧_コ_1
顧客の意見を顧慮する姿勢が大切だ。
<コ>キャクノイケンオコリョスルシセーガタイセツダ。
顧_コ_2
若き日を回顧し、彼は少し涙ぐんだ。
ワカキヒオカイ<コ>シ、カレワスコシナミダグンダ。
枯_かれる_0
今年の干ばつで、多くの農作物が枯れてしまった。
コトシノカンバツデ、オークノノーサクブツガ<カレ>テシマッタ。
枯_かれる_1
何日も水をやらなかったので、植木鉢のハーブが完全に枯れた。
ナンニチモミズオヤラナカッタノデ、ウエキバチノハーブガカンゼンニ<カレ>タ。
枯_かれる_2
彼は、才能がありながらも、途中で心が枯れていった。
カレワ、サイノーガーリナガラモ、トチューデココロガ<カレ>テーッタ。
互_ゴ_0
二人は実力が互角で、勝敗がつきにくい。
フタリワジツリョクガ<ゴ>カクデ、ショーハイガツキニクイ。
互_ゴ_1
彼らは相互理解を深めるために話し合った。
カレラワソー<ゴ>リカイオフカメルタメニハナシアッタ。
互_ゴ_2
委員長はメンバーの互選によって選ばれた。
イーンチョーワメンバーノ<ゴ>センニヨッテエラバレタ。
鼓_コ_0
彼の心臓の鼓動は激しくなっていた。
カレノシンゾーノ<コ>ドーワハゲシクナッテータ。
鼓_コ_1
祭りで子供たちが太鼓を叩いていた。
マツリデコドモタチガタイ<コ>オタタイテータ。
鼓_コ_2
監督は選手たちを鼓舞する言葉をかけた。
カントクワセンシュタチオ<コ>ブスルコトバオカケタ。
五_いつつ_0
りんごを五つください。
リンゴオ<イツツ>クダサイ。
五_いつつ_1
テーブルの上には、コップが五つ置いてある。
テーブルノーエニワ、コップガ<イツツ>オイテアル。
五_いつつ_2
この課題には、クリアすべきチェック項目が五つある。
コノカダイニワ、クリアスベキチェックコーモクガ<イツツ>アル。
顧_かえりみる_0
過去の失敗を顧みることは重要だ。
カコノシッパイオ<カエリミル>コトワジューヨーダ。
顧_かえりみる_1
家族を顧みる暇もなく、彼は仕事に明け暮れた。
カゾクオ<カエリミル>ヒマモナク、カレワシゴトニアケクレタ。
顧_かえりみる_2
彼女は後ろを顧みることなく、まっすぐに前へ進んだ。
カノジョワウシロオ<カエリミル>コトナク、マッスグニマエヘススンダ。
鼓_つづみ_0
能楽師が優雅に鼓を打つ。
ノーガクシガユーガニ<ツヅミ>オウツ。
鼓_つづみ_1
歌舞伎の舞台では、三味線と鼓が不可欠だ。
カブキノブタイデワ、シャミセント<ツヅミ>ガフカケツダ。
鼓_つづみ_2
彼女は鼓を習い始めて五年になる。
カノジョワ<ツヅミ>オナライハジメテゴネンニナル。
五_ゴ_0
神社で五穀豊穣を祈願した。
ジンジャデ<ゴ>コクホージョーオキガンシタ。
五_ゴ_1
カラフルな五色の短冊を飾る。
カラフルナ<ゴ>ショクノタンザクオカザル。
五_ゴ_2
情報不足で彼は五里霧中の状態だ。
ジョーホーブソクデカレワ<ゴ>リムチューノジョータイダ。
五_いつ_0
来週の五日に、会社の健康診断があります。
ライシューノ<イツ>カニ、カイシャノケンコーシンダンガアリマス。
五_いつ_1
妹は今日で五つになりました。
イモートワキョーデ<イツ>ツニナリマシタ。
五_いつ_2
彼は五日間、入院することになりました。
カレワ<イツ>カカン、ニューインスルコトニナリマシタ。
錮_コ_0
彼は強盗の罪で禁錮三年を言い渡された。
カレワゴートーノツミデキン<コ>サンネンオイーワタサレタ。
錮_コ_1
禁錮刑を終え、彼は社会復帰に向けて努力している。
キン<コ>ケーオオエ、カレワシャカイフッキニムケテドリョクシテール。
錮_コ_2
重大な犯罪者には終身禁錮が適用されるべきだという意見もある。
ジューダイナハンザイシャニワシューシンキン<コ>ガテキヨーサレルベキダトイウイケンモアル。
後_ゴ_0
午後三時に会議が始まります。
ゴ<ゴ>サンジニカイギガハジマリマス。
後_ゴ_1
彼の家は駅の前後を探せば見つかるだろう。
カレノイエワエキノゼン<ゴ>オサガセバミツカルダロー。
後_ゴ_2
詳しいことは後刻改めてご連絡いたします。
クワシーコトワ<ゴ>コクアラタメテゴレンラクイタシマス。
互_たがい_0
彼らは互いに助け合って困難を乗り越えた。
カレラワ<タガイ>ニタスケアッテコンナンオノリコエタ。
互_たがい_1
良い人間関係を築くには、互いの信頼が欠かせない。
ヨイニンゲンカンケーオキヅクニワ、<タガイ>ノシンライガカカセナイ。
互_たがい_2
駐車場では、車を互い違いに停めるように指示された。
チューシャジョーデワ、クルマオ<タガイ>チガイニトメルヨーニシジサレタ。
後_コウ_0
過去の選択を後悔しても仕方がない。
カコノセンタクオ<コー>カイシテモシカタガナイ。
後_コウ_1
彼は私にとって信頼できる後輩だ。
カレワワタクシニトッテシンライデキル<コー>ハイダ。
後_コウ_2
列車は後続車との間隔を空けて停車した。
レッシャワ<コー>ゾクシャトノカンカクオアケテテーシャシタ。
午_ゴ_0
午前中の会議はとても長かった。
<ゴ>ゼンチューノカイギワトテモナガカッタ。
End of preview. Expand in Data Studio

Joyo Kanji Yomi Benchmark

Toolkit Arxiv

A kanji-level pronunciation evaluation benchmark for Japanese TTS, covering all 2,136 Joyo kanji and their 4,378 readings with 13,095 native-speaker-verified test sentences.

Dataset Description

Each sample targets a specific kanji-reading pair. The sentence context is designed so that only the target reading is valid. All sentences and annotations have been verified by 35 native Japanese speakers through a three-stage review process.

Count
Kanji 2,136
Kanji-reading pairs 4,378
Test sentences 13,095
Sentences per reading 3

A small number of kanji-reading pairs are excluded when the target reading cannot be uniquely disambiguated from the kanji's other readings by sentence context alone.

Data Format

Each sample is a JSON object with the following fields:

Field Type Description
key string Unique sample identifier, formatted as {kanji}_{reading}_{index}
normalized_text string Input sentence for TTS synthesis
normalized_pron string Full-sentence katakana reading with the target kanji's reading marked by <> delimiters

Example

{
  "key": "精_セイ_0",
  "normalized_text": "その時計は非常に精密な作りになっている。",
  "normalized_pron": "ソノトケーワヒジョーニ<セー>ミツナツクリニナッテール。"
}

In normalized_pron, the <セー> marks the katakana substring corresponding to the target kanji 「精」, enabling automatic extraction for kanji-level CER computation.

Usage

For evaluation, use the evaluation toolkit which handles ASR transcription, alignment, and metric computation.

Citation

@misc{liu2026sarashina22ttstacklingkanjipolyphony,
      title={Sarashina2.2-TTS: Tackling Kanji Polyphony in Japanese Speech Generation via Data Scaling and Targeted Data Synthesis}, 
      author={Lianbo Liu and Shiao Zhu and Kai Washizaki and Reo Yoneyama and Haesung Jeon and Mengjie Zhao and Yusuke Fujita and Hao Shi and Nao Yoshida and Yuan Gao and Roman Koshkin and Yukiya Hono and Yui Sudo},
      year={2026},
      eprint={2606.25369},
      archivePrefix={arXiv},
      primaryClass={cs.SD},
      url={https://arxiv.org/abs/2606.25369}, 
}

License

This project is licensed under the MIT License.

Downloads last month
55

Paper for sbintuitions/joyo-kanji-yomi-benchmark