2024년 12월 25일 수요일

일본에서 많이 사용하는 한자

 일본어 글자셋 사용 빈도를 구하는 코드를 만들었습니다.

물론 GPT를 사용하긴 하였지만 100%완벽하게 만들어주는 것이 아니다 보니 이것저것 수정 하고 원하는 대로 출력을 하기 위해서는 역시 사람의 손이 좀 필요하였습니다.

사용 용도는 unity TMP 글자셋에서 일본어 한자를 넣는 범위를 어떻게 해야할지 모르는 상황에서 최소한의 한자를 넣기 위해서 만들어 봤습니다.

지난글 참고 바랍니다.

https://swlock.blogspot.com/2024/12/unity-textmeshpro.html


대략 일본에서 유명하다는 web site 몇개 첫페이지만 가져와서 사용하는 문자들을 빈도순으로 나누었습니다. 아무래도 html 그대로 사용하다보니 영문 사용 빈도가 높았습니다. 

웹페이지를 분석해보니 아래 정도 글자를 사용하고 있습니다.

Summary:
Basic Latin:0000-007F : 98
Latin-1 Supplement:0080-00FF : 4
General Punctuation:2000-206F : 6
Letterlike Symbols:2100-214F : 1
Number Forms:2150-218F : 2
Arrows:2190-21FF : 1
Mathematical Operators:2200-22FF : 1
Enclosed Alphanumerics:2460-24FF : 1
Box Drawing:2500-257F : 1
Block Elements:2580-259F : 1
Geometric Shapes:25A0-25FF : 1
Miscellaneous Symbols:2600-26FF : 5
Dingbats:2700-27BF : 2
CJK Symbols and Punctuation:3000-303F : 20
Hiragana:3040-309F : 75
Katakana:30A0-30FF : 81
CJK Unified Ideographs:4E00-9FFF : 1382
Variation Selectors:FE00-FE0F : 1
Halfwidth and Fullwidth Forms:FF00-FFEF : 44
Specials:FFF0-FFFF : 1


간략하게 요약하자면 아래에서 파란부분은 모두 넣고

히라가나U+3041 - U+3096,

U+309D, U+309E

가타카나

전자/반자 문자

U+30A1 - U+30FA, U+30FC
간지CJK 통합 한자 참조
더블바이트 숫자FF10 - FF19

추가로 일본어에서는 아래 영역도 많이 사용합니다.

CJK Symbols and Punctuation:3000-303F : 20

、 「。」【】々『』〜〇〈〉《》〆〒〝〟

Halfwidth and Fullwidth Forms:FF00-FFEF : 44 위의 더블 바이트 숫자 영역입니다. 범위가 넓은데 확인해보니 아직 정의가 안된  부분이 있습니다. 위에 더블바이트 숫자영역만 사용하면 됩니다.

!/~)?(&:10%2+|Jx4=-R<>7heDAK3@FarnitSGWTV68Z

그리고 나서 CJK 한자 영역을 추가하면됩니다.

CJK Unified Ideographs:4E00-9FFF : 1382

天日新年気楽報月話品中晴時見人更連一最用曇作情生地載世界大小無間料子説公画開予本結転方事分雪知代場会女意検覧注愛上記全完像雨国出関県異前合恋入商選物特器現定集始索家電約象済高式者水行金今力有円通実文東市産俺取書買魔能自表山使目車美探週利得田法主登機社保北読所以別規海運役土強動信外手投部具計星語士死設発録後要版化感食花放心変体険容名明言様線安移道着介風初解次族納配加神庫二悪総送戦歴節理性稿直創正業冬対応除示季原野込師売都来広超平男止空題雲販験比台度近貴洗葉婚協石伝図降回較口評教紹和的提真万落点震横税藤店値旅暮音編防数木不受字夫元朝論遷終銀住積布指収酒好災向募島続長毎便内問学短達周活育冷炊況司末謝波付籍競各寝極覚味速切賞専過身下購証引番命員試術芸型津先省衛頃阪撃史累王氏件輸必町告資充宅座域優香房薬京飯装児確組他念福門催症去識嬢奇参乙思束境了貯期観光額雑医失追調剤務供占職申反立徹粉戸幸岡率私良温寒夜賀令華鮮訴効府券馬損太限位辺再工白典屋視企流持村区幼未染断急尋南履当焼濯鍋三球童郵求在違由決底策満宮暖十西測火重裏可僕億成亡霊宇須休号価何割削誌健菓経奈届紅多輪蔵熱科写井春歌素眠河疲娘戻雷四川詩弱属隊虚塚殺馴宙展恵詳客校株掲洋待獲康護豊富団修歳独泣漫息返麗夏千剣側友相談路紫影佐攻復勇双黒夢笑同駆居害破角査故百級背融費施半倍量靴敗財菜果消仕古飾民喫聴宿想簡単局認案願個針改任港第圧避振肥早夕基闘邪那崩荒帰監存嫁怪略幕少勝刀政八刑罪退軍谷膏駅松標犬館条斎忘突将概採揃沢閉貨腕択抜挙製梅援飲印弁顔室掛敷枕材技格託快適倒善処塾甘静倉油睡婦趣髪岩常服霜差散畿算響旧治労領禁奴否舎君冒武姫壊詰勤媒帝御浜織痛張遺議緑声庁増交賠償袋準端昇委助状免責項宝括訳際酎筋肌類米種酸玩習凍舗置抱猫備究講絵頭暗面停請欲却歯郎羽豆歩残進綺迎青警飛潟鹿九州沖縄城崎細許考密苦逐昔態園隷似秘七呼聖拒導溺起遠志病獄魅紀焦親系滅含虎営巨渡堀犯陽俳寿屍劇還判兆推環討救窓永湾祭湿鑑勢鏡肉魚茶赤柔軟掃扱即軽管祝帯植就映街贈簿徴枚清媛伊坂脳浴液慌担呆躍剛彩芽猛暑片隈斗晶黄砂傘艇釣桜枠札幌釧仙覇甲陸並低氷森秋形鳥旦契遇慢余裕鋼仲騎醒偽忌抗龍贄礼澤跡孤負囲麻批打非敵秀讐奪被陰謀譚賭囚才謙堅努固爵練誰既輩垢畜支軒脇功絶浩蛍辞押減炎湘奨授諮燃涙聞与迷秒挑恐守扇眼乳炭耗仏箱乗紙冠仮奏制航拠等泊審訪稼鹸塩革磨浄草湊圭吾樹薄宰鼻酔粧包丁暴走献射至玉茨梨兵曜彼毒舟匿稚握傲椎執蒼伏章荻離庭畑酷希弟煽糸英雄錬嫉妬賢匠辛怖懸萌頼召喚逢若課芯遭晨紡幻伽鬼賊博宵瞳咲首貰折妖暁鈴浪訓籠船皇兄妹竿埋構頑漢袖襟寺忠句棚遼騙霧架興嗜替滑輝敦彦擢到瑠沈黙惑官因困荷鉄併列般驚琴漏整撮摘寂曲権義暫濃傑板搭継縮沸丹贅旬叶狙該我寄宏帽兼精穀麺惣漬干泡壇筒膳厨操泳畳照壁毛農建築研鉢造飼衣葬刷骨董煙吹弦票療払複肢係望顧促透及延洒貼酬揺尽奮栄養滴豪乾燥覆昼伴沿央埼栃群岐阜滋根徳熊勘瘴狂紛律筆嘘卜涼泉孫刻羊唐杯叩潰懐稀惚尊敬六阻析激鞘喬褒丼繰是塞亘妙隠敢櫻岾貞曹洛呉妄彰両馨露柊統鉱脱鋸鎚杉峯捧又誘拐励槍普尉冥榮程毘沙艦蔑皆虹喜朗嶺諦裸副母梢絡誤致滝巻克逆純蛮尾虐歓俊哉爽佳誕橙乃著之携呈貸均疑裁靖綿肺訟控衝拡預巡争候補輔愕緯菅五毅鎮烈舞吉李緊厚債泰倫衆咳諭徒逮捕塗難仰例威嚇血芦接触察團遥久招賑共璧源唱潤弾斉騒萎悲騰跳慎芝益旨汚換勧絞頂

한자의 경우 웹사이트에서 추출한 1382자를 사용해보고 누락되는 글자를 추가해 주는 것도 좋을 것 같습니다.
CJK 통합 한자일반4E00 - 9FEA
확장 AU+3400 - U+4DB5
CJK 호환용 한자F900 - FA6D

그리고 이번에 웹사이트를 분석해보니 CJK 통합한자 중에 확장A, CJK 호환용 한자는 사용 안하고 있었습니다.


일본어 unicode 영역 정리

3000-303F,3041-3096,309D,309E,30A1-30FA,30FC,FF10-FF19,4E00-9FCB

4E00-9FCB 영역은 필요에 따라 삭제하고 위에 있는 글자셋으로 입력하면 됩니다.


여기에서 사용했던 코드는 아래 링크 참고 바랍니다.

https://github.com/donarts/sourcecode/blob/main/python/example/_80_gather_charset/TextExtractionCharset.py


댓글 없음:

댓글 쓰기