ブログ記事40件
日本語は極めて複雑なので、それを文字情報処理として扱うことには苦労が絶えないと思います。英語圏ではこの悩みは無いでしょうが、繊細な「心」を表現する言い回し方ができる日本語の奥深いところをたいへん誇りに思っています。日本語文字情報処理では特にユニコード対応ということになってから、様々な技術と共に仕様が追加されていて、私などそれに追従すること自体がままならなくなってきていますが、相変わらずの「ちからわざ」で手を放さずにズルズルと引きずられている状況にあります。今回の問題は、日本語文字データ(住所
デジカメやスマホで撮った写真データには「Exif」データが埋め込まれています。Exifデータは、撮影日時やカメラ名、シャッター速度などの撮影情報、GPS付きカメラであれば位置情報も記録されています。このExifデータがあるため、大量にある写真を整理したり編集したり便利に扱うことができます。「Exifデータ」記事をアップしたときは「デジタルスチルカメラ用画像ファイルフォーマット規格Exif2.31」でしたが、2023年5月に「デジタルスチルカメラ用画像ファイルフォーマット規格Exif
「文字コード」記事をはじめ、多くの記事で文字コード「UTF-8」という表記が出てまいります。その名前についてはよく目にするものの、その仕組みなどについては知らないという方が多いのではないでしょうか。今回は、「UTF-8」について少しだけ詳しくご紹介していきます。文字コードには「ASCII」「JIS」「Shift-JIS」などが良く知られますが、世界中の文字を含むコード体系として「Unicode」が考案されました。Unicodeは、文字に番号(コードポイント)を割り当てる規格です。UTF
▽・w・▽こんばんわんこ今日の仕事場では雪が降りました。(`ハ)))...ι(>。ヘ)へっくしょん寒かったですわ・・・・・・・これからの季節、毎日こうなるんでしょうねぇ・・・・さて、ブログの解析をしてますといろいろなことを見つけます。私のブログでよく見られているキーワードに”文字化け”と云うのがあります。Googleの検索ワードでも、当ブログは非常に多いのです。そこで訪問してくれる方のために、家計簿プロジェクト今夜はおあずけし、文字化けを多少色付
過去にアップした「ExcelCSV形式のファイル」記事でご紹介しましたように、「CSV」は「Comma-SeparatedValues」の頭文字で、複数の値(value)を「,」(commma、カンマ)で区切って(separated)並べて格納したデータ形式です。そして「ExcelCSV形式との関わり」記事の最後に少しだけ触れましたが、CSVファイルの文字コードが問題になることが多いので、文字コードに絞って補っておきます。下図のようなExcelの表データがあるとき、この住所録データを
ある日の夕方、純は頭を抱えてPCの前に座っていた。彼のスマホ画面には、意味不明な文字列がズラリと並んでいる。なんとかしてスマホに転送したCSVファイルを読み込もうとしたが、何度やっても文字化けする。2024/11/18Google検索でヒット数が多かったので、物語風ではなく解説ページを設けています。詳しく調べたい方は以下のブログ内リンクかを辿ってください。【データ交換の妙No2.【文字化け編】】【物語編もどうぞ】**純**:「くそっ!また文字化けだよ!なんでこん
Windowsの標準アプリ「メモ帳」は、文字通り、メモ帳のようにさほど大きくない文章書きに使われることが多いテキストエディタ―です。その「メモ帳」アプリもWindows11になって、デザインが大きく変わりました。上述したように、Windowsに付属するアプリなので、基本的にインストールする必要はありませんが、誤って削除してしまった場合にはMicrosoftSoreで「WindowsNotepad」を探しインストールすればまた使えます。「スタートメニュー」から[すべてのアプリ]-
アンニョンハセヨ~ソウルの達人です。仕事でPCソウトウェアやスマホアプリの「ローカライズ化」のお仕事を頂く事があります。簡単に説明すると、韓国語のソフトウェアを日本語にしたり、また日本語のソフトウェアを韓国語にする作業の事を言います。文書だったらWORDなどでもきちんと読み込んで印刷やPDFも作れるのですが、ソフトウェアとなると「日韓」の仲が悪い(笑)のです。今日はそのお話をしたいと思います。韓国語と日本語のソフトウェアにおける互換性とローカライズ化近年、グローバ
utf_8_sigというencodingを指定する必要があるらしい。
Wordで作成した文書をHTMLファイルに変換することができます。ホームページを作成する上で、なかなかHTML、CSSなどの言語が覚えられないという方でも、Wordで作成し、それをHTMLファイルに変換すればWebページを作れるわけです。(少しだけ体裁を整える作業が必要になることもありますが‥‥。)ちなみに、Wordを開いて[表示]-[Webレイアウト]を選択すれば、Webページに変換後の文書として表示され、その表示モードの中でも文書編集ができます。(下図)作成したWor
前回「WebページはShift-JIS、UTF-8どちらが良い?」記事で、WebページのHTML、CSSファイルなどを新規に作成するなら「UTF-8」文字コードにしましょう、ということをお話しました。強制力は弱いですが、HTML5では「UTF-8」が推奨されていますので、特にこだわりが無ければ「UTF-8」とすると良いでしょう。それでも、以前に作成したファイルが「Shift-JIS」で書かれていたら、それを「UTF-8」にしたくなることもあると思います。お使いのテキストエディタに文字
この記事は市野メモでも公開しています。chromiumビルド前の準備chromiumのフルビルド手順“CheckingoutandBuildingChromiumforWindows”を参照してビルドします。ビルドPCは時間が掛かるため高スペックが必要です。2種類試しました。Windows10core-i34スレッドメモリ16GiBSSD256GiB:ビルド時間80時間~90時間程度Windows11core-i720スレッドメモリ
ホームページを自分で作成し編集するときに、HTMLファイルなどに使用する文字コードを「Shift-JIS」とするか「UTF-8」とするか迷いますね。文字コードは、コンピュータ上で扱う文字に与えられた番号のことで、全ての文字情報に対して数値を与えています。問題は、この文字コードがいくつもあって、正しくWebブラウザなどが認識しないと「文字化け」してしまうようなことが起きます。よく使用される代表的な文字コードは以下の4つでしょう:JISShift_JISEUC(EUC_JP)Uni
#コンテンツ表示の高速化#高速化#JavaScript#appendChild#className#split#array#charset#UTF-8#function#target#Atag#SpeedingUpボタンを押すと初めてインターネット通信してHTMLコンテンツに合体合成する。そして埋め込まれたAタグ群を自動的に加工する方法についてのメモ。コンテンツを表示する速度を可能な限り高速化する。
他のプログラムのビルドはなんとか成功することができたが唯一VLMAnalyzerというプログラムのビルドでエラーがでている上記ソースファイルに関連してエラーが出るので上記ソースファイルとそれに関するファイルだけでビルドしたところなんとかビルドに成功できたファイルのフォーマットがUTF-8だとVisualStudioではエラーになるのでUTF-16で保存し直すとビルドできた。しかし本来はこのファイルのみではなく別のファイルも一緒にビルドしなければいけないがそ
HowtoreadCSVfileswithnewlinesandcommasoutputbyExcelinJavaScriptCSVfileshavebeenloadedusingSheetJS.However,therewasaCSVfilethatIjustcouldn'tgettoreadproperlybecauseofgarbledcharact…
--いきなりコード----ここから---------------------------------------------DimadoSAsNewADODB.StreamDimbufWithadoS.Charset="UTF-8".Open.LoadFromFile"テキストファイルのフルネーム"'まるっと読み込むならbuf=.Re
ZIPファイルを解凍すると文字化けするので何とかならないかという依頼。図エクスプローラーで解凍するとファイル名が文字化けMacはUTF-8でZIPファイルを生成、WindowsはShift-JIS前提で解凍処理をするからこんなことになっている。私が知っているだけでも20年くらいこの状況は変わっていない。Macは仕様に沿ったファイルを生成しているのだから、悪いのはWindows側だ。なぜWindowsはこんな簡単なことを直さないのだろうか。7-Zipなど、UTF-8に対応したソフトを
Subconv_toUTF8(ByValfile_fromAsString,ByValfile_toAsString_,OptionalByValisMode_overwriteAsBoolean=False_,OptionalByValcharset_originalAsString="Shift-JIS")Dimf_readAsNewADODB.StreamDimf_writeAsNew
主に私個人の備忘録です。音楽プレイヤーアプリ老舗、Powerampで日本語の曲名を表示すると文字化けする場合に、対策をウェブで検索すると、設定→ライブラリ→スキャナー→タグエンコーディングの設定でJapanese(Shift_JIS)を選べと解説したサイトが多いが、それだけで解消しない場合は、上記設定の真下の、.m3uに対して常にUTF-8を使用をオフにすると、文字化けが解消する場合がある。
こんにちはWIINGWSCスタッフです。今回はWebサイトの文字コードの変更方法についてです。UTF-8(ユーティーエフエイト)とは世界でもっともよく知られている文字コードでUnicode(ユニコード)用の文字符号化方式になります。Unicodeとは符号化文字集合です。世界中からありとあらゆる様々な文字を集めてその集めた文字それぞれひとつひとつに番号が振られていて文字に割り振られた番号の表の事をいいます。そしてこの文字に割り振られた番号のことを文字コードといいます。文字
Unicodeで各文字を示す正の整数値を、符号位置(コードポイント)と呼ぶ。2進数で表現すると1~21ビットで表現される。上位のゼロを省いて2進数で1~7ビットで表される符号位置の文字は、最上位桁が0で、以下の7ビット分が符号位置を示す1バイトで表現される。数字や大文字小文字のアルファベットはこの範囲にあり、ASCIIでの表現と、UTF-8での表現は同じものとなる。上位のゼロを省いて8ビット以上必要な符号位置の文字は2~4バイトで表現される。具体的には、
UTF-8はUnicodeの文字符号化形式のひとつ。Unicodeでは、0から111万4112までの整数にひとつずつ文字を割り当てている。番号が決まれば文字が決まる。111万4112という数は、2進数で表現すると8ビットのバイト単位で3バイト分が必要になる。古くから使われている文字コードにASCIIがある。ASCIIは、0~9までの数字や、大文字小文字のアルファベット、いくつかの制御文字を7ビットで示すもので、1963年にAmericanStandardsAssoc
過去に「ExcelCSV形式のファイル」記事で「CSV」形式のデータについてご紹介しました。今回は、上記記事でお話しなかったことを“補足”してお伝えします。古くから使われているデータ形式で、複数の項目データを「,」(カンマ)で区切って並べ、さらにデータセットが複数行ある場合には各行の末尾に改行コードを含めるといったとてもシンプルな形式です。拡張子は「.csv」で、例えば「sample.csv」というデータファイルをダブルクリックして開くと、既定ではExcelがそのファイルを開くようにな
実験のためテキストファイルを読み込もうと思うと文字コードが合わなくてうまく読み込めないことがある。最近はだいぶutf-8に統一されてきたが古いファイルは違う文字コードのこともあるのでしょうがない。そういうファイルはlatin-1で読み込めることが多いがときどきlatin-1で定義されていない0x96のようなバイトが含まれるものがあり、以前から疑問に思っていた。調べていくとWindows-1252という、latin-1を拡張した文字コードがあり、0x96
<c言語のプログラム中での文字コードの扱いについて>i2cの送信がとりあえず成功したので気が抜け、というかちょっと飽きてきて、興味はまたマトリクスLEDの方へ。今度は縦に2連にして16×16ドットで表示してみようと画策しており、そのためのデータを東雲フォントの16×16のBDFファイルから持ってこようと思っているのだけど東雲フォント文字コードはJIS(ShiftーJISでもない)。(東雲フォントをプログラムで読んで#で文字型を並べてみた)Windowsなシステムには馴染むのかもだ
職場の上司の話全角文字なし、改行なしの1行のSQLファイルをサクラエディタで開いて、フッターのSJISCRLFという表示を見て、UTF-8のLFにしろって言ってんだろうがあああああwせdrftgyふじこlp;@!!!って稀によくなる。5,6回見た。はいはいおま環おま環。アンタがどんな設定のエディタで開いているかなんてしらねーよw何べん説明させんだ
Windowsユーザーで「バッチファイル」などと言う言葉を知ってる人も、少ないと思いますが、MSDOS時代には大変重要な機能でした。一連のコマンド(実行する命令)をテキストファイルに順に書いておき、拡張子を".bat"にしておけば、このファイルをダブルクリックするだけで一連の命令を実行できるというものです。この機能は、"cmd.exe"(コマンドプロンプト)に引き継がれ、Windowsでも実行する事が出来ます。複雑なオプションの記述が必要なROBOCOPYコマンドなどは、バ
今日は、祝日ですが仕事。これを、「怠け者の節句働き」と言うらしい。スキー場の混んでる「節句」に働き、空いてる平日にスキーをする。最高じゃないですか!今日の仕事は…お客様自身が作ったプログラムの不具合調査。これまでちゃんと動いていたものが、最近急にエラー出すようになってしまった…と。どれどれ…ちゃんと動いとりますがな。プログラムの中身を見ても、特に問題は無し。どんなエラーが出るのか聞いたら…「えいごのお手紙は読めまっしぇん!」のエラー。こっちじゃ読めているのに…なぜ?普
るそんべえです。日本人は日本が、他国に比べて先を行っていると思っている節があるように思います。私も、ある意味そう思っています。特に、自動車や家電に関しては、1歩先を行っている感はありました。しかし、家電がITに変わってからは、ちょっと様相が変わってきたように思います。変に技術が先を行き過ぎたがために、主流から外れてしまったという例は多くあるように思います。その良い例が、携帯電話ですね。どこよりも技術的に進んで、カメラはもちろんのこと、インターネットにも接続できるし、テレビも見ら