テキスト処理
連載目次へ 以下のJavaScriptコードが,意図した動作をしないのは,なぜですか。(制限時間1分) やりたい事: (試行1)では,文字列からトップレベルドメインを1つだけ抽出する。 これは上手くいく。 (試行2)では,文字列からトップレベルドメインを…
オフラインで,Windows上のコマンド・バッチで 「英和辞典」が動いたら便利だ。 無料で,CUIで利用でき,ネットに接続する必要がない。英単語を入力として,日本語の意味を1つずつ回答・出力してくれる仕組みがあればよい。 そのようなWindowsバッチをWSHで…
英語の文章を形態素解析する無料ツール「TreeTagger」の, Windows上での使い方。 英文を単語に分解し,品詞を判別し,各単語の原型を算出してくれる。コマンドの使い方や,WSHバッチからの呼び出し方なども掲載。
中国語のテキストを,フリーツールで形態素解析してみよう。 つまり,文章を単語に分解(分かち書き)して, それぞれの単語の品詞を推定・分類する。これをプログラムで自動的に処理させる。 日本語のWindows環境で,NLPIR(旧称はICTCLAS)という無料ツー…
バッチのまとめTOPへ バッチで,手軽に文章を音声で読み上げよう。 Windowsには,Text To Speech(=TTS)のAPIが無料で提供されている。英語や日本語の文章を動的にスピーカーから出力したり,読み上げ結果をWAVファイルに保存したりすることも簡単だ。 (…
バッチのまとめTOPへ Windowsで「kakasi(カカシ)」という形態素解析のツールを使う方法。 漢字をひらがなに変換したり, 漢字かな交じりの文章を,ローマ字読みに変換したり, 日本語の文章を,単語ごとに分解したり といった本格的なテキスト処理が,フリ…
はてなダイアリーのブログ記事内容に,「ページ内目次」を生成するフォーム。 はてなのブログ記事内容に,自動で「ページ内目次」を生成するJSフォーム http://name-of-this-site.org/func/Gen... ブログ記事に,ページ内目次を生成します。JavaScriptでテキ…
講義ノートの目次へ 情報科学で,形式言語とオートマトンの講義ノートPDF。 コンパイラやチューリングマシンによる,機械的な言語処理を実現するための理論だ。「正規言語」や「正規文法」といったモデル化を行なう。 ここで形式言語の処理を学ぶ前に,チュ…
講義ノートの目次へ 情報科学という道具で言語学を切り開くと,「自然言語の処理」に行きつく。人間が自然に話している言語を,数理的にモデル化し,コンピュータで解析する,という内容だ。 大学で教えるこの「自然言語処理」の授業の,オンライン講義資料…
スキルチェックの目次へ あなたが,正規表現を扱うプログラマーとして,中級以上の実力を持っているかどうか判定します。 下記に,正規表現に関する10問の質問があります。いずれも,「文字列を処理する実用的なプログラム」を書く上で必要な知識です。 こ…
バッチのまとめTOPへ 文書の「単語索引」を,自動的に生成するプログラム。 Word文書の文章中に出現する,全ての英単語を抽出する。 各英単語の出現回数をカウントし,ランキングを作成する。 また,各単語の出現するページ番号などを一覧表で出力する。 処…
バッチのまとめTOPへ 「コードの読みやすさ」は,非常に重要だ。 ソースコードが読みづらくなると,コードが「仕様を表現」しなくなる。 簡単にバグが混入され,埋もれてしまう。それに気付きもしなくなる。保守や改良ができなくなる。プロジェクトが行き詰…
Exceleniumとは,Webアプリのテスト自動化ツール。 "Excelenium"(エクセレニウム)で,快適な自動回帰テストを (Seleniumのテストスクリプトとテスト仕様書を自動生成) http://language-and-engineering.hatenablog.jp/entry/20090524/p1 Excelenium (テ…
連載目次へ 以下のJavaScriptコードが意図した動作をしないのは,なぜですか。(制限時間1分) やりたい事: 同じアルファベットの連続した並びを,それぞれ1文字にまとめる。 例: "good apple" → "god aple" <script language="JavaScript"> function matomeru( str ) { // 正規表現を…
JavaScriptプログラミングのTOPへ クイズ:JavaScriptで, "文字列".func() のような(メソッドチェーンができるような)形式で, 1. 文字列を逆順に並び変える方法は? ( PHPで言うと str_rev() 関数 ) 2. 文字列を n 回反復する方法は? ( PHPで言うと …