スポンサーリンク

テキスト処理

JavaScriptの動かないコード(中級編) 正規表現の括弧キャプチャを,グローバルで繰り返しmatchできない (gオプションを付けると部分文字列の抽出が無効)

連載目次へ 以下のJavaScriptコードが,意図した動作をしないのは,なぜですか。(制限時間1分) やりたい事: (試行1)では,文字列からトップレベルドメインを1つだけ抽出する。 これは上手くいく。 (試行2)では,文字列からトップレベルドメインを…

Windows上でCUIで動く,無料の「オフライン英和辞典」バッチ。コマンドラインから英単語の日本語翻訳を自動化するWSHサンプルコード

オフラインで,Windows上のコマンド・バッチで 「英和辞典」が動いたら便利だ。 無料で,CUIで利用でき,ネットに接続する必要がない。英単語を入力として,日本語の意味を1つずつ回答・出力してくれる仕組みがあればよい。 そのようなWindowsバッチをWSHで…

Windowsで英語の文章を形態素解析する無料ツール「TreeTagger」の導入手順と使い方 (フリーソフトのPOS Taggerで,英文の単語分解・品詞判別をバッチ処理化)

英語の文章を形態素解析する無料ツール「TreeTagger」の, Windows上での使い方。 英文を単語に分解し,品詞を判別し,各単語の原型を算出してくれる。コマンドの使い方や,WSHバッチからの呼び出し方なども掲載。

NLPIR(ICTCLAS)で,中国語の文章を形態素解析・分かち書きするJavaプログラムを作る手順 …Windows日本語環境で動くサンプルコード

中国語のテキストを,フリーツールで形態素解析してみよう。 つまり,文章を単語に分解(分かち書き)して, それぞれの単語の品詞を推定・分類する。これをプログラムで自動的に処理させる。 日本語のWindows環境で,NLPIR(旧称はICTCLAS)という無料ツー…

Windowsバッチで,手軽に日本語テキストを自動読み上げ(Text To Speech)する方法 …WSHでSAPIやSpeech.SpVoiceを使う音声合成の手順とサンプルコード

バッチのまとめTOPへ バッチで,手軽に文章を音声で読み上げよう。 Windowsには,Text To Speech(=TTS)のAPIが無料で提供されている。英語や日本語の文章を動的にスピーカーから出力したり,読み上げ結果をWAVファイルに保存したりすることも簡単だ。 (…

Windowsで「kakasi」のコマンドを使い,日本語文章を単語に分解,ローマ字変換する方法 (kakasiで形態素解析するWindowsバッチのサンプルコード)

バッチのまとめTOPへ Windowsで「kakasi(カカシ)」という形態素解析のツールを使う方法。 漢字をひらがなに変換したり, 漢字かな交じりの文章を,ローマ字読みに変換したり, 日本語の文章を,単語ごとに分解したり といった本格的なテキスト処理が,フリ…

はてなダイアリーのブログ記事内容に「ページ内目次」を自動生成するフォーム (もくじジェネレータforはてだ)

はてなダイアリーのブログ記事内容に,「ページ内目次」を生成するフォーム。 はてなのブログ記事内容に,自動で「ページ内目次」を生成するJSフォーム http://name-of-this-site.org/func/Gen... ブログ記事に,ページ内目次を生成します。JavaScriptでテキ…

形式言語とオートマトンの講義ノートPDF。コンパイラや状態機械による言語処理の理論

講義ノートの目次へ 情報科学で,形式言語とオートマトンの講義ノートPDF。 コンパイラやチューリングマシンによる,機械的な言語処理を実現するための理論だ。「正規言語」や「正規文法」といったモデル化を行なう。 ここで形式言語の処理を学ぶ前に,チュ…

「自然言語処理論」の講義ノートPDF。形態素解析や文脈自由文法,知能機械による言語処理の扱い

講義ノートの目次へ 情報科学という道具で言語学を切り開くと,「自然言語の処理」に行きつく。人間が自然に話している言語を,数理的にモデル化し,コンピュータで解析する,という内容だ。 大学で教えるこの「自然言語処理」の授業の,オンライン講義資料…

あなたが正規表現の中級者か判別する10問テスト (文字列処理の必須知識)

スキルチェックの目次へ あなたが,正規表現を扱うプログラマーとして,中級以上の実力を持っているかどうか判定します。 下記に,正規表現に関する10問の質問があります。いずれも,「文字列を処理する実用的なプログラム」を書く上で必要な知識です。 こ…

Word文書を解析して,英単語の出現回数を統計出力するバッチ (英文の用語索引を自動生成)

バッチのまとめTOPへ 文書の「単語索引」を,自動的に生成するプログラム。 Word文書の文章中に出現する,全ての英単語を抽出する。 各英単語の出現回数をカウントし,ランキングを作成する。 また,各単語の出現するページ番号などを一覧表で出力する。 処…

バッチで,コーディング規約を守らせよう (全ソースコードをチェックして,ルール違反を自動検出)

バッチのまとめTOPへ 「コードの読みやすさ」は,非常に重要だ。 ソースコードが読みづらくなると,コードが「仕様を表現」しなくなる。 簡単にバグが混入され,埋もれてしまう。それに気付きもしなくなる。保守や改良ができなくなる。プロジェクトが行き詰…

「実行可能ドキュメント」が満たすべき性質 − テスト自動化ツール「Excelenium」で使われている技術や手法

Exceleniumとは,Webアプリのテスト自動化ツール。 "Excelenium"(エクセレニウム)で,快適な自動回帰テストを (Seleniumのテストスクリプトとテスト仕様書を自動生成) http://language-and-engineering.hatenablog.jp/entry/20090524/p1 Excelenium (テ…

JavaScriptの動かないコード (中級編) 正規表現で同じ文字の連続を検出したい - 置換前パターン中での後方参照

連載目次へ 以下のJavaScriptコードが意図した動作をしないのは,なぜですか。(制限時間1分) やりたい事: 同じアルファベットの連続した並びを,それぞれ1文字にまとめる。 例: "good apple" → "god aple" <script language="JavaScript"> function matomeru( str ) { // 正規表現を…

JavaScriptで,文字列を反復する / 逆順に並び替える方法

JavaScriptプログラミングのTOPへ クイズ:JavaScriptで, "文字列".func() のような(メソッドチェーンができるような)形式で, 1. 文字列を逆順に並び変える方法は? ( PHPで言うと str_rev() 関数 ) 2. 文字列を n 回反復する方法は? ( PHPで言うと …