ランダム サンプリング。 エクセルRAND関数で乱数をつくり、ランダム(無作為)に標本を抽出する方法

単純なランダムサンプリングとは何か、その方法

ランダム サンプリング

しかし、近年のLSI技術の急速な進歩は、それを身近なものにし、その応用範囲を様々な分野にまで広げています。 デジタル・オシロスコープは、このような技術的背景のもとに成長し普及してきました。 デジタル化されたことにより、従来のアナログ・オシロスコープには、不可能であった様々な機能が実現されています。 岩通は、永年にわたり、アナログ・オシロスコープやデジタル・メモリを手掛けてきましたが、その中で培われたノウハウと技術の融合を計ることにより、優れたデジタル・オシロスコープを皆様に提供し続けております。 1.デジタル・オシロスコープの原理 1-27図 ブロック図 1-27図は、2チャネル入力のデジタル・オシロスコープのブロック図を示します。 入力端子に加えられた入力信号は従来のオシロスコープと同様に感度切換えのためのアッテネータを介して増幅器へ導かれます。 サンプリングクロックは、設定されたタイムベースに従って書き込み、コントローラでクロック発生回路からのクロックを分周してつくられます。 サンプリングされたデータは、順次取得メモリに記録されていきます。 書き込みコントローラは、その書き込みの停止のあと、マイクロプロセッサに取得の終了を知らせます。 マイクロプロセッサは、取得メモリからディスプレイメモ リへデータを転送します。 この際、必要に応じて様々な処理が施されます。 ディスプレイメモリのデータはディスプレイコントローラによって表示装置上に波形の形で表示されます。 以上、デジタル・オシロスコープの基本について説明しました。 デジタル・オシロスコープには、上記のほかに等価時間サンプリングによる波形データの取得方法があります。 等価時間サンプリングは、繰り返し入力される信号に対して用いられます。 繰り返し信号が入力されるごとにサンプル点・サンプル点の間を補充していき、実際のサンプリング周期より、はるかに高い時間分解能を得ることができるので等価的に非常に高速のサンプリングを行ったことになります。 この等価時間サンプリングに対し、前述したサンプリングの方法を実時間サンプリングといいます。 実時間サンプリングでは、時間軸の1div にデータが4点しかないのに対し、等価時間サンプリングでは、1div100点取得しています。 等価時間サンプリングには、2つの方式があります。 シーケンシャル・サンプリングと呼ばれる方式とランダム・サンプリングと呼ばれる方式です。 シーケンシャル・サンプリング方式の原理は、次のようになります。 サンプリング・クロックは、繰り返しトリガが発生するごとにトリガ点から少しずつ遅延されたところで発生されます。 (1-29図) 1-29図 シーケンシャルサンプリングの原理 波形のトリガ点から順に後ろの方向へサンプリングしていくことになります。 メモリ長だけのデータを取り終えたところで完成された波形として表示されます。 ランダム・サンプリング方式の場合、書き込みコントローラは、実時間サンプリングの場合と同じようにデータの取得を繰り返します。 このとき、サンプリング・クロックはトリガとは無関係に一定の周期で発生されています。 したがって、繰り返しデータの取得を行う度にトリガ点とサンプリング・クロックの時間関係は異なっているので、トリガ点と次に来るサンプリング・クロックの時間差を測定し、対応するメモリのロケーションに書き込んでいけば、いずれ波形は完成されるはずです。 (1-30図) 1-30図 ランダム・サンプリングの原理 取得メモリへの書き込みは、順番ではなくまったくランダムに行われますのでランダム・サンプリングと呼ばれます。 また、波形表示も全取得メモリにデータが書き込まれた後表示するのではなく、1回ごとの取得の度に取得されたデータをドットで表示します。 ランダム・サンプリングでは、データ取得は通常の取得と同じ動作をしているので、後で述べるプリトリガ機能(トリガ点より前の現象を把える)を生かすことができるという長所があります。 動作原理からも分かるようにデジタル・オシロスコープは、サンプリングしたあとデジタル化し、半導体メモリにデジタルデータとして記憶させますので、電源の供給を止めない限りその記憶は消失することはありません。 単発現象であっても、いったん記憶されたデータは、アナログ波形の形に戻しながら繰り返し読み出すことにより、繰り返し波形と同様の波形観測をすることができます。 従来のアナログ・オシロスコープでは、単発現象はCRT上に一掃引だけ描かれるため、充分な波形観測は不可能でした。 そのため、カメラやCRTに波形蓄積機能をもたせたメモリ・スコープが使われてきましたが、アナログ的に電荷を蓄積するものであるため、放電によって長時間の波形記憶は難しいところがありました。 特に高速のタイムベースで単発の高周波波形を捉えても極めて短い蓄積時間しか得られませんでした。 その上、このような蓄積機能を持ったCRTは高価なため、メモリ・スコープも高価にならざるを得ません。 また、従来のオシロスコープでは高速のタイムベースでの単発現象の2現象同時観測は不可能でした。 2現象同時観測用に電子銃を2つ持つCRT (デュアルビームCRT )を利用したオシロスコープが用いられていましたが、これも蓄積管と同様非常に高価です。 デジタル・オシロスコープは、蓄積管とデュアルビーム管の両方の機能を備えた、極めて便利なオシロスコープと言うことができます。 また、デジタル・オシロスコープは、信号をデジタル化しますので、 データのセーブやリコール、プロッタ等へのハードコピーが自由にできます。 また、様々なデータ処理をすることができます。 例えば、アベレージング、2波形の加減乗除等の演算、波形パラメータの算出、スムージング、フィルタリング、FFT、良否判定(1-31図)等多様な処理 が可能です。 さらに、GP-IBなどのインタフェースを介してコンピュータにデータを転送することにより、より高速な処理や自動計測システムの構築に利用することができます。 1-31図 周波数特性を良否判定している例 デジタル・オシロスコープのもう1つの欠かせない特長に、プリトリガ機能があります。 プリトリガ機能によりトリガ点以前の波形を観測することができます。 これは、従来のオシロスコープではできなかったことで、デジタル・オシロスコープだからこそ可能となった極めて有用な機能です。 プリトリガ機能によって、波形のトリガ点を波形表示の時間軸上のどの位置に置くか選択できます。 これをデータポジションといい、表示の先頭から最後尾まで、例えば、0/8、1/8 …、4/8…、8/8のように選択できます。 0/8を選ぶと、トリガ点は表示の先頭に、3/8を選ぶとトリガ点は、1-32図のように左端から3. 75divのところに来ます。 1-32図 プリトリガで捉えた波形 プリトリガ機能の原理を説明します。 (1-33図参照) 説明を分かりやすくするために、メモリ長を1024ワード、データポジションを2/8とします。 波形データの取得は、次の順序で行われます。 1 書き込みコントローラがトリガを禁止状態にしてサンプリングとそのデータのメモリへの記憶を開始する。 3 トリガの禁止を解除し(トリガ待ち状態にし)データを書き込み続ける。 5 , 6 メモリの最後まで書き込んだら先頭番地へ戻る。 7 書き込みを停止する。 この動作で、トリガ待ち状態になった後、トリガがすぐに発生しないと1024ワードのメモリは、すべて書き込まれてしまいますが、このときは、最も古いデータを新しいデータで書き換えながら動作を続ければよく、 最後に書き込みを停止した直前のデータが最新で、その直後のデータが最も古いデータとして表示されます。 デジタル・オシロスコープの通常の取り込み方式では、低速の掃引時間において、メモリへの書き込みが完了し波形が更新表示されるまでに時間がかかり、観測者は現在どのような波形がとられているか分からない状態に置かれることになります。 このような欠点をなくするために、デジタル・オシロスコープにロール・モードという取り込み方式が取り入れられています。 ロール・モードとは、全メモリ長にわたっての書き込みが完了してから波形を更新表示するのではなく、基本的に1データ取り込むごとに波形の書き換えを行います。 最も古い左端の1データを捨て、最新の1データを右端に表示します。 このような動作をさせることにより、波形は右から左へ流れるように移動 して見えます。 つまり、刻々と変化する波形がリアルタイムの感覚で観測できる訳です。 1-33図 プリトリガの原理.

次の

無作為抽出

ランダム サンプリング

母集団から標本を取りだすときには、ランダム(無作為)に行うことが多々あります。 その際には、どのようにランダム化したらいいでしょうか。 この記事では、その疑問に答えるために、エクセルの関数で発生させた乱数をつかって、ランダム化をする方法を書きました。 関数RAND で乱数を発生させた後に、その数字の大きい順に並べ替えて、選び出すという方法です。 100人からランダムに10人を選ぶ 従業員数が100人のある会社で、10人を選んでアンケート調査するときのことを考えてみましょう。 まず、その100人のリストをエクセルに入力して並べます。 そして、その隣の列に関数 RAND()をつかって、乱数を発生させます。 「=RAND 」と入力します。 乱数が発生しました。 ドラッグをしてコピーし、100人分の乱数を発生させます。 その後、操作をして更新がなされると乱数が変わってしまうので、値貼り付けをして、入力データが「=RAND()」ではなくて、数値となるようにします。 フィルタ機能をつかって、発生させた乱数の大きい順に並べ替えます。 これは当然、小さい順でもかまいません。 最後に、上から10人を選びます。 こうすれば、乱数を用いて10人を決めたわけなので、無作為抽出となります。 100人をランダムに50人と50人の2グループに分ける 上記したのは、100人から10人を選ぶというものでした。 では、100人を50人のグループ、50人のグループと、無作為にグループ分けする時にはどうしたらよいでしょうか。 Aグループ、Bグループに分けるとします。 エクセルのリストがあって、隣の列に乱数を発生させる• その乱数の大きい順に並べ替える ここまでは同じです。 その後、上から順番に、一人ずつAのグループ、Bのグループと順番に分けていきます。 「1人目はAグループ、2人目はBグループ、3人目はAグループ、4人目はBグループ…」 と順番にAグループとBグループに分けしていくのです。 これでランダムなグループ分けが完了します。 よく読まれている記事• 187,129件のビュー• 151,163件のビュー• 71,656件のビュー• 71,552件のビュー• 68,480件のビュー• 67,012件のビュー• 60,115件のビュー• 56,897件のビュー• 46,784件のビュー• 45,255件のビュー• 42,356件のビュー• 42,029件のビュー• 41,920件のビュー• 41,681件のビュー• 40,607件のビュー• 39,610件のビュー• 38,718件のビュー• 36,246件のビュー• 35,862件のビュー• 35,688件のビュー 最近の投稿• 著者の自己紹介 社会人になってから統計学と出会いました。 まったく統計学を知らないところから学びをスタートしたので、当初は統計学の理論を本で読んでも、なんのこっちゃわかりませんでした。 学び続けるなかで、自分が「わかった!」と理解できたことを書き残し、サイトにまとめています。 お仕事でデータを扱う方であれば(多くの方がそうだと思いますが)、統計学を学ぶことは仕事に活きてくるはずです。 ゆっくりと山を登るように一緒に学んでいきましょう。 カテゴリー•

次の

ランダム化とランダムサンプリング−p値とは何か?

ランダム サンプリング

サンプリング Data sampling• ランダムサンプリング 国立国語研究所では従来からランダムサンプリングによる語彙調査を実施してきました。 ランダムサンプリングは、母集団の持つ特徴を正確に推定するための統計学的手法が確立されている点で、非常にすぐれたサンプリング方法だといえます。 KOTONOHAの現代書き言葉均衡コーパスにおいても、基本的にはランダムサンプリングによってデータを集めます(実際には、現代日本語をできるだけ幅広く観察するために、ランダムではないサンプリングも併用します)。 以下ではまず出版データを母集団としたランダムサンプリングの方法について説明します。 母集団の捉え方 ランダムサンプリングを実施するためには前もって母集団を決めなければなりません。 そのためにまず書き言葉とは何かを決めることにします。 書き言葉には様々なものがありますが、ここでは活字になって刊行されたものを対象として考えることにします。 具体的には書籍、新聞、雑誌などであり、これらは不特定多数の読者を想定して書かれているという意味で、ある程度公的な書き言葉だと考えられます。 反対に日記や手紙の類は母集団から除外します。 これらの日本語に価値がないわけではありませんが、日記や手紙などの私的な書き言葉はその全体量を知ることができませんので、母集団に含めることが不適切と考えられるのです。 新聞や雑誌の範囲をどのように設定するかも問題になります。 新聞ならば、全国紙だけか、地方紙も含めるのか、スポーツ紙、業界紙はどうするか、といった問題です。 このような問題には正解があるわけではありません。 コーパスの利用目的をよく考えながら母集団の範囲を決定していくことにします。 サンプリングのための層別 次に母集団に含まれる各メディア(書籍、新聞、雑誌など)をさらに下位区分します。 例えば書籍の場合、図書館で利用されている日本十進分類法(NDC)を利用して本の内容による層別が可能です。 例えば2001~2005年に出版された書籍の推定総文字数と日本十進分類法(NDC)の関係は以下の表のようになります。 この表に従うと「総記」には書籍データ全体の3. 37%を、また「文学」には19. 25%をそれぞれ割り当てることになります。 このような層別によってサンプルの偶然の偏りを避けることができますし、母集団に対する推定の精度も若干向上します。 層別のためのデータは各種の出版年鑑や書籍情報のデータベースから入手することができます。 NDC 総文字数 構成比 0. 総記 1,636,414,548 3. 哲学 2,597,610,813 5. 歴史 4,301,204,340 8. 社会科学 12,408,321,943 25. 自然科学 5,069,594,034 10. 技術工学 4,615,929,967 9. 産業 2,196,387,437 4. 芸術 3,258,432,447 6. 言語 888,800,128 1. 文学 9,341,275,486 19. 記録なし 2,225,954,208 4. まず本の1ページをランダムに選択します。 例えば、下の左側の図が選ばれたページとします。 次にそのページ全体を上の右側の図のように区切り、100個の交点のなかから一つをランダムに選びます(図中の赤い矢印参照)、そして、その交点にもっとも近い文字から数えて、定められた長さの文字列(1000字)を「固定長サンプル」として採用します。 その際、広告、図表、写真、挿絵などはサンプルの対象外とします。 雑誌や新聞からサンプルを採る方法も基本的には同じです。 しかし雑誌や新聞は、活字の組み方が書籍よりも複雑なので、文字を数えるのが書籍よりも大変です。 サンプルの長さ(固定長サンプルと可変長サンプル) でも触れたように、利用目的によってサンプルの長さが違ってきます。 現代日本語書き言葉均衡コーパスでは、汎用性を高めるために、比較的短い長さの一定分量のサンプルと文脈を考慮した長めのサンプルとの2種類のサンプルを設計しました。 前者を固定長サンプル、後者を可変長サンプルと呼びます。 出版サブコーパス、図書館サブコーパスからは、これら2種類のサンプルを同時に取得します。 固定長サンプル ランダムに選んだ文字を基準として、1000文字を抽出するサンプルです。 この1000文字は、句読点や符号は含まず数えます。 サンプルの先頭や末尾は文の途中になりますが、検索の際に文脈がきちんと表示されるように、入力は文単位で行います。 また、数える対象にはしない句読点や符号もそのまま入力します。 抽出比が正確であることから語彙調査、文字調査などの統計的分析に向いています。 可変長サンプル ランダムに選んだ点を基準として、ある章や節など文章構成上のまとまりを一つのサンプルとします。 章や節の長さは一定ではありませんから、短いサンプルも長いサンプルも存在します。 ただし、あまりに長大になると偏りが生じますので、最大でも1万字という制限を設けています。 談話研究や文章構造の分析に向いています。 いろいろな母集団 上で母集団として採用したのは、書き言葉がどれだけ出版されたか(生産実態)に関する統計でしたが、これが唯一可能な母集団ではありません。 例えば書き言葉がどれだけ受容されたかに基づく母集団を考えることができます。 世の中には出版はされたものの、ほとんど読まれないで終わる本もありますから、受容ないし需要に基づく母集団を考えることには積極的な意味があります。 しかし活字の受容に関する統計は簡単には入手できませんから、このような母集団を実際に利用することは困難です。 生成と受容の中間に流通という段階を想定することもできます。 書店に並んでいる本や図書館に収蔵されている本は流通段階にあると考えられます。 書店に並んでいる本のデータは入手できませんが、図書館のデータは入手できますので、これを母集団とみなすことができます。 東京都立中央図書館の御厚意により、東京都内の52自治体の図書館が収蔵する図書のデータを入手できました。 全体で1563万冊の書籍が収蔵されていますが、そこには大量の重複があります。 重複を除いて異なり冊数を計算すると約114万冊です。 これらの本は何らかの形で実際に需要が存在した本とみなすことができます。 もちろん多くの図書館に共通して収蔵されている本を選べば、それだけ需要の高かった本を選ぶことになります。 どの程度の共通度がよいかは目的によりますが、ここでは、出版目録に基づく母集団と分量を合わせるため、13館以上で共通して収蔵している書籍を母集団としました。 図書館の収蔵書籍からのサンプリングは、ISBN(国際標準図書番号)という書籍に付けられたIDをもとに行います。 ただし、我が国でISBNの付与が始まったのは1981年で、その普及には少し時間がかかりました。 上の図は、国立国会図書館の蔵書目録であるJ-BISCにおけるISBNが付された書籍と付けられていない書籍の数を経年的に調べたものです。 ISBNが付けられていない書籍の減少が止まるのが1987年ごろです。 それ以降はほぼ一定の割合でISBNのない書籍が存在しますが、これは主に官公庁資料などと思われます。 そこで、ISBNの付与がほぼ安定したと思われる1986年を母集団の開始時期としました。 実際、1986年には大手出版社ではISBNの付与はほぼ完了しています。

次の