Twitterプロファイラver2作成プロジェクト==========

Twitterプロファイラver2作成プロジェクト
===============
## 基本情報

プロジェクト名
Twitterプロファイラver2作成
開発区分 / Division
SI開発（バッチ処理）
窓口担当
Itaru Suzuki

## 全体概要
現在，DSのいくつかのサービスでは，ユーザのbioおよびツイートからユーザの性別・年代を推定してその情報を利用しています．
ここで言う年代とは，ユーザが10代，20代，...，50代のいずれであるかということです．
以降，ユーザの性別・年代情報を『プロファイル』，ユーザのプロファイルを推定するためのプログラムを『プロファイラ』と呼びます．

現在のプロファイラはユーザのプロファイルのうち，性別を80%正しく，年代を50%正しく判定することができます．
これは十分に信頼できる値とはいえず，より精度を上げていきたいと考えています．

そこで，現在の手法とは別の手法を使ったプロファイラの作成をお願いしようと思います．

### 目的
RAWデータ（Twitterから供給される生のツイートデータ，Twitterの10%データ）
を読み込み，ユーザのプロファイルを推定するプログラムを作成すること．

### 依頼作業範囲
このプロファイラは最終的に推定結果をデータベースに格納しますが，
データベースへの接続部分はこちらで作成します．
DSVにはそれ以外の部分全ての作成をお願いします．

### 納期
12月8日（月）を納期とします．

### 納品
Bitbucketにリポジトリを作成します．
そこに成果をコミットしてください．

### プロジェクト体制

DS側担当者
Itaru Suzuki
DSV側担当者
XXX

### コミュニケーションプラン
毎週月曜日にDS側担当者まで進捗を報告してください．
また，そのときにコードをコミットしてください．

----

## システム概要
### 開発システム概要
今回作成したいのは，RAWデータを読み込み，そのbioと本文からプロファイルを推定し，結果をファイルに書き出すプログラムです．

その動作は次のようになります．

1. RAWデータを読み，そこからbioと本文を抽出します
1. ルールに基づいてプロファイルを推定します
1. プロファイルの推定に失敗した場合，ベイジアンフィルタによりプロファイルを推定します
1. 結果をファイルに書き出します

### 開発範囲

RAWデータを読み，ツイートを表すオブジェクトを返すクラスRawDataParserはDS側で実装します．その他の部分についてはDSVでの開発をお願いします．

理由がない限り，RawDataParserを変更しないでください．

## アーキテクチャ

### ハードウェア仕様
未定です．

### ソフトウェア仕様

* 開発言語はJavaです．バージョン8に準拠してください．

## 機能外要件
### 性能要件

* 一度に1日分，144個のファイルを処理します
* メモリ使用量は2GB以下であることを目標としてください
* 処理はどんなに長くとも1日で終了する必要があります

このような仕様になっている理由は，同じような条件で現在稼働している古いプロファイラを置き換えることを期待しているためです．

## 機能設計
### 全体の動作と対応するクラス
プログラム全体の処理は上述のように動作します．

これらの処理は，それぞれ次のクラスが受け持つものとします．

* RawDataParser
* RuleBaseClassifier
* BayesianClassifier
* ResultWriter

また，mainメソッドを持ち，コマンドラインから呼び出されるクラスは，ProfilerToplevelとしてください．

### プロファイルについて
プロファイルは列挙型Profileで表現してください．その値はM10，M20，...，M50，F10，F20，...，F50，およびUNKNOWNです．

### RuleBaseProfilerの動作
#### 概要
ツイートのbioに特定の文字列が入っているかどうかでプロファイルを推定するプロファイラを表現したクラスです．

![](RuleBaseClassifier.png)

classifyメソッドは，ツイートを表すオブジェクトを受け取り，それをポストしたユーザのプロファイルをルールに基づいて推定して返します．
この時nullを返すことは許されません．

このクラスはコンストラクタでFileオブジェクトを受け取り，その中に書かれた分類ルールを読み込む必要があります．

#### ルールファイルの書式

ルールファイルには，1行に1つのルールが記述されています．
ルールはキーワード，性別，年代をタブで区切ったもので，bioにキーワードが含まれる時，そのbioを書いたユーザは対応するプロファイルであると推測されます．
もし，性別，年代のどちらか一方だけを推測でき，他方はわからない場合，分からない方は*と表現されます．

その内容は例えば次のようになります．

```python
男子高生 M 10
女子高生 F 10
高校生 * 10
男子 M *
女子 F *
```

これは次のようなルールを表現しています．

bioに「女子高生」が含まれている
「女性10代」
bioに「高校生」が含まれている
「性別不詳の10代」
bioに「男子」が含まれている
「男性で年代不詳」
bioに「女子」が含まれている
「女性で年代不詳」

次のような場合，初期化時に例外を発生させるべきです

* ルールファイルに同じキーワードが出現していた場合
* 性別として解釈できない文字列が含まれていた場合
* 年代として解釈できない文字列が含まれていた場合

ルールファイルは空白文字とコメントについて次の仕様に従います．

* キーワード，性，年代を表している各文字列の前後の空白文字は消去したあと解釈されるものとします
* 空白文字しか含まれない行（空行）はエラーとならず単に無視します
* 半角シャープ（#）から行末まではコメントです．空白として扱ってください

余分な空白やコメントを許容するのは，ルールを書きやすくするためです．

次のようなルールは無意味なものとして無視してください

* キーワードが空白しか含まない場合
* 性別，年代が両方*であるような場合

また，次のようなフォーマットは特別扱いしてください．

* 正しいキーワード，性別，年代の後に続けてタブと文字列が続く場合，年代のあとのタブ以降の文字列は無視してください．これは，ルールに新たな項目を付け加える場合を考えてのことでする．

上記以外で形式に従わない場合はすべてエラーとして初期化時に例外を発生させるべきです

#### ルールの解釈

どのルールも当てはまらなかった場合，そのユーザのプロファイルはUNKNOWNです．

1つ以上のルールが当てはまり，それらが矛盾せず，また性別・年代が共にわかった場合，そのユーザのプロファイルはUNKNOWNでないどれかのプロファイルになります．
たとえば，「女子高生」をbioに含む場合，そのユーザのプロファイルはF10（女性10代）です．
あるいは，「女子」と「高校生」をbioに含む場合，そのユーザのプロファイルはF10（女性10代）です．

当てはまる全てのルールを使っても性別あるいは年代が不詳だった場合，そのユーザのプロファイルはUNKNOWNです．
例えば「高校生」だけが当てはまった場合は，性別不詳となるため，UNKNOWNとします．

もし矛盾する複数のルールがヒットした場合は，UNKNOWNと推測されるべきです．
例えば「男子高生」と「女子高生」が同時に含まれていた場合はUNKNOWNとなります．

#### テスト観点
##### 正常系
次のようなルールファイルによってインスタンスが正常に初期化されることを確認してください．

* 空のファイル
* 正しいフォーマットのルールのみを含む
* キーワード，性別，年代の前後にタブ以外の空白を含む
* 空行を含む
* コメントを含む
* 追加のカラム（年代の後に続くタブと任意の文字列）がある行を含む

classifyメソッドが，次の場合に正しく動作することを確認してください．

* ルールファイルにルールが1つもない場合．メソッドは常にUNKNOWNを返すはずです．
* ルールが1つもあてはまらない場合
* ルールが1つだけ当てはまり，それによってプロファイルが確定する場合
* ルールが1つだけ当てはまり，性別か年代が不詳である場合
* ルールが2つ以上当てはまり，それによってプロファイルが確定する場合
* ルールが2つ以上当てはまり，性別か年代が不詳である場合

##### 異常系

次の場合，例外を発生させるべきです．

* 初期化時，ルールファイルの書式が異常である場合

### BayesianClassifierの動作
#### 概要
ツイートのbioおよび本文に出現する名詞に関して，それらがあるプロファイルに特徴的な名詞であるかどうかを調べることでプロファイルを推測するプロファイラを表現したクラスです．

![](BayesianClassifier.png)

このクラスはコンストラクタでFileオブジェクトとしきい値を受け取り，Fileオブジェクトに書かれた各プロファイルごとの単語の出現数をロードする必要があります．

classifyメソッドは，ツイートを表すオブジェクトを受け取り，それをポストしたユーザのプロファイルをルールに基づいて推定して返します．
この時nullを返すことは許されません．

#### 判定手順

BayesianClassifierは，すべてのプロファイルについて，あるツイートがそのプロファイルに属する確率を計算し，それがもっとも高いプロファイルを返すことでツイートをポストしたユーザのプロファイルを推定します．

この判定手順は，A plan to spam(http://www.paulgraham.com/spam.html)を参考にしています．
これと矛盾している，間違ったアルゴリズムを使っていると思われる場合は教えてください

Twitterプロファイラver2作成プロジェクト
===============
## 基本情報

プロジェクト名
Twitterプロファイラver2作成
開発区分 / Division
SI開発（バッチ処理）
窓口担当
Itaru Suzuki

## 全体概要
現在，DSのいくつかのサービスでは，ユーザのbioおよびツイートからユーザの性別・年代を推定してその情報を利用しています．
ここで言う年代とは，ユーザが10代，20代，...，50代のいずれであるかということです．
以降，ユーザの性別・年代情報を『プロファイル』，ユーザのプロファイルを推定するためのプログラムを『プロファイラ』と呼びます．

現在のプロファイラはユーザのプロファイルのうち，性別を80%正しく，年代を50%正しく判定することができます．
これは十分に信頼できる値とはいえず，より精度を上げていきたいと考えています．

そこで，現在の手法とは別の手法を使ったプロファイラの作成をお願いしようと思います．

### 目的
RAWデータ（Twitterから供給される生のツイートデータ，Twitterの10%データ）
を読み込み，ユーザのプロファイルを推定するプログラムを作成すること．

### 依頼作業範囲
このプロファイラは最終的に推定結果をデータベースに格納しますが，
データベースへの接続部分はこちらで作成します．
DSVにはそれ以外の部分全ての作成をお願いします．

### 納期
12月8日（月）を納期とします．

### 納品
Bitbucketにリポジトリを作成します．
そこに成果をコミットしてください．

### プロジェクト体制

DS側担当者
Itaru Suzuki
DSV側担当者
XXX

### コミュニケーションプラン
毎週月曜日にDS側担当者まで進捗を報告してください．
また，そのときにコードをコミットしてください．

----

## システム概要
### 開発システム概要
今回作成したいのは，RAWデータを読み込み，そのbioと本文からプロファイルを推定し，結果をファイルに書き出すプログラムです．

その動作は次のようになります．

1. RAWデータを読み，そこからbioと本文を抽出します
1. ルールに基づいてプロファイルを推定します
1. プロファイルの推定に失敗した場合，ベイジアンフィルタによりプロファイルを推定します
1. 結果をファイルに書き出します

### 開発範囲

RAWデータを読み，ツイートを表すオブジェクトを返すクラスRawDataParserはDS側で実装します．その他の部分についてはDSVでの開発をお願いします．

理由がない限り，RawDataParserを変更しないでください．

## アーキテクチャ

### ハードウェア仕様
未定です．

### ソフトウェア仕様

* 開発言語はJavaです．バージョン8に準拠してください．

## 機能外要件
### 性能要件

* 一度に1日分，144個のファイルを処理します
* メモリ使用量は2GB以下であることを目標としてください
* 処理はどんなに長くとも1日で終了する必要があります

このような仕様になっている理由は，同じような条件で現在稼働している古いプロファイラを置き換えることを期待しているためです．

## 機能設計
### 全体の動作と対応するクラス
プログラム全体の処理は上述のように動作します．

これらの処理は，それぞれ次のクラスが受け持つものとします．

* RawDataParser
* RuleBaseClassifier
* BayesianClassifier
* ResultWriter

また，mainメソッドを持ち，コマンドラインから呼び出されるクラスは，ProfilerToplevelとしてください．

### プロファイルについて
プロファイルは列挙型Profileで表現してください．その値はM10，M20，...，M50，F10，F20，...，F50，およびUNKNOWNです．

### RuleBaseProfilerの動作
#### 概要
ツイートのbioに特定の文字列が入っているかどうかでプロファイルを推定するプロファイラを表現したクラスです．

![](RuleBaseClassifier.png)

classifyメソッドは，ツイートを表すオブジェクトを受け取り，それをポストしたユーザのプロファイルをルールに基づいて推定して返します．
この時nullを返すことは許されません．

このクラスはコンストラクタでFileオブジェクトを受け取り，その中に書かれた分類ルールを読み込む必要があります．

#### ルールファイルの書式

ルールファイルには，1行に1つのルールが記述されています．
ルールはキーワード，性別，年代をタブで区切ったもので，bioにキーワードが含まれる時，そのbioを書いたユーザは対応するプロファイルであると推測されます．
もし，性別，年代のどちらか一方だけを推測でき，他方はわからない場合，分からない方は*と表現されます．

その内容は例えば次のようになります．

```python
男子高生 M 10
女子高生 F 10
高校生 * 10
男子 M *
女子 F *
```

これは次のようなルールを表現しています．

bioに「女子高生」が含まれている
「女性10代」
bioに「高校生」が含まれている
「性別不詳の10代」
bioに「男子」が含まれている
「男性で年代不詳」
bioに「女子」が含まれている
「女性で年代不詳」

次のような場合，初期化時に例外を発生させるべきです

* ルールファイルに同じキーワードが出現していた場合
* 性別として解釈できない文字列が含まれていた場合
* 年代として解釈できない文字列が含まれていた場合

ルールファイルは空白文字とコメントについて次の仕様に従います．

* キーワード，性，年代を表している各文字列の前後の空白文字は消去したあと解釈されるものとします
* 空白文字しか含まれない行（空行）はエラーとならず単に無視します
* 半角シャープ（#）から行末まではコメントです．空白として扱ってください

余分な空白やコメントを許容するのは，ルールを書きやすくするためです．

次のようなルールは無意味なものとして無視してください

* キーワードが空白しか含まない場合
* 性別，年代が両方*であるような場合

また，次のようなフォーマットは特別扱いしてください．

* 正しいキーワード，性別，年代の後に続けてタブと文字列が続く場合，年代のあとのタブ以降の文字列は無視してください．これは，ルールに新たな項目を付け加える場合を考えてのことでする．

上記以外で形式に従わない場合はすべてエラーとして初期化時に例外を発生させるべきです

#### ルールの解釈

どのルールも当てはまらなかった場合，そのユーザのプロファイルはUNKNOWNです．

1つ以上のルールが当てはまり，それらが矛盾せず，また性別・年代が共にわかった場合，そのユーザのプロファイルはUNKNOWNでないどれかのプロファイルになります．
たとえば，「女子高生」をbioに含む場合，そのユーザのプロファイルはF10（女性10代）です．
あるいは，「女子」と「高校生」をbioに含む場合，そのユーザのプロファイルはF10（女性10代）です．

当てはまる全てのルールを使っても性別あるいは年代が不詳だった場合，そのユーザのプロファイルはUNKNOWNです．
例えば「高校生」だけが当てはまった場合は，性別不詳となるため，UNKNOWNとします．

もし矛盾する複数のルールがヒットした場合は，UNKNOWNと推測されるべきです．
例えば「男子高生」と「女子高生」が同時に含まれていた場合はUNKNOWNとなります．

#### テスト観点
##### 正常系
次のようなルールファイルによってインスタンスが正常に初期化されることを確認してください．

* 空のファイル
* 正しいフォーマットのルールのみを含む
* キーワード，性別，年代の前後にタブ以外の空白を含む
* 空行を含む
* コメントを含む
* 追加のカラム（年代の後に続くタブと任意の文字列）がある行を含む

classifyメソッドが，次の場合に正しく動作することを確認してください．

* ルールファイルにルールが1つもない場合．メソッドは常にUNKNOWNを返すはずです．
* ルールが1つもあてはまらない場合
* ルールが1つだけ当てはまり，それによってプロファイルが確定する場合
* ルールが1つだけ当てはまり，性別か年代が不詳である場合
* ルールが2つ以上当てはまり，それによってプロファイルが確定する場合
* ルールが2つ以上当てはまり，性別か年代が不詳である場合

##### 異常系

次の場合，例外を発生させるべきです．

* 初期化時，ルールファイルの書式が異常である場合

### BayesianClassifierの動作
#### 概要
ツイートのbioおよび本文に出現する名詞に関して，それらがあるプロファイルに特徴的な名詞であるかどうかを調べることでプロファイルを推測するプロファイラを表現したクラスです．

![](BayesianClassifier.png)

このクラスはコンストラクタでFileオブジェクトとしきい値を受け取り，Fileオブジェクトに書かれた各プロファイルごとの単語の出現数をロードする必要があります．

#### 判定手順

BayesianClassifierは，すべてのプロファイルについて，あるツイートがそのプロファイルに属する確率を計算し，それがもっとも高いプロファイルを返すことでツイートをポストしたユーザのプロファイルを推定します．

この判定手順は，A plan to spam(http://www.paulgraham.com/spam.html)を参考にしています．
これと矛盾している，間違ったアルゴリズムを使っていると思われる場合は教えてください

0/5000

Từ: -

Sang: -

Kết quả (Việt) 1: [Sao chép]

Sao chép!

Twitter hồ sơ ver2 tạo ra dự án===============## Cơ bản thông tinTên dự ánTạo một hồ sơ Twitter ver2Bộ phận phát triển / bộ phậnSI phát triển (xử lý hàng loạt)Liên hệHinoue Suzuki## Tóm tắtHiện nay, phục vụ một số DS, tiểu sử người dùng và Tweet ước tính từ của người dùng giới tính, tuổi, và sử dụng thông tin đó để.Và nói ở đây là những người dùng thanh thiếu niên và 20-somethings,..., 50-somethings mà làm, hoặc là.Kể từ khi người dùng giới tính và tuổi ước tính "cấu hình", chương trình thông tin hồ sơ người dùng được gọi là "Hồ sơ".Hồ sơ hiện tại có thể cấu hình ra, tình dục - 80% một cách chính xác, 50% một cách chính xác xác định độ tuổi để.Hơn nữa, nó có thể không và giá trị bạn có thể tin tưởng đủ để tin rằng và muốn nâng cao độ chính xác của họ.Tôi đã cố gắng để yêu cầu hồ sơ bằng cách sử dụng một phương pháp và phương pháp hiện tại bằng cách tạo ra.### Mục đíchNGUYÊN dữ liệu (nguyên tweets dữ liệu được cung cấp bởi Twitter, Twitter của 10% dữ liệu)Để làm cho chương trình tải, để ước tính của người dùng hồ sơ.### Yêu cầu làm việc phạm viHồ sơ này cuối cùng cơ sở dữ liệu ước tính có,Phần của kết nối với cơ sở dữ liệu được tạo ra ở đây.DSV hãy tạo ra tất cả các bộ phận khác.### Giao hàng12/8 (mặt trăng) và thời gian giao hàng.### Giao hàngTạo ra một kho lưu trữ trên BitBucket.Cam kết quả có.### Cấu trúc dự ánDS bên đại diệnHinoue SuzukiNhân viên phía DSVXXX### Kế hoạch truyền thôngHàng tuần báo cáo một sự tiến bộ đại diện DS mặt vào ngày thứ hai.Ngoài ra, cam mã ở thời điểm đó.----## Hệ thống tổng quan### Phát triển hệ thống tổng quanChúng tôi muốn tạo ra là một chương trình tải dữ liệu thô, và ước tính các cấu hình từ sinh học và văn bản đầy đủ, được viết vào một tập tin kết quả.Hành vi trông như thế này.1. đọc dữ liệu thô, chiết xuất từ các sinh học và toàn bộ nội dung từ đó1. ước tính các quy tắc hồ sơDự toán ước tính hồ sơ hồ sơ không thành công, các bộ lọc Bayes 1.1. xuất khẩu tập tin kết quả### Phát triển phạm viThực hiện lớp RawDataParser trả về một đối tượng đại diện cho các Tweets, đọc các dữ liệu thô trên DS. Đối với một phần khác xin vui lòng phát triển trong DSV.Miễn là không có không có lý do, không thay đổiRawDataParser .## Kiến trúc### Thông số kỹ thuật phần cứngĐó là chưa quyết định.### Phần mềm đặc điểm kỹ thuật* Java là một ngôn ngữ phát triển. Xin vui lòng phù hợp với phiên bản 8.## Chức năng bên ngoài yêu cầu### Yêu cầu thực hiện* 1 ngày min, 144 tập tin, quá trình thời gian* Bộ nhớ sử dụng là 2 GB hoặc ít hơn mục tiêu để làm hài lòng* Bạn phải chấm dứt trong một ngày là không có vấn đề bao lâuNhững lý do cho đặc điểm kỹ thuật dự kiến sẽ thay thế hồ sơ cũ hiện đang chạy trong các điều khoản tương tự đối với.## Chức năng thiết kế### Tổng thể hành vi và các lớp học tương ứngToàn bộ chương trình làm việc như mô tả ở trên.Mỗi trong số này là chịu trách nhiệm cho các lớp học sau.* RawDataParser* RuleBaseClassifier* BayesianClassifier* ResultWriterNgoài ra, cố gắng đểProfilerToplevel các lớp học có phương phápmain , gọi là từ dòng lệnh.### Hồ sơCấu hình đại diện cho loại điều tra Profile . Giá trị của nó là, M10,M20,...,M50,F10,F20,...,F50, và chưa là UNKNOWN .### RuleBaseProfiler hành vi### Tổng quanGiai cấp đại diện cho hồ sơ để ước tính các hồ sơ có chứa sinh học đã chỉ định văn bản Tweet hay không.! [] (RuleBaseClassifier.png)phương pháp classify mất đối tượng đại diện cho tweet, trả lại, ước tính theo quy định rằng nó đăng hồ sơ người dùng.Không được phép trở về null tại thời điểm này.Bạn phải tải phân loại quy tắc đã được viết bằng, lớp này mất đối tượng File trong các nhà xây dựng.### Quy tắc định dạng tập tinTệp Qui tắc chứa, một quy tắc cho mỗi dòng.Inferred quy tắc, người sử dụng khi từ khoá được bao gồm trong sinh học, đã viết sinh học trong tab-delimited hồ sơ tương ứng từ khóa, giới tính và tuổi tác.Nếu các là bày tỏ * và nếu bạn có thể đoán chỉ hoặc giới tính và tuổi tác, mặt khác không biết, không biết làm thế nào.Nội dung của nó cho ví dụ: trông giống như.''' pythonCậu bé Trung học M 10Sinh trung học F 10Học sinh trung học * 10Quần M *Nữ F *```Điều này thể hiện các quy tắc sau đây.học sinh trung học trong sinh học10 tỷhọc sinh trung học trong sinh học"Không biết tình dục thiếu niên"chàng trai trong sinh học"Con người không xác định"'cô gái' trong sinh học' Phụ nữ trong độ tuổi không được báo cáo '次のような場合，初期化時に例外を発生させるべきです* ルールファイルに同じキーワードが出現していた場合* 性別として解釈できない文字列が含まれていた場合* 年代として解釈できない文字列が含まれていた場合ルールファイルは空白文字とコメントについて次の仕様に従います．* キーワード，性，年代を表している各文字列の前後の空白文字は消去したあと解釈されるものとします* 空白文字しか含まれない行（空行）はエラーとならず単に無視します* 半角シャープ（#）から行末まではコメントです．空白として扱ってください余分な空白やコメントを許容するのは，ルールを書きやすくするためです．次のようなルールは無意味なものとして無視してください* キーワードが空白しか含まない場合* 性別，年代が両方*であるような場合また，次のようなフォーマットは特別扱いしてください．* 正しいキーワード，性別，年代の後に続けてタブと文字列が続く場合，年代のあとのタブ以降の文字列は無視してください．これは，ルールに新たな項目を付け加える場合を考えてのことでする．上記以外で形式に従わない場合はすべてエラーとして初期化時に例外を発生させるべきです#### ルールの解釈どのルールも当てはまらなかった場合，そのユーザのプロファイルはUNKNOWNです．1つ以上のルールが当てはまり，それらが矛盾せず，また性別・年代が共にわかった場合，そのユーザのプロファイルはUNKNOWNでないどれかのプロファイルになります．たとえば，「女子高生」をbioに含む場合，そのユーザのプロファイルはF10（女性10代）です．あるいは，「女子」と「高校生」をbioに含む場合，そのユーザのプロファイルはF10（女性10代）です．当てはまる全てのルールを使っても性別あるいは年代が不詳だった場合，そのユーザのプロファイルはUNKNOWNです．例えば「高校生」だけが当てはまった場合は，性別不詳となるため，UNKNOWNとします．もし矛盾する複数のルールがヒットした場合は，UNKNOWNと推測されるべきです．例えば「男子高生」と「女子高生」が同時に含まれていた場合はUNKNOWNとなります．#### テスト観点##### 正常系次のようなルールファイルによってインスタンスが正常に初期化されることを確認してください．* 空のファイル* 正しいフォーマットのルールのみを含む* キーワード，性別，年代の前後にタブ以外の空白を含む* 空行を含む* コメントを含む* 追加のカラム（年代の後に続くタブと任意の文字列）がある行を含むclassifyメソッドが，次の場合に正しく動作することを確認してください．* ルールファイルにルールが1つもない場合．メソッドは常にUNKNOWNを返すはずです．* ルールが1つもあてはまらない場合* ルールが1つだけ当てはまり，それによってプロファイルが確定する場合* ルールが1つだけ当てはまり，性別か年代が不詳である場合* ルールが2つ以上当てはまり，それによってプロファイルが確定する場合* ルールが2つ以上当てはまり，性別か年代が不詳である場合##### 異常系次の場合，例外を発生させるべきです．* 初期化時，ルールファイルの書式が異常である場合### BayesianClassifierの動作#### 概要ツイートのbioおよび本文に出現する名詞に関して，それらがあるプロファイルに特徴的な名詞であるかどうかを調べることでプロファイルを推測するプロファイラを表現したクラスです．![](BayesianClassifier.png)このクラスはコンストラクタでFileオブジェクトとしきい値を受け取り，Fileオブジェクトに書かれた各プロファイルごとの単語の出現数をロードする必要があります．
classifyメソッドは，ツイートを表すオブジェクトを受け取り，それをポストしたユーザのプロファイルをルールに基づいて推定して返します．
この時nullを返すことは許されません．

#### 判定手順

BayesianClassifierは，すべてのプロファイルについて，あるツイートがそのプロファイルに属する確率を計算し，それがもっとも高いプロファイルを返すことでツイートをポストしたユーザのプロファイルを推定します．

この判定手順は，A plan to spam(http://www.paulgraham.com/spam.html)を参考にしています．
これと矛盾している，間違ったアルゴリズムを使っていると思われる場合は教えてください

đang được dịch, vui lòng đợi..

Kết quả (Việt) 2:[Sao chép]

Sao chép!

Twitter profiler Ver2 tạo ra dự án
===============
## thông tin cơ bản

Tên dự án
Twitter hồ sơ ver2 tạo
Bộ phận phát triển / Division
Phát triển SI (xử lý hàng loạt)
Số lượt truy cập thư ký
Itaru Suzuki

Toàn bộ Tổng quan ##
doanh nghiệp, trong một số các dịch vụ của DS, bạn phải sử dụng các thông tin từ sinh học của người dùng và tweet để ước tính giới tính và tuổi tác của người sử dụng.
Độ tuổi để nói ở đây, các thiếu niên sử dụng, độ tuổi 20, ..., đó là liệu những năm 50.
Sau đó, "hồ sơ" các thông tin giới tính và tuổi tác của người sử dụng, được gọi là "hồ sơ" một chương trình để đánh giá hồ sơ cá nhân của người sử dụng. Trong profile của người dùng là hồ sơ hiện tại, 80% chính xác giới tính, có thể được đánh giá một cách chính xác 50% tuổi. Điều này là không cho là đủ để giá trị đáng tin cậy, chúng tôi muốn tiếp tục nâng cao tính chính xác hơn. Vì vậy, tôi nghĩ rằng các phương pháp hiện tại cố gắng để yêu cầu tạo ra một hồ sơ sử dụng một kỹ thuật khác nhau. ### Mục đích dữ liệu RAW (dữ liệu tweet liệu cung cấp từ Twitter, 10% dữ liệu Twitter) được đọc, và để tạo ra một chương trình để đánh giá hồ sơ cá nhân của người sử dụng đó. ### Yêu cầu phạm vi làm việc hồ sơ này là để lưu trữ các kết quả ước lượng cuối cùng để các cơ sở dữ liệu, phần kết nối cơ sở dữ liệu tôi tạo ra ở đây. Cảm ơn bạn sự sáng tạo của tất cả các bộ phận khác hơn là trong DSV. ### Giao hàng tận ngày 08 tháng 12 (tháng) tôi sẽ và thời gian giao hàng. ### Giao hàng tận nơi tôi sẽ tạo ra một kho lưu trữ trên Bitbucket. Hãy cam kết kết quả đó. ### Hệ thống dự án

Nhân viên bên DS
Itaru Suzuki
Nhân viên phụ DSV
XXX

### Kế hoạch truyền thông
xin vui lòng báo cáo tiến độ cho các cán bộ phụ DS mỗi thứ Hai.
Ngoài ra, xin vui lòng cam kết mã để thời gian đó. ---- ## Tổng quan về hệ thống phát triển ### Tổng quan hệ thống Tôi muốn tạo ra thời gian này, đọc dữ liệu RAW, để ước tính hồ sơ từ sinh học và cơ thể, nó là một chương trình viết các kết quả vào một tập tin. Hoạt động của nó là như sau. 1. Đọc dữ liệu RAW, và trích xuất sinh học cơ thể và từ đó 1. Ước tính hồ sơ cá nhân dựa trên nguyên tắc nếu nó không thành công để ước tính của 1. Trong hồ sơ cá nhân, bạn có thể ước lượng hồ sơ cá nhân của các bộ lọc Bayesian nộp 1. Kết quả viết cho ### phạm vi phát triển Đọc dữ liệu RAW, lớp trả về một đối tượng đại diện cho một tweet RawDataParser để thực hiện phía DS. Bạn yêu cầu phát triển trong DSV cho các bộ phận khác. Miễn là không có lý do, RawDataParser Xin vui lòng không thay đổi. ## Kiến trúc ### đặc điểm kỹ thuật phần cứng là chưa quyết định. ### Phần mềm Thông số kỹ thuật * phát triển ngôn ngữ là Java. Hãy thực hiện theo các phiên bản 8. ## Yêu cầu phi chức năng ### yêu cầu thực hiện * một ngày tại một thời gian, 144 để xử lý các tập tin sử dụng * Bộ nhớ, xin vui lòng thiết lập một mục tiêu đó là 2GB hoặc ít hơn hoàn thành trong cả 1 * quá trình không có vấn đề bao lâu cần có một lý do tại sao như vậy đã trở thành thông số kỹ thuật, bởi vì nó được dự kiến sẽ thay thế các hồ sơ cũ hiện đang chạy trên cùng một loại điều kiện. ## Chức năng thiết kế ### hoạt động tổng thể và các lớp tương ứng của toàn bộ chương trình xử lý sẽ làm việc như mô tả ở trên. Các quá trình này, nó được giả định rằng mỗi trách nhiệm các lớp sau. * RawDataParser * RuleBaseClassifier * BayesianClassifier * ResultWriter Ngoài ra, chính có một phương pháp, các lớp học đó sẽ được gọi từ dòng lệnh, ProfilerToplevel xin với. Giới thiệu về ### hồ sơ hồ sơ điều tra hồ sơ xin được bày tỏ trong. Giá trị của nó là M10 , M20 , ..., M50 , F10 , F20 , ..., F50 , và UNKNOWN là. ### RuleBaseProfiler hành vi của #### Tổng quan đến sinh học của tweet là một lớp học mà đại diện cho các hồ sơ để ước tính như thế nào trong hồ sơ cá nhân nếu nó có chứa chuỗi cụ thể. [] (RuleBaseClassifier.Png) phân loại các phương pháp chấp nhận một đối tượng đại diện cho các phát hiện và trả về nó được ước tính dựa trên hồ sơ cá nhân của người dùng đã đăng cai trị. Trong trường hợp này vô không được phép quay trở lại. Lớp này là một nhà xây dựng tập tin nhận được đối tượng, bạn phải tải các quy tắc phân loại bằng văn bản trong đó. Định dạng tập tin #### Rules để các tập tin quy tắc, một trong những quy tắc đã được viết trên một dòng đơn. Quy định là những từ khóa tách, giới tính, và tuổi tác trong các tab, khi các từ khóa bao gồm trong sinh học, người sử dụng đã viết sinh học được coi là một hồ sơ tương ứng. Nếu, giới tính, nó có thể đoán chỉ có một tuổi, nếu người kia không biết, những người không biết * được thể hiện như. Nội dung của nó, ví dụ, là như sau. `` `Python Boy sinh viên M 10 sinh F 10 học sinh trung học * 10 người đàn ông của M * F * Phụ nữ `` ` Điều này là để thể hiện các nguyên tắc sau đây.

có chứa một "nữ sinh" trong sinh học
"Nữ 10 tuổi"
có chứa một "trường trung học" trong sinh học
"Teen không biết quan hệ tình dục"
chứa các "chàng trai" để sinh học
"Đàn ông không rõ tuổi"
chứa các "cô gái" trong sinh học
"Phụ nữ trong độ tuổi chưa biết"

Trong các trường hợp sau đây, bạn nên nâng cao một ngoại lệ trong quá trình khởi * cùng một từ khóa trong các tập tin quy tắc nếu đã xuất hiện trường hợp đã bao gồm chuỗi mà không thể được giải thích như là * giới chứa không thể được giải thích như là * string tuổi Nếu có quy tắc tập tin và thực hiện theo các thông số kỹ thuật sau đây cho khoảng trắng và bình luận. * Từ khoá, giới tính, trước và sau khi các nhân vật không gian của mỗi chuỗi đại diện cho tuổi được giả định là sau khi giải thích rằng đã bị xóa nhân vật * trống không chỉ bao gồm các dòng (dòng trống) được bỏ qua chỉ đơn giản là không phải là một lỗi * Đó là một nhận xét để kết thúc của dòng từ đồng bảng nửa chiều rộng (#). Hãy đối xử với nó như trống là để cho phép các khoảng trắng và thêm ý kiến, bạn làm cho nó dễ dàng hơn để viết các quy tắc. Chẳng hạn như các quy tắc sau đây xin vui lòng bỏ qua như vô nghĩa nếu * keyword không chỉ chứa trống * giới tính, tuổi tác là cả hai * Nếu bạn muốn là cũng có, các định dạng sau đây xin vui lòng để điều trị đặc biệt. * Keyword đúng, giới tính, nếu bạn tiếp tục sau khi các tab tuổi và tiếp tục chuỗi, chuỗi tab tiếp theo sau tuổi xin vui lòng bỏ qua. Đây sẽ là bằng và suy nghĩ nếu bạn thêm một mục mới vào các quy tắc. Tất cả nếu bạn không tuân theo các định dạng, thêm vào đó bạn nên tăng một ngoại lệ trong quá trình khởi tạo như lỗi giải thích các quy tắc #### nếu điều đó không phù hợp với bất kỳ quy tắc, hồ sơ cá nhân của người dùng UNKNOWN là. Áp dụng một hoặc nhiều hơn các quy tắc, họ không phải là không phù hợp, và nếu giới tính và độ tuổi được tìm thấy cùng, hồ sơ cá nhân của người dùng UNKNOWN sẽ là một trong những hồ sơ không. Ví dụ, nếu bạn bao gồm các "nữ sinh" trong sinh học, hồ sơ cá nhân của người sử dụng F10 là (nữ 10 của). Hoặc, nếu bạn bao gồm các "cô gái" và "trung học" trong sinh học, hồ sơ cá nhân của người sử dụng F10 là (nữ 10 của). Nếu giới tính hay tuổi tác, thậm chí sử dụng tất cả các quy tắc áp dụng là không rõ, hồ sơ cá nhân của người dùng UNKNOWN là. Ví dụ, nếu chỉ "học" được tổ chức đúng, vì nó là giới tính không rõ, UNKNOWN và. Nếu có nhiều quy tắc xung đột nếu bị trúng, UNKNOWN nên được coi. Ví dụ, nếu "Boy sinh viên" và "sinh" được bao gồm cùng một lúc là UNKNOWN nó trở thành. #### Thử nghiệm quan điểm ##### hệ thống bình thường hãy chắc chắn rằng các ví dụ được khởi tạo một cách chính xác theo các quy tắc sau đây như file. * Kiểm tra các tập tin * bao gồm định dạng đúng chỉ các quy tắc * keyword, giới tính, tuổi bao gồm một trống khác với tab qua lại bao gồm * dòng trống , bao gồm * Comments tab và bất kỳ nhân vật mà sau * cột bổ sung (tuổi cột) bao gồm cả dòng là phân loại các phương pháp, hãy chắc chắn rằng nó hoạt động chính xác trong các trường hợp sau đây. * Nếu các tập tin quy tắc luật lệ, không có ai. Phương pháp nên luôn luôn trả về UNKNOWN. * Nếu các quy tắc không giữ ngay cả một * quy tắc áp dụng chỉ có một, do đó Nếu hồ sơ được thiết lập chỉ áp dụng một quy tắc *, nếu giới tính hay tuổi tác là không rõ * quy tắc áp dụng hai hoặc nhiều hơn, do đó hồ sơ Nhưng nếu để xác nhận * quy tắc áp dụng hai hoặc nhiều hơn, nếu giới tính hay tuổi tác là không biết hệ thống bất thường ##### nếu sau đây, bạn nên nâng cao một ngoại lệ. * Trong quá trình khởi tạo, quy tắc định dạng tập tin nếu một bất thường ### BayesianClassifier hành vi của #### Tổng quan về danh từ xuất hiện trong sinh học và cơ thể của tweet, cho dù đó là một danh từ đặc trưng để họ có hồ sơ Đó là một lớp học mà đại diện cho một hồ sơ để suy ra các hồ sơ bằng cách kiểm tra. [] (BayesianClassifier.png) Lớp này là một nhà xây dựng tập tin nhận được các đối tượng và ngưỡng, tập tin bạn cần phải tải số lần xuất hiện của từ ngữ của mỗi hồ sơ được viết cho các đối tượng. phân loại các phương pháp có một đối tượng đại diện cho các ngày, và lợi nhuận được ước tính dựa trên hồ sơ cá nhân của người sử dụng đã đăng các quy tắc. Trong trường hợp này vô không được phép quay trở lại. #### Xác định bước BayesianClassifier cho tất cả các cấu hình, và để tính toán xác suất mà ngày thuộc về cấu hình, nó sẽ ước tính sơ cá nhân của những người dùng đã đăng phát hiện bằng cách trả lại hồ sơ cao nhất. Thủ tục quyết tâm này, tôi có một kế hoạch để spam (http://www.paulgraham.com/spam.html) để tham khảo. Này và là mâu thuẫn, xin vui lòng cho tôi biết nếu bạn nghĩ rằng nó được sử dụng thuật toán sai

đang được dịch, vui lòng đợi..

Kết quả (Việt) 3:[Sao chép]

Sao chép!

đang được dịch, vui lòng đợi..

Các ngôn ngữ khác

Hỗ trợ công cụ dịch thuật: Albania, Amharic, Anh, Armenia, Azerbaijan, Ba Lan, Ba Tư, Bantu, Basque, Belarus, Bengal, Bosnia, Bulgaria, Bồ Đào Nha, Catalan, Cebuano, Chichewa, Corsi, Creole (Haiti), Croatia, Do Thái, Estonia, Filipino, Frisia, Gael Scotland, Galicia, George, Gujarat, Hausa, Hawaii, Hindi, Hmong, Hungary, Hy Lạp, Hà Lan, Hà Lan (Nam Phi), Hàn, Iceland, Igbo, Ireland, Java, Kannada, Kazakh, Khmer, Kinyarwanda, Klingon, Kurd, Kyrgyz, Latinh, Latvia, Litva, Luxembourg, Lào, Macedonia, Malagasy, Malayalam, Malta, Maori, Marathi, Myanmar, Mã Lai, Mông Cổ, Na Uy, Nepal, Nga, Nhật, Odia (Oriya), Pashto, Pháp, Phát hiện ngôn ngữ, Phần Lan, Punjab, Quốc tế ngữ, Rumani, Samoa, Serbia, Sesotho, Shona, Sindhi, Sinhala, Slovak, Slovenia, Somali, Sunda, Swahili, Séc, Tajik, Tamil, Tatar, Telugu, Thái, Thổ Nhĩ Kỳ, Thụy Điển, Tiếng Indonesia, Tiếng Ý, Trung, Trung (Phồn thể), Turkmen, Tây Ban Nha, Ukraina, Urdu, Uyghur, Uzbek, Việt, Xứ Wales, Yiddish, Yoruba, Zulu, Đan Mạch, Đức, Ả Rập, dịch ngôn ngữ.