Twitterプロファイラver2作成プロジェクト==========

Twitterプロファイラver2作成プロジェクト
===============
## 基本情報

プロジェクト名
Twitterプロファイラver2作成
開発区分 / Division
SI開発（バッチ処理）
窓口担当
Itaru Suzuki

## 全体概要
現在，DSのいくつかのサービスでは，ユーザのbioおよびツイートからユーザの性別・年代を推定してその情報を利用しています．
ここで言う年代とは，ユーザが10代，20代，...，50代のいずれであるかということです．
以降，ユーザの性別・年代情報を『プロファイル』，ユーザのプロファイルを推定するためのプログラムを『プロファイラ』と呼びます．

現在のプロファイラはユーザのプロファイルのうち，性別を80%正しく，年代を50%正しく判定することができます．
これは十分に信頼できる値とはいえず，より精度を上げていきたいと考えています．

そこで，現在の手法とは別の手法を使ったプロファイラの作成をお願いしようと思います．

### 目的
RAWデータ（Twitterから供給される生のツイートデータ，Twitterの10%データ）
を読み込み，ユーザのプロファイルを推定するプログラムを作成すること．

### 依頼作業範囲
このプロファイラは最終的に推定結果をデータベースに格納しますが，
データベースへの接続部分はこちらで作成します．
DSVにはそれ以外の部分全ての作成をお願いします．

### 納期
12月8日（月）を納期とします．

### 納品
Bitbucketにリポジトリを作成します．
そこに成果をコミットしてください．

### プロジェクト体制

DS側担当者
Itaru Suzuki
DSV側担当者
XXX

### コミュニケーションプラン
毎週月曜日にDS側担当者まで進捗を報告してください．
また，そのときにコードをコミットしてください．

----

## システム概要
### 開発システム概要
今回作成したいのは，RAWデータを読み込み，そのbioと本文からプロファイルを推定し，結果をファイルに書き出すプログラムです．

その動作は次のようになります．

1. RAWデータを読み，そこからbioと本文を抽出します
1. ルールに基づいてプロファイルを推定します
1. プロファイルの推定に失敗した場合，ベイジアンフィルタによりプロファイルを推定します
1. 結果をファイルに書き出します

### 開発範囲

RAWデータを読み，ツイートを表すオブジェクトを返すクラスRawDataParserはDS側で実装します．その他の部分についてはDSVでの開発をお願いします．

理由がない限り，RawDataParserを変更しないでください．

## アーキテクチャ

### ハードウェア仕様
未定です．

### ソフトウェア仕様

* 開発言語はJavaです．バージョン8に準拠してください．

## 機能外要件
### 性能要件

* 一度に1日分，144個のファイルを処理します
* メモリ使用量は2GB以下であることを目標としてください
* 処理はどんなに長くとも1日で終了する必要があります

このような仕様になっている理由は，同じような条件で現在稼働している古いプロファイラを置き換えることを期待しているためです．

## 機能設計
### 全体の動作と対応するクラス
プログラム全体の処理は上述のように動作します．

これらの処理は，それぞれ次のクラスが受け持つものとします．

* RawDataParser
* RuleBaseClassifier
* BayesianClassifier
* ResultWriter

また，mainメソッドを持ち，コマンドラインから呼び出されるクラスは，ProfilerToplevelとしてください．

### プロファイルについて
プロファイルは列挙型Profileで表現してください．その値はM10，M20，...，M50，F10，F20，...，F50，およびUNKNOWNです．

### RuleBaseProfilerの動作
#### 概要
ツイートのbioに特定の文字列が入っているかどうかでプロファイルを推定するプロファイラを表現したクラスです．

![](RuleBaseClassifier.png)

classifyメソッドは，ツイートを表すオブジェクトを受け取り，それをポストしたユーザのプロファイルをルールに基づいて推定して返します．
この時nullを返すことは許されません．

このクラスはコンストラクタでFileオブジェクトを受け取り，その中に書かれた分類ルールを読み込む必要があります．

#### ルールファイルの書式

ルールファイルには，1行に1つのルールが記述されています．
ルールはキーワード，性別，年代をタブで区切ったもので，bioにキーワードが含まれる時，そのbioを書いたユーザは対応するプロファイルであると推測されます．
もし，性別，年代のどちらか一方だけを推測でき，他方はわからない場合，分からない方は*と表現されます．

その内容は例えば次のようになります．

```python
男子高生 M 10
女子高生 F 10
高校生 * 10
男子 M *
女子 F *
```

これは次のようなルールを表現しています．

bioに「女子高生」が含まれている
「女性10代」
bioに「高校生」が含まれている
「性別不詳の10代」
bioに「男子」が含まれている
「男性で年代不詳」
bioに「女子」が含まれている
「女性で年代不詳」

次のような場合，初期化時に例外を発生させるべきです

* ルールファイルに同じキーワードが出現していた場合
* 性別として解釈できない文字列が含まれていた場合
* 年代として解釈できない文字列が含まれていた場合

ルールファイルは空白文字とコメントについて次の仕様に従います．

* キーワード，性，年代を表している各文字列の前後の空白文字は消去したあと解釈されるものとします
* 空白文字しか含まれない行（空行）はエラーとならず単に無視します
* 半角シャープ（#）から行末まではコメントです．空白として扱ってください

余分な空白やコメントを許容するのは，ルールを書きやすくするためです．

次のようなルールは無意味なものとして無視してください

* キーワードが空白しか含まない場合
* 性別，年代が両方*であるような場合

また，次のようなフォーマットは特別扱いしてください．

* 正しいキーワード，性別，年代の後に続けてタブと文字列が続く場合，年代のあとのタブ以降の文字列は無視してください．これは，ルールに新たな項目を付け加える場合を考えてのことでする．

上記以外で形式に従わない場合はすべてエラーとして初期化時に例外を発生させるべきです

#### ルールの解釈

どのルールも当てはまらなかった場合，そのユーザのプロファイルはUNKNOWNです．

1つ以上のルールが当てはまり，それらが矛盾せず，また性別・年代が共にわかった場合，そのユーザのプロファイルはUNKNOWNでないどれかのプロファイルになります．
たとえば，「女子高生」をbioに含む場合，そのユーザのプロファイルはF10（女性10代）です．
あるいは，「女子」と「高校生」をbioに含む場合，そのユーザのプロファイルはF10（女性10代）です．

当てはまる全てのルールを使っても性別あるいは年代が不詳だった場合，そのユーザのプロファイルはUNKNOWNです．
例えば「高校生」だけが当てはまった場合は，性別不詳となるため，UNKNOWNとします．

もし矛盾する複数のルールがヒットした場合は，UNKNOWNと推測されるべきです．
例えば「男子高生」と「女子高生」が同時に含まれていた場合はUNKNOWNとなります．

#### テスト観点
##### 正常系
次のようなルールファイルによってインスタンスが正常に初期化されることを確認してください．

* 空のファイル
* 正しいフォーマットのルールのみを含む
* キーワード，性別，年代の前後にタブ以外の空白を含む
* 空行を含む
* コメントを含む
* 追加のカラム（年代の後に続くタブと任意の文字列）がある行を含む

classifyメソッドが，次の場合に正しく動作することを確認してください．

* ルールファイルにルールが1つもない場合．メソッドは常にUNKNOWNを返すはずです．
* ルールが1つもあてはまらない場合
* ルールが1つだけ当てはまり，それによってプロファイルが確定する場合
* ルールが1つだけ当てはまり，性別か年代が不詳である場合
* ルールが2つ以上当てはまり，それによってプロファイルが確定する場合
* ルールが2つ以上当てはまり，性別か年代が不詳である場合

##### 異常系

次の場合，例外を発生させるべきです．

* 初期化時，ルールファイルの書式が異常である場合

### BayesianClassifierの動作
#### 概要
ツイートのbioおよび本文に出現する名詞に関して，それらがあるプロファイルに特徴的な名詞であるかどうかを調べることでプロファイルを推測するプロファイラを表現したクラスです．

![](BayesianClassifier.png)

このクラスはコンストラクタでFileオブジェクトとしきい値を受け取り，Fileオブジェクトに書かれた各プロファイルごとの単語の出現数をロードする必要があります．

classifyメソッドは，ツイートを表すオブジェクトを受け取り，それをポストしたユーザのプロファイルをルールに基づいて推定して返します．
この時nullを返すことは許されません．

#### 判定手順

BayesianClassifierは，すべてのプロファイルについて，あるツイートがそのプロファイルに属する確率を計算し，それがもっとも高いプロファイルを返すことでツイートをポストしたユーザのプロファイルを推定します．

この判定手順は，A plan to spam(http://www.paulgraham.com/spam.html)を参考にしています．
これと矛盾している，間違ったアルゴリズムを使っていると思われる場合は教えてください

Twitterプロファイラver2作成プロジェクト
===============
## 基本情報

プロジェクト名
Twitterプロファイラver2作成
開発区分 / Division
SI開発（バッチ処理）
窓口担当
Itaru Suzuki

## 全体概要
現在，DSのいくつかのサービスでは，ユーザのbioおよびツイートからユーザの性別・年代を推定してその情報を利用しています．
ここで言う年代とは，ユーザが10代，20代，...，50代のいずれであるかということです．
以降，ユーザの性別・年代情報を『プロファイル』，ユーザのプロファイルを推定するためのプログラムを『プロファイラ』と呼びます．

現在のプロファイラはユーザのプロファイルのうち，性別を80%正しく，年代を50%正しく判定することができます．
これは十分に信頼できる値とはいえず，より精度を上げていきたいと考えています．

そこで，現在の手法とは別の手法を使ったプロファイラの作成をお願いしようと思います．

### 目的
RAWデータ（Twitterから供給される生のツイートデータ，Twitterの10%データ）
を読み込み，ユーザのプロファイルを推定するプログラムを作成すること．

### 依頼作業範囲
このプロファイラは最終的に推定結果をデータベースに格納しますが，
データベースへの接続部分はこちらで作成します．
DSVにはそれ以外の部分全ての作成をお願いします．

### 納期
12月8日（月）を納期とします．

### 納品
Bitbucketにリポジトリを作成します．
そこに成果をコミットしてください．

### プロジェクト体制

DS側担当者
Itaru Suzuki
DSV側担当者
XXX

### コミュニケーションプラン
毎週月曜日にDS側担当者まで進捗を報告してください．
また，そのときにコードをコミットしてください．

----

## システム概要
### 開発システム概要
今回作成したいのは，RAWデータを読み込み，そのbioと本文からプロファイルを推定し，結果をファイルに書き出すプログラムです．

その動作は次のようになります．

1. RAWデータを読み，そこからbioと本文を抽出します
1. ルールに基づいてプロファイルを推定します
1. プロファイルの推定に失敗した場合，ベイジアンフィルタによりプロファイルを推定します
1. 結果をファイルに書き出します

### 開発範囲

RAWデータを読み，ツイートを表すオブジェクトを返すクラスRawDataParserはDS側で実装します．その他の部分についてはDSVでの開発をお願いします．

理由がない限り，RawDataParserを変更しないでください．

## アーキテクチャ

### ハードウェア仕様
未定です．

### ソフトウェア仕様

* 開発言語はJavaです．バージョン8に準拠してください．

## 機能外要件
### 性能要件

* 一度に1日分，144個のファイルを処理します
* メモリ使用量は2GB以下であることを目標としてください
* 処理はどんなに長くとも1日で終了する必要があります

このような仕様になっている理由は，同じような条件で現在稼働している古いプロファイラを置き換えることを期待しているためです．

## 機能設計
### 全体の動作と対応するクラス
プログラム全体の処理は上述のように動作します．

これらの処理は，それぞれ次のクラスが受け持つものとします．

* RawDataParser
* RuleBaseClassifier
* BayesianClassifier
* ResultWriter

また，mainメソッドを持ち，コマンドラインから呼び出されるクラスは，ProfilerToplevelとしてください．

### プロファイルについて
プロファイルは列挙型Profileで表現してください．その値はM10，M20，...，M50，F10，F20，...，F50，およびUNKNOWNです．

### RuleBaseProfilerの動作
#### 概要
ツイートのbioに特定の文字列が入っているかどうかでプロファイルを推定するプロファイラを表現したクラスです．

![](RuleBaseClassifier.png)

classifyメソッドは，ツイートを表すオブジェクトを受け取り，それをポストしたユーザのプロファイルをルールに基づいて推定して返します．
この時nullを返すことは許されません．

このクラスはコンストラクタでFileオブジェクトを受け取り，その中に書かれた分類ルールを読み込む必要があります．

#### ルールファイルの書式

ルールファイルには，1行に1つのルールが記述されています．
ルールはキーワード，性別，年代をタブで区切ったもので，bioにキーワードが含まれる時，そのbioを書いたユーザは対応するプロファイルであると推測されます．
もし，性別，年代のどちらか一方だけを推測でき，他方はわからない場合，分からない方は*と表現されます．

その内容は例えば次のようになります．

```python
男子高生 M 10
女子高生 F 10
高校生 * 10
男子 M *
女子 F *
```

これは次のようなルールを表現しています．

bioに「女子高生」が含まれている
「女性10代」
bioに「高校生」が含まれている
「性別不詳の10代」
bioに「男子」が含まれている
「男性で年代不詳」
bioに「女子」が含まれている
「女性で年代不詳」

次のような場合，初期化時に例外を発生させるべきです

* ルールファイルに同じキーワードが出現していた場合
* 性別として解釈できない文字列が含まれていた場合
* 年代として解釈できない文字列が含まれていた場合

ルールファイルは空白文字とコメントについて次の仕様に従います．

* キーワード，性，年代を表している各文字列の前後の空白文字は消去したあと解釈されるものとします
* 空白文字しか含まれない行（空行）はエラーとならず単に無視します
* 半角シャープ（#）から行末まではコメントです．空白として扱ってください

余分な空白やコメントを許容するのは，ルールを書きやすくするためです．

次のようなルールは無意味なものとして無視してください

* キーワードが空白しか含まない場合
* 性別，年代が両方*であるような場合

また，次のようなフォーマットは特別扱いしてください．

* 正しいキーワード，性別，年代の後に続けてタブと文字列が続く場合，年代のあとのタブ以降の文字列は無視してください．これは，ルールに新たな項目を付け加える場合を考えてのことでする．

上記以外で形式に従わない場合はすべてエラーとして初期化時に例外を発生させるべきです

#### ルールの解釈

どのルールも当てはまらなかった場合，そのユーザのプロファイルはUNKNOWNです．

1つ以上のルールが当てはまり，それらが矛盾せず，また性別・年代が共にわかった場合，そのユーザのプロファイルはUNKNOWNでないどれかのプロファイルになります．
たとえば，「女子高生」をbioに含む場合，そのユーザのプロファイルはF10（女性10代）です．
あるいは，「女子」と「高校生」をbioに含む場合，そのユーザのプロファイルはF10（女性10代）です．

当てはまる全てのルールを使っても性別あるいは年代が不詳だった場合，そのユーザのプロファイルはUNKNOWNです．
例えば「高校生」だけが当てはまった場合は，性別不詳となるため，UNKNOWNとします．

もし矛盾する複数のルールがヒットした場合は，UNKNOWNと推測されるべきです．
例えば「男子高生」と「女子高生」が同時に含まれていた場合はUNKNOWNとなります．

#### テスト観点
##### 正常系
次のようなルールファイルによってインスタンスが正常に初期化されることを確認してください．

* 空のファイル
* 正しいフォーマットのルールのみを含む
* キーワード，性別，年代の前後にタブ以外の空白を含む
* 空行を含む
* コメントを含む
* 追加のカラム（年代の後に続くタブと任意の文字列）がある行を含む

classifyメソッドが，次の場合に正しく動作することを確認してください．

* ルールファイルにルールが1つもない場合．メソッドは常にUNKNOWNを返すはずです．
* ルールが1つもあてはまらない場合
* ルールが1つだけ当てはまり，それによってプロファイルが確定する場合
* ルールが1つだけ当てはまり，性別か年代が不詳である場合
* ルールが2つ以上当てはまり，それによってプロファイルが確定する場合
* ルールが2つ以上当てはまり，性別か年代が不詳である場合

##### 異常系

次の場合，例外を発生させるべきです．

* 初期化時，ルールファイルの書式が異常である場合

### BayesianClassifierの動作
#### 概要
ツイートのbioおよび本文に出現する名詞に関して，それらがあるプロファイルに特徴的な名詞であるかどうかを調べることでプロファイルを推測するプロファイラを表現したクラスです．

![](BayesianClassifier.png)

このクラスはコンストラクタでFileオブジェクトとしきい値を受け取り，Fileオブジェクトに書かれた各プロファイルごとの単語の出現数をロードする必要があります．

#### 判定手順

BayesianClassifierは，すべてのプロファイルについて，あるツイートがそのプロファイルに属する確率を計算し，それがもっとも高いプロファイルを返すことでツイートをポストしたユーザのプロファイルを推定します．

この判定手順は，A plan to spam(http://www.paulgraham.com/spam.html)を参考にしています．
これと矛盾している，間違ったアルゴリズムを使っていると思われる場合は教えてください

0/5000

Từ: -

Sang: -

Kết quả (Việt) 1: [Sao chép]

Sao chép!

Twitter hồ sơ ver2 tạo ra dự án===============## Cơ bản thông tinTên dự ánTạo một hồ sơ Twitter ver2Bộ phận phát triển / bộ phậnSI phát triển (xử lý hàng loạt)Liên hệHinoue Suzuki## Tóm tắtHiện nay, phục vụ một số DS, tiểu sử người dùng và Tweet ước tính từ của người dùng giới tính, tuổi, và sử dụng thông tin đó để.Và nói ở đây là những người dùng thanh thiếu niên và 20-somethings,..., 50-somethings mà làm, hoặc là.Kể từ khi người dùng giới tính và tuổi ước tính "cấu hình", chương trình thông tin hồ sơ người dùng được gọi là "Hồ sơ".Hồ sơ hiện tại có thể cấu hình ra, tình dục - 80% một cách chính xác, 50% một cách chính xác xác định độ tuổi để.Hơn nữa, nó có thể không và giá trị bạn có thể tin tưởng đủ để tin rằng và muốn nâng cao độ chính xác của họ.Tôi đã cố gắng để yêu cầu hồ sơ bằng cách sử dụng một phương pháp và phương pháp hiện tại bằng cách tạo ra.### Mục đíchNGUYÊN dữ liệu (nguyên tweets dữ liệu được cung cấp bởi Twitter, Twitter của 10% dữ liệu)Để làm cho chương trình tải, để ước tính của người dùng hồ sơ.### Yêu cầu làm việc phạm viHồ sơ này cuối cùng cơ sở dữ liệu ước tính có,Phần của kết nối với cơ sở dữ liệu được tạo ra ở đây.DSV hãy tạo ra tất cả các bộ phận khác.### Giao hàng12/8 (mặt trăng) và thời gian giao hàng.### Giao hàngTạo ra một kho lưu trữ trên BitBucket.Cam kết quả có.### Cấu trúc dự ánDS bên đại diệnHinoue SuzukiNhân viên phía DSVXXX### Kế hoạch truyền thôngHàng tuần báo cáo một sự tiến bộ đại diện DS mặt vào ngày thứ hai.Ngoài ra, cam mã ở thời điểm đó.----## Hệ thống tổng quan### Phát triển hệ thống tổng quanChúng tôi muốn tạo ra là một chương trình tải dữ liệu thô, và ước tính các cấu hình từ sinh học và văn bản đầy đủ, được viết vào một tập tin kết quả.Hành vi trông như thế này.1. đọc dữ liệu thô, chiết xuất từ các sinh học và toàn bộ nội dung từ đó1. ước tính các quy tắc hồ sơDự toán ước tính hồ sơ hồ sơ không thành công, các bộ lọc Bayes 1.1. xuất khẩu tập tin kết quả### Phát triển phạm viThực hiện lớp RawDataParser trả về một đối tượng đại diện cho các Tweets, đọc các dữ liệu thô trên DS. Đối với một phần khác xin vui lòng phát triển trong DSV.Miễn là không có không có lý do, không thay đổiRawDataParser .## Kiến trúc### Thông số kỹ thuật phần cứngĐó là chưa quyết định.### Phần mềm đặc điểm kỹ thuật* Java là một ngôn ngữ phát triển. Xin vui lòng phù hợp với phiên bản 8.## Chức năng bên ngoài yêu cầu### Yêu cầu thực hiện* 1 ngày min, 144 tập tin, quá trình thời gian* Bộ nhớ sử dụng là 2 GB hoặc ít hơn mục tiêu để làm hài lòng* Bạn phải chấm dứt trong một ngày là không có vấn đề bao lâuNhững lý do cho đặc điểm kỹ thuật dự kiến sẽ thay thế hồ sơ cũ hiện đang chạy trong các điều khoản tương tự đối với.## Chức năng thiết kế### Tổng thể hành vi và các lớp học tương ứngToàn bộ chương trình làm việc như mô tả ở trên.Mỗi trong số này là chịu trách nhiệm cho các lớp học sau.* RawDataParser* RuleBaseClassifier* BayesianClassifier* ResultWriterNgoài ra, cố gắng đểProfilerToplevel các lớp học có phương phápmain , gọi là từ dòng lệnh.### Hồ sơCấu hình đại diện cho loại điều tra Profile . Giá trị của nó là, M10,M20,...,M50,F10,F20,...,F50, và chưa là UNKNOWN .### RuleBaseProfiler hành vi### Tổng quanGiai cấp đại diện cho hồ sơ để ước tính các hồ sơ có chứa sinh học đã chỉ định văn bản Tweet hay không.! [] (RuleBaseClassifier.png)phương pháp classify mất đối tượng đại diện cho tweet, trả lại, ước tính theo quy định rằng nó đăng hồ sơ người dùng.Không được phép trở về null tại thời điểm này.Bạn phải tải phân loại quy tắc đã được viết bằng, lớp này mất đối tượng File trong các nhà xây dựng.### Quy tắc định dạng tập tinTệp Qui tắc chứa, một quy tắc cho mỗi dòng.Inferred quy tắc, người sử dụng khi từ khoá được bao gồm trong sinh học, đã viết sinh học trong tab-delimited hồ sơ tương ứng từ khóa, giới tính và tuổi tác.Nếu các là bày tỏ * và nếu bạn có thể đoán chỉ hoặc giới tính và tuổi tác, mặt khác không biết, không biết làm thế nào.Nội dung của nó cho ví dụ: trông giống như.''' pythonCậu bé Trung học M 10Sinh trung học F 10Học sinh trung học * 10Quần M *Nữ F *```Điều này thể hiện các quy tắc sau đây.học sinh trung học trong sinh học10 tỷhọc sinh trung học trong sinh học"Không biết tình dục thiếu niên"chàng trai trong sinh học"Con người không xác định"'cô gái' trong sinh học' Phụ nữ trong độ tuổi không được báo cáo 'Nếu bạn thích, trong quá trình khởi tạo nên nâng cao một ngoại lệ* Nếu bạn có cùng một từ khoá xuất hiện trong tệp quy tắc* Nếu chuỗi không thể được hiểu là một giới tính được đính kèm* Nếu chuỗi không thể được hiểu là lứa tuổi được đính kèmCác quy tắc về khoảng trắng và ý kiến thực hiện theo các thông số kỹ thuật sau đây.* Xóa trống trước và sau khi mỗi chuỗi đại diện cho một từ khóa, tuổi, và được hiểu là các* Chỉ đơn giản là bỏ qua, không có lỗi và các dòng có chứa chỉ khoảng trắng (dòng trống)* Từ nửa pound (#) cho đến cuối dòng là một nhận xét. Xin vui lòng điều trị như một trốngĐể cho phép ý kiến và khoảng trắng phụ là để dễ dàng viết quy tắc.Xin vui lòng bỏ qua như vô nghĩa quy tắc chẳng hạn như:* Nếu từ khóa không chứa chỉ khoảng trắng* Giới tính, nếu bạn thích đó là tuổi * trong cả haiNgoài ra, đặc biệt định dạng như: xử lý xin vui lòng.* Nếu chuỗi theo sau một tab, theo sau là các từ khóa chính xác, giới tính, tuổi, dây tab sau khi sau tuổi xin vui lòng bỏ qua. Để suy nghĩ về nếu này tack, ghi một quy tắc mới.Nếu bạn không làm theo các định dạng khác với tất cả ở trên là một lỗi trong quá trình khởi tạo ngoại lệ tăng nên### Quy tắc giải thíchNếu bạn ăn cắp bất kỳ quy tắc, Hồ sơ người dùng là UNKNOWN .Áp dụng một hoặc nhiều quy tắc, phù hợp với họ, nếu bạn tìm thấy cả hai giới tính và tuổi tác, Hồ sơ người dùng cũng không UNKNOWN bất kỳ cấu hình.Ví dụ, nếu học sinh trung học với sinh học, Hồ sơ của người dùng là F10(teen girls).Hoặc, bao gồm cả học sinh trung học với một sinh học 'nữ', Hồ sơ người dùng là F10(teen girls).Nếu bạn cũng sử dụng tất cả quy tắc là đúng giới tính hoặc tuổi không được báo cáo, Hồ sơ người dùng là UNKNOWN .Ví dụ cho học sinh trung học chỉ áp dụng nếu giới tính chưa biết, vàUNKNOWN .Nếu nếu bạn nhấn nhiều quy tắc xung đột, nên được suy ra làUNKNOWN .Ví dụ nếu các bé trai cao trường học và trường trung học sinh viên cùng một lúc là UNKNOWN .### Kiểm tra quan điểm### Hệ thống y tếĐảm bảo rằng trường hợp được khởi tạo đúng bởi các quy tắc như sau.* Một tập tin rỗng* Bao gồm chỉ là các quy tắc chính xác định dạng* Có các tab ngoại trừ trống trước và sau khi từ khoá, giới tính, tuổi* Bao gồm hàng trống* Bao gồm cả các ý kiến* Thêm cột (tab theo tuổi và bất kỳ chuỗi ký tự) có chứa dòngXin vui lòng xác minh, phương pháp classify để hoạt động được nếu sau đây.* Nếu không có quy định những quy tắc. Phương pháp nên luôn luôn trở lại chưa biết.* Trường hợp nơi một quy tắc duy nhất* Nếu chỉ có một quy tắc áp dụng, chấp nhận hồ sơ* Nếu chỉ có một quy tắc áp dụng, đó là giới tính hoặc tuổi không được báo cáo* Nếu các quy tắc hơn một áp dụng, chấp nhận hồ sơ* Nếu các quy tắc hơn một áp dụng, không được báo cáo bởi giới tính hoặc tuổi### Lỗi hệ thốngNếu sau đây nên là một ngoại lệ.* Nếu các quy tắc tập tin định dạng bất thường lúc khởi tạo thời gian,### BayesianClassifier hành vi### Tổng quanHồ sơ danh từ sinh học tweets và văn bản xuất hiện, họ đã bày tỏ hồ sơ để đoán cấu hình bằng cách kiểm tra cho dù các lớp học đặc trưng danh từ.! [] (BayesianClassifier.png)Bạn cần phải tải một số lần xuất hiện của từ viết bằng một đối tượngFile cho mỗi cấu hình mỗi, lớp này mất File đối tượng và ngưỡng trong các nhà xây dựng.phương pháp classify mất đối tượng đại diện cho tweet, trả lại, ước tính theo quy định rằng nó đăng hồ sơ người dùng.Không được phép trở về null tại thời điểm này.### Đánh giá thủ tụcBayesianClassifier, tính toán xác suất của tất cả các thông tin hồ sơ, thuộc cấu hình đó một tweet, ước tính các Tweets đăng bằng cách trả lại nó là hồ sơ người dùng hồ sơ cao nhất.Thủ tục quyết định này là một kế hoạch để thư rác (http://www.paulgraham.com/spam.html) đề cập đến.Xin vui lòng cho tôi biết nếu bạn dường như sử dụng các thuật toán mà mâu thuẫn với điều này, sai

đang được dịch, vui lòng đợi..

Kết quả (Việt) 2:[Sao chép]

Sao chép!

Twitter hồ sơ ver2 tạo ra dự án
===============
## thông tin cơ bản

Tên dự án
Twitter hồ sơ ver2 tạo
Bộ phận phát triển / Bộ phận
Phát triển SI (xử lý hàng loạt)
Số lượt truy cập thư ký
Itaru Suzuki

Toàn bộ Tổng quan ##
doanh nghiệp, trong một số các dịch vụ của DS, bạn phải sử dụng các thông tin từ sinh học của người dùng và tweet để ước tính giới tính và tuổi tác của người sử dụng.
Độ tuổi để nói ở đây, các thiếu niên sử dụng, độ tuổi 20, ..., đó là liệu những năm 50.
Sau đó, "hồ sơ" các thông tin giới tính và tuổi tác của người sử dụng, được gọi là "hồ sơ" một chương trình để đánh giá hồ sơ cá nhân của người sử dụng. Trong số hồ sơ là hồ sơ hiện tại, 80% chính xác giới tính, có thể được xác định một cách chính xác 50% tuổi. Điều này là không cho là đủ để giá trị đáng tin cậy, chúng tôi muốn tiếp tục nâng cao tính chính xác hơn. Vì vậy, tôi nghĩ rằng cách tiếp cận hiện tại cố gắng để yêu cầu tạo ra một hồ sơ mà sử dụng một cách tiếp cận khác nhau. ### Mục đích dữ liệu RAW (dữ liệu tweet liệu cung cấp từ Twitter, 10% dữ liệu Twitter) được đọc, và để tạo ra một chương trình để đánh giá hồ sơ cá nhân của người sử dụng đó. ### Yêu cầu phạm vi làm việc hồ sơ này là để lưu trữ các kết quả ước lượng cuối cùng để các cơ sở dữ liệu, phần kết nối cơ sở dữ liệu tôi tạo ra ở đây. Cảm ơn bạn sự sáng tạo của tất cả các bộ phận khác hơn là trong DSV. ### Giao ngày 08 tháng 12 (tháng) tôi sẽ có thời gian giao hàng. ### Giao hàng tận nơi tôi sẽ tạo ra một kho lưu trữ trên Bitbucket. Hãy cam kết kết quả đó. ### Hệ thống dự án

Nhân viên bên DS
Itaru Suzuki
Nhân viên bên DSV
XXX

### Kế hoạch truyền thông
xin vui lòng báo cáo tiến độ cho các cán bộ phụ DS mỗi thứ Hai.
Ngoài ra, xin vui lòng cam kết mã để thời gian đó. ---- ## Tổng quan về hệ thống phát triển ### Tổng quan hệ thống Tôi muốn tạo ra thời gian này, đọc dữ liệu RAW, để ước tính hồ sơ từ sinh học và cơ thể, nó là một chương trình viết các kết quả vào một tập tin. Hoạt động của nó là như sau. 1. Đọc dữ liệu RAW, và trích xuất sinh học cơ thể và từ đó 1. Ước tính hồ sơ cá nhân dựa trên nguyên tắc nếu nó không thành công để ước tính của 1. Trong hồ sơ cá nhân, bạn có thể ước lượng hồ sơ cá nhân của các bộ lọc Bayesian nộp 1. Kết quả viết cho ### phạm vi phát triển Đọc dữ liệu RAW, lớp trả về một đối tượng đại diện cho một tweet RawDataParser để thực hiện phía DS. Bạn yêu cầu phát triển trong DSV cho các bộ phận khác. Miễn là không có lý do, RawDataParser Xin vui lòng không thay đổi. ## Kiến trúc ### đặc điểm kỹ thuật phần cứng là chưa quyết định. ### Phần mềm Thông số kỹ thuật * phát triển ngôn ngữ là Java. Hãy thực hiện theo các phiên bản 8. ## Yêu cầu phi chức năng ### yêu cầu thực hiện * một ngày tại một thời gian, 144 để xử lý các tập tin sử dụng * Bộ nhớ, xin vui lòng thiết lập một mục tiêu đó là 2GB hoặc ít hơn hoàn thành trong cả 1 * quá trình không có vấn đề bao lâu cần có một lý do tại sao như vậy đã trở thành thông số kỹ thuật, bởi vì nó được dự kiến sẽ thay thế các hồ sơ cũ hiện đang chạy trên cùng một loại điều kiện. ## Chức năng thiết kế ### hoạt động tổng thể và các lớp tương ứng của toàn bộ chương trình xử lý sẽ làm việc như mô tả ở trên. Các quá trình này, nó được giả định rằng mỗi chịu trách nhiệm cho các lớp sau. * RawDataParser * RuleBaseClassifier * BayesianClassifier * ResultWriter Ngoài ra, chính có một phương pháp, các lớp học đó sẽ được gọi từ dòng lệnh, ProfilerToplevel xin với. Giới thiệu về ### hồ sơ hồ sơ điều tra hồ sơ xin được bày tỏ trong. Giá trị của nó là M10 , M20 , ..., M50 , F10 , F20 , ..., F50 , và UNKNOWN là. ### RuleBaseProfiler hành vi của #### Tổng quan đến sinh học của tweet là một lớp học mà đại diện cho các hồ sơ để ước tính như thế nào trong hồ sơ cá nhân nếu nó có chứa chuỗi cụ thể. [] (RuleBaseClassifier.Png) phân loại các phương pháp chấp nhận một đối tượng đại diện cho các tweet, và lợi nhuận được ước tính dựa trên hồ sơ cá nhân của người sử dụng đã đăng các quy tắc. Trong trường hợp này vô không được phép quay trở lại. Lớp này là một nhà xây dựng tập tin nhận được đối tượng, bạn phải tải các quy tắc phân loại bằng văn bản trong đó. Định dạng tập tin #### quy trong tập tin quy tắc, một trong những quy tắc đã được mô tả trong một dòng đơn. Quy định là những từ khóa tách, giới tính, và tuổi tác trong các tab, khi các từ khóa bao gồm trong sinh học, người sử dụng đã viết sinh học được coi là một hồ sơ tương ứng. Nếu, giới tính, nó có thể đoán chỉ có một tuổi, nếu người kia không biết, những người không biết * được thể hiện như. Nội dung của nó, ví dụ, là như sau. `` `Python Boy sinh viên M 10 sinh F 10 học sinh trung học * 10 nam M * Phụ nữ F * `` ` Điều này là để thể hiện các quy tắc sau đây.

có chứa một "nữ sinh" trong sinh học
"Nữ 10 của"
có chứa một "trường trung học" trong sinh học
"Teen không biết quan hệ tình dục"
chứa các "chàng trai" để sinh học
"Đàn ông không biết tuổi"
chứa các "cô gái" trong sinh học
"Phụ nữ trong độ tuổi chưa biết"

Trong các trường hợp sau đây, bạn nên nâng cao một ngoại lệ trong quá trình khởi * cùng một từ khoá trong các tập tin quy tắc là trường hợp đã xuất hiện trường hợp chứa một chuỗi mà không thể được giải thích như là * giới chứa không thể được hiểu là * string tuổi Nếu có quy tắc tập tin và thực hiện theo các thông số kỹ thuật sau đây để khoảng trắng và ý kiến. * Từ khoá, giới tính, trước và sau khi nhân vật không gian của mỗi chuỗi đại diện cho tuổi được giả định là sau khi giải thích rằng đã bị xóa * ký tự trống không chỉ bao gồm dòng (dòng trống) được bỏ qua chỉ đơn giản là không phải là một lỗi * Đó là một bình luận cho sự kết thúc của dòng từ đồng bảng Anh nửa chiều rộng (#). Hãy đối xử với nó như trống là để cho phép thêm không gian và ý kiến, bởi vì bạn là dễ dàng hơn để viết các quy tắc. Chẳng hạn như các quy tắc sau đây xin vui lòng bỏ qua như vô nghĩa nếu * keyword không chỉ chứa trống * giới tính, tuổi tác là cả hai * Nếu bạn muốn là cũng có, các định dạng sau đây xin vui lòng để điều trị đặc biệt. * Từ khóa đúng, giới tính, nếu bạn tiếp tục sau khi tab tuổi và chuỗi tiếp tục, các tab sau chuỗi sau tuổi Hãy bỏ qua. Đây sẽ là bằng và suy nghĩ nếu bạn thêm một mục mới vào các quy tắc. Tất cả nếu bạn không thực hiện theo các định dạng khác so với ở trên tôi nên nâng cao một ngoại lệ trong quá trình khởi như lỗi giải thích các quy tắc #### nếu đó không phải là trường hợp bất kỳ quy tắc, hồ sơ cá nhân của người dùng UNKNOWN là. Áp dụng một hoặc nhiều các quy tắc, họ không phải là mâu thuẫn, còn nếu giới tính và độ tuổi đã được tìm thấy cùng nhau, hồ sơ cá nhân của người dùng UNKNOWN sẽ là một trong những hồ sơ không. Ví dụ, nếu bạn bao gồm các "nữ sinh" trong sinh học, hồ sơ cá nhân của người sử dụng F10 là (nữ 10 của). Hoặc, nếu bạn bao gồm các "cô gái" và "trung học" trong sinh học, hồ sơ cá nhân của người sử dụng F10 là (nữ 10 của). Nếu giới tính hay tuổi tác, thậm chí sử dụng tất cả các quy tắc áp dụng là không rõ, hồ sơ cá nhân của người dùng UNKNOWN là. Ví dụ, nếu chỉ là "trung học" là đúng, vì nó là giới tính không rõ, UNKNOWN và. Nếu có nhiều quy tắc xung đột nếu bị trúng, UNKNOWN nên được coi. Ví dụ, nếu "Boy sinh viên" và "sinh" được bao gồm cùng một lúc là UNKNOWN nó trở thành. #### Thử nghiệm quan điểm ##### hệ thống bình thường hãy chắc chắn rằng các ví dụ được khởi tạo một cách chính xác theo các quy tắc sau đây như file. * Kiểm tra các tập tin * bao gồm định dạng đúng chỉ các quy tắc * keyword, giới tính, tuổi bao gồm một trống khác với tab qua lại bao gồm * dòng trống , bao gồm * Comments tab và bất kỳ nhân vật mà sau * cột bổ sung (tuổi cột) bao gồm cả dòng là phân loại các phương pháp, hãy chắc chắn rằng nó hoạt động chính xác trong các trường hợp sau đây. * Nếu các quy tắc tập tin quy tắc không có ai. Phương pháp nên luôn luôn trả về UNKNOWN. * Nếu các quy tắc không giữ ngay cả một * quy tắc áp dụng chỉ có một, do đó Nếu hồ sơ được thiết lập chỉ áp dụng một quy tắc *, nếu giới tính hay tuổi tác là không rõ * quy tắc áp dụng hai hoặc nhiều hơn, do đó hồ sơ Nhưng nếu để xác nhận * quy tắc áp dụng hai hoặc nhiều hơn, nếu giới tính hay tuổi tác là không biết hệ thống bất thường ##### nếu sau đây, bạn nên nâng cao một ngoại lệ. * Trong quá trình khởi tạo, quy tắc định dạng tập tin nếu một bất thường ### BayesianClassifier hành vi của #### Tổng quan về danh từ xuất hiện trong sinh học và cơ thể của tweet, cho dù đó là một danh từ đặc trưng để họ có hồ sơ Đó là một lớp học mà đại diện cho một hồ sơ để suy ra các hồ sơ bằng cách kiểm tra. [] (BayesianClassifier.png) Lớp này là một nhà xây dựng tập tin nhận được các đối tượng và ngưỡng, tập tin bạn cần phải tải số lần xuất hiện của từ ngữ của mỗi hồ sơ được viết cho các đối tượng. phân loại các phương pháp có một đối tượng đại diện cho các ngày, và lợi nhuận được ước tính dựa trên hồ sơ cá nhân của người sử dụng đã đăng các quy tắc. Trong trường hợp này vô không được phép quay trở lại. #### Xác định bước BayesianClassifier cho tất cả các cấu hình, và tính xác suất mà ngày thuộc về hồ sơ cá nhân, nó sẽ ước tính sơ cá nhân của người sử dụng đã đăng các tweet bằng cách trả lại hồ sơ cá nhân cao nhất. Thủ tục quyết định này, tôi có một kế hoạch để spam (http://www.paulgraham.com/spam.html) để tham khảo. Này và là mâu thuẫn, xin vui lòng cho tôi biết nếu bạn nghĩ rằng nó được sử dụng thuật toán sai

đang được dịch, vui lòng đợi..

Kết quả (Việt) 3:[Sao chép]

Sao chép!

đang được dịch, vui lòng đợi..

Các ngôn ngữ khác

Hỗ trợ công cụ dịch thuật: Albania, Amharic, Anh, Armenia, Azerbaijan, Ba Lan, Ba Tư, Bantu, Basque, Belarus, Bengal, Bosnia, Bulgaria, Bồ Đào Nha, Catalan, Cebuano, Chichewa, Corsi, Creole (Haiti), Croatia, Do Thái, Estonia, Filipino, Frisia, Gael Scotland, Galicia, George, Gujarat, Hausa, Hawaii, Hindi, Hmong, Hungary, Hy Lạp, Hà Lan, Hà Lan (Nam Phi), Hàn, Iceland, Igbo, Ireland, Java, Kannada, Kazakh, Khmer, Kinyarwanda, Klingon, Kurd, Kyrgyz, Latinh, Latvia, Litva, Luxembourg, Lào, Macedonia, Malagasy, Malayalam, Malta, Maori, Marathi, Myanmar, Mã Lai, Mông Cổ, Na Uy, Nepal, Nga, Nhật, Odia (Oriya), Pashto, Pháp, Phát hiện ngôn ngữ, Phần Lan, Punjab, Quốc tế ngữ, Rumani, Samoa, Serbia, Sesotho, Shona, Sindhi, Sinhala, Slovak, Slovenia, Somali, Sunda, Swahili, Séc, Tajik, Tamil, Tatar, Telugu, Thái, Thổ Nhĩ Kỳ, Thụy Điển, Tiếng Indonesia, Tiếng Ý, Trung, Trung (Phồn thể), Turkmen, Tây Ban Nha, Ukraina, Urdu, Uyghur, Uzbek, Việt, Xứ Wales, Yiddish, Yoruba, Zulu, Đan Mạch, Đức, Ả Rập, dịch ngôn ngữ.