#pragma once #include #include #include #include #include #include #include #include #include #include #include "cb_tagging_decoder.h" #include "cb_ngram_feature.h" #include "dat.h" namespace thulac{ // TaggingDecoder class TaggingLearner : public TaggingDecoder { public: Character* gold_standard; int T; Character separator; int seg_only; int bigram_threshold; void load_tagged_sentence(FILE* file); void train(const char*training_file, const char*dat_file, const char*model_file, const char*label_file); TaggingLearner(int T=15,Character separator='/',int seg_only=false){ this->T=T; this->gold_standard=new int[this->max_length]; this->separator=separator; this->seg_only=seg_only; bigram_threshold=1; }; ~TaggingLearner(){ delete this->gold_standard; }; Indexer tag_indexer; Indexer ngram_indexer; private: inline int get_char_tag(const int& poc,const RawSentence& tag){ RawSentence char_tag; char_tag.clear(); char_tag.push_back(poc); if((!seg_only)&&tag.size()){ //char_tag.push_back('/'); for(size_t j=0;jdel=del; ifs=new std::ifstream(filename,std::ifstream::in); }; void load(std::vector& seq){ seq.clear(); getline((*ifs),str); std::istringstream iss(str); while(iss){ item.clear(); iss>>item; if(!item.length())continue; int del_ind=item.find_first_of(del); const std::string&tag_string=item.substr(del_ind+1,item.length()); const std::string&word_string=item.substr(0,del_ind); seq.push_back(WordAndTag()); string_to_raw(tag_string,seq.back().tag); string_to_raw(word_string,seq.back().word); } }; ~TaggedFileLoader(){ delete ifs; }; }; bool compare_words (DATMaker::KeyValue first, DATMaker::KeyValue second) { thulac::Word& first_word=first.key; thulac::Word& second_word=second.key; size_t min_size=(first_word.size()second_word[i])return false; if(first_word[i] bigram_counter; Word bigram; std::vector sent; TaggedFileLoader* tfl=new TaggedFileLoader(training_file,this->separator); std::cout<<"separator: ["<<(char)this->separator<<"]\n"; while((*(tfl->ifs))){ tfl->load(sent); if(!sent.size())continue; raw.clear(); for(int i=0;i2){ get_char_tag(kPOC_M,tag); } get_char_tag(kPOC_E,tag); } } ngram_feature.feature_generation(raw,ngram_indexer, (bigram_threshold>1)?(&bigram_counter):(NULL)); } delete tfl; std::cerr<<"training file \""< kv; int feature_ind=0; for(int i=0;i1)&&(feature_raw.size()>=2)){ if((feature_raw[0]!=' ')&&(feature_raw[1]!=' ')){ bigram.clear(); bigram.push_back(feature_raw[0]);bigram.push_back(feature_raw[1]); if(bigram_counter[bigram]make_dat(kv,1); dm->shrink(); //dm->save_as(dat_file); dm->save(dat_file); delete dm; std::cerr<<"DAT (double array TRIE) file \""<save(model_file); delete model; std::cerr<<"model file \""<l_size]; int** cws_pocs_to_tags = new int*[16]; get_label_info(label_file, cws_label_info, cws_pocs_to_tags); init(cws_model, cws_dat, cws_label_info, cws_pocs_to_tags); set_label_trans(); //do not use the original read-only model. delete this->model; //this->model=new permm::Model(model_file,false); this->model=new permm::Model(model_file); this->model->reset_ave_weights(); fprintf(stderr,"decoder initialized\n"); //learning !!! long steps=0; for(int t=0;tT;t++){ fprintf(stderr,"iteration %d\n",t+1); //continue; int number_nodes=0; int number_correct=0; tfl=new TaggedFileLoader(training_file,this->separator); while((*(tfl->ifs))){ tfl->load(sent); if(!sent.size())continue; steps++; len=0; //putchar('\n'); for(int i=0;isequence[len]=word[j]; if(word.size()==1){ gold_standard[len]=get_char_tag(kPOC_S,tag); }else{ if(j==0){ gold_standard[len]=get_char_tag(kPOC_B,tag); }else if((j+1)==word.size()){ gold_standard[len]=get_char_tag(kPOC_E,tag); }else{ gold_standard[len]=get_char_tag(kPOC_M,tag); } } len++; if(len>=this->max_length){ //fprintf(stderr,"longer than max\n"); break; } } if(len>=this->max_length){ fprintf(stderr,"longer than max\n"); break; } } if(len>=this->max_length){ continue; } //printf("len: %d\n",len); //decode put_values(); //continue; dp(); //update this->ngram_feature->update_weights(sequence,len,gold_standard,1,steps); this->ngram_feature->update_weights(sequence,len,result,-1,steps); for(int i=0;imodel->update_ll_weight(gold_standard[i],gold_standard[i+1],1,steps); this->model->update_ll_weight(result[i],result[i+1],-1,steps); } for(int i=0;imodel->average(steps); //save model this->model->save(model_file); } }//end of thulac