Machine Translation · "Маленький принц" - очень популярная...

Machine Translationการแปลภาษาด้วยเครื่อง

Machine Translation

• Machine Translation เป็นการแปลโดยอาศัยคลังข้อมูลคู่ตัวอยา่งการแปลจํานวนมหาศาล

• MT เป็นหนึ่งในโจทย์ท่ียากท่ีสุดของ AI และ NLP

• speech to speech translation

• augmented-reality translation

กรณีการใช้ MT

• User-initiated on-demand real-time คุณภาพตํ่า (Bing หรือ Google)

• Author-initiated คุณภาพสูง

AI-assisted Translation

https://lilt.com/

สว่นประกอบในการสร้างเครื่องแปล

1. ตัวอยา่งการแปลของคู่ภาษาท่ีต้องการ (parallel corpus)

2. คอมพิวเตอร์แรง ๆ ในการเทรนโมเดล

Parallel corpora

แผนพัฒนาเศรษฐกิจและสังคมแหง่ชาติ ฉบับท่ี ๑๑

4.6.3 Develop an efficient database to help monitor and evaluate.

1) Create a comprehensive database.

Information networks of government agencies at the policy level should be developed to monitor and evaluate significant issues, changes and conditions that have affected the country’s progress.

๔.๖.๓ พัฒนาระบบฐานข้อมูลให้เชื่อมโยงเป็นเครือขา่ยในทุกระดับ สําหรับการติดตามประเมินผลท่ีมีประสิทธิภาพ

๑) พัฒนาระบบฐานข้อมูลระดับภาพรวม โดยพัฒนาระบบโครงขา่ยข้อมูลขา่วสารของหนว่ยงานระดับนโยบาย ในการติดตามผลการดําเนินงานตามประเด็นการพัฒนาสําคัญ การเปล่ียนแปลงของสถานการณ์และเง่ือนไขต่างๆ ท่ีมีผลกระทบต่อการพัฒนาประเทศ โดยประยุกต์ใช้เทคโนโลยีสารสนเทศในการเพิ่มประสิทธิภาพและประสิทธิผลของฐานข้อมูลท่ีมีอยูเ่ป็นจํานวนมาก

สว่นประกอบในการสร้างเครื่องแปล

1. ตัวอยา่งการแปลของคู่ภาษาท่ีต้องการ (parallel corpus)

2. คอมพิวเตอร์แรง ๆ ในการเทรนโมเดล

Encoder-Decoder Model

• เรียนรู้วิธีเก็บความหมายท่ี sensitive ต่อบริบท

• เรียนรู้วิธีการเลือกคํา สร้างประโยคให้สวย

I have a dream END

ข้าพเจ้า ?

I have a dream END

ข้าพเจ้า ?

มี

ความฝัน

ดี

เลว

สัญญา

I have a dream END

ข้าพเจ้า มี ความ

I have a dream END

ข้าพเจ้า มี ความ ฝัน

สรุป

• Machine Translation เป็นโจทย์ของ AI และ NLP ท่ียากท่ีสุดก็ว่าได้ และจัดว่าเป็นตัวบง่ชี้ความก้าวหน้าของศาสตร์นี้

• MT เรียนการแปลจากตัวอยา่งการแปลจํานวนมาก โดยอาศัยโมเดล Machine Learning ท่ีความสลับซับซ้อนสูง

Parallel Corpusfor Machine Translation

ภาษาต้นฉบับ (Source language) ภาษาปลายทาง (Target language)

A geographer is too important to go wandering about. เขาสําคัญเกินกว่าท่ีจะมาเดินเล่นได้

He never leaves his study. เขาจะไมอ่อกไปนอกท่ีทํางานของเขา

But he receives the explorers there. แต่เขาจะต้อนรับนักสํารวจ

He questions them, and he writes down what they remember

เขาไต่ถามนักสํารวจ เขาจดบันทึกความทรงจําของนักสํารวจ

… …

ABC กขค ABC กขค

Parallel Corpus Machine Learning Algorithm Machine Translation

Limited Domain MT is very effective.

• domain: science vs sports vs law

• modality: spoken vs written

Parallel corpus มาจากไหน

1. จ้างนักแปลมาแปล text ท่ีเตรียมไว้

2. เอกสารและประกาศของหนว่ยงานต่าง ๆ

3. ขูดมาจากอินเตอร์เน็ต

1. จ้างนักแปล• ข้อดี

• คุณภาพการแปลสูง

• ข้อเสีย

• แพงมาก (2-10+ บาท/ประโยค)

• บางคู่ภาษาหายาก

ต้องเจาะจงคู่ภาษาก่อน

ABC กขค ABC กขค

Parallel Corpus Machine Learning Algorithm Machine Translation

Parallel corpora ท่ีเด่น ๆ

ชื่อ corpus คู่ภาษา Domain ขนาด

OpenSubtitles 60+ ภาษา หนังและ series 1 - 400M

Europarl 20+ ภาษา รายงานการประชุม 0.4 - 2M

United Nations 6 ภาษา เอกสารสภา 11M (lines)

• ข้อดี

• ฟรี เยอะ และคุณภาพการแปลสูงมาก

• สว่นใหญแ่ปลประโยคต่อประโยค

• domain อาจจะไมต่รงกับท่ีอยากนําไปใช้

Typical Pipeline

• หาเว็บทีนา่จะมีสองภาษาขนานกัน

• document alignment หา web page ท่ีนา่จะขนานกัน

• sentence alignment หาคู่ประโยคท่ีนา่จะขนานกัน

• เล้ือยไปเว็บอ่ืน ๆ (web crawling) ท่ีมีลิงค์จากหน้าเว็บนั้น

https://www.central.co.th/en/dyson-cyclone-vacuum-cleaner-v10-fluffy-cds18033144https://www.central.co.th/th/dyson-cyclone-vacuum-cleaner-v10-fluffy-cds18033144

เครื่องดูดฝุ่นไซโคลนแบบไร้สาย รุน่ V10 Fluffy SV12FLUFFY จากแบรนด์ DYSON ท่ีสุดของประสิทธิภาพในการทําความสะอาด ขจัดคราบฝุ่นได้สะอาดหมดจด ไม่เปลืองแรง • เครื่องดูดฝุ่นไซโคลนแบบไร้สาย •หัวดูดหลัก 1 หัว: หัวดูดแบบลูกกล้ิงนุม่ (Fluffy) • อุปกรณ์เสริม 4 ชิ้น: หัวดูดมอเตอร์ขนาดเล็ก,หัวดูดปากแคบ หัวดูด 2-in-1,และแปรงปัดฝุ่นขนนุม่ • ระบบไซโคลน 2 ชั้น: ไมเ่สียแรงดูด เพิ่มประสิทธิภาพการดูด •…

STIEBEL ELTRON Water Heater DYSON Cord-free Cyclone Vacuum Cleaner •One main tool : QR Soft roller cleaner

(Fluffy) head • Four additional tools : QR mini

motorhead, QR crevice tool, QR combination tool and QR mini soft dusting brush • 2 Tier RadialTM Cyclones increasing

airflow and capture fine dust without loss of suction •…

https://www.chula.ac.th/en/impact/6081/ https://www.chula.ac.th/impact/3903/

เกีย่วกับโครงการ: ภาควิชาเทคโนโลยีทางอาหาร คณะวิทยาศาสตร์ จุฬาฯ มีงานวิจัยเก่ียวกับการพัฒนาฟิล์มบริโภคได้จากพอลิเมอร์ชีวภาพในกลุ่มคาร์โบไฮเดรตและโปรตีน เพื่อประยุกต์เป็นบรรจุภัณฑ์อาหารท่ีสามารถบริโภคได้พร้อมอาหาร และสามารถยอ่ยสลายได้ตามธรรมชาติ จึงเป็นมิตรต่อสิ่งแวดล้อม นอกจากนี้ยังมีการพัฒนาให้มีคุณสมบัติโดดเด่น เชน่ ฟิล์มบริโภคได้บางชนิดมีความใสใกล้เคียงกับฟิล์มจากพลาสติกท่ีนิยมใช้ท่ัวไป บางชนิดสามารถป้องกันการซึมผา่นของก๊าซต่างๆ ได้ดี หรือสามารถผสมสารอ่ืนๆ เชน่ สารต้านออกซิเดชัน สารต้านจุลินทรีย์ ไว้ในฟิล์มดังกล่าว เพื่อชว่ยยืดอายุการเก็บรักษาอาหารได้ ซึ่งผลงานเชิงนวัตกรรมเหล่านี้มีข้อมูลพร้อมเผยแพรต่่อผู้ประกอบการและประชาชนท่ัวไปท่ีสนใจ

About research: Department of Food Technology, Faculty of Science, Chulalongkorn University has various research studies regarding the development of carbohydrate and protein based edible films. Those films can be used as food packaging, where they can readily be consumed together with the foods, and are 100% biodegradable. These films provide unique characteristics, including a high gloss and transparent appearance, good barrier properties, and can incorporate desirable compounds, such as antioxidants and antimicrobial agents, in order to increase the shelf life of the food products.

https://www.chula.ac.th/en/impact/6081/ https://www.chula.ac.th/impact/3903/

About research: เกีย่วกับโครงการ:

Department of Food Technology, Faculty of Science, Chulalongkorn University has various research studies regarding the development of carbohydrate and protein based edible films.

ภาควิชาเทคโนโลยีทางอาหาร คณะวิทยาศาสตร์ จุฬาฯ มีงานวิจัยเก่ียวกับการพัฒนาฟิล์มบริโภคได้จากพอลิเมอร์ชีวภาพในกลุ่มคาร์โบไฮเดรตและโปรตีน เพื่อประยุกต์เป็นบรรจุภัณฑ์อาหารท่ีสามารถบริโภคได้พร้อมอาหาร และสามารถยอ่ยสลายได้ตามธรรมชาติ จึงเป็นมิตรต่อสิ่งแวดล้อม

Those films can be used as food packaging, where they can readily be consumed together with the foods, and are 100% biodegradable.

นอกจากนี้ยังมีการพัฒนาให้มีคุณสมบัติโดดเด่น เชน่ ฟิล์มบริโภคได้บางชนิดมีความใสใกล้เคียงกับฟิล์มจากพลาสติกท่ีนิยมใช้ท่ัวไป

These films provide unique characteristics, including a high gloss and transparent appearance, good barrier properties, and can incorporate desirable compounds, such as antioxidants and antimicrobial agents, in order to increase the shelf life of the food products.

บางชนิดสามารถป้องกันการซึมผา่นของก๊าซต่างๆ ได้ดี หรือสามารถผสมสารอ่ืนๆ เชน่ สารต้านออกซิเดชัน สารต้านจุลินทรีย์ ไว้ในฟิล์มดังกล่าว เพื่อชว่ยยืดอายุการเก็บรักษาอาหารได้

ซึ่งผลงานเชิงนวัตกรรมเหล่านี้มีข้อมูลพร้อมเผยแพรต่่อผู้ประกอบการและประชาชนท่ัวไปท่ีสนใจ

Scraped Corpus

ชื่อ corpus คู่ภาษา Domain ขนาด

News Commentary 12 ภาษา ขา่ว 1,000 - 400,000

ParaCrawl 8 ภาษา Website 1 - 73M

3. ขูดมาจากอินเตอร์เน็ต• ข้อดี

• ฟรี เยอะ

• ลิขสิทธิ์อาจเป็นปัญหาได้

• Document + Sentence alignment ทําได้ยาก

• คุณภาพค่อนข้างหลากหลาย ควบคุมได้ยาก

Statistical Machine Translation

"Маленький принц" - очень популярная книга, переведенная на множество языков.

"The Little Prince" is a very popular book that was translated into many languages

–Warren Weaver

When I look at an article in Russian, I say "This is really written in English, but it has been coded in some strange symbols. I will now proceed to decode."

เวลาผมเห็นบทความภาษารัสเซีย ผมพูดกับตัวเองว่า "ท่ีจริงมันเป็นภาษาอังกฤษ เพียงแต่ถูกแปลงให้เป็นรหัสท่ีใช้สัญลักษณ์แปลกๆ ข้าพเจ้าขอดําเนินการถอดรหัส ณ บัดน้ี"

Statistical Machine Translation

• ไอเดียหลัก: สร้าง probabilistic model จากข้อมูลการแปล

• argmax P(Y|X) = argmax P(X|Y) P(Y)

Translation Model

Y P(Y| Haus)

house 0.8

building 0.16

home 0.02

household 0.015

shell 0.05

Y # Y Haus

house 8000

building 1600

home 200

household 150

shell 50

Language Model

• Bigram Language Model P(w1, w2, w3, …, wn) = P(w1|START) P(w2|w1) P(w3|w2) .. P(wn|wn-1)

• Bangkok has many high buildings vs Bangkok has many tall buildings

วิธีแปลแบบง่ายสุด

• Bangkok hat viele hohe Gebäude.

• Bangkok has many tall buildings.

Decoding for SMT

• y = sentence ต้องลองคํานวณคะแนนจากประโยคท่ีเป็นไปได้ในภาษาอังกฤษ

Word AlignmentStatistical Machine Translation - Part II

ปัญหา

• Parallel corpus คือ ชุดประโยคคู่ขนาน แต่ไมไ่ด้บอกว่าคําไหนแปลเป็นคําไหน

• ถ้าเรารู้คําไหน align กับคําไหน ก็สบายไปแล้ว

Examples from: The Mathematics of Statistical Machine Translation: Parameter Estimation", Brown et al., 1993

Phrase-based Machine TranslationStatistical Machine Translation - Part III

Lexical Translation Table

Y P(Y| Haus)

house 0.8

building 0.16

home 0.02

household 0.015

shell 0.05

Y # Y Haus

house 8000

building 1600

home 200

household 150

shell 50

แปลเป็นก้อนๆ

• บางสว่นของประโยคควรจะถูกแปลท้ังก้อนพร้อมกัน

• เปล่ียนจาก lexical translation table เป็น phrase translation table

สกัด Phrase alignment

• phrase ประกอบด้วยคําท่ีอยูติ่ดกันท้ังสองภาษา

• ถ้าคําท่ีอยูใ่น phrase มี word alignment จะต้องเอาไปทุกคําไปรวมใน phrase

Phrase ไมใ่ช ่Constituent

• assumes that he geht davon aus, dass

Phrase Translation Table

• ดึง phrases ออกมาให้หมดจาก word alignment (ซํ้าก็นับ)

• P( y phrase | x phrase ) = # y phrase <—>x phrase # x phrase

• ปัญหา?

Lexical vs Phrase Translation Table

Y P(Y| geht davon aus, dass)

assumes that 0.90

assumes 0.05

is based on the fact that 0.03

are regarded as 0.02

Y P(Y| Haus)

house 0.8

building 0.16

home 0.02

household 0.015

shell 0.05

Log-linear model

Other features

• จํานวนคํา

• จํานวน phrase

• Bi-directional alignment

• แหล่งความรู้อ่ืน ๆ

Statistical MT

• ระบบ SMT ใหญเ่บิ้มมากเพราะต้องเก็บตารางไว้เยอะแยะ

• ต้องพยายามหา features มาเสริมเยอะๆ ในแต่ละคู่ภาษา

Beam Search Decoding

Decoding

score(คําแปล, ต้นฉบับ) = adequacyScore(คําแปล, ต้นฉบับ) + fluencyScore(คําแปล)

เง่ือนไขของ Scoring Function

• ต้องคิดทีละคําจากซ้ายไปขวาได้

•Score("Hehit","Ilm'aentarté")=Score("He"|"Ilm'aentarté")+s(+hit)

•Score("Hehitme","Ilm'aentarté")=Score("Hehit"|"Ilm'aentarté")+s(+me)

Search หาคําแปลท่ีดี(ท่ีสุด?)

• Exhaustive search ค้นหาแบบหมดจด

• Greedy search ค้นหาแบบละโมบ

• Beam search ค้นหาแบบลําแสง

Examples from: The Mathematics of Statistical Machine Translation: Parameter Estimation", Brown et al., 1993

Exhaustive Searchhe he

hit hit

struck struck

with with

one one

pie pie

tart tart

END END

Il m'a entarté

Exhaustive Searchhe he he he

it it it it

hit hit hit hit

struck struck struck struck

with with with with

on on on on

a a a a

one one one one

pie pie pie pie

tart tart tart tart

END END END END

Il m'a entarté

Exhaustive Search (Viterbi)

• เป็นไปไมไ่ด้ เพราะภาษามีความเป็นอนันต์

• ถ้าอยากลองทุกประโยคท่ีมีความยาว k คํา และ vocab size = V เราจะต้องลองท้ังหมด Vk ประโยค

• 30,00010 = เยอะเกินสมองมนุษย์จะเข้าใจ

Greedy Searchhe he he he

it it it it

hit hit hit hit

struck struck struck struck

with with with with

on on on on

a a a a

one one one one

pie pie pie pie

tart tart tart tart

END END END END

Il m'a entarté

Greedy Search

• เร็วดี แต่...

• ถ้าผิดตอนต้นๆ มันจะสง่ผลไปถึงท่ีเหลือท้ังหมด

Beam Search

• แต่ละ step เก็บ hypothesis เอาไว้ k ตัว

• แต่ละ hypothesis เอามาขยายเพิ่มอีกคํา

Beam search decoding: exampleBeam size = k = 2. Blue numbers =

<START>

Calculate prob dist of next wordcs224n.stanford.edu

<START>

Take top k words and compute scores

= log PLM(he|<START>)

= log PLM(I|<START>)

cs224n.stanford.edu

struck

<START>

For each of the k hypotheses, find top k next words and calculate scores

= log PLM(hit|<START> he) + -0.7

= log PLM(struck|<START> he) + -0.7

= log PLM(was|<START> I) + -0.9

= log PLM(got|<START> I) + -0.9

cs224n.stanford.edu

struck

<START>

Of these k2 hypotheses, just keep k with highest scores

struck

<START>

-2.9-2.5

For each of the k hypotheses, find top k next words and calculate scores

= log PLM(a|<START> he hit) + -1.7

= log PLM(me|<START> he hit) + -1.7

= log PLM(hit|<START> I was) + -1.6

= log PLM(struck|<START> I was) + -1.6

cs224n.stanford.edu

struck

<START>

-2.9-2.5

Of these k2 hypotheses, just keep k with highest scorescs224n.stanford.edu

struck

on<START>

-2.9-2.5

For each of the k hypotheses, find top k next words and calculate scorescs224n.stanford.edu

struck

on<START>

-2.9-2.5

struck

one<START>

-2.9-2.5

struck

one<START>

-2.9-2.5

struck

<START>

-2.9-2.5

struck

<START>

-2.9-2.5

This is the top-scoring hypothesis!cs224n.stanford.edu

struck

<START>

-2.9-2.5

Backtrack to obtain the full hypothesiscs224n.stanford.edu

Beam Search จบยังไง

• expand ไปเรื่อยๆ จนกว่าจะเจอ <END> ถือว่าสมบูรณ์

• Hypothesis ไหนยังไมเ่สร็จก็ search ต่อไปจนกว่าจะถึงความยาวสูงสุด

• หยุดตอนได้คําแปลท่ีสมบูรณ์จํานวนท่ีต้องการ

สรุป

• Beam search decoding เป็นวิธีการนํา translation model และ scoring model อ่ืนๆ ไปใช้ในการแปลประโยคจริง ๆ

• ไมไ่ด้ผลท่ีดีท่ีสุด แต่ว่าเร็วและได้ผลดีแบบยอมรับได้

Evaluation for MT

MT vs Sequence Tagging

ลุง ตู่ ต่อว่า ผู้สื่อข่าว ที่ ตึกไทยคู่ฟ้า เมื่อ เช้า

B-PER I-PER O O O B-PLACE B-TIME I-TIME

การแปลไมม่ี ground truth แท้ๆ

Adequacy and Fluency• Adequacy:

• คําแปลสื่อความหมายเดียวกับประโยค input มั้ย

• สาระขาด เกิน หรือบิดเบือนมั้ย

• Fluency:

• ฟังดูเหมือนภาษาท่ีเจ้าของภาษาพูดรึเปล่า

• ผิดไวยากรณ์มั้ย ใช้คําผิดไมเ่หมาะกับความหมายหรือเปล่า

การวัดความพ้องกัน

จัดลําดับคุณภาพของการแปล

• ระหว่างสองอันนี้ อันไหนดีกว่า หรือดีเท่ากัน

• ผลออกมา consistent กว่า

วัดคุณภาพอัตโนมัติ

• ทําไมถึงจําเป็นต้องมีมาตรวัดคุณภาพโดยอัตโนมัติ

BLEU Score

Machine Translation · "Маленький принц" - очень популярная...

Documents

THE NEW REVIEW НовыйЖурнали тоже пишет стихи. Подумаешь, удивил! Только он действительно удивил — и очень

Вводный блок - PEOPLE INVESTOR · Для нас очень важно Ваше мнение о форуме people ... ные сообщества, общественные

RUSSISCHSPRACHIGE ZEITUNG · SACHSEN · THÜRINGEN 25 . VII … · 2012. 6. 19. · Продается черная офисная мебель, очень деше-во. 0351-2730927

Автор : Косицына Ольга Викторовна № 231-029-026 учитель иностранных языков ГОУ СОШ № 1354 ЮЗАО г. Москвы Wappen

ProKan - sankt-peterburg.sintezpipe.ru · химическая устойчивость к воздействию основных видов стоков; ... очень хорошая

Внеклассное мероприятие, посвящённое Дню Европейских Языков

Ostersachen, die wir machen Порохина Г.В, учитель иностранных языков, Глебова М.М, педагог дополнительного образования,МОУ

Spracherwerb - ein Kinderspiel · и „папа“ только очень маленькое количество слов. • pебёнок очень часто говорит

SSllaavviiaa - alnigo.de · altes Rom древний Рим ein sehr altes und teures Buch старинная и очень дорогая книга ältere Menschen пожилые

Базеева Ж.В., учитель иностранных языков МОУ СОШ 7, Бийск 2008

Факультет иностранных языков 85-летиеinno.tomsk.ru/data/images/downloads/территория интеллекта/territory...Проект «СПИНОР»

Wir feiern Geburtstag! Учитель немецкого языка Петрова Р.Р. МОУ «СОШ 5 с углубленным изучением иностранных языков»

Презентация PowerPoint · Pro VC60000 поддерживает множество типов бумаги, включая бумагу без покрытия, офсетную

Freizeit. Was macht man da? Учитель иностранных языков ГБОУ СОШ №915 Балденкова А.И

Международный год языков › ru › events › iyl › dgacm_brochure.pdf · 2018-08-07 · китайского, ... на языке оригинала или

Projektstunde zum ThemaMein Traumdorf 7 Klasse Подготовила: Балданова Т.Б., учитель немецкого и английского языков МОУ «Гэгэтуйская

Der Herbst Учитель иностранных языков: Арнаутова Наталья Геннадьевна

ИНСТИТУТ ИНОСТРАННЫХ ЯЗЫКОВ РУДН Направлениеinyaz.rudn.ru/images/content/files/Презентации/2019-11-29/2020-ИИЯ... · бакалавра,

Европейский день иностранных языков Урок в 7 классе по теме Was nennen wir unsere Heimat к учебнику И.Л. Бим, Л.В

Die heutigen Jugendlichen. Welche Probleme haben sie? Автор: Воронцова Л.В. – учитель иностранных языков, МОУ СОШ 7, г. Усть-Кут,