Python/C3/Parsing-data/Tamil
From Script | Spoken-Tutorial
Revision as of 12:47, 7 August 2014 by PoojaMoolya (Talk | contribs)
Time | Narration |
---|---|
00:00 | Hello friends! "Parsing Data" tutorial க்கு நல்வரவு!. |
00:06 | இந்த டுடோரியலின் முடிவில் உங்களால் பின் வருவனவற்றை செய்ய முடியும்.
|
00:18 | இந்த tutorial ஐ துவக்கு முன் "Getting started with Lists" tutorial ஐ முடிக்க பரிந்துரைக்கிறோம். |
00:23 | இப்போது, terminal இல் ipython என டைப் செய்து அதை துவக்கலாம். |
00:32 | நீங்கள் பார்ப்பது போல, sslc.txt file இல் ஒவ்வொரு record உம் ஒரு colon ஆல் பிரிக்கப்பட்ட field களை கொண்டு உள்ளது. |
00:51 | முதல் record region code, பின் roll number, name, marks of second language, first language, maths, science மற்றும் social மற்றும் total marks. |
01:76 | நம் வேலை region "B" இல் எல்லா maths mark குகளின் arithmetic mean ஐ கணக்கிடுவது. |
01:14 | இப்போது நாம் 'parsing data' என்றால் என்ன என்று காணலாம். |
01:19 | input file லிலிருந்து நாம் data வை text ஆக காணலாம். |
01:25 | Parsing data என்பது அதை படிப்பது, மற்றும் computation களுக்கு பொருத்தமான முறையில் அதை மாற்றுவது. -- நமக்கு இங்கே sequence of number களாக மாற்றுவது |
01:40 | நாம் தெளிவாக இது file களை படிப்பது மற்றும் token உருவாக்குவது என அறியலாம். |
01:45 | நாம் tokenizing strings பற்றி காணலாம். |
01:48 | நாம் ஒரு string ஐ முதலில் define செய்யலாம். type செய்க: line is equal to ... within double quotes parse this ... a long space .... string. |
02:05 | நாம் இப்போது இந்த string ஐ whitespace இல் வெட்டப்போகிறோம்.
line.split() |
02:17 | நீங்கள் பார்ப்பது போல, நாம் strings இன் ஒரு லிஸ்டை பெறுகிறோம், அதன் பொருள், split என argument கள் ஏதும் இல்லாமல் அழைத்தால் அது whitespace இல் வெட்டுகிறது. |
02:24 | இன்னும் எளிமையாக சொல்ல எல்லா space களும் ஒரே பெரிய space ஆக கருதப்படும். |
02:29 | function split நாம் தேர்வு செய்யும் string இலும் வெட்டும். |
02:34 | அதை ஒரு argument ஆக pass செய்வதன் மூலம் இதை செய்யலாம். |
02:36 | ஆனால் முதலில் file இலிருந்து ஒரு sample record ஐ define செய்யலாம்.
record = "A;015163;JOSEPH RAJ S;083;042;47;0;72;244" record.split(';') |
03:12 | நாம் காண்பது போல string ... semi-colon இல் split ஆகியுள்ளது. மேலும் நாம் ஒவ்வொரு field ஐயும்தனியாக பெற்றோம். |
03:18 | நாம் list இல் ஒரு காலி string தோன்றுவதையும் காணலாம், ஏனெனில் இரண்டு semi colon கள் நடுவில் ஏதுமில்லாமல் உள்ளன. |
03:25 | சுருங்கச்சொல்ல, split ஏதும் argument இல்லையானால் whitespace இல் split செய்கிறது. மேலும் argument ஐ கொடுத்தால் argument இல் splitசெய்கிறது. |
03:33 | video வை இங்கே Pause செய்து, பின்வரும் exercise ஐ செய்த பின் மீண்டும் தொடரவும். |
03:39 | ஒரு space ஐ argument ஆகக்கொண்டு variable line ஐ Split செய்க. |
03:43 | இது splitting without an argument க்கு சமமா?
terminal ல் type செய்க record.split() |
03:57 | நாம் space மீது Split செய்தால் ஒன்றுக்கு மேற்பட்ட whitespace கள் இருப்பின் அவை ஒன்றாக கருதப்பட மாட்டாது. இரண்டு space கள் தொடர்ந்து வந்தால் ஒரு காலி string இருக்கும். |
04:09 | இப்போது நாம் string ஐ split செய்வதை அறிந்து கொண்டோம்; இனி நாம் record ஐ split செய்து மற்றும் ஒவ்வொரு field ஐயும் தனித்தனியாக பெறுவோம். |
04:16 | ஆனால் ஒரு பிரச்சினை இருக்கிறது. |
04:17 | region code "B" மற்றும் whitespace களால் சூழப்பட்ட "B" - ஆகியன இரண்டு வெவ்வேறு region களாக கொள்ளப்படும். |
04:23 | ஆகவே, நாம் ஒரு string ஐ சுற்றி இருக்கும் whitespace களை முதலில் நீக்கவேண்டும். அதன் பின் region code "B" மற்றும் whitespace களால் சூழப்பட்ட "B" ஆகியன ஒன்றாக கொள்ளப்படும். |
04:32 | இதை சாதிப்பது strip method of strings. |
4:36 | நாம் ஒரு string ஐ type செய்து define செய்வோம்.
unstripped = within double quotes a long space B again a long space unstripped.strip() |
05:01 | நாம் strip வாக்கியத்தை சுற்றி உள்ள எல்லா whitespace களையும் நீக்குவதை காணலாம். |
05:07 | video வை இங்கே Pause செய்து, பின்வரும் exercise ஐ செய்த பின் மீண்டும் தொடரவும். |
05:13 | வாக்கியத்தை strip செய்தால் வாக்கியத்தின் உள்ளே உள்ள white space களுக்கு என்ன ஆகும்?
விடைக்கு terminal க்கு போகலாம். |
05:19 | நாம் வாக்கியத்தின் உள்ளே உள்ள white space மட்டுமே நீக்கப்படுகிறது, மீதி அப்படியே இருக்கிறது எனக் காண்கிறோம். |
05:54 | இதற்குள் நமக்கு fieldகளை record இலிருந்து நீக்கவும் மற்றும் எந்த white space ஐயும் நீக்கவும் தெரியும்.
a_str = " (a long space) white (space) space (and long space) " a_str.strip() |
06:06 | நமக்கு இருக்கும் ஒரே தடை இப்போது string ஐ float ஆக மாற்றுவது. |
06:12 | splitting மற்றும் stripping செயல்கள் ஒரு string மீது செய்யப்படுகின்றன. மற்றும் அதன் விளைவும் ஒரு string ஆகும். |
06:17 | ஆகவே நம்மிடம் உள்ள mark கள் இன்னும் strings ஆக உள்ளன. மேலும் mathematical operation களை அவற்றின் மீது செய்ய முடியாது. |
06:21 | நாம் அவற்றின் மீது எந்த mathematical operation செய்யும் முன்னர் அவற்றை numbers (integers அல்லது floats) ஆக மாற்ற வேண்டும். |
06:31 | ஆகவே, நாம் இப்போது string ஐ float ஆக மாற்றுவது எப்படி என்று பார்க்கலாம். |
06:33 | நாம் ஒரு float string ஐ முதலில் define செய்வோம். |
06:36 | ஆகவே type செய்க:
mark_str = "1.25" mark = int(float(mark_str)) type(mark_str) type(mark) |
07:22 | நாம் string float ஆக மாறியதை கண்டோம். |
07:26 | இப்போது நாம் அவற்றின் மீது எந்த mathematical operation ஐயும் செய்யலாம். |
07:29 | video வை இங்கே Pause செய்து, பின்வரும் exercise ஐ செய்த பின் மீண்டும் தொடரவும். |
07:39 | நீங்கள் int within brackets "1.25" ஐ செய்தால் என்ன ஆகும்? |
07:46 | ஆகவே terminal இல் type செய்க: int within brackets 1.25 ; அது ஒரு பிழை செய்தியை சொல்ல்கிறது: integer ஐ நேரடியாக float ஆக்க இயலாது. |
08:00 | இந்த float conversion க்கு நடுவில் ஒரு படி தேவைப்படுகிறது. ஆகவே நீங்கள் பின் வரும் முறையில் மாற்ற வேண்டும். |
08:08 | ஆகவே type செய்க: dcml underscore str is equal to within double quotes 1.25 பின் flt = float within brackets dcml underscore str பின் type செய்க flt |
08:45 | பின் number is equal to int within brackets flt பின் type செய்க: number. |
09:00 | int ஐ பயன்படுத்தி float களை integers ஆக convert செய்யலாம். |
09:05 | இப்போது file ஐ parse செய்ய நம்மிடம் தேவையான கருவிகள் எல்லாம் இருக்கின்றன. இந்த பிரச்சினையை தீர்ப்போம். |
09:10 | நாம் முதலில் செய்ய வேண்டியது file ஐ வரி வரியாக படித்து ஒவ்வொரு record ஐயும் parse செய்வது. |
09:14 | நாம் பின் region code B ஆ என்று பார்த்து marks களை சேமிக்க வேண்டும். |
09:26 | ஆகவே type செய்க: math underscore marks underscore B is equalto empty brackets
for line in open within brackets மற்றும் double quotes slash home slash fossee slash sslc dot txt colon fields is equal to line dot split within brackets மற்றும் double quotes ; region underscore code is equal to fields within brackets 0. region underscore code underscore stripped is equal to region underscore code dot strip மற்றும் empty brackets. math underscore mark underscore str is equalto fields within square brackets 5 math underscore mark = float within brackets math underscore mark underscore str if region underscore code double equalto "B" colon math underscore marks underscore B dot append within brackets math underscore mark |
12:37 | இப்போது நாம் math_marks_B list இல் region "B" இன் math marks அத்தனையும் வைத்து இருக்கிறோம். |
12:45 | mean ஐ கண்டுபிடிக்க, நாம் marks களை கூட்டி மற்றும் length ஆல் வகுக்க வேண்டியதுதான்.
math_marks_mean = sum(math_marks_B) / len(math_marks_B) math_marks_mean |
13:24 | ஆகவே நமக்கு final output கிடைத்துவிட்டது. |
13:27 | இப்படித்தான் நாம் மிகப்பெரிய data வை split செய்து படித்து அதில் computation களையும் செய்யமுடியும். |
13:32 | ஆகவே, இத்துடன் இந்த டுடோரியல் முடிகிறது. |
13:37 | இந்த tutorial இல் நாம் கற்றவை, |
13:38 | 1. semi-colon போன்ற பல delimiter களை பயன்படுத்தி ஒரு string ஐ Tokenize செய்வது. |
13:44 | 2. function split() ஐ பயன்படுத்தி delimiter களால் பிரித்த data வை Split செய்வது. |
13:50 | 3. சுற்றி இருக்கும் கூடுதல் white space களை strip() function ஐ கொண்டு நீக்குவது. |
13:55 | number களின் datatype களை ஒரு வகையில் இருந்து இன்னொரு வகைக்கு Convert செய்வது |
13:59 | input data வை Parse செய்து அதன் மீது computations செய்வது. |
14:05 | நீங்கள் தீர்வு காண இதோ சில self assessment கேள்விகள் |
14:12 | 1. நீங்கள் எப்படி string "Guido;Rossum;Python" ஐ split செய்து சொற்களை பெறுவீர்கள்? |
14:26 | 2. நீங்கள் எப்படி " Hello World " என்னும் வாக்கியத்தில் இருந்து whitespace களை நீக்குவீர்கள்? |
14:34 | 3. int("20.0") தருவது என்ன? Option கள்...... |
14:40 | 20 |
14:42 | 20.0 |
14:43 | Error |
14:44 | "20" |
14:47 | விடைகள் இதோ |
14:50 | 1. நாம் இந்த string ஐ semi-colon களை split function க்கு line.split(';') என்னும் argument ஆக pass செய்து split செய்யலாம். |
15:03 | " Hello World ".strip() என்பது string ஐ சுற்றி இருக்கும் கூடுதல் whitespace களை நீக்கும். |
15:11 | கடைசியாக, int("20.0") ஒரு error ஐ கொடுக்கும். ஏனெனில், ஒரு float string, 20.0, ஐ நேரடியாக integer ஆக convert செய்ய முடியாது. |
15:25 | இந்த டுடோரியல் சுவாரசியமாகவும் பயனுள்ளதாகவும் இருந்திருக்கும் என நம்புகிறேன். |
15:28 | நன்றி! |