Learn practical skills, build real-world projects, and advance your career
import re
import nltk
from nltk.tokenize import word_tokenize
file_content1 = open("News_Text.txt").read() 
tokens1 = word_tokenize(file_content1)
print("Total number of tokenized word before removing special symbols and punctuation in News_Text file: ",len(tokens1))
print()
print(tokens1)
Total number of tokenized word before removing special symbols and punctuation in News_Text file: 385 ["'Afghan", 'forces', 'did', 'not', 'hold', "on'", "''", '...', 'We', 'were', 'ready', 'when', 'the', 'Afghan', 'Security', 'Forces', 'â€', '”', 'after', 'two', 'decades', 'of', 'fighting', 'for', 'their', 'country', 'and', 'losing', 'thousands', 'of', 'their', 'own', 'â€', '”', 'did', 'not', 'hold', 'on', 'as', 'long', 'as', 'anyone', 'expected', '.', 'We', 'were', 'ready', 'when', 'they', 'and', 'the', 'people', 'of', 'Afghanistan', 'watched', 'their', 'own', 'government', 'collapse', 'and', 'their', 'president', 'flee', 'amid', 'the', 'corruption', 'and', 'malfeasance', ',', 'handing', 'over', 'the', 'country', 'to', 'their', 'enemy', ',', 'the', 'Taliban', ',', 'and', 'significantly', 'increasing', 'the', 'risk', 'to', 'US', 'personnel', 'and', 'our', 'Allies', ',', "''", 'Biden', 'said', 'blaming', 'the', 'failure', 'of', 'the', 'Afghan', 'forces', '.', 'US', 'does', 'not', 'take', 'the', 'Taliban', 'by', 'their', 'word', "''", 'The', 'Taliban', 'has', 'made', 'public', 'commitments', ',', 'broadcast', 'on', 'television', 'and', 'radio', 'across', 'Afghanistan', ',', 'on', 'safe', 'passage', 'for', 'anyone', 'wanting', 'to', 'leave', ',', 'including', 'those', 'who', 'worked', 'alongside', 'Americans', '.', 'We', 'don’t', 'take', 'them', 'by', 'their', 'word', 'alone', 'but', 'by', 'their', 'actions', ',', 'and', 'we', 'have', 'leverage', 'to', 'make', 'sure', 'those', 'commitments', 'are', 'met', ',', "''", 'Biden', 'said', 'adding', 'that', 'leaving', 'on', 'August', '31', 'was', 'not', 'due', 'to', 'any', 'arbitrary', 'deadline', 'but', 'to', 'save', 'American', 'lives', '.', 'Trump', 'released', 'top', 'Taliban', 'commanders', "''", 'My', 'predecessor', ',', 'the', 'former', 'President', ',', 'signed', 'an', 'agreement', 'with', 'the', 'Taliban', 'to', 'remove', 'U.S.', 'troops', 'by', 'May', 'the', '1st', ',', 'just', 'months', 'after', 'I', 'was', 'inaugurated', '.', 'It', 'included', 'no', 'requirement', 'that', 'the', 'Taliban', 'work', 'out', 'a', 'cooperative', 'governing', 'arrangement', 'with', 'the', 'Afghan', 'government', ',', 'but', 'it', 'did', 'authorize', 'the', 'release', 'of', '5,000', 'prisoners', 'last', 'year', ',', 'including', 'some', 'of', 'the', 'Taliban’s', 'top', 'war', 'commanders', ',', 'among', 'those', 'who', 'just', 'took', 'control', 'of', 'Afghanistan', ',', "''", 'Biden', 'said', '.', 'Not', 'against', 'threats', 'of', '2001', ',', 'but', 'against', '2021', 'threats', 'Defending', 'the', 'decision', 'of', 'leaving', 'Afghanistan', 'since', 'the', 'national', 'interest', 'of', 'the', 'United', 'States', ',', 'Biden', 'said', 'that', 'the', 'US', 'now', 'ca', "n't", 'afford', 'to', 'address', 'the', 'threats', 'it', 'used', 'to', 'face', 'in', '2001', '.', '``', 'This', 'is', 'a', 'new', 'world', '.', 'The', 'terror', 'threat', 'has', 'metastasized', 'across', 'the', 'world', ',', 'well', 'beyond', 'Afghanistan', '.', 'We', 'face', 'threats', 'from', 'al-Shabaab', 'in', 'Somalia', ';', 'al', 'Qaeda', 'affiliates', 'in', 'Syria', 'and', 'the', 'Arabian', 'Peninsula', ';', 'and', 'ISIS', 'attempting', 'to', 'create', 'a', 'caliphate', 'in', 'Syria', 'and', 'Iraq', ',', 'and', 'establishing', 'affiliates', 'across', 'Africa', 'and', 'Asia', ',', "''", 'he', 'said', '.']
file_content1 = re.sub(r'[^\w\s]','',file_content1) 
tokens1 = word_tokenize(file_content1)
print("Total number of tokenized word after removing special symbols and punctuation in News_Text file: ",len(tokens1))
print()
print(tokens1)
Total number of tokenized word after removing special symbols and punctuation in News_Text file: 340 ['Afghan', 'forces', 'did', 'not', 'hold', 'on', 'We', 'were', 'ready', 'when', 'the', 'Afghan', 'Security', 'Forces', 'â', 'after', 'two', 'decades', 'of', 'fighting', 'for', 'their', 'country', 'and', 'losing', 'thousands', 'of', 'their', 'own', 'â', 'did', 'not', 'hold', 'on', 'as', 'long', 'as', 'anyone', 'expected', 'We', 'were', 'ready', 'when', 'they', 'and', 'the', 'people', 'of', 'Afghanistan', 'watched', 'their', 'own', 'government', 'collapse', 'and', 'their', 'president', 'flee', 'amid', 'the', 'corruption', 'and', 'malfeasance', 'handing', 'over', 'the', 'country', 'to', 'their', 'enemy', 'the', 'Taliban', 'and', 'significantly', 'increasing', 'the', 'risk', 'to', 'US', 'personnel', 'and', 'our', 'Allies', 'Biden', 'said', 'blaming', 'the', 'failure', 'of', 'the', 'Afghan', 'forces', 'US', 'does', 'not', 'take', 'the', 'Taliban', 'by', 'their', 'word', 'The', 'Taliban', 'has', 'made', 'public', 'commitments', 'broadcast', 'on', 'television', 'and', 'radio', 'across', 'Afghanistan', 'on', 'safe', 'passage', 'for', 'anyone', 'wanting', 'to', 'leave', 'including', 'those', 'who', 'worked', 'alongside', 'Americans', 'We', 'donât', 'take', 'them', 'by', 'their', 'word', 'alone', 'but', 'by', 'their', 'actions', 'and', 'we', 'have', 'leverage', 'to', 'make', 'sure', 'those', 'commitments', 'are', 'met', 'Biden', 'said', 'adding', 'that', 'leaving', 'on', 'August', '31', 'was', 'not', 'due', 'to', 'any', 'arbitrary', 'deadline', 'but', 'to', 'save', 'American', 'lives', 'Trump', 'released', 'top', 'Taliban', 'commanders', 'My', 'predecessor', 'the', 'former', 'President', 'signed', 'an', 'agreement', 'with', 'the', 'Taliban', 'to', 'remove', 'US', 'troops', 'by', 'May', 'the', '1st', 'just', 'months', 'after', 'I', 'was', 'inaugurated', 'It', 'included', 'no', 'requirement', 'that', 'the', 'Taliban', 'work', 'out', 'a', 'cooperative', 'governing', 'arrangement', 'with', 'the', 'Afghan', 'government', 'but', 'it', 'did', 'authorize', 'the', 'release', 'of', '5000', 'prisoners', 'last', 'year', 'including', 'some', 'of', 'the', 'Talibanâs', 'top', 'war', 'commanders', 'among', 'those', 'who', 'just', 'took', 'control', 'of', 'Afghanistan', 'Biden', 'said', 'Not', 'against', 'threats', 'of', '2001', 'but', 'against', '2021', 'threats', 'Defending', 'the', 'decision', 'of', 'leaving', 'Afghanistan', 'since', 'the', 'national', 'interest', 'of', 'the', 'United', 'States', 'Biden', 'said', 'that', 'the', 'US', 'now', 'cant', 'afford', 'to', 'address', 'the', 'threats', 'it', 'used', 'to', 'face', 'in', '2001', 'This', 'is', 'a', 'new', 'world', 'The', 'terror', 'threat', 'has', 'metastasized', 'across', 'the', 'world', 'well', 'beyond', 'Afghanistan', 'We', 'face', 'threats', 'from', 'alShabaab', 'in', 'Somalia', 'al', 'Qaeda', 'affiliates', 'in', 'Syria', 'and', 'the', 'Arabian', 'Peninsula', 'and', 'ISIS', 'attempting', 'to', 'create', 'a', 'caliphate', 'in', 'Syria', 'and', 'Iraq', 'and', 'establishing', 'affiliates', 'across', 'Africa', 'and', 'Asia', 'he', 'said']
file_content2 = open("Tweet_oklahoma_tornado_2013.txt").read() 
tokens2 = word_tokenize(file_content2)
print("Total number of tokenized word before removing special symbols and punctuation in Tweet_oklahoma file: ",len(tokens2))
print()
print(tokens2)
Total number of tokenized word before removing special symbols and punctuation in Tweet_oklahoma file: 1551 ['@', 'HeatleyJheat44', 'its', 'barley', 'even', 'raining', 'where', 'I', "'m", 'at', 'lol', 'Sorry', 'I', 'ca', "n't", 'do', 'anything', 'right', '.', '@', 'mrwendell29', ':', '@', 'BradSowderWX', 'says', 'we', 'have', 'the', 'risk', 'of', 'severe', 'weather', 'everyday', 'this', 'week', '.', 'Another', 'risk', 'for', 'tornadoes', '#', 'ughh', '!', 'You', 'said', 'it', '!', '#', 'honestyhour', 'I', 'like', 'to', 'wear', 'half', 'split', 'running', 'shorts', 'without', 'the', 'liner', '.', 'Often', 'in', 'public', '.', 'My', 'friends', 'almost', 'gave', 'me', 'an', 'intervention', '.', 'I', "'m", 'too', 'stressed', 'to', 'have', 'a', 'good', 'summer', '@', 'l_guadarrama', ':', 'It', 'must', 'have', 'been', 'love', ',', 'but', 'it', "'s", 'over', 'now', '.', '@', 'w3dn3sday99', 'We', 'got', 'the', 'remnants', 'of', 'hurricanes', '.', 'Like', 'Erin', 'and', 'Hermine', 'years', 'ago', '.', 'Saw', 'a', 'funnel', 'cloud', 'near', 'Wichita', 'Falls', 'from', 'Hermine', '.', 'Fear', 'is', 'only', 'as', 'deep', 'as', 'the', 'mind', 'allows', '.', 'Taz', 'missed', 'out', '.', 'Sucks', 'for', 'him', '.', '@', '_chintiaa_', ':', '@', 'The_Future_405', 'lol', ',', 'no', 'I', "'m", 'not', '.', 'It', 'hurts', 'and', 'nobody', 'wants', 'to', 'help', 'me', '.', 'Nobody', 'trying', 'to', 'mess', 'with', 'a', 'nasty', 'ass', 'back', 'pimple', 'I', "'m", 'about', 'to', 'go', 'to', 'sleep', '.', 'Off', 'to', 'the', 'gym', 'to', 'take', 'some', 'of', 'the', 'jiggle', 'outta', 'my', 'wiggle', '.', '#', 'bootcamp', '@', 'JordynnnA', 'i', 'honestly', 'hate', 'u', 'bye', '.', 'Hopefully', 'Tulsa', 'wo', "n't", 'get', 'hit', '.', 'With', 'these', 'guys', 'on', 'the', 'river', '!', ':', ')', 'So', 'much', 'fun', '!', 'http', ':', '//t.co/CYFpyG7l7z', '@', 'NicDog_', 'lol', 'I', 'guess', 'you', 'never', 'wont', 'me', 'to', 'rt', 'anything', 'like', 'that', 'again', '?', 'my', 'TL', 'forever', 'talkin', 'about', 'sex', '.', 'like', 'damn', 'chill..', 'it', "'s", '5', 'in', 'the', 'afternoon', '.', 'YOU', 'COME', 'TO', 'MY', 'HOUSE', ',', 'DISRESPECT', 'MY', 'AUTHORITY', ',', 'EAT', 'MY', 'FOOD', '&', 'amp', ';', 'SMOKE', 'MY', 'WEED', ',', 'THE', 'FUCK', 'YOU', 'THINK', 'YOU', 'ARE', '@', 'landreecarlisle', 'By', 'myself', 'callin', 'her', 'ya', 'name', '...', 'Ladies', 'tell', 'me', 'do', 'you', 'understand', ',', 'and', 'all', 'my', 'fellas', 'do', 'you', 'feel', 'my', 'pain..', '@', 'MercedeezBell', 'let', 'me', 'switch', 'it', 'up', 'http', ':', '//t.co/fdKvs9acPp', 'Hope', 'you', 'know', 'I', "don't", '@', 'ConceitedKid_', 'I', 'miss', 'you', 'bro', 'come', 'back', 'to', 'Mee', '.', 'I', "'m", 'thankful', 'that', 'the', 'tornado', 'missed', 'my', 'street', ',', 'but', 'I', "'m", 'sorry', 'for', 'the', 'destruction', 'it', 'has', 'caused', 'http', ':', '//t.co/rjVA7fiAL0', 'Those', 'who', 'excel', 'in', 'it', 'seldom', 'excel', 'in', 'anything', 'else', 'but', 'excuses', 'OKC', 'National', 'Memorial', '@', 'Oklahoma', 'City', 'National', 'Memorial', '&', 'amp', ';', 'Museum', 'http', ':', '//t.co/u13PvkObvO', 'Here', 'for', 'Michael', "'s", 'birthday', 'party', 'with', 'Treva', 'Maddie', ',', 'Hannah', '(', '@', 'Science', 'Museum', 'Oklahoma', ')', 'http', ':', '//t.co/kTan0SGm3G', '#', 'tornado', 'traveled', '20', 'miles', 'and', 'ended', '20', 'miles', 'from', 'us', '.', 'tryed', 'to', 'make', '@', 'russpickett', 'head', 'home', '5', 'hours', 'ago', 'now', '#', 'I-44', 'wreck', 'has', 'him', 'backtracking', 'Hahaha', 'what', 'a', 'good', 'game', '!', '!', '!', 'Enough', 'screaming', 'for', 'one', 'night', 'LOL', 'I', 'wan', 'na', 'meet', 'a', 'girl', 'that', "'s", 'better', 'than', 'me', 'at', 'COD', '.', 'And', 'then', 'marry', 'her', '.', 'I', "'m", 'just', 'saying', ',', 'do', "n't", 'trust', 'her', 'and', 'you', "'re", 'forever', 'in', 'good', 'condition', '.', '@', 'kattalyst_', 'so', 'do', "n't", 'be', 'silly', 'lol', 'Thunder', 'storm', 'system', 'passing', 'through', 'Moore', ',', 'OK', 'right', 'now', '.', 'Flash', 'Flood', 'warning', 'through', '9:45a', 'central', 'time', '.', 'http', ':', '//t.co/JLGMk9Qr13', '@', 'realtnrebel', 'We', 'prayed', 'also', 'same', 'thind', '.', 'I', 'hate', 'disrespect', '.', 'U', 'have', 'good', 'night', 'brother', '.', 'I', 'ca', "n't", 'stay', 'awake', '.', 'Treasure', 'is', 'just', 'my', 'jam', '.', 'Job', 'well', 'done', '@', 'BrunoMars', 'I', "'m", 'at', 'Cinemark', 'Tinseltown', 'USA', '-', '@', 'cinemarkusa', 'for', 'Star', 'Trek', 'Into', 'Darkness', '3D', '(', 'Oklahoma', 'City', ',', 'OK', ')', 'w/', '2', 'others', 'http', ':', '//t.co/hw75xWncME', '@', 'sarahhritterr', 'suck', 'it', 'up', 'it', "'s", 'high', 'school', 'Spanish', '.', 'As', 'easy', 'as', 'it', 'gets', 'These', 'peanut', 'M', '&', 'amp', ';', 'M', "'s", 'tho', 'Seven', 'dudes', 'in', 'a', 'dodge', 'charger', '@', 'THE__UNIT', '@', 'T_Hart13', '@', 'JeremyScamm', '@', 'cody_fisher09', '@', 'ericaa_dawnn18', 'he', 'got', 'the', 'part', 'that', 'will', 'fix', 'my', 'window', '!', 'Lol', 'I', 'love', 'days', 'like', 'this', '.', 'Mixed', 'with', 'country', 'tine', 'lemonade', '.', 'Ca', "n't", 'get', 'any', 'better', '.', 'http', ':', '//t.co/ZsnPNxhUMl', '@', 'elam_evans', 'your', 'picture', '?', '?', 'That', "'s", 'what', 'an', 'avi', 'is', '.', 'MT', '@', 'okcpd', ':', 'Go', 'to', 'http', ':', '//t.co/T8qHiCHrqU', 'The', 'latest', 'tornado', 'road', 'closure', 'info', '.', 'Hey', '#', 'pcusa', '@', 'Presbyterian', 'Please', 'get', 'this', 'to', 'PDA', 'here', 'in', 'OKC', '.', 'SB166', '[', 'Update', ']', 'Ad', 'valorem', 'tax', ';', 'property', 'related', 'oil', 'and', 'gas', 'disposal', 'systems', '.', 'Effective', 'date', '.', 'http', ':', '//t.co/AthfT2dmjR', 'And', 'hell', ',', 'me', 'and', 'Blane', 'ai', "n't", 'even', 'ever', 'hung', 'out', '.', '@', 'jimmyc42', 'I', 'saw', 'it', 'at', '7am', 'yday', ',', 'too', 'much', 'forcing', ',', 'reminded', 'me', 'a', 'bit', 'of', 'HIGH', 'RISK', 'June', 'day', 'in', '2008', '@', 'MissBranton', ':', 'Thirsty', 'men', 'irk', 'my', 'nerves', '...', '..ijslol', 'cousin', 'stop', '@', 'doyoufoster', 'you', 'were', 'in', 'the', 'zone', '!', 'I', 'can', 'appreciate', 'that', '.', ':', '-', ')', 'feel', 'like', 'i', "'ve", 'never', 'eatin', 'so', 'much', 'in', 'my', 'life', '.', 'Jus', 'say', 'what', 'u', 'want', 'Off', 'work', '.', 'Bout', 'to', 'go', 'meet', 'with', 'this', 'lady', '..', '@', 'RUHearingMe77', 'I', 'love', 'you', 'all', '!', '&', 'lt', ';', '3', 'I', 'know', 'school', 'just', 'ended', 'but', '...', 'I', "'m", 'ready', 'for', 'next', 'year', '!', 'Ok', 'I', 'tried', 'to', 'get', 'over', 'there', 'yesterday', 'it', 'did', "n't", 'work', 'Hopefully', 'no', 'one', 'moons', 'the', 'pool', 'camera', 'this', 'year', '@', 'hoe_obey', 'lol', ',', 'I', "'m", 'looking', 'forward', 'to', 'this', '@', 'SillyJillyStein', 'Everyone', 'I', 'know', 'is', 'having', 'pool', 'issues', 'this', 'year', '.', '@', 'Sterling_Holmes', 'haha', 'yeah', 'that', 'too', '!', 'so', 'annoying', '!', '@', 'AustinMahone', '&', 'amp', ';', '@', 'CA_rayy', 'need', 'to', 'date', '.', 'Like', 'now', '.', 'Digging', 'those', 'sideburns', 'in', 'Candelabra', '@', 'cheyennejackson', 'lol', 'I', 'said', 'I', 'would', 'never', 'hit', 'her', 'but', 'she', 'skating', 'on', 'thin', 'ice', '.', 'my', 'attitude', 'messes', 'everything', 'up', '.', 'if', 'you', 'never', 'got', 'fucked', 'up', 'before', 'i', 'feel', 'bad', 'for', 'you..', 'lol', ',', 'you', 'missing', 'out', '.', 'Fast', 'and', 'Furious', '6', 'deserves', 'all', 'the', 'success', '@', 'Dnicoll20', 'no', 'biotc', 'you', 'better', 'be', 'in', 'caywood', 'Give', 'it', 'to', 'your', 'mom', '..', '@', 'MicahTheGolfer', 'what', 'college', 'are', 'you', 'going', 'to', '?', '@', 'KarenCombs77', 'not', 'somethin', 'I', 'usually', 'share', 'on', 'my', 'timeline', ',', 'flashback', ',', 'forgot', 'about', 'it', ',', 'long', 'long', 'time', 'ago', ',', 'I', 'ai', "n't", 'as', 'good', 'as', 'I', 'once', 'was', '@', 'Fonzie_Fuller', ':', '@', 'The_Future_405', 'Alright..', 'at', 'a', 'party', 'I', 'will', '!', 'I', 'might', 'break', 'my', 'leg', 'but', 'fuck', 'it', '!', 'Lmfao..', '@', 'JHuffXO_', ':', 'It', "'s", 'like', 'I', 'ca', "n't", 'get', 'over', 'you', '&', 'amp', ';', 'amp', ';', 'the', 'things', 'that', 'you', 'do', '.', 'Swear', 'I', 'do', "n't", 'want', 'nobody', 'but', 'you', '.', '@', 'LilMissRightie', 'forgot', 'to', 'add', '#', 'FU', '@', 'ConceitedGuy_', 'I', 'ai', "n't", 'friend', 'we', 'Fam', 'distance', 'cousins', 'lol', 'I', "'m", 'just', 'glad', 'you', 'was', 'aight', 'I', 'had', 'everybody', 'looking', 'for', 'ya', 'Fuck', 'water', 'I', 'need', 'something', 'to', 'eat', 'got', 'damn', 'it', '!', '@', 'Dalvino011', ':', '@', 'Craftyy_56', 'text', 'me', 'bro', 'DM', 'me', 'your', '#', 'Should', 'we', 'do', 'the', 'second', 'verse', 'also', '?', 'Because', 'I', "'m", 'down', 'It', "'s", 'ovbisouly', 'me', '.', 'You', 'wo', "n't", 'even', 'talk', 'to', 'me', '.', 'But', 'it', "'s", 'cool', 'Tell', 'everybody', 'it', "'s", 'changed', 'to', '9:30', '!', 'I', 'drink', 'too', 'much', 'coffee', '.', 'Have', 'you', 'sayin', 'oh', 'my', 'god', 'girl', 'put', 'it', 'in', 'my', 'mouth', 'Im', 'afraid', 'to', 'see', 'what', 'the', 'end', 'is', 'gon', 'look', 'like', '.', '#', 'labor', '#', 'jobs', 'Licensed', 'Journeyman', 'Electricians', ':', 'OK', 'licensed', 'electricians', 'needed', 'for', 'residential', 'const', '...', 'http', ':', '//t.co/W4A2F8kGHD', 'Scars', 'are', "n't", 'only', 'found', 'on', 'wrists', '.', 'HB1340', '[', 'Update', ']', 'Criminal', 'procedure', ';', 'modifying', 'certain', 'definition', ';', 'effective', 'date', '.', 'http', ':', '//t.co/rVMjkRe6sb', 'Remember', 'that', 'time', '@', 'FerrisKruse', 'texted', 'me', 'from', 'Africa', '?', '!', 'BBs', 'for', 'life', '!', '!', '!', 'Just', 'a', 'little', 'tid', 'bit', ';', 'I', 'always', 'say', 'hi', 'to', 'the', 'animals', 'at', 'the', 'zoo', '.', 'Dunno', 'why', '#', 'animalpowers', '#', 'friendly', '@', 'ChiefHiggs', ':', 'Straight', 'up', 'hungry', 'for', 'some', 'fast', 'food', 'and', 'a', 'good', 'movie', 'and', 'a', 'fat', 'blunt', '!', 'I', 'was', 'like', 'nelll', 'im', 'sleepy', '&', 'amp', ';', 'he', 'woke', 'up', 'hugging', 'me', '(', ':', 'Seeing', 'what', 'objects', 'I', 'can', 'stick', 'in', 'my', 'ears', 'is', 'quite', 'entertaining', '.', 'I', 'would', "n't", 'go', 'back', '5', 'years', 'and', 'change', 'my', 'mind', 'on', 'gauging', 'them', '.', '8', 'am', 'CDT', 'central', 'Oklahoma', 'radar', 'update', '.', 'Flooding', 'risk', 'going', 'up', 'in', 'the', 'OKC', 'metro', '.', 'Flash', 'flood', 'warning', 'in', 'effect', '.', 'http', ':', '//t.co/kVvWbHDUyp', 'Mae', 'picking', 'flowers', 'on', 'the', 'side', 'of', 'the', 'interstate', '.', '#', 'ok13', '@', 'Shawnee', ',', 'OK', 'http', ':', '//t.co/sz0wjoNGjz', '#', 'indeed', '#', 'inspiration', '#', 'ambition', '#', 'devotion', '#', 'dedication', '#', 'determination', '#', 'drive', '#', 'live', '#', 'life', '#', 'love', '#', 'lovelife', 'http', ':', '//t.co/X5r0G2UTqu', 'Wish', 'my', 'bestie', '@', 'GourMae', 'was', 'still', 'here', '!', 'She', 'would', 'go', '!', 'Ill', 'never', 'doubt', 'my', 'thought', 'again', '.', 'Wow', 'just', 'weird', 'to', 'think', 'I', 'was', 'right', 'A', 'nigga', 'like', 'me', 'ALWAYS', 'getting', 'in', 'trouble', '!', 'No', '.', 'Not', 'some', 'day', '.', 'Today', '.', 'Tornado', 'Warning', 'for', 'York', 'County', 'in', 'VA', 'until', '7:45', 'PM', 'EDT', 'http', ':', '//t.co/93touHknrX', '@', 'parkerb005', 'ha', 'well', 'I', "'m", 'just', 'an', 'intern', '@', 'ErinReckinger', 'lol', 'ill', 'have', 'to', 'come', 'visit', 'and', 'we', 'can', 'turn', 'up', '!', 'Just', 'donated', '$', '10', 'to', 'storm', 'relief', 'efforts', '.', 'Doesnt', 'seem', 'like', 'much', 'but', '$', '120,000', 'been', 'collected', 'already', 'by', 'text', '.', '#', 'P4OK', 'http', ':', '//t.co/3jh9QgINwi', '@', 'craigdaliessio', '@', 'HuffingtonPost', 'I', 'think', 'we', 'have', 'religious', 'leaders', 'we', 'subscribe', 'to', 'for', 'a', 'reason', '.', 'I', 'would', "n't", 'say', 'unchurched', '-', 'but', 'ppl', '#', 'XboxMemories', 'Finding', 'the', 'sickest', 'prefire', 'spots', 'in', 'hardcore', 's', '&', 'amp', ';', 'd', '.']
file_content2 = re.sub(r'[^\w\s]','',file_content2) 
tokens2 = word_tokenize(file_content2)
print("Total number of tokenized word after removing special symbols and punctuation in Tweet_oklahoma file: ",len(tokens2)) 
print()
print(tokens2)
Total number of tokenized word after removing special symbols and punctuation in Tweet_oklahoma file: 1202 ['HeatleyJheat44', 'its', 'barley', 'even', 'raining', 'where', 'Im', 'at', 'lol', 'Sorry', 'I', 'cant', 'do', 'anything', 'right', 'mrwendell29', 'BradSowderWX', 'says', 'we', 'have', 'the', 'risk', 'of', 'severe', 'weather', 'everyday', 'this', 'week', 'Another', 'risk', 'for', 'tornadoes', 'ughh', 'You', 'said', 'it', 'honestyhour', 'I', 'like', 'to', 'wear', 'half', 'split', 'running', 'shorts', 'without', 'the', 'liner', 'Often', 'in', 'public', 'My', 'friends', 'almost', 'gave', 'me', 'an', 'intervention', 'Im', 'too', 'stressed', 'to', 'have', 'a', 'good', 'summer', 'l_guadarrama', 'It', 'must', 'have', 'been', 'love', 'but', 'its', 'over', 'now', 'w3dn3sday99', 'We', 'got', 'the', 'remnants', 'of', 'hurricanes', 'Like', 'Erin', 'and', 'Hermine', 'years', 'ago', 'Saw', 'a', 'funnel', 'cloud', 'near', 'Wichita', 'Falls', 'from', 'Hermine', 'Fear', 'is', 'only', 'as', 'deep', 'as', 'the', 'mind', 'allows', 'Taz', 'missed', 'out', 'Sucks', 'for', 'him', '_chintiaa_', 'The_Future_405', 'lol', 'no', 'Im', 'not', 'It', 'hurts', 'and', 'nobody', 'wants', 'to', 'help', 'me', 'Nobody', 'trying', 'to', 'mess', 'with', 'a', 'nasty', 'ass', 'back', 'pimple', 'Im', 'about', 'to', 'go', 'to', 'sleep', 'Off', 'to', 'the', 'gym', 'to', 'take', 'some', 'of', 'the', 'jiggle', 'outta', 'my', 'wiggle', 'bootcamp', 'JordynnnA', 'i', 'honestly', 'hate', 'u', 'bye', 'Hopefully', 'Tulsa', 'wont', 'get', 'hit', 'With', 'these', 'guys', 'on', 'the', 'river', 'So', 'much', 'fun', 'httptcoCYFpyG7l7z', 'NicDog_', 'lol', 'I', 'guess', 'you', 'never', 'wont', 'me', 'to', 'rt', 'anything', 'like', 'that', 'again', 'my', 'TL', 'forever', 'talkin', 'about', 'sex', 'like', 'damn', 'chill', 'its', '5', 'in', 'the', 'afternoon', 'YOU', 'COME', 'TO', 'MY', 'HOUSE', 'DISRESPECT', 'MY', 'AUTHORITY', 'EAT', 'MY', 'FOOD', 'amp', 'SMOKE', 'MY', 'WEED', 'THE', 'FUCK', 'YOU', 'THINK', 'YOU', 'ARE', 'landreecarlisle', 'By', 'myself', 'callin', 'her', 'ya', 'name', 'Ladies', 'tell', 'me', 'do', 'you', 'understand', 'and', 'all', 'my', 'fellas', 'do', 'you', 'feel', 'my', 'pain', 'MercedeezBell', 'let', 'me', 'switch', 'it', 'up', 'httptcofdKvs9acPp', 'Hope', 'you', 'know', 'I', 'dont', 'ConceitedKid_', 'I', 'miss', 'you', 'bro', 'come', 'back', 'to', 'Mee', 'Im', 'thankful', 'that', 'the', 'tornado', 'missed', 'my', 'street', 'but', 'Im', 'sorry', 'for', 'the', 'destruction', 'it', 'has', 'caused', 'httptcorjVA7fiAL0', 'Those', 'who', 'excel', 'in', 'it', 'seldom', 'excel', 'in', 'anything', 'else', 'but', 'excuses', 'OKC', 'National', 'Memorial', 'Oklahoma', 'City', 'National', 'Memorial', 'amp', 'Museum', 'httptcou13PvkObvO', 'Here', 'for', 'Michaels', 'birthday', 'party', 'with', 'Treva', 'Maddie', 'Hannah', 'Science', 'Museum', 'Oklahoma', 'httptcokTan0SGm3G', 'tornado', 'traveled', '20', 'miles', 'and', 'ended', '20', 'miles', 'from', 'us', 'tryed', 'to', 'make', 'russpickett', 'head', 'home', '5', 'hours', 'ago', 'now', 'I44', 'wreck', 'has', 'him', 'backtracking', 'Hahaha', 'what', 'a', 'good', 'game', 'Enough', 'screaming', 'for', 'one', 'night', 'LOL', 'I', 'wan', 'na', 'meet', 'a', 'girl', 'thats', 'better', 'than', 'me', 'at', 'COD', 'And', 'then', 'marry', 'her', 'Im', 'just', 'saying', 'dont', 'trust', 'her', 'and', 'youre', 'forever', 'in', 'good', 'condition', 'kattalyst_', 'so', 'dont', 'be', 'silly', 'lol', 'Thunder', 'storm', 'system', 'passing', 'through', 'Moore', 'OK', 'right', 'now', 'Flash', 'Flood', 'warning', 'through', '945a', 'central', 'time', 'httptcoJLGMk9Qr13', 'realtnrebel', 'We', 'prayed', 'also', 'same', 'thind', 'I', 'hate', 'disrespect', 'U', 'have', 'good', 'night', 'brother', 'I', 'cant', 'stay', 'awake', 'Treasure', 'is', 'just', 'my', 'jam', 'Job', 'well', 'done', 'BrunoMars', 'Im', 'at', 'Cinemark', 'Tinseltown', 'USA', 'cinemarkusa', 'for', 'Star', 'Trek', 'Into', 'Darkness', '3D', 'Oklahoma', 'City', 'OK', 'w', '2', 'others', 'httptcohw75xWncME', 'sarahhritterr', 'suck', 'it', 'up', 'its', 'high', 'school', 'Spanish', 'As', 'easy', 'as', 'it', 'gets', 'These', 'peanut', 'MampMs', 'tho', 'Seven', 'dudes', 'in', 'a', 'dodge', 'charger', 'THE__UNIT', 'T_Hart13', 'JeremyScamm', 'cody_fisher09', 'ericaa_dawnn18', 'he', 'got', 'the', 'part', 'that', 'will', 'fix', 'my', 'window', 'Lol', 'I', 'love', 'days', 'like', 'this', 'Mixed', 'with', 'country', 'tine', 'lemonade', 'Cant', 'get', 'any', 'better', 'httptcoZsnPNxhUMl', 'elam_evans', 'your', 'picture', 'Thats', 'what', 'an', 'avi', 'is', 'MT', 'okcpd', 'Go', 'to', 'httptcoT8qHiCHrqU', 'The', 'latest', 'tornado', 'road', 'closure', 'info', 'Hey', 'pcusa', 'Presbyterian', 'Please', 'get', 'this', 'to', 'PDA', 'here', 'in', 'OKC', 'SB166', 'Update', 'Ad', 'valorem', 'tax', 'property', 'related', 'oil', 'and', 'gas', 'disposal', 'systems', 'Effective', 'date', 'httptcoAthfT2dmjR', 'And', 'hell', 'me', 'and', 'Blane', 'aint', 'even', 'ever', 'hung', 'out', 'jimmyc42', 'I', 'saw', 'it', 'at', '7am', 'yday', 'too', 'much', 'forcing', 'reminded', 'me', 'a', 'bit', 'of', 'HIGH', 'RISK', 'June', 'day', 'in', '2008', 'MissBranton', 'Thirsty', 'men', 'irk', 'my', 'nervesijslol', 'cousin', 'stop', 'doyoufoster', 'you', 'were', 'in', 'the', 'zone', 'I', 'can', 'appreciate', 'that', 'feel', 'like', 'ive', 'never', 'eatin', 'so', 'much', 'in', 'my', 'life', 'Jus', 'say', 'what', 'u', 'want', 'Off', 'work', 'Bout', 'to', 'go', 'meet', 'with', 'this', 'lady', 'RUHearingMe77', 'I', 'love', 'you', 'all', 'lt3', 'I', 'know', 'school', 'just', 'ended', 'but', 'Im', 'ready', 'for', 'next', 'year', 'Ok', 'I', 'tried', 'to', 'get', 'over', 'there', 'yesterday', 'it', 'didnt', 'work', 'Hopefully', 'no', 'one', 'moons', 'the', 'pool', 'camera', 'this', 'year', 'hoe_obey', 'lol', 'Im', 'looking', 'forward', 'to', 'this', 'SillyJillyStein', 'Everyone', 'I', 'know', 'is', 'having', 'pool', 'issues', 'this', 'year', 'Sterling_Holmes', 'haha', 'yeah', 'that', 'too', 'so', 'annoying', 'AustinMahone', 'amp', 'CA_rayy', 'need', 'to', 'date', 'Like', 'now', 'Digging', 'those', 'sideburns', 'in', 'Candelabra', 'cheyennejackson', 'lol', 'I', 'said', 'I', 'would', 'never', 'hit', 'her', 'but', 'she', 'skating', 'on', 'thin', 'ice', 'my', 'attitude', 'messes', 'everything', 'up', 'if', 'you', 'never', 'got', 'fucked', 'up', 'before', 'i', 'feel', 'bad', 'for', 'you', 'lol', 'you', 'missing', 'out', 'Fast', 'and', 'Furious', '6', 'deserves', 'all', 'the', 'success', 'Dnicoll20', 'no', 'biotc', 'you', 'better', 'be', 'in', 'caywood', 'Give', 'it', 'to', 'your', 'mom', 'MicahTheGolfer', 'what', 'college', 'are', 'you', 'going', 'to', 'KarenCombs77', 'not', 'somethin', 'I', 'usually', 'share', 'on', 'my', 'timeline', 'flashback', 'forgot', 'about', 'it', 'long', 'long', 'time', 'ago', 'I', 'aint', 'as', 'good', 'as', 'I', 'once', 'was', 'Fonzie_Fuller', 'The_Future_405', 'Alright', 'at', 'a', 'party', 'I', 'will', 'I', 'might', 'break', 'my', 'leg', 'but', 'fuck', 'itLmfao', 'JHuffXO_', 'Its', 'like', 'I', 'cant', 'get', 'over', 'you', 'ampamp', 'the', 'things', 'that', 'you', 'do', 'Swear', 'I', 'dont', 'want', 'nobody', 'but', 'you', 'LilMissRightie', 'forgot', 'to', 'add', 'FU', 'ConceitedGuy_', 'I', 'aint', 'friend', 'we', 'Fam', 'distance', 'cousins', 'lol', 'Im', 'just', 'glad', 'you', 'was', 'aight', 'I', 'had', 'everybody', 'looking', 'for', 'ya', 'Fuck', 'water', 'I', 'need', 'something', 'to', 'eat', 'got', 'damn', 'it', 'Dalvino011', 'Craftyy_56', 'text', 'me', 'bro', 'DM', 'me', 'your', 'Should', 'we', 'do', 'the', 'second', 'verse', 'also', 'Because', 'Im', 'down', 'Its', 'ovbisouly', 'me', 'You', 'wont', 'even', 'talk', 'to', 'me', 'But', 'its', 'cool', 'Tell', 'everybody', 'its', 'changed', 'to', '930', 'I', 'drink', 'too', 'much', 'coffee', 'Have', 'you', 'sayin', 'oh', 'my', 'god', 'girl', 'put', 'it', 'in', 'my', 'mouth', 'Im', 'afraid', 'to', 'see', 'what', 'the', 'end', 'is', 'gon', 'look', 'like', 'labor', 'jobs', 'Licensed', 'Journeyman', 'Electricians', 'OK', 'licensed', 'electricians', 'needed', 'for', 'residential', 'const', 'httptcoW4A2F8kGHD', 'Scars', 'arent', 'only', 'found', 'on', 'wrists', 'HB1340', 'Update', 'Criminal', 'procedure', 'modifying', 'certain', 'definition', 'effective', 'date', 'httptcorVMjkRe6sb', 'Remember', 'that', 'time', 'FerrisKruse', 'texted', 'me', 'from', 'Africa', 'BBs', 'for', 'life', 'Just', 'a', 'little', 'tid', 'bit', 'I', 'always', 'say', 'hi', 'to', 'the', 'animals', 'at', 'the', 'zoo', 'Dunno', 'why', 'animalpowers', 'friendly', 'ChiefHiggs', 'Straight', 'up', 'hungry', 'for', 'some', 'fast', 'food', 'and', 'a', 'good', 'movie', 'and', 'a', 'fat', 'blunt', 'I', 'was', 'like', 'nelll', 'im', 'sleepy', 'amp', 'he', 'woke', 'up', 'hugging', 'me', 'Seeing', 'what', 'objects', 'I', 'can', 'stick', 'in', 'my', 'ears', 'is', 'quite', 'entertaining', 'I', 'wouldnt', 'go', 'back', '5', 'years', 'and', 'change', 'my', 'mind', 'on', 'gauging', 'them', '8', 'am', 'CDT', 'central', 'Oklahoma', 'radar', 'update', 'Flooding', 'risk', 'going', 'up', 'in', 'the', 'OKC', 'metro', 'Flash', 'flood', 'warning', 'in', 'effect', 'httptcokVvWbHDUyp', 'Mae', 'picking', 'flowers', 'on', 'the', 'side', 'of', 'the', 'interstate', 'ok13', 'Shawnee', 'OK', 'httptcosz0wjoNGjz', 'indeed', 'inspiration', 'ambition', 'devotion', 'dedication', 'determination', 'drive', 'live', 'life', 'love', 'lovelife', 'httptcoX5r0G2UTqu', 'Wish', 'my', 'bestie', 'GourMae', 'was', 'still', 'here', 'She', 'would', 'go', 'Ill', 'never', 'doubt', 'my', 'thought', 'again', 'Wow', 'just', 'weird', 'to', 'think', 'I', 'was', 'right', 'A', 'nigga', 'like', 'me', 'ALWAYS', 'getting', 'in', 'trouble', 'No', 'Not', 'some', 'day', 'Today', 'Tornado', 'Warning', 'for', 'York', 'County', 'in', 'VA', 'until', '745', 'PM', 'EDT', 'httptco93touHknrX', 'parkerb005', 'ha', 'well', 'Im', 'just', 'an', 'intern', 'ErinReckinger', 'lol', 'ill', 'have', 'to', 'come', 'visit', 'and', 'we', 'can', 'turn', 'up', 'Just', 'donated', '10', 'to', 'storm', 'relief', 'efforts', 'Doesnt', 'seem', 'like', 'much', 'but', '120000', 'been', 'collected', 'already', 'by', 'text', 'P4OK', 'httptco3jh9QgINwi', 'craigdaliessio', 'HuffingtonPost', 'I', 'think', 'we', 'have', 'religious', 'leaders', 'we', 'subscribe', 'to', 'for', 'a', 'reason', 'I', 'wouldnt', 'say', 'unchurched', 'but', 'ppl', 'XboxMemories', 'Finding', 'the', 'sickest', 'prefire', 'spots', 'in', 'hardcore', 'sampd']