Power Query द्वारे PDF वरून Excel मध्ये डेटा इंपोर्ट करा

पीडीएफ फाइलमधील स्प्रेडशीटमधून मायक्रोसॉफ्ट एक्सेल शीटमध्ये डेटा हस्तांतरित करण्याचे कार्य नेहमीच "मजेदार" असते. खासकरून जर तुमच्याकडे FineReader सारखे महागडे ओळखीचे सॉफ्टवेअर किंवा असे काही नसेल. थेट कॉपी केल्याने सहसा काहीही चांगले होत नाही, कारण. कॉपी केलेला डेटा शीटवर पेस्ट केल्यानंतर, ते बहुधा एका कॉलममध्ये "एकत्र चिकटून" राहतील. त्यामुळे त्यांना नंतर एक साधन वापरून परिश्रमपूर्वक वेगळे करावे लागेल स्तंभांनुसार मजकूर टॅब वरून डेटा (डेटा - मजकूर ते स्तंभ).

आणि अर्थातच, कॉपी करणे केवळ त्या PDF फायलींसाठी शक्य आहे जिथे मजकूर स्तर आहे, म्हणजे कागदावरून PDF मध्ये नुकतेच स्कॅन केलेले दस्तऐवज, हे तत्त्वतः कार्य करणार नाही.

पण खरच 🙂 हे इतके दुःखी नाही

आपल्याकडे ऑफिस 2013 किंवा 2016 असल्यास, काही मिनिटांत, अतिरिक्त प्रोग्रामशिवाय, पीडीएफ वरून मायक्रोसॉफ्ट एक्सेलमध्ये डेटा हस्तांतरित करणे शक्य आहे. आणि Word आणि Power Query आम्हाला यामध्ये मदत करेल.

उदाहरणार्थ, युरोपच्या आर्थिक आयोगाच्या वेबसाइटवरील मजकूर, सूत्रे आणि सारण्यांसह हा पीडीएफ अहवाल घेऊ:

Power Query द्वारे PDF वरून Excel मध्ये डेटा इंपोर्ट करा

... आणि एक्सेलमध्ये ते बाहेर काढण्याचा प्रयत्न करा, पहिले सारणी म्हणा:

Power Query द्वारे PDF वरून Excel मध्ये डेटा इंपोर्ट करा

चल जाऊया!

पायरी 1. Word मध्ये PDF उघडा

काही कारणास्तव, थोड्या लोकांना माहित आहे, परंतु 2013 पासून मायक्रोसॉफ्ट वर्डने पीडीएफ फायली उघडणे आणि ओळखणे शिकले आहे (अगदी स्कॅन केलेल्या, म्हणजे मजकूर स्तराशिवाय!). हे पूर्णपणे मानक पद्धतीने केले जाते: शब्द उघडा, क्लिक करा फाइल - उघडा (फाइल - उघडा) आणि विंडोच्या खालच्या उजव्या कोपर्यात ड्रॉप-डाउन सूचीमध्ये PDF स्वरूप निर्दिष्ट करा.

नंतर आम्हाला आवश्यक असलेली PDF फाईल निवडा आणि क्लिक करा ओपन (उघडा). शब्द आम्हाला सांगतो की ते या दस्तऐवजावर मजकूरावर OCR चालवणार आहे:

Power Query द्वारे PDF वरून Excel मध्ये डेटा इंपोर्ट करा

आम्ही सहमत आहोत आणि काही सेकंदात आम्ही आमचे पीडीएफ वर्डमध्ये आधीपासूनच संपादनासाठी उघडलेले दिसेल:

Power Query द्वारे PDF वरून Excel मध्ये डेटा इंपोर्ट करा

अर्थात, डिझाइन, शैली, फॉन्ट, शीर्षलेख आणि तळटीप इ. अंशतः दस्तऐवजातून उडून जातील, परंतु हे आमच्यासाठी महत्त्वाचे नाही – आम्हाला फक्त टेबलमधील डेटा हवा आहे. तत्वतः, या टप्प्यावर, मान्यताप्राप्त दस्तऐवजातील टेबलची फक्त Word मध्ये कॉपी करणे आणि ते Excel मध्ये पेस्ट करणे आधीच मोहक आहे. काहीवेळा ते कार्य करते, परंतु बर्‍याचदा ते सर्व प्रकारच्या डेटा विकृतीस कारणीभूत ठरते – उदाहरणार्थ, संख्या तारखांमध्ये बदलू शकतात किंवा मजकूर राहू शकतात, कारण आमच्या बाबतीत. पीडीएफ नॉन-सेपरेटर वापरते:

Power Query द्वारे PDF वरून Excel मध्ये डेटा इंपोर्ट करा

तर चला कोपरे कापू नका, परंतु सर्वकाही थोडे अधिक क्लिष्ट करा, परंतु योग्य.

पायरी 2: दस्तऐवज वेब पृष्ठ म्हणून जतन करा

त्यानंतर प्राप्त झालेला डेटा Excel मध्ये लोड करण्यासाठी (Power Query द्वारे), Word मधील आमचा दस्तऐवज वेब पेज फॉरमॅटमध्ये सेव्ह करणे आवश्यक आहे - हे फॉरमॅट, या प्रकरणात, Word आणि Excel मधील एक प्रकारचा सामान्य भाजक आहे.

हे करण्यासाठी, मेनूवर जा फाइल - म्हणून सेव्ह करा (फाइल - म्हणून जतन करा) किंवा की दाबा F12 कीबोर्डवर आणि उघडणाऱ्या विंडोमध्ये, फाइल प्रकार निवडा एका फाईलमध्ये वेब पृष्ठ (वेबपृष्ठ - एकल फाइल):

Power Query द्वारे PDF वरून Excel मध्ये डेटा इंपोर्ट करा

सेव्ह केल्यानंतर, तुम्हाला mhtml एक्स्टेंशन असलेली फाइल मिळाली पाहिजे (तुम्हाला एक्सप्लोररमध्ये फाइल विस्तार दिसत असल्यास).

स्टेज 3. फाईल Power Query द्वारे Excel वर अपलोड करणे

तुम्ही तयार केलेली एमएचटीएमएल फाइल एक्सेलमध्ये थेट उघडू शकता, परंतु नंतर आम्हाला, प्रथम, पीडीएफची सर्व सामग्री एकाच वेळी, मजकूर आणि अनावश्यक सारण्यांचा एक समूह मिळेल आणि दुसरे म्हणजे, चुकीच्या कारणामुळे आम्ही पुन्हा डेटा गमावू. विभाजक म्हणून, आम्ही Power Query ऍड-इन द्वारे Excel मध्ये आयात करू. हे एक पूर्णपणे विनामूल्य अॅड-ऑन आहे ज्याद्वारे तुम्ही एक्सेलमध्ये जवळपास कोणत्याही स्रोत (फाईल्स, फोल्डर्स, डेटाबेस, ईआरपी सिस्टम) वरून डेटा अपलोड करू शकता आणि नंतर प्राप्त डेटाला इच्छित आकार देऊन प्रत्येक संभाव्य मार्गाने बदलू शकता.

तुमच्याकडे एक्सेल 2010-2013 असल्यास, तुम्ही अधिकृत मायक्रोसॉफ्ट वेबसाइटवरून पॉवर क्वेरी डाउनलोड करू शकता - इंस्टॉलेशननंतर तुम्हाला एक टॅब दिसेल. उर्जा प्रश्न. तुमच्याकडे एक्सेल 2016 किंवा नवीन असल्यास, तुम्हाला काहीही डाउनलोड करण्याची आवश्यकता नाही – सर्व कार्यक्षमता आधीच डीफॉल्टनुसार एक्सेलमध्ये तयार केलेली आहे आणि टॅबवर स्थित आहे. डेटा (तारीख) गटात डाउनलोड करा आणि रूपांतरित करा (मिळवा आणि परिवर्तन करा).

म्हणून आम्ही एकतर टॅबवर जाऊ डेटा, किंवा टॅबवर उर्जा प्रश्न आणि एक संघ निवडा डेटा मिळवण्यासाठी or क्वेरी तयार करा - फाइलमधून - XML ​​वरून. केवळ XML फायलीच दृश्यमान करण्यासाठी, विंडोच्या खालील उजव्या कोपर्यात ड्रॉप-डाउन सूचीमधील फिल्टर बदला. सर्व फायली (सर्व फाइल्स) आणि आमची MHTML फाइल निर्दिष्ट करा:

Power Query द्वारे PDF वरून Excel मध्ये डेटा इंपोर्ट करा

कृपया लक्षात ठेवा की आयात यशस्वीरित्या पूर्ण होणार नाही, कारण. पॉवर क्वेरी आमच्याकडून XML ची अपेक्षा करते, परंतु आमच्याकडे प्रत्यक्षात HTML स्वरूप आहे. त्यामुळे, दिसणाऱ्या पुढील विंडोमध्ये, तुम्हाला Power Query ला समजत नसलेल्या फाईलवर उजवे-क्लिक करावे लागेल आणि त्याचे स्वरूप निर्दिष्ट करावे लागेल:

Power Query द्वारे PDF वरून Excel मध्ये डेटा इंपोर्ट करा

त्यानंतर, फाइल योग्यरित्या ओळखली जाईल आणि आम्ही त्यात समाविष्ट असलेल्या सर्व सारण्यांची सूची पाहू:

Power Query द्वारे PDF वरून Excel मध्ये डेटा इंपोर्ट करा

डेटा कॉलममधील सेलच्या पांढऱ्या पार्श्वभूमीत (टेबल शब्दात नाही!) डाव्या माऊस बटणावर क्लिक करून तुम्ही टेबलमधील मजकूर पाहू शकता.

इच्छित सारणी परिभाषित केल्यावर, हिरव्या शब्दावर क्लिक करा टेबल - आणि आपण त्याच्या सामग्रीमध्ये "पडता":

Power Query द्वारे PDF वरून Excel मध्ये डेटा इंपोर्ट करा

त्यातील सामग्री "कंघी" करण्यासाठी काही सोप्या चरणांचे पालन करणे बाकी आहे, म्हणजे:

  1. अनावश्यक स्तंभ हटवा (स्तंभ शीर्षलेखावर उजवे-क्लिक करा - काढा)
  2. बिंदूंना स्वल्पविरामाने बदला (स्तंभ निवडा, उजवे-क्लिक करा - मूल्ये बदलत आहे)
  3. शीर्षलेखातील समान चिन्हे काढून टाका (स्तंभ निवडा, उजवे-क्लिक करा - मूल्ये बदलत आहे)
  4. वरची ओळ काढा (होम पेज - ओळी हटवा - शीर्ष ओळी हटवा)
  5. रिकाम्या ओळी काढा (मुख्यपृष्ठ - ओळी हटवा - रिक्त ओळी हटवा)
  6. टेबल हेडरवर पहिली पंक्ती वाढवा (मुख्यपृष्ठ - शीर्षक म्हणून प्रथम ओळ वापरा)
  7. फिल्टर वापरून अनावश्यक डेटा फिल्टर करा

जेव्हा टेबल त्याच्या सामान्य स्वरूपात आणले जाते, तेव्हा ते कमांडसह शीटवर अनलोड केले जाऊ शकते बंद करा आणि डाउनलोड करा (बंद करा आणि लोड करा) on मुख्य टॅब आणि आम्हाला असे सौंदर्य मिळेल ज्यासह आम्ही आधीच कार्य करू शकतो:

Power Query द्वारे PDF वरून Excel मध्ये डेटा इंपोर्ट करा

  • पॉवर क्वेरीसह स्तंभाचे टेबलमध्ये रूपांतर करणे
  • चिकट मजकूर स्तंभांमध्ये विभाजित करणे

प्रत्युत्तर द्या