Extract Data from File and Place into New Formatted File

Question

n3wbie 0 Newbie Poster

15 Years Ago

I have a insanely large file that has a lot of customer data in XML format. The start of a customer <CUSTOMER> and end </CUSTOMER> are how I'll determine the starting and ending points of the customer data I need to extract. The <DOC_NUM> is the number I'll be searching for. I'll input a regular text file with 12-byte document numbers into the file (Doc Number List.txt), search the massive XML file (example.xml) for those document numbers, find the data before and after the DOC_NUM tags, but within the CUSTOMER tags and extract it to a formated file. The formated file needs to have these tags, <?xml version="1.0" encoding="ISO-8859-1"?>
<DOCUMENTS> ....... </DOCUMENTS>

Any help is greatly appreciated.

Thanks!!

file-system vb.net xml

Doc_Number_List.txt (0.06 KB)

10000001780513
10000001780516
10000001780517
10000001780521

example.xml (32.19 KB)

The attachment preview is chopped off after the first 10 KB. Please download the entire file.

<?xml version="1.0" encoding="ISO-8859-1"?>
<DOCUMENTS>
<CUSTOMER>
<DOCUMENT>
<DOC_NUM>10000001780513</DOC_NUM>
<DOC_CA>xxxxxxxxxxx</DOC_CA>
<DOC_BP>xxxxxxxxxxxx</DOC_BP>
<DOC_CA_NAME>John Doe</DOC_CA_NAME>
<DOC_CA_FIRST_NAME/>
<DOC_CA_LAST_NAME/>
<DOC_COMPANY_NAME>John Doe Company</DOC_COMPANY_NAME>
<DOC_COVER_SC>xxxxxxxxxx</DOC_COVER_SC>
<DOC_COVER_ID/>
<DOC_EFL_SC>xxxxxxxxxxxx</DOC_EFL_SC>
<DOC_EFL_ID>xxxxxxxxxxxxxxxx</DOC_EFL_ID>
<DOC_PRODUCT_SUMMARY_SC/>
<DOC_PRODUCT_SUMMARY_ID/>
<DOC_TOS_SC>xxxxxxxxxx</DOC_TOS_SC>
<DOC_TOS_ID>xxxxxxxxxxxx</DOC_TOS_ID>
<DOC_YRAAC_SC>xxxxxxxxxxx</DOC_YRAAC_SC>
<DOC_YRAAC_ID>xxxxxxxxx</DOC_YRAAC_ID>
<DOC_MAIL_ADDR>1234 CAMPBELL RD</DOC_MAIL_ADDR>
<DOC_CITY>HOUSTON</DOC_CITY>
<DOC_STATE>TX</DOC_STATE>
<DOC_ZIP>77000</DOC_ZIP>
<DOC_COUNTRY>US</DOC_COUNTRY>
<DOC_LANG>E</DOC_LANG>
<DOC_SEGMENT>xxx</DOC_SEGMENT>
<DOC_CELL_NUMBER>xxxx</DOC_CELL_NUMBER>
<DOC_CSA_AGREEMENT>xxxx</DOC_CSA_AGREEMENT>
<DOC_CURRENT_PLAN_NAME/>
<DOC_BUNDLED_RATE/>
<DOC_UNBUNDLED_RATE/>
<DOC_CUST_CHARGE/>
<DOC_PROMO_CODE/>
<DOC_OFFER_CODE>xxxxxxxxxxx</DOC_OFFER_CODE>
<DOC_LEAD_PLAN_NAME>xxxxxxxxxxxxxx</DOC_LEAD_PLAN_NAME>
<DOC_DEDICATED_PHONE/>
<DOC_DEFAULT_PLAN>xxxxxxxxxxxxxx</DOC_DEFAULT_PLAN>
<DOC_SAVINGS_INDICATOR>Y</DOC_SAVINGS_INDICATOR>
<DOC_BPP_OFFER_RATE>xxxx</DOC_BPP_OFFER_RATE>
<DOC_LEAD_EFL>xxxxxxxxx</DOC_LEAD_EFL>
<DOC_LEAD_EFL_DOC_ID>xxxxxxxxxxxxxxx</DOC_LEAD_EFL_DOC_ID>
<DOC_LEAD_TOS_DOC_ID/>
<DOC_LEAD_CONTRACT_LENGTH>12</DOC_LEAD_CONTRACT_LENGTH>
<DOC_LEAD_FEE>xxx</DOC_LEAD_FEE>
<DOC_TDSP/>
<DOC_VALUE_SEGMENT/>
<DOC_SAVINGS_PERCENT/>
<DOC_SAVINGS_AMOUNT>xxxx</DOC_SAVINGS_AMOUNT>
<DOC_REBS_TAX_ID/>
<DOC_REBS_AGREEMENT>xxxxxxxxxxxx</DOC_REBS_AGREEMENT>
<DOC_REBS_AVG_WITH_DMD>xxxxxxx</DOC_REBS_AVG_WITH_DMD>
<DOC_REBS_AVG_WITHOUT_DMD>xxxxxxxx</DOC_REBS_AVG_WITHOUT_DMD>
<DOC_REBS_PSEUDO_OFFER_CODE>xxxxxxxxx</DOC_REBS_PSEUDO_OFFER_CODE>
<DOC_REBS_BRE_SMART_CODE>xxxxxxxxxx</DOC_REBS_BRE_SMART_CODE>
<DOC_CURRENT_CANCEL_FEE/>
<DOC_INCENTIVE_AMT/>
<DOC_EXP>xxxxxxxx</DOC_CONTRACT_EXP>
<DOC_BRE_TEXT/>
<ACCOUNTS>
<ACC>
<ACC_ESID>xxxxxxxxxxx</ACC_ESID>
<ACC_CA_NAME></ACC_CA_NAME>
<ACC_CA>xxxxxxx</ACC_CA>
<ACC_BP>xxxxxxxxxxx</ACC_BP>
<ACC__ADDR>xxxxxxxxxxxx</ACC_ADDR>
<ACC_CITY>xxx</ACC_CITY>
<ACC_STATE>xxxx</ACC_STATE>
<ACC_ZIP>xxxx</ACC_ZIP>
</ACC>
</ACCOUNTS>
</DOCUMENT>
</CUSTOMER>
<CUSTOMER>
<DOCUMENT>
<DOC_NUM>10000001780514</DOC_NUM>
<DOC_CA>xxxxxxxxxxx</DOC_CA>
<DOC_BP>xxxxxxxxxxxx</DOC_BP>
<DOC_CA_NAME>John Doe</DOC_CA_NAME>
<DOC_CA_FIRST_NAME/>
<DOC_CA_LAST_NAME/>
<DOC_COMPANY_NAME>John Doe Company</DOC_COMPANY_NAME>
<DOC_COVER_SC>xxxxxxxxxx</DOC_COVER_SC>
<DOC_COVER_ID/>
<DOC_EFL_SC>xxxxxxxxxxxx</DOC_EFL_SC>
<DOC_EFL_ID>xxxxxxxxxxxxxxxx</DOC_EFL_ID>
<DOC_PRODUCT_SUMMARY_SC/>
<DOC_PRODUCT_SUMMARY_ID/>
<DOC_TOS_SC>xxxxxxxxxx</DOC_TOS_SC>
<DOC_TOS_ID>xxxxxxxxxxxx</DOC_TOS_ID>
<DOC_YRAAC_SC>xxxxxxxxxxx</DOC_YRAAC_SC>
<DOC_YRAAC_ID>xxxxxxxxx</DOC_YRAAC_ID>
<DOC_MAIL_ADDR>1234 CAMPBELL RD</DOC_MAIL_ADDR>
<DOC_CITY>HOUSTON</DOC_CITY>
<DOC_STATE>TX</DOC_STATE>
<DOC_ZIP>77000</DOC_ZIP>
<DOC_COUNTRY>US</DOC_COUNTRY>
<DOC_LANG>E</DOC_LANG>
<DOC_SEGMENT>xxx</DOC_SEGMENT>
<DOC_CELL_NUMBER>xxxx</DOC_CELL_NUMBER>
<DOC_CSA_AGREEMENT>xxxx</DOC_CSA_AGREEMENT>
<DOC_CURRENT_PLAN_NAME/>
<DOC_BUNDLED_RATE/>
<DOC_UNBUNDLED_RATE/>
<DOC_CUST_CHARGE/>
<DOC_PROMO_CODE/>
<DOC_OFFER_CODE>xxxxxxxxxxx</DOC_OFFER_CODE>
<DOC_LEAD_PLAN_NAME>xxxxxxxxxxxxxx</DOC_LEAD_PLAN_NAME>
<DOC_DEDICATED_PHONE/>
<DOC_DEFAULT_PLAN>xxxxxxxxxxxxxx</DOC_DEFAULT_PLAN>
<DOC_SAVINGS_INDICATOR>Y</DOC_SAVINGS_INDICATOR>
<DOC_BPP_OFFER_RATE>xxxx</DOC_BPP_OFFER_RATE>
<DOC_LEAD_EFL>xxxxxxxxx</DOC_LEAD_EFL>
<DOC_LEAD_EFL_DOC_ID>xxxxxxxxxxxxxxx</DOC_LEAD_EFL_DOC_ID>
<DOC_LEAD_TOS_DOC_ID/>
<DOC_LEAD_CONTRACT_LENGTH>12</DOC_LEAD_CONTRACT_LENGTH>
<DOC_LEAD_FEE>xxx</DOC_LEAD_FEE>
<DOC_TDSP/>
<DOC_VALUE_SEGMENT/>
<DOC_SAVINGS_PERCENT/>
<DOC_SAVINGS_AMOUNT>xxxx</DOC_SAVINGS_AMOUNT>
<DOC_REBS_TAX_ID/>
<DOC_REBS_AGREEMENT>xxxxxxxxxxxx</DOC_REBS_AGREEMENT>
<DOC_REBS_AVG_WITH_DMD>xxxxxxx</DOC_REBS_AVG_WITH_DMD>
<DOC_REBS_AVG_WITHOUT_DMD>xxxxxxxx</DOC_REBS_AVG_WITHOUT_DMD>
<DOC_REBS_PSEUDO_OFFER_CODE>xxxxxxxxx</DOC_REBS_PSEUDO_OFFER_CODE>
<DOC_REBS_BRE_SMART_CODE>xxxxxxxxxx</DOC_REBS_BRE_SMART_CODE>
<DOC_CURRENT_CANCEL_FEE/>
<DOC_INCENTIVE_AMT/>
<DOC_EXP>xxxxxxxx</DOC_CONTRACT_EXP>
<DOC_BRE_TEXT/>
<ACCOUNTS>
<ACC>
<ACC_ESID>xxxxxxxxxxx</ACC_ESID>
<ACC_CA_NAME></ACC_CA_NAME>
<ACC_CA>xxxxxxx</ACC_CA>
<ACC_BP>xxxxxxxxxxx</ACC_BP>
<ACC__ADDR>xxxxxxxxxxxx</ACC_ADDR>
<ACC_CITY>xxx</ACC_CITY>
<ACC_STATE>xxxx</ACC_STATE>
<ACC_ZIP>xxxx</ACC_ZIP>
</ACC>
</ACCOUNTS>
</DOCUMENT>
</CUSTOMER>
<CUSTOMER>
<DOCUMENT>
<DOC_NUM>10000001780515</DOC_NUM>
<DOC_CA>xxxxxxxxxxx</DOC_CA>
<DOC_BP>xxxxxxxxxxxx</DOC_BP>
<DOC_CA_NAME>John Doe</DOC_CA_NAME>
<DOC_CA_FIRST_NAME/>
<DOC_CA_LAST_NAME/>
<DOC_COMPANY_NAME>John Doe Company</DOC_COMPANY_NAME>
<DOC_COVER_SC>xxxxxxxxxx</DOC_COVER_SC>
<DOC_COVER_ID/>
<DOC_EFL_SC>xxxxxxxxxxxx</DOC_EFL_SC>
<DOC_EFL_ID>xxxxxxxxxxxxxxxx</DOC_EFL_ID>
<DOC_PRODUCT_SUMMARY_SC/>
<DOC_PRODUCT_SUMMARY_ID/>
<DOC_TOS_SC>xxxxxxxxxx</DOC_TOS_SC>
<DOC_TOS_ID>xxxxxxxxxxxx</DOC_TOS_ID>
<DOC_YRAAC_SC>xxxxxxxxxxx</DOC_YRAAC_SC>
<DOC_YRAAC_ID>xxxxxxxxx</DOC_YRAAC_ID>
<DOC_MAIL_ADDR>1234 CAMPBELL RD</DOC_MAIL_ADDR>
<DOC_CITY>HOUSTON</DOC_CITY>
<DOC_STATE>TX</DOC_STATE>
<DOC_ZIP>77000</DOC_ZIP>
<DOC_COUNTRY>US</DOC_COUNTRY>
<DOC_LANG>E</DOC_LANG>
<DOC_SEGMENT>xxx</DOC_SEGMENT>
<DOC_CELL_NUMBER>xxxx</DOC_CELL_NUMBER>
<DOC_CSA_AGREEMENT>xxxx</DOC_CSA_AGREEMENT>
<DOC_CURRENT_PLAN_NAME/>
<DOC_BUNDLED_RATE/>
<DOC_UNBUNDLED_RATE/>
<DOC_CUST_CHARGE/>
<DOC_PROMO_CODE/>
<DOC_OFFER_CODE>xxxxxxxxxxx</DOC_OFFER_CODE>
<DOC_LEAD_PLAN_NAME>xxxxxxxxxxxxxx</DOC_LEAD_PLAN_NAME>
<DOC_DEDICATED_PHONE/>
<DOC_DEFAULT_PLAN>xxxxxxxxxxxxxx</DOC_DEFAULT_PLAN>
<DOC_SAVINGS_INDICATOR>Y</DOC_SAVINGS_INDICATOR>
<DOC_BPP_OFFER_RATE>xxxx</DOC_BPP_OFFER_RATE>
<DOC_LEAD_EFL>xxxxxxxxx</DOC_LEAD_EFL>
<DOC_LEAD_EFL_DOC_ID>xxxxxxxxxxxxxxx</DOC_LEAD_EFL_DOC_ID>
<DOC_LEAD_TOS_DOC_ID/>
<DOC_LEAD_CONTRACT_LENGTH>12</DOC_LEAD_CONTRACT_LENGTH>
<DOC_LEAD_FEE>xxx</DOC_LEAD_FEE>
<DOC_TDSP/>
<DOC_VALUE_SEGMENT/>
<DOC_SAVINGS_PERCENT/>
<DOC_SAVINGS_AMOUNT>xxxx</DOC_SAVINGS_AMOUNT>
<DOC_REBS_TAX_ID/>
<DOC_REBS_AGREEMENT>xxxxxxxxxxxx</DOC_REBS_AGREEMENT>
<DOC_REBS_AVG_WITH_DMD>xxxxxxx</DOC_REBS_AVG_WITH_DMD>
<DOC_REBS_AVG_WITHOUT_DMD>xxxxxxxx</DOC_REBS_AVG_WITHOUT_DMD>
<DOC_REBS_PSEUDO_OFFER_CODE>xxxxxxxxx</DOC_REBS_PSEUDO_OFFER_CODE>
<DOC_REBS_BRE_SMART_CODE>xxxxxxxxxx</DOC_REBS_BRE_SMART_CODE>
<DOC_CURRENT_CANCEL_FEE/>
<DOC_INCENTIVE_AMT/>
<DOC_EXP>xxxxxxxx</DOC_CONTRACT_EXP>
<DOC_BRE_TEXT/>
<ACCOUNTS>
<ACC>
<ACC_ESID>xxxxxxxxxxx</ACC_ESID>
<ACC_CA_NAME></ACC_CA_NAME>
<ACC_CA>xxxxxxx</ACC_CA>
<ACC_BP>xxxxxxxxxxx</ACC_BP>
<ACC__ADDR>xxxxxxxxxxxx</ACC_ADDR>
<ACC_CITY>xxx</ACC_CITY>
<ACC_STATE>xxxx</ACC_STATE>
<ACC_ZIP>xxxx</ACC_ZIP>
</ACC>
</ACCOUNTS>
</DOCUMENT>
</CUSTOMER>
<CUSTOMER>
<DOCUMENT>
<DOC_NUM>10000001780516</DOC_NUM>
<DOC_CA>xxxxxxxxxxx</DOC_CA>
<DOC_BP>xxxxxxxxxxxx</DOC_BP>
<DOC_CA_NAME>John Doe</DOC_CA_NAME>
<DOC_CA_FIRST_NAME/>
<DOC_CA_LAST_NAME/>
<DOC_COMPANY_NAME>John Doe Company</DOC_COMPANY_NAME>
<DOC_COVER_SC>xxxxxxxxxx</DOC_COVER_SC>
<DOC_COVER_ID/>
<DOC_EFL_SC>xxxxxxxxxxxx</DOC_EFL_SC>
<DOC_EFL_ID>xxxxxxxxxxxxxxxx</DOC_EFL_ID>
<DOC_PRODUCT_SUMMARY_SC/>
<DOC_PRODUCT_SUMMARY_ID/>
<DOC_TOS_SC>xxxxxxxxxx</DOC_TOS_SC>
<DOC_TOS_ID>xxxxxxxxxxxx</DOC_TOS_ID>
<DOC_YRAAC_SC>xxxxxxxxxxx</DOC_YRAAC_SC>
<DOC_YRAAC_ID>xxxxxxxxx</DOC_YRAAC_ID>
<DOC_MAIL_ADDR>1234 CAMPBELL RD</DOC_MAIL_ADDR>
<DOC_CITY>HOUSTON</DOC_CITY>
<DOC_STATE>TX</DOC_STATE>
<DOC_ZIP>77000</DOC_ZIP>
<DOC_COUNTRY>US</DOC_COUNTRY>
<DOC_LANG>E</DOC_LANG>
<DOC_SEGMENT>xxx</DOC_SEGMENT>
<DOC_CELL_NUMBER>xxxx</DOC_CELL_NUMBER>
<DOC_CSA_AGREEMENT>xxxx</DOC_CSA_AGREEMENT>
<DOC_CURRENT_PLAN_NAME/>
<DOC_BUNDLED_RATE/>
<DOC_UNBUNDLED_RATE/>
<DOC_CUST_CHARGE/>
<DOC_PROMO_CODE/>
<DOC_OFFER_CODE>xxxxxxxxxxx</DOC_OFFER_CODE>
<DOC_LEAD_PLAN_NAME>xxxxxxxxxxxxxx</DOC_LEAD_PLAN_NAME>
<DOC_DEDICATED_PHONE/>
<DOC_DEFAULT_PLAN>xxxxxxxxxxxxxx</DOC_DEFAULT_PLAN>
<DOC_SAVINGS_INDICATOR>Y</DOC_SAVINGS_INDICATOR>
<DOC_BPP_OFFER_RATE>xxxx</DOC_BPP_OFFER_RATE>
<DOC_LEAD_EFL>xxxxxxxxx</DOC_LEAD_EFL>
<DOC_LEAD_EFL_DOC_ID>xxxxxxxxxxxxxxx</DOC_LEAD_EFL_DOC_ID>
<DOC_LEAD_TOS_DOC_ID/>
<DOC_LEAD_CONTRACT_LENGTH>12</DOC_LEAD_CONTRACT_LENGTH>
<DOC_LEAD_FEE>xxx</DOC_LEAD_FEE>
<DOC_TDSP/>
<DOC_VALUE_SEGMENT/>
<DOC_SAVINGS_PERCENT/>
<DOC_SAVINGS_AMOUNT>xxxx</DOC_SAVINGS_AMOUNT>
<DOC_REBS_TAX_ID/>
<DOC_REBS_AGREEMENT>xxxxxxxxxxxx</DOC_REBS_AGREEMENT>
<DOC_REBS_AVG_WITH_DMD>xxxxxxx</DOC_REBS_AVG_WITH_DMD>
<DOC_REBS_AVG_WITHOUT_DMD>xxxxxxxx</DOC_REBS_AVG_WITHOUT_DMD>
<DOC_REBS_PSEUDO_OFFER_CODE>xxxxxxxxx</DOC_REBS_PSEUDO_OFFER_CODE>
<DOC_REBS_BRE_SMART_CODE>xxxxxxxxxx</DOC_REBS_BRE_SMART_CODE>
<DOC_CURRENT_CANCEL_FEE/>
<DOC_INCENTIVE_AMT/>
<DOC_EXP>xxxxxxxx</DOC_CONTRACT_EXP>
<DOC_BRE_TEXT/>
<ACCOUNTS>
<ACC>
<ACC_ESID>xxxxxxxxxxx</ACC_ESID>
<ACC_CA_NAME></ACC_CA_NAME>
<ACC_CA>xxxxxxx</ACC_CA>
<ACC_BP>xxxxxxxxxxx</ACC_BP>
<ACC__ADDR>xxxxxxxxxxxx</ACC_ADDR>
<ACC_CITY>xxx</ACC_CITY>
<ACC_STATE>xxxx</ACC_STATE>
<ACC_ZIP>xxxx</ACC_ZIP>
</ACC>
</ACCOUNTS>
</DOCUMENT>
</CUSTOMER>
<CUSTOMER>
<DOCUMENT>
<DOC_NUM>10000001780517</DOC_NUM>
<DOC_CA>xxxxxxxxxxx</DOC_CA>
<DOC_BP>xxxxxxxxxxxx</DOC_BP>
<DOC_CA_NAME>John Doe</DOC_CA_NAME>
<DOC_CA_FIRST_NAME/>
<DOC_CA_LAST_NAME/>
<DOC_COMPANY_NAME>John Doe Company</DOC_COMPANY_NAME>
<DOC_COVER_SC>xxxxxxxxxx</DOC_COVER_SC>
<DOC_COVER_ID/>
<DOC_EFL_SC>xxxxxxxxxxxx</DOC_EFL_SC>
<DOC_EFL_ID>xxxxxxxxxxxxxxxx</DOC_EFL_ID>
<DOC_PRODUCT_SUMMARY_SC/>
<DOC_PRODUCT_SUMMARY_ID/>
<DOC_TOS_SC>xxxxxxxxxx</DOC_TOS_SC>
<DOC_TOS_ID>xxxxxxxxxxxx</DOC_TOS_ID>
<DOC_YRAAC_SC>xxxxxxxxxxx</DOC_YRAAC_SC>
<DOC_YRAAC_ID>xxxxxxxxx</DOC_YRAAC_ID>
<DOC_MAIL_ADDR>1234 CAMPBELL RD</DOC_MAIL_ADDR>
<DOC_CITY>HOUSTON</DOC_CITY>
<DOC_STATE>TX</DOC_STATE>
<DOC_ZIP>77000</DOC_ZIP>
<DOC_COUNTRY>US</DOC_COUNTRY>
<DOC_LANG>E</DOC

2 Contributors
1 Reply
65 Views
1 Week Discussion Span
Latest Post 15 Years Ago Latest Post by Oxiegen

Reply to this topic

Be a part of the DaniWeb community

We're a friendly, industry-focused community of developers, IT pros, digital marketers, and technology enthusiasts meeting, networking, learning, and sharing knowledge.

Oxiegen 88 Basically an Occasional Poster Featured Poster · Answer 1 · 2010-06-16T15:25:41+00:00

Import the source XML into a DataTable.
Then you can use the Select() method to filter out what you're looking for.
The result can then be exported into a new destination XML.